帮网友爬取比特大雄电影网电影下载地址

18382747915 · 发表于 2018-9-10 21:22

本帖最后由 wushaominkk 于 2018-9-12 14:44 编辑

帮网友爬电影下载地址
小白发帖，望多多指教：
如果大家有需要爬的网站可以留言，有空可以帮忙爬
今天发帖才发现，发的代码不知道为什么贴上去，显示不完整，所以大家以图片中的代码为准，还有，那个发帖的时候代码显示格式不会弄，哪位大佬教一下
源码：

[Python] 纯文本查看 复制代码

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

from urllib import request
import urllib,requests,redef pa():
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host':'www.btdx8.com'}
    url='https://www.btdx8.com/'
da=urllib.request.Request(url,headers=header)
    de=urllib.request.urlopen(da)
    html=de.read().decode("utf-8")
    [i]#print(html)
[/i][i]    [/i]lik=re.findall('<li ><a ',html,re.S)
    for l in lik:
        link=('https://www.btdx8.com/torrent/%s'%l)
        da=urllib.request.Request(link,headers=header)
        de=urllib.request.urlopen(da)
        html = de.read().decode("utf-8")
        url=re.findall('<div id="zdownload"><a href="(.*?)" rel="nofollow" title="点击进入 (.*?).torrent 下载页面" class="download-link" target="_blank"><span>(.*?)P种子</span>(.*?).torrent </a></div>',html,re.S)
        for i,l in enumerate(url):
            title=l[1]
            titlelink=l[0]
            print(('电影名称：%s--下载地址：%s'%(title,titlelink)))
if __name__ == '__main__':
    pa()

keLink · 发表于 2018-9-12 14:58

楼主的代码我的环境下抓不到信息，重写了一下，加了一些注释。

[Asm] 纯文本查看 复制代码

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

from urllib import request
import urllib,re,chardet
 
def request_url(url, host):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host': host}
    req = urllib.request.Request(url, headers=header)
    de = urllib.request.urlopen(req)
    # 加载网页
    html = de.read()
    # 获取网页编码
    charset = chardet.detect(html)
    # print(charset['encoding'])
    # 根据编码解析网页
    html = html.decode(charset['encoding'])
    return html
 
def parse_html():
 
    url = 'https://www.btdx8.com/'
    host = 'www.btdx8.com'
    list_html = request_url(url, host)
    # 根据正则取出电影列表
    list_rules = r"<li ><a href=(.*?) title=(.*?) rel=(.*?)><img src=(.*?) alt=(.*?)\s(.*?)\s/>(.*?)</li>"
    list_data = re.findall(list_rules, list_html, re.S)
    # print(list_data)
    for list in list_data:
        # print(list)
        #'"https://www.btdx8.com/torrent/wljqc_2018.html"', '"[未来机器城][HD-720P/1080P-MP4][英语中字][1.92GB/4.38GB][2018] BT种子"'
        url = eval(list[0])
        # print(url, host)
        data = request_url(url, host)
        # print(data)
        # 根据正则取出电影下载地址
        down_rules = r"<div id=\"zdownload\"><a href=\"(.*?)\" rel=\"nofollow\"(.*?)<span>(.*?)种子</span>(.*?).torrent"
        down_url = re.findall(down_rules, data, re.S)
        # print(down_url)
        for i in down_url:
            title = i[3]
            type = i[2]
            address = i[0]
            print((' --电影名称：%s\n --类别：%s\n --下载地址：%s\n'%(title, type, address)))
 
if __name__ == '__main__':
    parse_html()

zqqzqqzqq · 发表于 2018-9-10 21:48

这是什么意思啊？
Traceback (most recent call last):
File "D:/python/wenjian/爬去电影.py", line 21, in <module>
pa()
File "D:/python/wenjian/爬去电影.py", line 5, in pa
da=urllib.request.Request(url,headers=header)
AttributeError: 'module' object has no attribute 'request'

zqqzqqzqq · 发表于 2018-9-10 21:39

热心回复

music984 · 发表于 2018-9-10 21:40

给我上点注释也许我就看得更懂了

钢铁侠_123 · 发表于 2018-9-10 21:54

zqqzqqzqq 发表于 2018-9-10 21:48
这是什么意思啊？
Traceback (most recent call last):
File "D:/python/wenjian/爬去电影.py", line 2 ...

模块”对象没有属性“请求。。。。。。。。。。。。。

18382747915 · 发表于 2018-9-10 21:55

music984 发表于 2018-9-10 21:40
给我上点注释也许我就看得更懂了

以后会注意的

RHYTHM985211 · 发表于 2018-9-10 21:58

爬出来的东西为啥不发呢

zqqzqqzqq · 发表于 2018-9-10 22:05

钢铁侠_123 发表于 2018-9-10 21:54
模块”对象没有属性“请求。。。。。。。。。。。。。

谢谢。。。。。

吾爱无爱 · 发表于 2018-9-10 22:07

这个是干什么用的

18382747915 · 发表于 2018-9-10 22:08

吾爱无爱发表于 2018-9-10 22:07
这个是干什么用的

爬取电影的下载地址

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 帮网友爬取比特大雄电影网电影下载地址

免费评分

本帖被以下淘专辑推荐:

免费评分

点评