帮网友爬取比特大雄电影网电影下载地址

18382747915 · 发表于 2018-9-10 21:22

本帖最后由 wushaominkk 于 2018-9-12 14:44 编辑

帮网友爬电影下载地址
小白发帖，望多多指教：
如果大家有需要爬的网站可以留言，有空可以帮忙爬
今天发帖才发现，发的代码不知道为什么贴上去，显示不完整，所以大家以图片中的代码为准，还有，那个发帖的时候代码显示格式不会弄，哪位大佬教一下
源码：

[Python] 纯文本查看 复制代码

from urllib import request
import urllib,requests,redef pa():
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host':'www.btdx8.com'}
    url='https://www.btdx8.com/'
da=urllib.request.Request(url,headers=header)
    de=urllib.request.urlopen(da)
    html=de.read().decode("utf-8")
    [i]#print(html)
[/i][i]    [/i]lik=re.findall('<li ><a ',html,re.S)
    for l in lik:
        link=('https://www.btdx8.com/torrent/%s'%l)
        da=urllib.request.Request(link,headers=header)
        de=urllib.request.urlopen(da)
        html = de.read().decode("utf-8")
        url=re.findall('<div id="zdownload"><a href="(.*?)" rel="nofollow" title="点击进入 (.*?).torrent 下载页面" class="download-link" target="_blank"><span>(.*?)P种子</span>(.*?).torrent </a></div>',html,re.S)
        for i,l in enumerate(url):
            title=l[1]
            titlelink=l[0]
            print(('电影名称：%s--下载地址：%s'%(title,titlelink)))
if __name__ == '__main__':
    pa()

keLink · 发表于 2018-9-12 14:58

楼主的代码我的环境下抓不到信息，重写了一下，加了一些注释。

[Asm] 纯文本查看 复制代码

from urllib import request
import urllib,re,chardet

def request_url(url, host):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host': host}
    req = urllib.request.Request(url, headers=header)
    de = urllib.request.urlopen(req)
    # 加载网页
    html = de.read()
    # 获取网页编码
    charset = chardet.detect(html)
    # print(charset['encoding'])
    # 根据编码解析网页
    html = html.decode(charset['encoding'])
    return html

def parse_html():

    url = 'https://www.btdx8.com/'
    host = 'www.btdx8.com'
    list_html = request_url(url, host)
    # 根据正则取出电影列表
    list_rules = r"<li ><a href=(.*?) title=(.*?) rel=(.*?)><img src=(.*?) alt=(.*?)\s(.*?)\s/>(.*?)</li>"
    list_data = re.findall(list_rules, list_html, re.S)
    # print(list_data)
    for list in list_data:
        # print(list)
        #'"https://www.btdx8.com/torrent/wljqc_2018.html"', '"[未来机器城][HD-720P/1080P-MP4][英语中字][1.92GB/4.38GB][2018] BT种子"'
        url = eval(list[0])
        # print(url, host)
        data = request_url(url, host)
        # print(data)
        # 根据正则取出电影下载地址
        down_rules = r"<div id=\"zdownload\"><a href=\"(.*?)\" rel=\"nofollow\"(.*?)<span>(.*?)种子</span>(.*?).torrent"
        down_url = re.findall(down_rules, data, re.S)
        # print(down_url)
        for i in down_url:
            title = i[3]
            type = i[2]
            address = i[0]
            print((' --电影名称：%s\n --类别：%s\n --下载地址：%s\n'%(title, type, address)))

if __name__ == '__main__':
    parse_html()

zqqzqqzqq · 发表于 2018-9-10 21:48

这是什么意思啊？
Traceback (most recent call last):
File "D:/python/wenjian/爬去电影.py", line 21, in <module>
pa()
File "D:/python/wenjian/爬去电影.py", line 5, in pa
da=urllib.request.Request(url,headers=header)
AttributeError: 'module' object has no attribute 'request'

zqqzqqzqq · 发表于 2018-9-10 21:39

热心回复

music984 · 发表于 2018-9-10 21:40

给我上点注释也许我就看得更懂了

钢铁侠_123 · 发表于 2018-9-10 21:54

zqqzqqzqq 发表于 2018-9-10 21:48
这是什么意思啊？
Traceback (most recent call last):
File "D:/python/wenjian/爬去电影.py", line 2 ...

模块”对象没有属性“请求。。。。。。。。。。。。。

18382747915 · 发表于 2018-9-10 21:55

music984 发表于 2018-9-10 21:40
给我上点注释也许我就看得更懂了

以后会注意的

RHYTHM985211 · 发表于 2018-9-10 21:58

爬出来的东西为啥不发呢

zqqzqqzqq · 发表于 2018-9-10 22:05

钢铁侠_123 发表于 2018-9-10 21:54
模块”对象没有属性“请求。。。。。。。。。。。。。

谢谢。。。。。

吾爱无爱 · 发表于 2018-9-10 22:07

这个是干什么用的

18382747915 · 发表于 2018-9-10 22:08

吾爱无爱发表于 2018-9-10 22:07
这个是干什么用的

爬取电影的下载地址

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 帮网友爬取比特大雄电影网电影下载地址

免费评分

本帖被以下淘专辑推荐:

免费评分

点评

个人中心