吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 23002|回复: 38
收起左侧

[Python 转载] 帮网友爬取比特大雄电影网电影下载地址

[复制链接]
18382747915 发表于 2018-9-10 21:22
本帖最后由 wushaominkk 于 2018-9-12 14:44 编辑

帮网友爬电影下载地址
小白发帖,望多多指教:
如果大家有需要爬的网站可以留言,有空可以帮忙爬
今天发帖才发现,发的代码不知道为什么贴上去,显示不完整,所以大家以图片中的代码为准,还有,那个发帖的时候代码显示格式不会弄,哪位大佬教一下
源码:
[Python] 纯文本查看 复制代码
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
from urllib import request
import urllib,requests,redef pa():
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host':'www.btdx8.com'}
    url='https://www.btdx8.com/'
da=urllib.request.Request(url,headers=header)
    de=urllib.request.urlopen(da)
    html=de.read().decode("utf-8")
    [i]#print(html)
[/i][i]    [/i]lik=re.findall('<li ><a ',html,re.S)
    for l in lik:
        link=('https://www.btdx8.com/torrent/%s'%l)
        da=urllib.request.Request(link,headers=header)
        de=urllib.request.urlopen(da)
        html = de.read().decode("utf-8")
        url=re.findall('<div id="zdownload"><a href="(.*?)" rel="nofollow" title="点击进入 (.*?).torrent 下载页面" class="download-link" target="_blank"><span>(.*?)P种子</span>(.*?).torrent </a></div>',html,re.S)
        for i,l in enumerate(url):
            title=l[1]
            titlelink=l[0]
            print(('电影名称:%s--下载地址:%s'%(title,titlelink)))
if __name__ == '__main__':
    pa()
1.png

免费评分

参与人数 4吾爱币 +4 热心值 +4 收起 理由
lilihuakai + 1 + 1 我很赞同!
凌乱的思绪 + 1 + 1 谢谢楼主的帮助
zzc371521 + 1 + 1 谢谢@Thanks!
music984 + 1 + 1 我很赞同!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

keLink 发表于 2018-9-12 14:58
楼主的代码我的环境下抓不到信息, 重写了一下,加了一些注释。
[Asm] 纯文本查看 复制代码
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
from urllib import request
import urllib,re,chardet
 
def request_url(url, host):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host': host}
    req = urllib.request.Request(url, headers=header)
    de = urllib.request.urlopen(req)
    # 加载网页
    html = de.read()
    # 获取网页编码
    charset = chardet.detect(html)
    # print(charset['encoding'])
    # 根据编码解析网页
    html = html.decode(charset['encoding'])
    return html
 
def parse_html():
 
    url = 'https://www.btdx8.com/'
    host = 'www.btdx8.com'
    list_html = request_url(url, host)
    # 根据正则取出电影列表
    list_rules = r"<li ><a href=(.*?) title=(.*?) rel=(.*?)><img src=(.*?) alt=(.*?)\s(.*?)\s/>(.*?)</li>"
    list_data = re.findall(list_rules, list_html, re.S)
    # print(list_data)
    for list in list_data:
        # print(list)
        #'"https://www.btdx8.com/torrent/wljqc_2018.html"', '"[未来机器城][HD-720P/1080P-MP4][英语中字][1.92GB/4.38GB][2018] BT种子"'
        url = eval(list[0])
        # print(url, host)
        data = request_url(url, host)
        # print(data)
        # 根据正则取出电影下载地址
        down_rules = r"<div id=\"zdownload\"><a href=\"(.*?)\" rel=\"nofollow\"(.*?)<span>(.*?)种子</span>(.*?).torrent"
        down_url = re.findall(down_rules, data, re.S)
        # print(down_url)
        for i in down_url:
            title = i[3]
            type = i[2]
            address = i[0]
            print((' --电影名称:%s\n --类别:%s\n --下载地址:%s\n'%(title, type, address)))
 
if __name__ == '__main__':
    parse_html()

免费评分

参与人数 1热心值 +1 收起 理由
wushaominkk + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

zqqzqqzqq 发表于 2018-9-10 21:48
这是什么意思啊?
Traceback (most recent call last):
  File "D:/python/wenjian/爬去电影.py", line 21, in <module>
    pa()
  File "D:/python/wenjian/爬去电影.py", line 5, in pa
    da=urllib.request.Request(url,headers=header)
AttributeError: 'module' object has no attribute 'request'

点评

需要导入request模块  详情 回复 发表于 2018-9-12 15:25
zqqzqqzqq 发表于 2018-9-10 21:39
music984 发表于 2018-9-10 21:40
给我上点注释也许我就看得更懂了
钢铁侠_123 发表于 2018-9-10 21:54
zqqzqqzqq 发表于 2018-9-10 21:48
这是什么意思啊?
Traceback (most recent call last):
  File "D:/python/wenjian/爬去电影.py", line 2 ...

模块”对象没有属性“请求。。。。。。。。。。。。。
 楼主| 18382747915 发表于 2018-9-10 21:55
music984 发表于 2018-9-10 21:40
给我上点注释也许我就看得更懂了

以后会注意的
RHYTHM985211 发表于 2018-9-10 21:58
爬出来的东西为啥不发呢
zqqzqqzqq 发表于 2018-9-10 22:05
钢铁侠_123 发表于 2018-9-10 21:54
模块”对象没有属性“请求。。。。。。。。。。。。。

谢谢。。。。。
吾爱无爱 发表于 2018-9-10 22:07
这个是干什么用的
 楼主| 18382747915 发表于 2018-9-10 22:08

爬取电影的下载地址
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-5-19 10:08

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表