吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 21361|回复: 38
上一主题 下一主题
收起左侧

[Python 转载] 帮网友爬取比特大雄电影网电影下载地址

[复制链接]
跳转到指定楼层
楼主
18382747915 发表于 2018-9-10 21:22 回帖奖励
本帖最后由 wushaominkk 于 2018-9-12 14:44 编辑

帮网友爬电影下载地址
小白发帖,望多多指教:
如果大家有需要爬的网站可以留言,有空可以帮忙爬
今天发帖才发现,发的代码不知道为什么贴上去,显示不完整,所以大家以图片中的代码为准,还有,那个发帖的时候代码显示格式不会弄,哪位大佬教一下
源码:
[Python] 纯文本查看 复制代码
from urllib import request
import urllib,requests,redef pa():
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host':'www.btdx8.com'}
    url='https://www.btdx8.com/'
da=urllib.request.Request(url,headers=header)
    de=urllib.request.urlopen(da)
    html=de.read().decode("utf-8")
    [i]#print(html)
[/i][i]    [/i]lik=re.findall('<li ><a ',html,re.S)
    for l in lik:
        link=('https://www.btdx8.com/torrent/%s'%l)
        da=urllib.request.Request(link,headers=header)
        de=urllib.request.urlopen(da)
        html = de.read().decode("utf-8")
        url=re.findall('<div id="zdownload"><a href="(.*?)" rel="nofollow" title="点击进入 (.*?).torrent 下载页面" class="download-link" target="_blank"><span>(.*?)P种子</span>(.*?).torrent </a></div>',html,re.S)
        for i,l in enumerate(url):
            title=l[1]
            titlelink=l[0]
            print(('电影名称:%s--下载地址:%s'%(title,titlelink)))
if __name__ == '__main__':
    pa()

1.png (214.83 KB, 下载次数: 10)

1.png

免费评分

参与人数 4吾爱币 +4 热心值 +4 收起 理由
lilihuakai + 1 + 1 我很赞同!
凌乱的思绪 + 1 + 1 谢谢楼主的帮助
zzc371521 + 1 + 1 谢谢@Thanks!
music984 + 1 + 1 我很赞同!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

推荐
keLink 发表于 2018-9-12 14:58
楼主的代码我的环境下抓不到信息, 重写了一下,加了一些注释。
[Asm] 纯文本查看 复制代码
from urllib import request
import urllib,re,chardet

def request_url(url, host):
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:62.0) Gecko/20100101 Firefox/62.0','Host': host}
    req = urllib.request.Request(url, headers=header)
    de = urllib.request.urlopen(req)
    # 加载网页
    html = de.read()
    # 获取网页编码
    charset = chardet.detect(html)
    # print(charset['encoding'])
    # 根据编码解析网页
    html = html.decode(charset['encoding'])
    return html

def parse_html():

    url = 'https://www.btdx8.com/'
    host = 'www.btdx8.com'
    list_html = request_url(url, host)
    # 根据正则取出电影列表
    list_rules = r"<li ><a href=(.*?) title=(.*?) rel=(.*?)><img src=(.*?) alt=(.*?)\s(.*?)\s/>(.*?)</li>"
    list_data = re.findall(list_rules, list_html, re.S)
    # print(list_data)
    for list in list_data:
        # print(list)
        #'"https://www.btdx8.com/torrent/wljqc_2018.html"', '"[未来机器城][HD-720P/1080P-MP4][英语中字][1.92GB/4.38GB][2018] BT种子"'
        url = eval(list[0])
        # print(url, host)
        data = request_url(url, host)
        # print(data)
        # 根据正则取出电影下载地址
        down_rules = r"<div id=\"zdownload\"><a href=\"(.*?)\" rel=\"nofollow\"(.*?)<span>(.*?)种子</span>(.*?).torrent"
        down_url = re.findall(down_rules, data, re.S)
        # print(down_url)
        for i in down_url:
            title = i[3]
            type = i[2]
            address = i[0]
            print((' --电影名称:%s\n --类别:%s\n --下载地址:%s\n'%(title, type, address)))

if __name__ == '__main__':
    parse_html()

免费评分

参与人数 1热心值 +1 收起 理由
wushaominkk + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

推荐
zqqzqqzqq 发表于 2018-9-10 21:48
这是什么意思啊?
Traceback (most recent call last):
  File "D:/python/wenjian/爬去电影.py", line 21, in <module>
    pa()
  File "D:/python/wenjian/爬去电影.py", line 5, in pa
    da=urllib.request.Request(url,headers=header)
AttributeError: 'module' object has no attribute 'request'

点评

需要导入request模块  详情 回复 发表于 2018-9-12 15:25
沙发
zqqzqqzqq 发表于 2018-9-10 21:39
3#
music984 发表于 2018-9-10 21:40
给我上点注释也许我就看得更懂了
5#
钢铁侠_123 发表于 2018-9-10 21:54
zqqzqqzqq 发表于 2018-9-10 21:48
这是什么意思啊?
Traceback (most recent call last):
  File "D:/python/wenjian/爬去电影.py", line 2 ...

模块”对象没有属性“请求。。。。。。。。。。。。。
6#
 楼主| 18382747915 发表于 2018-9-10 21:55 |楼主
music984 发表于 2018-9-10 21:40
给我上点注释也许我就看得更懂了

以后会注意的
7#
RHYTHM985211 发表于 2018-9-10 21:58
爬出来的东西为啥不发呢
8#
zqqzqqzqq 发表于 2018-9-10 22:05
钢铁侠_123 发表于 2018-9-10 21:54
模块”对象没有属性“请求。。。。。。。。。。。。。

谢谢。。。。。
9#
吾爱无爱 发表于 2018-9-10 22:07
这个是干什么用的
10#
 楼主| 18382747915 发表于 2018-9-10 22:08 |楼主

爬取电影的下载地址
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-6-4 09:06

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表