吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3753|回复: 19
收起左侧

[Python 转载] 【新手】爬取吾爱精品软件模块

[复制链接]
niebaohua 发表于 2018-11-19 12:26
本帖最后由 niebaohua 于 2018-11-19 20:51 编辑

Python初学者 啥也不懂......
代码是按照看的视频照鼻子画瓢做的
大家可以帮忙改一下
应该没违规吧。。

给点免费评分吧

[Python] 纯文本查看 复制代码
import requests
from lxml import etree

headers = {"Mozilla/5.0": "(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36"}

number = int(input("请输入你要爬取内容的页数:"))
for i in range(1,number+1):
    next_url = "https://www.52pojie.cn/forum-16-%d.html" % i
    response = requests.get(next_url, headers = headers)
    url = "https://www.52pojie.cn/"
    html = response.content.decode("gb18030")
    text = etree.HTML(html)
    word_href = text.xpath('//a[@class="s xst"]/@href')
    word_title = text.xpath('//a[@class="s xst"]/text()')
    # 下一页  <a href="forum-16-2.html" class="nxt"  本来尝试直接通过下一页,不过好像出现问题了
    print("****" * 20 +"第"+str(i)+"页" + "****" * 20)
    for href,title in zip(word_href,word_title):
        print(title+"-----"*5+(url+href))
    #last_url = url+next_page
1.png

效果图

效果图

1.txt

928 Bytes, 下载次数: 14, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 3吾爱币 +3 热心值 +3 收起 理由
sg89 + 1 + 1 我准备做一个php、抓取最新最热的贴,智能分析最有用的帖子,然后通过发邮.
追求梦想525 + 1 + 1 headers 参数的格式有问题
menghun + 1 + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

时空之外 发表于 2018-11-19 14:25
niebaohua 发表于 2018-11-19 14:21
该怎么填呢  我是直接复制的网页上面的  求指教

TIM图片20181119142416.png
 楼主| niebaohua 发表于 2018-11-19 14:21
时空之外 发表于 2018-11-19 14:19
headers里面写错了,兄弟。

该怎么填呢  我是直接复制的网页上面的  求指教
fake 发表于 2018-11-19 12:44
浩蛋 发表于 2018-11-19 12:46
有点小6啊
 楼主| niebaohua 发表于 2018-11-19 12:55

谢谢夸奖  其实这些模块我也不太懂
hjdx001 发表于 2018-11-19 13:01
Python这么牛逼,也想学学了
淮左名都 发表于 2018-11-19 13:04
mark,学习一下
或许。 发表于 2018-11-19 13:06
牛逼啊 胸DIE
浮尘云烟 发表于 2018-11-19 13:10
不懂帮顶
yjian415 发表于 2018-11-19 13:46
不错,666
madson 发表于 2018-11-19 14:17
不懂也帮你顶一下。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-21 09:52

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表