吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1304|回复: 14
收起左侧

[Python 原创] 【easy52pojie】一款方便看吾爱论坛帖子的爬虫程序

  [复制链接]
Eilliem 发表于 2024-3-14 19:10

【easy52pojie】一款方便看吾爱论坛帖子的爬虫程序

众所周知论坛一页最多显示十来条回帖,且间隔很大,每页的信息密度太低了。在帖子很庞大的情况下,一页一页翻页,着实有点痛苦。

故简单敲敲代码,使用request xpath技术做了一个论坛帖子回复查看器,名称为easy52pojie,运行代码即可导出该帖子的全部回复,有回复人昵称、回复时间、回帖内容等。喜欢请记得回复~

使用说明:

1、在main函数里填入帖子url;

2、在main函数里填入自己的cookie;

3、运行代码。

源码地址:https://wwi.lanzoup.com/id6801rapcyf



easy52pojie.zip (1.84 KB, 下载次数: 1)

结果展示

结果展示
1.png

免费评分

参与人数 4吾爱币 +9 热心值 +4 收起 理由
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
lmxch00 + 1 我很赞同!
Yifan2007 + 2 + 1 热心回复!
hazy1k + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

sihehe 发表于 2024-3-18 11:02
sai609 发表于 2024-3-14 21:41
把52pj更换为baidu贴吧or豆瓣or新浪微博的官方网址,也能实现上述效果吗?

[Python] 纯文本查看 复制代码
   # 定位文章标题
        title = page_html.xpath("//td[@class='plc ptm pbn vwthd']//h1//span")[0].text
        # 定位回帖用户姓名
        send_usernames = [''.join(element.itertext()).strip() for element in page_html.xpath(
            "//div[@id='postlist']//div//table//tr//td[@class='pls']//div//div[@class='pi']//a")]
        # 定位回帖内容
        send_contents = [''.join(element.itertext()).strip() for element in page_html.xpath(
            "//div[@id='postlist']//div//table//tr//td[@class='plc']//div[@class='pct']//div//div//table//tr//td")]
        # 定位回帖楼层
        send_tags = [''.join(element.itertext()).strip() for element in page_html.xpath(
            "//div[@id='postlist']//div//table//tr//td[@class='plc']//div[@class='pi']//strong")]
        # 定位回帖时间
        send_timesets = [''.join(element.itertext()).strip().replace("发表于 ", "") for element in page_html.xpath(
            "//div[@id='postlist']//div//table//tr//td[@class='plc']//div[@class='pi']//div//div[@class='authi']//em")]

看代码 是不行的,代码硬写网站的html标签解析正则,换其他网站,或者网站的前端页做了更新,就不适用了
老婆是加藤惠 发表于 2024-3-14 21:29
aliku 发表于 2024-3-14 21:39
sai609 发表于 2024-3-14 21:41
把52pj更换为baidu贴吧or豆瓣or新浪微博的官方网址,也能实现上述效果吗?
basakasky 发表于 2024-3-14 22:37
sai609 发表于 2024-3-14 21:41
把52pj更换为baidu贴吧or豆瓣or新浪微博的官方网址,也能实现上述效果吗?

看论坛的样子应该是Discuz,理论上只要是Discuz的都可以
szhwell 发表于 2024-3-14 22:56
这也是逆向。。。
leedada 发表于 2024-3-15 16:00
感觉也不是很方便hhhh
fan19900404 发表于 2024-3-15 16:10
如果是这个需求的话,好像直接用油猴,重置一下页面的样式,隐藏掉各种不用的信息就能了吧。
joyup 发表于 2024-3-15 17:06
学习学习,谢谢分享
xechenchao 发表于 2024-3-16 23:11
感谢分享,辛苦了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-12 01:37

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表