论坛每天有很多帖子,为了快速筛选出自己感兴趣的内容,于是自己写了一个简单的demo。
输入关键词即可筛选热帖中的内容,新帖由于存在大量水帖就没有爬取新帖,只抓取了热帖。
简单的python代码demo
[Python] 纯文本查看 复制代码 # -*- coding: utf-8 -*-
import requests
from lxml import etree
word = ''
url = "https://www.52pojie.cn/forum.php?mod=guide&view=hot"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}
res = requests.get(url,headers=headers)
s = etree.HTML(res.text)
c = 1
for i in s.xpath("//th[@class='common']/a"):
wa_title = i.text
wa_url = "https://www.52pojie.cn/"+i.get('href')
if(wa_title!='New' and word in wa_title):
print(str(c) + ' ' + wa_title + ' ' +wa_url)
c = c+1
有python环境 安装一下依赖直接就跑起来了,修改word 可以自己添加关键词
运行结果图
|