吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3707|回复: 8
收起左侧

[Python 转载] 使用Python来爬取小说网的小说

[复制链接]
QingYi. 发表于 2021-6-4 22:10
纯拿来练手,只爬取了主页面的第一步小说《女尊之女神养成计划
如果大家感兴趣的话,可以在最外面套一层for循环 拿到当前页面的所有的小说

如果还不甘心的话,可以爬取第二页,第三页的内容

这些我都没有实现,我只爬取了第一页的第一部的小说

完成了上面的功能,可以用线程池来快速爬取所有的小说

上面的功能我在私下我也会自己去完成。

代码如下

[Python] 纯文本查看 复制代码
import requests

from lxml import etree

url = "https://www.qidian.com/all?action=1&orderId=&page=1&vip=0&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:83.0) Gecko/20100101 Firefox/83.0'
}
# 拿到主页的源代码
resp = requests.get(url, headers=headers)
# 拿主页的源代码进行xpath
html = etree.HTML(resp.text)
# 拿到主页面下的小说的url地址
page = html.xpath('//div[@class="book-img-box"]/a/@href')[0]
# 主页面的书本的内容的小说的名字
novel_name = html.xpath('//div[@class="book-mid-info"]/h4/a/text()')[0]
# 获得实际地址
link = "https:" + page
# print(link)
data = requests.get(link, headers=headers)
# 再进入单部小说进行访问
html = etree.HTML(data.text)

# 选到目录的的章节
# print("小说名字是:", novel_name)
sec_url = html.xpath('//ul[@class="cf"]/li/a/@href')
cur_sec = 0
for cur_url in sec_url:
    # print(cur_url)

    # 小说章节

    novel_section = html.xpath('//ul[@class="cf"]/li/a/text()')
    # print(novel_section)
    # 转换为实际章节地址 并进行访问 输出源代码
    page = requests.get("https:" + cur_url, headers=headers)
    # print(page.text)

    # 把源代码进行xpath定位 获取到小说内容
    res = etree.HTML(page.text)
    # print(page.text)
    content = res.xpath('//div[@class="read-content j_readContent"]/p/text()')
    # 转换为字符串
    content = " ".join(content)

    # print("小说章节是:", novel_section)
    print("当前小说的名字是 %s , 当前小说的章节是 %s , 当前章的内容是的内容是:\n%s\n\n, " % (novel_name, novel_section[cur_sec], content))
    cur_sec += 1

纯在新标签打开所有链接复制所有链接URL复制所有链接URL(反向)复制所有链接标题 + URL复制所有链接标题 + URL (MD)复制所有链接标题 + URL (BBS)复制所有链接标题 + URL (筛选)复制所有链接标题 + URL (设置复制格式)在新标签页打开所有图片链接在一个标签页显示所有图片链接
复选框 - 选中
复选框 - 取消
复选框 - 反选
单选框 - 选中
单选框 - 取消
特殊单选框 - 选中

免费评分

参与人数 3吾爱币 +3 热心值 +3 收起 理由
lin2lin3lin5 + 1 + 1 我很赞同!
haokonglin + 1 + 1 谢谢@Thanks!
Liserng + 1 + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

sgzdmsz 发表于 2021-6-5 00:56
感谢分享!
kk120305004 发表于 2021-6-5 05:49
Wapj_Wolf 发表于 2021-6-5 07:35
tzlqjyx 发表于 2021-6-5 07:46
感谢了,小说爱好者很感兴趣
haokonglin 发表于 2021-6-5 08:09
先使用用
wi_xue2008 发表于 2021-6-5 17:34
谢谢分享
wang211518 发表于 2022-7-27 22:20
谢谢分向
yangyoucai 发表于 2022-8-2 13:45
谢谢分享,收藏学习
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-28 22:32

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表