Python爬取网络小说

Leafmoes · 发表于 2020-2-23 23:00

本帖最后由 Leafmoes 于 2020-2-24 13:58 编辑

（Python学习第一天！本代码不完善，只能爬取https://www.xsbiquge.com这一个站点....而且也没有添加选想直接进入某个模式......（懒
下面是代码（感觉直接贴代码......不过代码有注释

[Python] 纯文本查看 复制代码

import urllib.request
from urllib import parse
import re
# 定义一些变量的初始值
list_content = ''


# 功能
# 搜索
def search(text):
    text = parse.quote(text)  # 把用户输入的关键词转码为url编码
    search_url = 'https://www.xsbiquge.com/search.php?keyword=' + text
    search_html = urllib.request.urlopen(search_url).read()
    search_html = search_html.decode('utf-8')
    search_html = search_html.replace('\n', '').replace('\r', '')
    search_rule = r'<div class="result-item result-game-item">(.*?)</div>'
    search_num = re.finditer(search_rule, search_html, re.S)
    a = 0
    for i in search_num:
        # 标题
        search_rule = r'<a cpos="title".*?<span>(.+?)</span>'
        search_title = re.findall(search_rule, search_html, re.S)
        search_title = '标题：' + search_title[a] + '\n'
        # 简介
        search_rule = r'<p class="result-game-item-desc">(.+?)</p>'
        search_info = re.findall(search_rule, search_html, re.S)
        search_info = '简介：' + search_info[a] + '\n'
        # 作者
        search_rule = r'<span class="result-game-item-info-tag-title preBold">作者：</span> +<span.*?>(.+?)</span>'
        search_user = re.findall(search_rule, search_html, re.S)
        search_user = '作者：' + search_user[a] + '\n'
        # 类型
        search_rule = r'<span class="result-game-item-info-tag-title preBold">类型：</span> +<span.*?>(.+?)</span>'
        search_style = re.findall(search_rule, search_html, re.S)
        search_style = '类型：' + search_style[a] + '\n'
        # 更新时间
        search_rule = r'<span class="result-game-item-info-tag-title preBold">更新时间：</span> +<span.*?>(.+?)</span>'
        search_date = re.findall(search_rule, search_html, re.S)
        search_date = '更新时间：' + search_date[a] + '\n'
        # 最新章节
        search_rule = r'<span class="result-game-item-info-tag-title preBold">最新章节：</span> +<a.*?href="(.*?)".*?>(.+?)</a>'
        search_new = re.findall(search_rule, search_html, re.S)
        search_new = '最新章节：' + search_new[a][1] + '\t' + search_new[a][0] + '\n'
        # 总结获取的所有内容
        search_content = search_title + search_info + search_user + search_style + search_date + search_new + '<——————————分隔符——————————>'
        print(search_content)
        a = a + 1

# 获取目录内容
def get_list(list_url):
    global list_content
    list_html = urllib.request.urlopen(list_url).read()
    list_html = list_html.decode('utf-8')
    list_rule = r'<dd><a href="(.+?)".*?>(.+?)</a></dd>'
    list_content = re.findall(list_rule, list_html, re.S)
    list_num = re.finditer(list_rule, list_html, re.S)
    list_rule = r'<dt>(.+?)</dt>'
    list_tittle = re.findall(list_rule, list_html, re.S)
    a = 0
    print(list_tittle[0])
    for i in list_num:
        content_tittle = list_content[a][1]
        content_link = 'https://www.xsbiquge.com' + list_content[a][0]
        print('[' + str(a + 1) + ']' + '\t' + content_tittle + '\t' + content_link)
        a = a + 1


# 获取文章内容
def get_content(content_url):
    html = urllib.request.urlopen(content_url).read()
    html = html.decode('utf-8')
    rule = r'<h1>(.*?)</h1>'
    tittle = re.findall(rule, html, re.S)
    tittle = tittle[0]
    rule = r'<div id="content">(.+?)</div>'
    content = re.findall(rule, html, re.S)
    content = content[0]
    content = tittle + '\n' + content
    content = re.sub(r'<', '<', str(content))
    content = re.sub(r'>', '>', str(content))
    content = re.sub(r' ', ' ', str(content))
    content = re.sub(r'<br />', '\n', str(content))
    print(content)


# https://www.xsbiquge.com/63_63448/
print('\n本爬虫暂时只适配了一个网站，即 https://www.xsbiquge.com/')
word = input('请输入搜索内容！')
search(word)
url = input('请输入目录链接！')
get_list(url)
content_Num = input('请输入[]内的数字预览章节内容！')
get_content('https://www.xsbiquge.com' + list_content[int(content_Num) - 1][0])

可能写的不好，但是我会努力优化，里面要是有什么错误，或者更简单的写法（希望回帖与我交流，咱是刚学一天Python的新手呐

Anekys · 发表于 2020-2-24 09:47

Leafmoes 发表于 2020-2-24 08:37
那种应该只是适合只需要某些类型的数据吧，比如只要数字或者只要字母之类的...（或者不官什么内容都可以 ...

不是特定类型的,有些地方就是专门研究这个正则表达式的,同样是网页中的这种数据就能很好的给匹配出来,据说是那种专门的正则表达式的效率要比这种标签定位的效率要高,同为正则表达式效率也有不一样的.
怎么解析书源?

Leafmoes · 发表于 2020-2-24 08:37

Anekys 发表于 2020-2-24 08:33
Emmm....只是我自己的一种形容词
你看你这个正则表达式里面开头和结尾都是网页源码里面的标签内容,方便 ...

那种应该只是适合只需要某些类型的数据吧，比如只要数字或者只要字母之类的...（或者不官什么内容都可以那样办到，但是直接通过标签定位不是更方便吗？（我打算通过解析书源来获取信息，这样太慢了

Leafmoes · 发表于 2020-2-23 23:04

其实觉得应该解析书源进行爬取，这样效率好像很低

pwp · 发表于 2020-2-23 23:06

膜拜大佬

unbeaten · 发表于 2020-2-23 23:13

学习了最近刚好在学爬虫

chenmg · 发表于 2020-2-23 23:19

我打算这次毕设就搞爬虫

pengtusheng · 发表于 2020-2-23 23:31

不是多线程？？

Leafmoes · 发表于 2020-2-23 23:37

本帖最后由 Leafmoes 于 2020-2-23 23:39 编辑

pengtusheng 发表于 2020-2-23 23:31
不是多线程？？

刚学习，对线程这一块还点乱.....(零基础...尝试的第一个python程序

kingaero · 发表于 2020-2-23 23:44

感谢楼主，学习一下

yjn866y · 发表于 2020-2-23 23:47

学习一天就能写出来，很棒的了

二诗的Adidas · 发表于 2020-2-24 00:04

用python自带的那个idme运行可以吗

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] Python爬取网络小说

免费评分

本帖被以下淘专辑推荐:

个人中心