python 解析爬取某度文库

17788210295 · 发表于 2019-8-22 18:08

本帖最后由 17788210295 于 2019-8-30 20:11 编辑

用了一天研究了下某度文库爬取, 原理是利用浏览器切换成手机版找规律(存放在webapp...的url里想研究的可以去看看),主要是翻页比较复杂
目前还不完善能解析大部分某度文库的文档和图片(有图片的就下载)
文档保存为word 格式暂时还不会把图片放进word 先放在文件夹运行后直接粘贴需要下载的网页欢迎留言哦

更新了下复制代码出错问题

[Python] 纯文本查看 复制代码

001

002

003

004

005

006

007

008

009

010

011

012

013

014

015

016

017

018

019

020

021

022

023

024

025

026

027

028

029

030

031

032

033

034

035

036

037

038

039

040

041

042

043

044

045

046

047

048

049

050

051

052

053

054

055

056

057

058

059

060

061

062

063

064

065

066

067

068

069

070

071

072

073

074

075

076

077

078

079

080

081

082

083

084

085

086

087

088

089

090

091

092

093

094

095

096

097

098

099

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

# -*- coding: utf-8 -*-
#*** 吾爱 17788210295
import requests
import re
from json import loads
import os
from tqdm import tqdm
class Baidu(object):
    def __init__(self):
 
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Mobile Safari/537.36'
        }
        self.rtcs_flag='1'
        self.rtcs_ver='3.1'
        self.base_url='http://wkrtcs.bdimg.com/rtcs/webapp'
        self.base_img='https://wkrtcs.bdimg.com/rtcs/image'
        self.flag=True
        self.cout=1
    def get_info(self,url):
        try:
            r=requests.get(url,headers=self.headers).content.decode()
        except Exception:
            print('编码错误,切换编码!')
            r = requests.get(url, headers=self.headers).content.decode('gbk')
        self.bucketNum=re.findall('"bucketNum":(\d+),',r)[0]
        self.sign = re.findall('&sign=(.*?)&',r)[0]
        self.rsign=re.findall('"rsign":"(.*?)",',r)[0]
        self.md5sum=re.findall('&md5sum=(.*?)&',r)[0]
        self.page_list=re.findall('"rtcs_range_info":(.*),"rtcs_flow"',r)[0]
        self.page_count=re.findall('"rtcs_page_count":(.*?),',r)[0]
        self.firstpageurl=re.findall('data-firstpageurl="(.*?)"',r)[0].replace('amp;','')
        try:
            self.name=re.findall('<title>(.*?)</title>',r)[0].strip()
        except Exception:
            self.name='百度文库百度文库'
        if not os.path.exists(self.name):
            os.mkdir(self.name)
        self.path=self.name+'/'
    #解析翻页参数
    def parse(self):
        print('页数:',self.page_count)
        page_dics=loads(self.page_list)
        if int(self.page_count)>=4:
            self.get_first()
            pn = 2
            rn = 4
            while True:
                a = ''
                ranges=page_dics[pn-1:pn+rn-1]
                for r in tqdm(ranges):       #进度条
                    a+=r.get('range')+'_' if (r is not ranges[-1]) else r.get('range')
                    try:
                        self.get_pages(pn,rn,a)
                    except Exception:
                        print('解析错误')
                pn = pn + rn
                rn = 5
                if pn >int(self.page_count):
                    break
        else:
            self.get_first()
            a=''
            pn=2
            rn=4
            ranges = page_dics[pn - 1:pn + rn - 1]
            for r in tqdm(ranges):
                a += r.get('range') + '_' if (r is not ranges[-1]) else r.get('range')
            try:
                self.get_pages(pn,rn,a)
            except Exception:
                pass
 
    #翻页写入文本
    def get_pages(self,pn,rn,ranges):
        dic={
            'bucketNum':self.bucketNum,
            'pn':pn,
            'rn':rn,
            'md5sum':self.md5sum,
            'sign':self.sign,
            'rtcs_flag':self.rtcs_flag,
            'rtcs_ver':self.rtcs_ver,
            'range':ranges,
            'rsign':self.rsign
        }
        page=requests.get(self.base_url,params=dic,headers=self.headers).text[5:-1]
        b=loads(page)
        a = ''
        for i in b['document.xml']:
            for m in i['c']:
                a += '\n'
                for n in m['c']:
                    try:
                        if isinstance(n['c'], str):
                            a += n['c']
                    except Exception:
                        pass
        with open(self.path+self.name+'.doc','a',encoding='utf-8') as f:
            f.write(a)
 
    # 解析第一页
    def get_first(self):
        print(self.firstpageurl)
        first_page=requests.get(url=self.firstpageurl,headers=self.headers).text[32:-1]
        b = loads(first_page)
        a = ''
        for i in tqdm(b['document.xml']):
            for m in i['c']:
                a += '\n'
                for n in m['c']:
                    try:
                        if isinstance(n['c'], str):
                            a += n['c']
                    except Exception:
                        pass
        with open(self.path+self.name+'.doc', 'a', encoding='utf-8') as f:
            f.write(a)
        print('第一页解析完成!!!')
 
    #下载图片
    def down_img(self,cout,num):
        data={
            'md5sum':self.md5sum,
            'sign':self.sign,
            'rtcs_ver':'3',
            'bucketNum':self.bucketNum,
            'ipr':'{"c":"word/media/image%s.png"}'%cout
        }
 
        data=requests.get(url=self.base_img,params=data)
        if data.status_code ==200:
            with open(self.path + str(num) + '.jpg', 'wb+') as f:
                f.write(data.content)
            print(self.name+'下载完成!')
        else:
            couts=str(cout)+'_1'
            print(couts)
            data = {
                'md5sum': self.md5sum,
                'sign': self.sign,
                'rtcs_ver': '3',
                'bucketNum': self.bucketNum,
                'ipr': '{"c":"word/media/image%s.png"}'%couts
            }
            data = requests.get(url=self.base_img, params=data)
            if data.status_code == 200:
                with open(self.path + str(num) + '.jpg', 'wb+') as f:
                    f.write(data.content)
                print(self.name+'下载完成!')
            else:
 
                self.flag=False
 
 
    def run(self,url):
        num=0
        self.get_info(url)
        self.parse()
        print('页面写入完成!!!'+'-'*20+'下载图片>>>>>>')
        while self.flag:
            num += 1
            self.down_img(self.cout,num)
            self.cout+=1
 
 
 
if __name__ == '__main__':
    url=input('请输入网址:')
    b=Baidu()
    b.run(url)

免责声明：仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。

lihaisanhui · 发表于 2019-8-25 10:17

[Python] 纯文本查看 复制代码

1

2

3

4

  File "百度文库爬取.py", line 9
        def __init__(self):
          ^
SyntaxError: invalid character in identifier

你这是python2还是3

jinlongpj · 发表于 2019-9-13 21:35

lihaisanhui 发表于 2019-8-25 10:17
[mw_shl_code=python,true]  File "百度文库爬取.py", line 9
      def __init__(self):
      ^
...

同样错误，版本3.6

thghx · 发表于 2019-8-22 18:19

最近到处找下载百度文库源文件的方法。

weidian · 发表于 2019-8-22 18:34

爬虫?谢谢分享！

17788210295 · 发表于 2019-8-22 18:40

yanmingming 发表于 2019-8-22 18:35
多谢分享

你这动图.........

ISHAO · 发表于 2019-8-22 18:44

可以，支持一下

追逐太阳 · 发表于 2019-8-22 18:46

支持一下，但是Python还没学，如果有java版本的就好了

yanmingming · 发表于 2019-8-22 19:00

17788210295 发表于 2019-8-22 18:40
你这动图.........

咋的啦? 吓到了啊

yth492300648 · 发表于 2019-8-22 19:00

这个还行百度文库

笑傲江湖1001 · 发表于 2019-8-22 22:56

提示: 作者被禁止或删除内容自动屏蔽

sky4639 · 发表于 2019-8-23 07:42

代码怎么用啊

帐号		自动登录	找回密码
密码			注册[Register]

[原创工具] python 解析爬取某度文库

免费评分

本帖被以下淘专辑推荐:

笑傲江湖1001 笑傲江湖1001 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	笑傲江湖1001 发表于 2019-8-22 22:56 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报