吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3094|回复: 46
收起左侧

[已解决] 大佬们帮忙看看怎么把这网页的图片自动翻页爬取呢

[复制链接]
zoenbo 发表于 2020-10-14 18:41
本帖最后由 zoenbo 于 2020-12-8 11:05 编辑

http://img.duxiu.com/n/jpgfs/book/base/11407073/cd73d77304cc4544b85f7b4a5a894579/6b99f80dde8081d0345842a07120b645.shtml?uf=1&t=4&time=2020101418&url=http%3A%2F%2Fbook.ucdrs.superlib.net%2FbookDetail.jsp%3FdxNumber%3D000005038288%26d%3D1D949FE2951625C21C0E47B785649778%26timestr%3D1602671446485%26rtype%3D1

这是读秀里的试读的部分,我想把每一页的图片弄下来,有的比较多,一张张弄比较耗时间,而且要弄的不止一本的试读部分,不知道有没有什么软件或者什么语言来实现翻页保存,用过按键精灵之类的,有时会因为加载延迟会导致部分错失,后期调整页码又是需要时间。静候大佬出现~~

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

yeyue 发表于 2020-10-15 15:52
带cookies访问, 比如:毛泽东选集https://book.duxiu.com/bookDetail.jsp?dxNumber=000005680871&d=B778E2AE5D9FBBF88BCBC2D17CC98FC6
用xpath 或者 正则 或者 bs 取出"部分阅读"的网址 https://book.duxiu.com/readDetail.jsp?dxNumber=000005680871&d=B69FE735426FBA5B0EC0015F5B67C80F&timestr=1602746818229, 然后get
正则取出 var pages = [[1,0],[1,1],[1,1],[1,0], [1,16], [1, 21], [1, 0], [2, 0]]; //按顺序 依次是 封面, 书名, 版权, 前言, 目录, 正文, 附录, 封底 的页数, 在pagetypeutil.js里有写, 比如这里目录有16页, 正文有21页
在pagetypeutil.js里还有个东西需要:
        var PAGETYPEINFO = [
                        {v:PAGETYPE.cov, s:'cov', n:'封面'}, /* 封面cov001 */
                        {v:PAGETYPE.bok, s:'bok', n:'书名'}, /* 书名 */
                        {v:PAGETYPE.leg, s:'leg', n:'版权'}, /* 版权 */
                        {v:PAGETYPE.fow, s:'fow', n:'前言'}, /* 前言 */
                        {v:PAGETYPE.dir, s:'!'  , n:'目录'}, /* 目录 */
                        {v:PAGETYPE.cnt, s:''   , n:'正文'}, /* 正文 */
                        {v:PAGETYPE.att, s:'att', n:'附录'}, /* 附录 */
                        //{v:PAGETYPE.bac, s:'bac', n:'封底'}  /* 封底 */
                        {v:PAGETYPE.bac, s:'cov', n:'封底'}  /* 封底cov002 */
        ];
正则取出:
jpgPath:"/n/48c8b25ad70e48c631247b40dcc9567eMC278885484159/img0/F7E306DEE67422E47DC724138D60CC566E1E4C93A89734B337537F6E22BC0FCB13D9B5C8FBE778DF71D26AF2C6A648FA4750A2DC91F2E56475270ED7537CB8119DA192579E9F009AEC407AA8D5C3207C8313C4A9D95E1A5CA1E9BA6FE67FB429BE181A0C22E1A7BA9A1EF3018A0AE8FD497A/bf1/jpgfs/11335510/F945680A66B446D99FCB7644F446FADC/"

开始构建网址, 比如你需要下载目录第5页, 上面 {v:PAGETYPE.dir, s:'!'  , n:'目录'}, /* 目录 */ 这里看出目录前缀是 "!" 总位数6位 这里就是"!00005"
http://img.duxiu.com/+jpgPath+!00005?zoom=0
然后head请求, 在response header 里 找到
Location:

http://bpng1.5read.com/image/ss2jpg.dll?did=bf1&pid=F7E306DEE67422E47DC724138D60CC566E1E4C93A89734B337537F6E22BC0FCB13D9B5C8FBE778DF71D26AF2C6A648FA4750A2DC91F2E56475270ED7537CB8119DA192579E9F009AEC407AA8D5C3207C8313C4A9D95E1A5CA1E9BA6FE67FB429BE181A0C22E1A7BA9A1EF3018A0AE8FD497AF945680A66B446D99FCB7644F446FADC&jid=/!00005.jpg&a=DE9E890BFC1A9603EBE7474DB48748B0520B221F2EB2AB23EDF16164DA3139981EBF0B0456E45FF2955DBB8C177C605DFB091B8EFDD9DBA6AE0536B192ED74D0A9D5&zoom=0&f=0




之后 下载 就行了 我就不演示了, 这个就是流程了





免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
zoenbo + 1 + 1 谢谢@Thanks!

查看全部评分

RS水果 发表于 2020-10-14 18:45
试试八爪鱼采集软件  
会代码的话就python搞起
 楼主| zoenbo 发表于 2020-10-14 18:48
RS水果 发表于 2020-10-14 18:45
试试八爪鱼采集软件  
会代码的话就python搞起

我知道python爬取比较厉害,可惜真不会
QingYi. 发表于 2020-10-14 18:52
数据加载失败,请重试
叶凯 发表于 2020-10-14 18:54
数据加载失败,你重新发下,或者告诉我在哪找的,我可以用python帮你下载
叶凯 发表于 2020-10-14 18:56
应该是cookie过期了,你私信我发下,我帮你弄,当练下手
RS水果 发表于 2020-10-14 18:57
zoenbo 发表于 2020-10-14 18:48
我知道python爬取比较厉害,可惜真不会

那就试试八爪鱼采集  很简单的操作  录制好宏就可以自动翻页采集  也可以加他们官方群请教
 楼主| zoenbo 发表于 2020-10-14 19:01
本帖最后由 zoenbo 于 2020-12-8 11:05 编辑
QingYi. 发表于 2020-10-14 18:52
数据加载失败,请重试

用户名***,PWD: *****登录duxiu后试试
 楼主| zoenbo 发表于 2020-10-14 19:02
本帖最后由 zoenbo 于 2020-12-8 11:05 编辑
叶凯 发表于 2020-10-14 18:56
应该是cookie过期了,你私信我发下,我帮你弄,当练下手

用户名*******,PWD: ***** 登录duxiu后试试
 楼主| zoenbo 发表于 2020-10-14 19:03
RS水果 发表于 2020-10-14 18:57
那就试试八爪鱼采集  很简单的操作  录制好宏就可以自动翻页采集  也可以加他们官方群请教

采集软件爬不了这个站的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止回复与主题无关非技术内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-12 02:42

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表