吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3909|回复: 11
收起左侧

一个网站,求教如何获取图书目录和下载

[复制链接]
CYL199614 发表于 2020-4-20 18:32
44吾爱币
之前发帖无人回答,原帖如下https://www.52pojie.cn/forum.php ... ;page=1#pid31434700
或许是大神太忙或者嫌评分低,赚了些币一次性全付出了,好像不能增加悬赏,所以再开一贴,如有违规请删除。

或许是上一贴说的不明白,这里再总结一下:

主要需求如下:
(1)https://mp.zhizhuma.com/book/shelf.htm?id=508  
这个网站书太多,ID或许能有几万个,没有搜索功能,所以不好选。需要获取一个图书名录,把标题和ID表示出来就行,ID下面的子标题,最好也能提取一下。

(2)用F12下载图片合并PDF的方法,NETwork里图片的名字不是从1依次有规律增大的,而是像这样变化,绿色标示。看不懂规律,无法用IDM的通配符下载。对于这种要怎么处理?
https://cdnyuntisyspro.bookln.cn/server/ebook/pdf/70854/20733/37551134_95DEDC67135D704A3922106F7F35C939.jpeg?auth_key=1587228639-0.0910497954587628-0-830b6c39c1656b507c8e9b6d6a6d4996


求各位能教会我方法,我以后也就能触类旁通了,谢谢。


币值如果还不够,可以再加。

最佳答案

查看完整内容

我可以教你,我用python解决了,目前只能获取目录,下载没有,那个网站没给到下载地址 from urllib.request import urlopen from bs4 import BeautifulSoup import os 这三个模块,如果你会py的话,我在代码里写下注解给你,如果没兴趣学,我给你源码,告诉你怎么修改。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

qunaliangne 发表于 2020-4-20 18:32

我可以教你,我用python解决了,目前只能获取目录,下载没有,那个网站没给到下载地址
from urllib.request import urlopen
from bs4 import BeautifulSoup
import os
这三个模块,如果你会py的话,我在代码里写下注解给你,如果没兴趣学,我给你源码,告诉你怎么修改。
ligxi 发表于 2020-4-20 21:32
我怕你看不懂,因为里面很多参数,首先要看懂js文件才能写代码!
pzx521521 发表于 2020-4-21 10:25
1.
书不一定很多
id 也是无法确定的
原网址明显是
www.zhizhuma.com
一个第三方的saas提供商
网页中并没有
"标题和ID"之间的关系
2.auth_key 知道什么意思把  就是防盗链的
经测试  加了时间参数的加密 这种验证 很难破解  没办法用通配符
qunaliangne 发表于 2020-4-22 09:11
我可以教你,用py的from urllib.request import urlopen
from bs4 import BeautifulSoup
import os
ligxi 发表于 2020-4-22 13:23
qunaliangne 发表于 2020-4-22 09:16
我可以教你,我用python解决了,目前只能获取目录,下载没有,那个网站没给到下载地址
from urllib.requ ...

有给图片的下载地址,只是加密了而已。
 楼主| CYL199614 发表于 2020-5-5 16:42
qunaliangne 发表于 2020-4-22 09:16
我可以教你,我用python解决了,目前只能获取目录,下载没有,那个网站没给到下载地址
from urllib.requ ...

大神你好,全段时间出海无法登陆,这几天回来了才看到,实在抱歉。PY一直想学,但现在我不会。我只会一点fortran和matlab。可否注释和源码都给我呢?源码我先用着,注释我以后有空对照着看一看,谢谢您了。
qunaliangne 发表于 2020-5-6 16:17
CYL199614 发表于 2020-5-5 16:42
大神你好,全段时间出海无法登陆,这几天回来了才看到,实在抱歉。PY一直想学,但现在我不会。我只会一点 ...

源码先发你,注释晚些再私发
qunaliangne 发表于 2020-5-8 15:28
qunaliangne 发表于 2020-5-6 16:17
源码先发你,注释晚些再私发

源码私聊给你了,你看下

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
CYL199614 + 1 + 1 热心回复!

查看全部评分

 楼主| CYL199614 发表于 2020-5-10 01:11
qunaliangne 发表于 2020-5-8 15:28
源码私聊给你了,你看下

大神你好,非常感谢你的帮助。

因为以前没用过python,所以今天在家折腾了一晚上。首先安装了python3.8.2的环境,然后又装了notepad这个集成开发器(我开始不知道python自带IDLE),然后就是各种报错,终于在安装了bs4这个库之后,成功运行了程序。

大神您的程序还是非常给力的,我测试了一下非常棒。但还是遇到不方便的几个小问题,想请教一番。

(1)E盘生成一个tushu文件夹,但是空的,txt文件并不在其中,而是直接在E盘之下,而且txt文件的名称变为tushutushu。我想您程序的功能应该是将txt放入tushu文件夹内,不然也不会单独建一个空文件夹,是否哪里出了一些小问题呢?

(2)虽然成功导出目录到了txt文件,但是打开之后没有换行。除了第一个ID之外,剩下的ID前面都有一个n,直接一个整行,很难看清。我想导成EXCEL,试了很久,还是只能填充在一行上。我猜测您程序里的n应该就是换行符,于是自己改了加了一个/,但是并没有换行,而是直接输出了/n,我就不知道怎么改了。

(3)程序提取了每个ID下面的所有书目,但是没有提取ID本身的名字(网页最上方居中的那行字)。我阅读程序,虽然没读懂,但是感觉最后四行应该是与此有关的吧?但为什么用注释符跳过了呢?我尝试删去,但运行失败了。这个功能我还是需要的,能否解释一下最后四行的含义呢。

下面贴上程序运行截取的部分图片:


我想实现的功能是可以把txt文件导入到excel里面,第一行就是ID+网页最上方的文字,然后第二行是这个ID下面的几条书目。这样做成excel,我也方面阅读和检索,不然实在太难阅读了。想实现的excel大概如下:
[url=][/url]

[url=]这个程序已经非常好了,我也非常感谢您的帮助。折腾了一晚上,虽然很累,但是却很兴奋,遇到的这三个疑问还是想继续咨询一下大神,希望可以得到解答。最后,有没有好的python入门书推荐一下,确实很有意思。[/url]

[url=]小弟在此拜谢了。[/url]
tu2.jpg
TU1.jpg
返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-5-28 16:08

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表