一个网站，求教如何获取图书目录和下载

CYL199614 · 发表于 2020-4-20 18:32

之前发帖无人回答，原帖如下https://www.52pojie.cn/forum.php ... ;page=1#pid31434700
或许是大神太忙或者嫌评分低，赚了些币一次性全付出了，好像不能增加悬赏，所以再开一贴，如有违规请删除。

或许是上一贴说的不明白，这里再总结一下：

主要需求如下：
（1）https://mp.zhizhuma.com/book/shelf.htm?id=508
这个网站书太多，ID或许能有几万个，没有搜索功能，所以不好选。需要获取一个图书名录，把标题和ID表示出来就行，ID下面的子标题，最好也能提取一下。

（2）用F12下载图片合并PDF的方法，NETwork里图片的名字不是从1依次有规律增大的，而是像这样变化，绿色标示。看不懂规律，无法用IDM的通配符下载。对于这种要怎么处理？
https://cdnyuntisyspro.bookln.cn/server/ebook/pdf/70854/20733/37551134_95DEDC67135D704A3922106F7F35C939.jpeg?auth_key=1587228639-0.0910497954587628-0-830b6c39c1656b507c8e9b6d6a6d4996

求各位能教会我方法，我以后也就能触类旁通了，谢谢。

币值如果还不够，可以再加。

qunaliangne · 发表于 2020-4-20 18:32

我可以教你，我用python解决了，目前只能获取目录，下载没有，那个网站没给到下载地址
from urllib.request import urlopen
from bs4 import BeautifulSoup
import os
这三个模块，如果你会py的话，我在代码里写下注解给你，如果没兴趣学，我给你源码，告诉你怎么修改。

ligxi · 发表于 2020-4-20 21:32

我怕你看不懂，因为里面很多参数，首先要看懂js文件才能写代码！

pzx521521 · 发表于 2020-4-21 10:25

1.
书不一定很多
id 也是无法确定的
原网址明显是
www.zhizhuma.com
一个第三方的saas提供商
网页中并没有
"标题和ID"之间的关系
2.auth_key 知道什么意思把就是防盗链的
经测试加了时间参数的加密这种验证很难破解没办法用通配符

qunaliangne · 发表于 2020-4-22 09:11

我可以教你，用py的from urllib.request import urlopen
from bs4 import BeautifulSoup
import os

ligxi · 发表于 2020-4-22 13:23

qunaliangne 发表于 2020-4-22 09:16
我可以教你，我用python解决了，目前只能获取目录，下载没有，那个网站没给到下载地址
from urllib.requ ...

有给图片的下载地址，只是加密了而已。

CYL199614 · 发表于 2020-5-5 16:42

qunaliangne 发表于 2020-4-22 09:16
我可以教你，我用python解决了，目前只能获取目录，下载没有，那个网站没给到下载地址
from urllib.requ ...

大神你好，全段时间出海无法登陆，这几天回来了才看到，实在抱歉。PY一直想学，但现在我不会。我只会一点fortran和matlab。可否注释和源码都给我呢？源码我先用着，注释我以后有空对照着看一看，谢谢您了。

qunaliangne · 发表于 2020-5-6 16:17

CYL199614 发表于 2020-5-5 16:42
大神你好，全段时间出海无法登陆，这几天回来了才看到，实在抱歉。PY一直想学，但现在我不会。我只会一点 ...

源码先发你，注释晚些再私发

qunaliangne · 发表于 2020-5-8 15:28

qunaliangne 发表于 2020-5-6 16:17
源码先发你，注释晚些再私发

源码私聊给你了，你看下

CYL199614 · 发表于 2020-5-10 01:11

qunaliangne 发表于 2020-5-8 15:28
源码私聊给你了，你看下

大神你好，非常感谢你的帮助。

因为以前没用过python，所以今天在家折腾了一晚上。首先安装了python3.8.2的环境，然后又装了notepad这个集成开发器（我开始不知道python自带IDLE）,然后就是各种报错，终于在安装了bs4这个库之后，成功运行了程序。

大神您的程序还是非常给力的，我测试了一下非常棒。但还是遇到不方便的几个小问题，想请教一番。

（1）E盘生成一个tushu文件夹，但是空的，txt文件并不在其中，而是直接在E盘之下，而且txt文件的名称变为tushutushu。我想您程序的功能应该是将txt放入tushu文件夹内，不然也不会单独建一个空文件夹，是否哪里出了一些小问题呢？

（2）虽然成功导出目录到了txt文件，但是打开之后没有换行。除了第一个ID之外，剩下的ID前面都有一个n，直接一个整行，很难看清。我想导成EXCEL，试了很久，还是只能填充在一行上。我猜测您程序里的n应该就是换行符，于是自己改了加了一个/，但是并没有换行，而是直接输出了/n，我就不知道怎么改了。

（3）程序提取了每个ID下面的所有书目，但是没有提取ID本身的名字（网页最上方居中的那行字）。我阅读程序，虽然没读懂，但是感觉最后四行应该是与此有关的吧？但为什么用注释符跳过了呢？我尝试删去，但运行失败了。这个功能我还是需要的，能否解释一下最后四行的含义呢。

下面贴上程序运行截取的部分图片：

我想实现的功能是可以把txt文件导入到excel里面，第一行就是ID+网页最上方的文字，然后第二行是这个ID下面的几条书目。这样做成excel，我也方面阅读和检索，不然实在太难阅读了。想实现的excel大概如下：
[url=]

[/url]

[url=]这个程序已经非常好了，我也非常感谢您的帮助。折腾了一晚上，虽然很累，但是却很兴奋，遇到的这三个疑问还是想继续咨询一下大神，希望可以得到解答。最后，有没有好的python入门书推荐一下，确实很有意思。[/url]

[url=]小弟在此拜谢了。[/url]

帐号		自动登录	找回密码
密码			注册[Register]

一个网站，求教如何获取图书目录和下载

最佳答案

免费评分