吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 7215|回复: 66
收起左侧

[Python 转载] 批量抓取公众号文章导出pdf生成书签

     关闭 [复制链接]
susheng 发表于 2022-8-27 23:31
我之前的帖子发过批量下载公众号文章和数据(阅读数点赞数在看数留言数),今天分享批量下载公众号文章导出pdf, 合并成一个带书签的pdf文件,代码如下:

[Asm] 纯文本查看 复制代码
from PyPDF2 import  PdfFileReader, PdfFileWriter,PdfFileMerger
file_writer = PdfFileWriter()
merger = PdfFileMerger()
num = 0
for root, dirs, files in os.walk('.'):
    for name in files:
        if name.endswith(".pdf"):
            print(name)
            file_reader = PdfFileReader(f"{name}")
            file_writer.addBookmark(html.unescape(name).replace('.pdf',''), num, parent=None)
            for page in range(file_reader.getNumPages()):
                num += 1
                file_writer.addPage(file_reader.getPage(page))
with open(r"公众号文章合集.pdf",'wb') as f:
    file_writer.write(f)


效果如图,以莫言的公众号为例,点击左侧书签跳转到对应文章:
image.png

image.png

当然也可以将pdf的书签导出到excel,代码:
[Asm] 纯文本查看 复制代码
def bookmark_export(lines):
    bookmark = ''
    for line in lines:
        if isinstance(line, dict):
            bookmark += line['/Title'] + ','+str(line['/Page']+1)+'\n'
        else:
            bookmark_export(line)
    return bookmark
with open('公众号文章合集.pdf', 'rb') as f:
    lines = PdfFileReader(f).getOutlines()
    bookmark = bookmark_export(lines)
with open('公众号文章合集.csv', 'a+', encoding='utf-8-sig') as f:
    f.write(bookmark)


效果如图:
image.png

image.png

免费评分

参与人数 15吾爱币 +16 热心值 +13 收起 理由
xiaowuai + 1 + 1 打包成exe吧,谢谢啦!
极客玩家 + 1 + 1 希望楼主能把这实用功能做出exe文件,方便小白使用,谢谢
心怀感恩 + 1 我很赞同!
大理宾馆 + 1 + 1 谢谢@Thanks!
flyers + 1 谢谢@Thanks!
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
wapjbeiyong + 1 此为违规行为,请遵守论坛版规!
wangyou918918 + 1 + 1 谢谢@Thanks!
yjn866y + 1 + 1 热心回复!
linzi369 + 1 谢谢@Thanks!
夫子点灯 + 1 谢谢@Thanks!
WM715 + 1 + 1 谢谢@Thanks!
burpliu + 1 谢谢@Thanks!
lingweiqiu + 1 我很赞同!
yangyou719 + 1 + 1 打包成exe吧,没装Python

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| susheng 发表于 2022-9-3 20:26
简单一句话就是批量合成pdf,效果 https://www.aliyundrive.com/s/Q6L8wUwFZmi
 楼主| susheng 发表于 2022-8-28 19:24
daymissed 发表于 2022-8-28 19:19
就是我想下载公众号太多了,也不想全部下载他们的文章,这个啥办?

过滤下时间就行,或者加个关键词过滤
wangyou918918 发表于 2022-8-29 13:31
哦哦~差点评论里找楼主要以前的链接了,想了想作为论坛老鸟居然忘了点名字查看帖子这种基操。。。真是老糊涂了。。。。灰常有用~多谢分享~~
ysdy 发表于 2022-8-28 05:18
非常有用!感谢楼主
king0king 发表于 2022-8-28 07:10
感谢楼主
lgh978 发表于 2022-8-28 07:16
感谢楼主无私分享
lingweiqiu 发表于 2022-8-28 08:15
感谢楼主分享
KXDXL 发表于 2022-8-28 08:22
感谢分享
cnkiller 发表于 2022-8-28 08:52
感谢分享,这个好
sdvip168 发表于 2022-8-28 09:31
楼主你好,可以打包成软件吗
WM715 发表于 2022-8-28 09:33
感谢楼主分享!
just4p 发表于 2022-8-28 09:37
如果是个成品,对于我们这种小白是十分友好的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-26 15:39

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表