10月27号更新文章保存工具

花朝朝暮暮开 · 发表于 2021-6-2 11:30

本帖最后由花朝朝暮暮开于 2021-10-27 13:35 编辑

效果可以看看我的这个 https://gitee.com/eox/Blog-MD

我食言了，终究是又更新了一版；大概是边用边加很多加的内容都忘记了。主要是更新了可以保存 **知乎回答 ** 和 ** https://linux.cn/tech/ ** 这两个网站里面的东西

知乎回答同一个问题的不同回答别保存两次，懒得特殊处理了，凑活着用吧。其他一些优化调整记不清了。

吃完饭睡觉起来更新

下载地址在这里 -------> https://www.52pojie.cn/forum.php ... 451908&pid=40444439

================================================================================以上10月27日

刷到好的博客文章需要保存、懒得加书签、笔记类的不好用。自己写了个小程序保存博客文章。
还有一点官方的一些博客网站广告贼多，界面花里胡哨的。
所以自己写了个小程序保存博客文章。
使用方法：
1、浏览到好的博客文章觉得想保存下来
3、复制页面的网址
9、打开exe

目前支持　博客园、CSDN、BBXMAX 、知乎专栏微信（微信太鸡贼，支持不太好）、掘金、51cto

不要问我为什么是预告。因为到点了。端午节要去浪
下周更新预告:
修复了微信下载失败的问题。
再次修复了图片添加失败的问题。总会有一些奇奇怪怪的代码导致保存图片失败。我只能照顾绝大部分。
打印日志关键节点输出方便排除问题。
新增了记录文章的原始网站为MD的功能。

2021-6-15 真的是最后一版了

new 3.txt (141 Bytes, 下载次数: 526)
图太多了为了美观

详细说明见
https://www.52pojie.cn/forum.php ... 451908&pid=38922279

2021-6-7 11：38第6版大概率是最后一版了
1、优化了处理逻辑；删除无用代码
2、MD 文件保存至exe同级目录下的Blog-saved-to-md下。方便git push
3、Blog-saved-to-md 文件夹不存在会默认创建，有内容不会覆盖

2021-6-7 9:36 第5版
增加了各种错误处理逻辑，大概率不会因为你的乱复制导致exe退出。和起不起来。
增加了51CTO
列出了支持的网站

2021-6-4 16.30 第四版=======================
5、换了个让人讨厌的图标
1、解决了转MD偶尔丢失图片的问题
4、解决了获取不同网站的MD误报的问题
a、新增掘金的支持

2021-6-3 9:43 第三版======================= 新增微信文章的保存

2021-6-2 17:29 第二版======================= 新增知乎专栏保存为MD

2021-6-2 第一版 ======================= 支持CSDN
提取码: tivs 复制这段内容后打开百度网盘手机App，操作更方便哦

我是用下面的文章做实验的

微信
https://mp.weixin.qq.com/s/--pQMMpr5p_R7ApxHTb75A
博客园
https://www.cnblogs.com/aoximin/p/14843225.html
CSDN
https://blog.csdn.net/yuanziok/article/details/117442390
BBSMAX
https://www.bbsmax.com/A/MyJx4aveJn/

知乎专栏

https://zhuanlan.zhihu.com/p/151817883
掘金
https://juejin.cn/post/6844903833278087182

花朝朝暮暮开 · 发表于 2021-6-24 15:08

学惭淹贯发表于 2021-6-24 11:55
好像对微信文章的支持不太好，比如这篇文章（https://mp.weixin.qq.com/s/0uFLvppvsywDRCXTOVURqA），打开 ...

作者花里胡哨的使用了很多美化特殊字体，特殊间隔。目前没工夫对这些特立独行的文章专门适配。只要绝大部分能够保存就OK了。后续你发现问题了文章不好看，缺胳膊少腿的可以看看历史记录MD《Readme.md》，直接看原文

xilidexiao · 发表于 2021-6-15 19:38

[Python] 纯文本查看 复制代码

01

02

03

04

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

from re import sub
from re import compile
from time import sleep
from parsel import Selector
import tomd
from requests import get
 
def spider_csdn(url, ccs_head, css_text):
    """
    ccs_head  标题的class
    css_text  文本的class
    """
    title_url = url
    if not title_url:
        print('错误', '请输入网址')
        sleep(5)
        return None
    head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.52'}
    html = get(url=title_url, headers=head).text
    page = Selector(html)
    title = page.css('%s::text' % ccs_head).get()
    res = compile('[^一-龥^a-z^A-Z^0-9]')
    restr = ''
    res.sub(restr, title)
    content = page.css('%s' % css_text).get()
    content = sub('<a.*?a>', '', content)
    content = sub('<br>', '', content)
    content = sub('<li>', '', content)
    content = sub('</li>', '', content)
    content = sub('^#', '', content)
    content = sub('(<img.*?>)', '<p>\\1</p>', content)
    content = sub('loading="lazy"', '', content)
    texts = tomd.Tomd(content).markdown
    title = title.replace(' ', '')
    title = title.replace('\n', '')
    with open((title + '.md'), mode='w', encoding='utf-8') as (f):
        f.write('#' + title)
        f.write(texts)
        print('获取文章完成')
    import subprocess
    from os import getcwd
    addr = getcwd()
    subprocess.Popen('explorer %s' % addr)
 
 
if __name__ == '__main__':
    from pyperclip import paste
    url = paste()
    while True:
        if 'csdn.net/' in url:
            spider_csdn(url, '.title-article', 'article')
            input('按任意键继续 ')
            url = paste()
        elif 'bbsmax.com/' in url:
            spider_csdn(url, '.title', '.post-content')
            input('按任意键继续 ')
            url = paste()
        elif 'cnblogs.com/' in url:
            spider_csdn(url, '#cb_post_title_url > span', '.postBody')
            input('按任意键继续 ')
            url = paste()
        elif 'zhuanlan.zhihu.com/' in url:
            spider_csdn(url, '#root > div > main > div > article > header > h1', '#root > div > main > div > article > div.Post-RichTextContainer')
            input('按任意键继续 ')
            url = paste()
        elif 'weixin.qq.com/' in url:
            spider_csdn(url, '.rich_media_title', '/html/body/div[1]/div/div[1]/div[2]')
            input('按任意键继续 ')
            url = paste()
        elif 'juejin.cn/' in url:
            spider_csdn(url, '.article-title', '.article-content')
            input('按任意键继续 ')
            url = paste()
            continue
        else:
            print('你的剪切板不是文章的url，目前支持csdn,bbsmax,博客园,:下面是你的剪切板的内容\n%s' % url)
            input('按任意键继续 ')
            url = paste()

wbzb · 发表于 2021-6-2 11:35

提示: 作者被禁止或删除内容自动屏蔽

zxsbk · 发表于 2021-6-2 11:52

md好像看起来也不很舒服

wuboxun · 发表于 2021-6-2 11:55

谢谢楼主的分享

zxsbk · 发表于 2021-6-2 12:06

正好有用。

xixicoco · 发表于 2021-6-2 13:22

感谢，非常好用的工具

moonalong8 · 发表于 2021-6-2 13:23

如果可以支持微信公众好那就更好了，谢谢·~~

youximang · 发表于 2021-6-2 13:34

提示: 作者被禁止或删除内容自动屏蔽

wangdanq · 发表于 2021-6-2 13:43

谢谢楼主的分享

yq海枯石烂 · 发表于 2021-6-2 14:50

感谢分享

帐号		自动登录	找回密码
密码			注册[Register]

wbzb wbzb 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	wbzb 发表于 2021-6-2 11:35 《站点帮助文档》有什么问题来这里看看吧，这里有你想知道的内容！提示: 作者被禁止或删除内容自动屏蔽
wbzb wbzb 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	呼吁大家发布原创作品添加吾爱破解论坛标识！
	回复支持举报

[原创工具] 10月27号更新文章保存工具

免费评分

youximang youximang 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	youximang 发表于 2021-6-2 13:34 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报

[原创工具] 10月27号更新 文章保存工具

免费评分

[原创工具] 10月27号更新文章保存工具