10月27号更新文章保存工具

花朝朝暮暮开 · 发表于 2021-6-2 11:30

本帖最后由花朝朝暮暮开于 2021-10-27 13:35 编辑

效果可以看看我的这个 https://gitee.com/eox/Blog-MD

我食言了，终究是又更新了一版；大概是边用边加很多加的内容都忘记了。主要是更新了可以保存 **知乎回答 ** 和 ** https://linux.cn/tech/ ** 这两个网站里面的东西

知乎回答同一个问题的不同回答别保存两次，懒得特殊处理了，凑活着用吧。其他一些优化调整记不清了。

吃完饭睡觉起来更新

下载地址在这里 -------> https://www.52pojie.cn/forum.php ... 451908&pid=40444439

================================================================================以上10月27日

刷到好的博客文章需要保存、懒得加书签、笔记类的不好用。自己写了个小程序保存博客文章。
还有一点官方的一些博客网站广告贼多，界面花里胡哨的。
所以自己写了个小程序保存博客文章。
使用方法：
1、浏览到好的博客文章觉得想保存下来
3、复制页面的网址
9、打开exe

目前支持　博客园、CSDN、BBXMAX 、知乎专栏微信（微信太鸡贼，支持不太好）、掘金、51cto

不要问我为什么是预告。因为到点了。端午节要去浪
下周更新预告:
修复了微信下载失败的问题。
再次修复了图片添加失败的问题。总会有一些奇奇怪怪的代码导致保存图片失败。我只能照顾绝大部分。
打印日志关键节点输出方便排除问题。
新增了记录文章的原始网站为MD的功能。

2021-6-15 真的是最后一版了

new 3.txt (141 Bytes, 下载次数: 526)
图太多了为了美观

详细说明见
https://www.52pojie.cn/forum.php ... 451908&pid=38922279

2021-6-7 11：38第6版大概率是最后一版了
1、优化了处理逻辑；删除无用代码
2、MD 文件保存至exe同级目录下的Blog-saved-to-md下。方便git push
3、Blog-saved-to-md 文件夹不存在会默认创建，有内容不会覆盖

2021-6-7 9:36 第5版
增加了各种错误处理逻辑，大概率不会因为你的乱复制导致exe退出。和起不起来。
增加了51CTO
列出了支持的网站

2021-6-4 16.30 第四版=======================
5、换了个让人讨厌的图标
1、解决了转MD偶尔丢失图片的问题
4、解决了获取不同网站的MD误报的问题
a、新增掘金的支持

2021-6-3 9:43 第三版======================= 新增微信文章的保存

2021-6-2 17:29 第二版======================= 新增知乎专栏保存为MD

2021-6-2 第一版 ======================= 支持CSDN
提取码: tivs 复制这段内容后打开百度网盘手机App，操作更方便哦

我是用下面的文章做实验的

微信
https://mp.weixin.qq.com/s/--pQMMpr5p_R7ApxHTb75A
博客园
https://www.cnblogs.com/aoximin/p/14843225.html
CSDN
https://blog.csdn.net/yuanziok/article/details/117442390
BBSMAX
https://www.bbsmax.com/A/MyJx4aveJn/

知乎专栏

https://zhuanlan.zhihu.com/p/151817883
掘金
https://juejin.cn/post/6844903833278087182

花朝朝暮暮开 · 发表于 2021-6-24 15:08

学惭淹贯发表于 2021-6-24 11:55
好像对微信文章的支持不太好，比如这篇文章（https://mp.weixin.qq.com/s/0uFLvppvsywDRCXTOVURqA），打开 ...

作者花里胡哨的使用了很多美化特殊字体，特殊间隔。目前没工夫对这些特立独行的文章专门适配。只要绝大部分能够保存就OK了。后续你发现问题了文章不好看，缺胳膊少腿的可以看看历史记录MD《Readme.md》，直接看原文

xilidexiao · 发表于 2021-6-15 19:38

[Python] 纯文本查看 复制代码

from re import sub
from re import compile
from time import sleep
from parsel import Selector
import tomd
from requests import get

def spider_csdn(url, ccs_head, css_text):
    """
    ccs_head  标题的class
    css_text  文本的class
    """
    title_url = url
    if not title_url:
        print('错误', '请输入网址')
        sleep(5)
        return None
    head = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.52'}
    html = get(url=title_url, headers=head).text
    page = Selector(html)
    title = page.css('%s::text' % ccs_head).get()
    res = compile('[^一-龥^a-z^A-Z^0-9]')
    restr = ''
    res.sub(restr, title)
    content = page.css('%s' % css_text).get()
    content = sub('<a.*?a>', '', content)
    content = sub('<br>', '', content)
    content = sub('<li>', '', content)
    content = sub('</li>', '', content)
    content = sub('^#', '', content)
    content = sub('(<img.*?>)', '<p>\\1</p>', content)
    content = sub('loading="lazy"', '', content)
    texts = tomd.Tomd(content).markdown
    title = title.replace(' ', '')
    title = title.replace('\n', '')
    with open((title + '.md'), mode='w', encoding='utf-8') as (f):
        f.write('#' + title)
        f.write(texts)
        print('获取文章完成')
    import subprocess
    from os import getcwd
    addr = getcwd()
    subprocess.Popen('explorer %s' % addr)


if __name__ == '__main__':
    from pyperclip import paste
    url = paste()
    while True:
        if 'csdn.net/' in url:
            spider_csdn(url, '.title-article', 'article')
            input('按任意键继续 ')
            url = paste()
        elif 'bbsmax.com/' in url:
            spider_csdn(url, '.title', '.post-content')
            input('按任意键继续 ')
            url = paste()
        elif 'cnblogs.com/' in url:
            spider_csdn(url, '#cb_post_title_url > span', '.postBody')
            input('按任意键继续 ')
            url = paste()
        elif 'zhuanlan.zhihu.com/' in url:
            spider_csdn(url, '#root > div > main > div > article > header > h1', '#root > div > main > div > article > div.Post-RichTextContainer')
            input('按任意键继续 ')
            url = paste()
        elif 'weixin.qq.com/' in url:
            spider_csdn(url, '.rich_media_title', '/html/body/div[1]/div/div[1]/div[2]')
            input('按任意键继续 ')
            url = paste()
        elif 'juejin.cn/' in url:
            spider_csdn(url, '.article-title', '.article-content')
            input('按任意键继续 ')
            url = paste()
            continue
        else:
            print('你的剪切板不是文章的url，目前支持csdn,bbsmax,博客园,:下面是你的剪切板的内容\n%s' % url)
            input('按任意键继续 ')
            url = paste()

wbzb · 发表于 2021-6-2 11:35

提示: 作者被禁止或删除内容自动屏蔽

zxsbk · 发表于 2021-6-2 11:52

md好像看起来也不很舒服

wuboxun · 发表于 2021-6-2 11:55

谢谢楼主的分享

zxsbk · 发表于 2021-6-2 12:06

正好有用。

xixicoco · 发表于 2021-6-2 13:22

感谢，非常好用的工具

moonalong8 · 发表于 2021-6-2 13:23

如果可以支持微信公众好那就更好了，谢谢·~~

youximang · 发表于 2021-6-2 13:34

提示: 作者被禁止或删除内容自动屏蔽

wangdanq · 发表于 2021-6-2 13:43

谢谢楼主的分享

yq海枯石烂 · 发表于 2021-6-2 14:50

感谢分享

帐号		自动登录	找回密码
密码			注册[Register]

wbzb wbzb 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	wbzb 发表于 2021-6-2 11:35 《站点帮助文档》有什么问题来这里看看吧，这里有你想知道的内容！提示: 作者被禁止或删除内容自动屏蔽
wbzb wbzb 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	呼吁大家发布原创作品添加吾爱破解论坛标识！
	回复支持举报

[原创工具] 10月27号更新文章保存工具

免费评分

youximang youximang 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	youximang 发表于 2021-6-2 13:34 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报

[原创工具] 10月27号更新 文章保存工具

免费评分

[原创工具] 10月27号更新文章保存工具