susheng 发表于 2022-11-6 12:28

批量下载公众号文章内容/音频/视频

本帖最后由 susheng 于 2022-11-6 19:11 编辑

很多人没区分话题和模板地址,话题地址类似这个https://mp.weixin.qq.com/mp/appmsgalbum ,用https://wwn.lanzouy.com/iMrNE0dw3ekd 这个下载。
之前发过帖子批量下载公众号文章内容/音频/视频 ,这次增加了页面模板批量下载,比如支付宝这个模板:







打开软件 https://wwk.lanzoue.com/icAqd0fbyeni 输入模板地址即可下载:



第2次下载会跳过已经下载过的文章:

再用这个html批量转pdf工具https://wwk.lanzouf.com/iSpV90fbtpqh



还生成了一个文章列表excel,包含文章日期,文章标题,文章链接和文章封面。


部分代码如下:

def down(begin,count):
      url2=url.replace('#wechat_redirect','')
      url_home = f'{url2}&begin={begin}&count={count}&action=appmsg_list&f=json&r=0.26146868035616433&appmsg_token='
      res = requests.post(url_home,headers=headers,verify=False).json()
      for i in res['appmsg_list']:
                if html.unescape(i['link']) in urls:
                        print('已经下载过文章:'+html.unescape(i['link']))
                        continue
                data = requests.get(i['link'],headers=headers,verify=False)
                content = data.text.replace('data-src', 'src')
                try:
                        date = time.strftime('%Y-%m-%d', time.localtime(int(i['sendtime'])))
                        title = i['title']
                        print('正在下载文章:',title,i['link'])
                        with open(date+'_'+trimName(title)+'.html', 'w', encoding='utf-8') as f:
                              f.write(content)
                except Exception as e:
                        with open(str(randint(1,10))+'.html', 'w', encoding='utf-8') as f:
                              f.write(content)
                        print('错误信息:',e)
                with open(fname, 'a+', encoding=encoding) as f2:
                        f2.write(date+','+title + ','+i['author'] + ','+i['digest'] + ','+html.unescape(i['link'])+ ','+i['cover']+'\n')

susheng 发表于 2022-11-6 15:35

故事边缘的人 发表于 2022-11-6 15:08
https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&album_id=1329179077730959360&__biz=MzAxMjI ...

这个是话题,用这个 https://wwn.lanzouy.com/iMrNE0dw3ekd

susheng 发表于 2022-11-6 20:23

lhp369 发表于 2022-11-6 15:33
我发现上个版本有的话题合集可以全部下载,有的是只能下载前10篇或者20,请问这个我个人怎么可以解决。
ht ...

看来下有点麻烦,我干脆帮你把这个号2022年的所有文章下载了https://www.aliyundrive.com/s/6XkhQXbTEt9

susheng 发表于 2022-11-11 23:12

福爷 发表于 2022-11-11 11:18
楼主你好,工具测试成功,可以批量下载,但是用那个html转pdf工具时,转换不了,求解决。提示如下图:

安装这个https://wkhtmltopdf.org/downloads.html   加入环境变量。

cbkxh 发表于 2022-11-6 14:25

什么是模板地址,小白不懂啊

susheng 发表于 2022-11-8 20:28

520Sakura 发表于 2022-11-8 10:26
可以搞定评论吗

可以,不过没法像文章一样下。

susheng 发表于 2022-12-7 21:02

SimonXQM 发表于 2022-12-7 15:58
https://mp.weixin.qq.com/s/vmwhw_MJ0k6w60mKMGogFw
这个网页闪退,麻烦谁能下载视频

我测试下载没问题

玉刺猬 发表于 2022-11-27 18:44

下载话题 闪退

lhp369 发表于 2022-11-6 21:44

susheng 发表于 2022-11-6 20:23
看来下有点麻烦,我干脆帮你把这个号2022年的所有文章下载了https://www.aliyundrive.com/s/6XkhQXbTEt ...

感谢楼主,

竹轩 发表于 2022-11-6 17:39

WX公众号里确实有不少的好文章,改天试下。多谢LZ分享

故事边缘的人 发表于 2022-11-6 15:08

susheng 发表于 2022-11-6 14:58
发链接看看。

https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&album_id=1329179077730959360&__biz=MzAxMjI2ODk2MQ==&scene=21#wechat_redirect
提供一个给楼主测试看看

故事边缘的人 发表于 2022-11-6 15:07

susheng 发表于 2022-11-6 14:58
发链接看看。

好像软件不是通用的,有些链接不行,测试了差不多4个公众号,有2个中的部分可以,然后楼主提供的支付宝这个确实是可以的,貌似不支持的就直接闪退了

susheng 发表于 2022-11-6 14:58

故事边缘的人 发表于 2022-11-6 14:45
输入网址后已确定就闪退,使用管理员以及兼容模式打开均不行,系统:window10 64位。

发链接看看。

2xinyu 发表于 2022-11-6 14:44

收藏起来慢慢看

开心长寿果 发表于 2022-11-6 12:39

谢谢分享,已下载

supernox 发表于 2022-11-6 13:08

谢谢楼主分享~~~~~~

alchu4n 发表于 2022-11-6 13:29

感谢分享。好人1024 ,很有用的小脚本

Phantom可 发表于 2022-11-6 13:38

能下载成别的格式么?

susheng 发表于 2022-11-6 13:39

Phantom可 发表于 2022-11-6 13:38
能下载成别的格式么?

什么其他格式

花甲三盘 发表于 2022-11-6 14:00

输入完一回车就退出是什么原因

hbxtzkm 发表于 2022-11-6 14:06

闪退是什么情况

susheng 发表于 2022-11-6 14:40

hbxtzkm 发表于 2022-11-6 14:06
闪退是什么情况

肯定是地址不对,发来看看
页: [1] 2 3 4 5 6 7 8 9 10
查看完整版本: 批量下载公众号文章内容/音频/视频