好友
阅读权限10
听众
最后登录1970-1-1
|
本帖最后由 wusp1994 于 2021-11-11 11:15 编辑
想实现一个爬虫服务端,可以动态爬取包含,微信公号(壁纸、头像、文案)类的过万阅读的爬虫.
微信公众号文章爬取
话题:话题关键词["头像壁纸控", "头像","壁纸"]
#头像壁纸控 的网页列表链接
decodeURIComponent("url链接")
分析地址
网页URL编码链接
"https://mp.weixin.qq.com/mp/recommendtag?c1=&c2=&tag=%E5%A4%B4%E5%83%8F%E5%A3%81%E7%BA%B8%E6%8E%A7&msg_type=1&__biz=&mid=&idx=&sn=0Xs-nSHbtXlSVh0ivOqW5hjNMRY&ext=HDumE84jvgF82uPDsrG6fizKbvFWoZ0W3YVA33RuZKqMW7hV&cardid=49a86804c72021566ba9590c5082bdb2&exptype=unsubscribed_card_recommend_article_u2i_mainprocess_coarse_sort&tag_type=8&scene=1&subscene=1#wechat_redirect"
网页URL编码-转码后
"https://mp.weixin.qq.com/mp/recommendtag?c1=&c2=&tag=头像壁纸控&msg_type=1&__biz=&mid=&idx=&sn=0Xs-nSHbtXlSVh0ivOqW5hjNMRY&ext=HDumE84jvgF82uPDsrG6fizKbvFWoZ0W3YVA33RuZKqMW7hV&cardid=49a86804c72021566ba9590c5082bdb2&exptype=unsubscribed_card_recommend_article_u2i_mainprocess_coarse_sort&tag_type=8&scene=1&subscene=1#wechat_redirect"
替换关键词即可切换话题
话题页面
然后接下来就是使用
superagent作用是获取远程网址html的内容。
cheerio作用是可以通过jQ语法获取页面节点的内容。获取详情页面里面的图片
|
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|