关于某讯漫画网页爬虫!!!!
里面用到的是js2py这个模块!!直接找个免费漫画点开一话分析静态页面会发现就一张图片的url!!而且抓包也抓不到剩下的图片链接!所以怀疑就是通过js来生成的!!接着翻静态页面会发现一个类似base64加密的东西!还有一个nonce
我第一次弄是夏天的时候用断点一步一步翻的还原js!我就不演示了!而且现在也改了还原函数生成方式但是函数名字没变一搜就搜到了!
今天我在一搜这个还原函数也改成js生成了!!!不管了直接复制出来!!
最后用js2py里面的 eval_js()方法 参数就是你 要执行的js记得是参数替换后的!!执行后返回一个字符串,用json模块序列化一下就拿到用当前话的所有图片了!
wty1641 发表于 2019-12-4 21:51
还是得动态爬,某讯动漫的网页图片是实时加载的,只要加载过就可以直接提取
不同的思路,等加载效率不高 还是得动态爬,某讯动漫的网页图片是实时加载的,只要加载过就可以直接提取
我是第一 没看懂不会便宜的{:1_918:} 国漫有啥好看的 大佬。。。 表示小白没有看懂 技术贴,支持一下 666谢谢大佬的分享!!!
页:
[1]
2