关于小说网反爬的困惑
新人第一次发帖求助,关于版主小说的文字爬取,我看了大众和抖音的图片替代文字反爬,发现版主的没有对应的字体库,想请问一下大佬这种情况爬取是一个什么思路
图片保存下来ocr识别塞进去 可以先取出所有图片型文字地址 之后用ocr转成文字 这种规整的图片文字识别率应该极高 然后把文字中穿插的图片代码替换成对应的汉字 直接页面截图ocr,识别率也不差 很想试一下,可惜没有网址 还是会有错别字,和字位置错乱
其实这种识别下更好弄,连解密都不需要了 这个只能ocr识别,如果不是动态的话,你自己弄个映射库就可以 一个字一张图,我也是服了 过来学习 一下