yuminghui 发表于 2022-2-14 00:29

关于小说网反爬的困惑

新人第一次发帖求助,关于版主小说的文字爬取,我看了大众和抖音的图片替代文字反爬,
发现版主的没有对应的字体库,想请问一下大佬这种情况爬取是一个什么思路


涛之雨 发表于 2022-2-14 07:07

图片保存下来ocr识别塞进去

Aurelion 发表于 2022-2-14 07:16

可以先取出所有图片型文字地址 之后用ocr转成文字 这种规整的图片文字识别率应该极高 然后把文字中穿插的图片代码替换成对应的汉字

kvstone 发表于 2022-2-14 08:20

直接页面截图ocr,识别率也不差

华鼠 发表于 2022-2-14 08:57

很想试一下,可惜没有网址

huashenzlf 发表于 2022-2-14 09:03

还是会有错别字,和字位置错乱

ronle 发表于 2022-2-14 09:04

其实这种识别下更好弄,连解密都不需要了

漁滒 发表于 2022-2-14 09:17

这个只能ocr识别,如果不是动态的话,你自己弄个映射库就可以

chaojiak47 发表于 2022-2-14 09:20

一个字一张图,我也是服了

chentest 发表于 2022-2-14 09:21

过来学习 一下
页: [1] 2 3
查看完整版本: 关于小说网反爬的困惑