问一个python爬取的问题
举个例子,现在有三篇古文(实际是200多篇)要从网上爬取,但是直接爬取百度内容会不全或重复,请问如何批量处理1. 邴原泣学
2. 王冕僧寺夜读
3. 匡衡凿壁借光
现在举例的是三篇,我有200多篇,我应该如何处理,让python自动爬取全部的指定内容,麻烦指导一下,谢谢 找一个古文网站写好爬虫,分别搜索,并保存没有爬到的,然后根据没有爬到的搜出第二个网站,直至全部获取。 需要有具体的场景的 selenium 爬怎么也比你手动快。 T4DNA 发表于 2023-11-28 21:58
找一个古文网站写好爬虫,分别搜索,并保存没有爬到的,然后根据没有爬到的搜出第二个网站,直至全部获取。
不是每一篇都在某一个特定网站上有的 https://github.com/chinese-poetry/chinese-poetry
https://s3.bmp.ovh/imgs/2023/11/28/015ed30c94c2302f.png collinchen1218 发表于 2023-11-28 22:05
不是每一篇都在某一个特定网站上有的
对啊,所以我说的是先确定一个,然后筛选,然后下一个啊 建一个空列表存古文名,爬取一首诗前,先获取古文的名称,对比列表中是否存在这个古诗名,没有就先爬取全文,保证全文都完整爬完后再将古文名加入到列表,有就不爬。这个是单线程的爬。你可以根据实际需要找一个好点的自动化的爬虫工具,八爪鱼啥的,或者换个专门搜古文的网站里爬。 几个网址一起爬,查重吧 不错不错
页:
[1]
2