collinchen1218 发表于 2023-11-28 21:52

问一个python爬取的问题

举个例子,现在有三篇古文(实际是200多篇)要从网上爬取,但是直接爬取百度内容会不全或重复,请问如何批量处理
1. 邴原泣学
2. 王冕僧寺夜读
3. 匡衡凿壁借光
现在举例的是三篇,我有200多篇,我应该如何处理,让python自动爬取全部的指定内容,麻烦指导一下,谢谢

T4DNA 发表于 2023-11-28 21:58

找一个古文网站写好爬虫,分别搜索,并保存没有爬到的,然后根据没有爬到的搜出第二个网站,直至全部获取。

wapjsx 发表于 2023-11-28 21:59

需要有具体的场景的

loadwuai 发表于 2023-11-28 22:04

selenium 爬怎么也比你手动快。

collinchen1218 发表于 2023-11-28 22:05

T4DNA 发表于 2023-11-28 21:58
找一个古文网站写好爬虫,分别搜索,并保存没有爬到的,然后根据没有爬到的搜出第二个网站,直至全部获取。

不是每一篇都在某一个特定网站上有的

d8349565 发表于 2023-11-28 22:06

https://github.com/chinese-poetry/chinese-poetry
https://s3.bmp.ovh/imgs/2023/11/28/015ed30c94c2302f.png

T4DNA 发表于 2023-11-28 22:06

collinchen1218 发表于 2023-11-28 22:05
不是每一篇都在某一个特定网站上有的

对啊,所以我说的是先确定一个,然后筛选,然后下一个啊

phantom789 发表于 2023-11-28 22:12

建一个空列表存古文名,爬取一首诗前,先获取古文的名称,对比列表中是否存在这个古诗名,没有就先爬取全文,保证全文都完整爬完后再将古文名加入到列表,有就不爬。这个是单线程的爬。你可以根据实际需要找一个好点的自动化的爬虫工具,八爪鱼啥的,或者换个专门搜古文的网站里爬。

1024A1024 发表于 2023-11-28 22:18

几个网址一起爬,查重吧

hwjqc 发表于 2023-11-29 08:06

不错不错
页: [1] 2
查看完整版本: 问一个python爬取的问题