问一个python爬取的问题

collinchen1218 发表于 2023-11-28 21:52

举个例子，现在有三篇古文（实际是200多篇）要从网上爬取，但是直接爬取百度内容会不全或重复，请问如何批量处理
1. 邴原泣学
2. 王冕僧寺夜读
3. 匡衡凿壁借光
现在举例的是三篇，我有200多篇，我应该如何处理，让python自动爬取全部的指定内容，麻烦指导一下，谢谢

T4DNA 发表于 2023-11-28 21:58

找一个古文网站写好爬虫，分别搜索，并保存没有爬到的，然后根据没有爬到的搜出第二个网站，直至全部获取。

wapjsx 发表于 2023-11-28 21:59

需要有具体的场景的

loadwuai 发表于 2023-11-28 22:04

selenium 爬怎么也比你手动快。

collinchen1218 发表于 2023-11-28 22:05

T4DNA 发表于 2023-11-28 21:58
找一个古文网站写好爬虫，分别搜索，并保存没有爬到的，然后根据没有爬到的搜出第二个网站，直至全部获取。

不是每一篇都在某一个特定网站上有的

d8349565 发表于 2023-11-28 22:06

https://github.com/chinese-poetry/chinese-poetry
https://s3.bmp.ovh/imgs/2023/11/28/015ed30c94c2302f.png

T4DNA 发表于 2023-11-28 22:06

collinchen1218 发表于 2023-11-28 22:05
不是每一篇都在某一个特定网站上有的

对啊，所以我说的是先确定一个，然后筛选，然后下一个啊

phantom789 发表于 2023-11-28 22:12

建一个空列表存古文名，爬取一首诗前，先获取古文的名称，对比列表中是否存在这个古诗名，没有就先爬取全文，保证全文都完整爬完后再将古文名加入到列表，有就不爬。这个是单线程的爬。你可以根据实际需要找一个好点的自动化的爬虫工具，八爪鱼啥的，或者换个专门搜古文的网站里爬。

1024A1024 发表于 2023-11-28 22:18

几个网址一起爬，查重吧

hwjqc 发表于 2023-11-29 08:06

不错不错

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver