吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 728|回复: 13
收起左侧

[求助] 问一个python爬取的问题

[复制链接]
collinchen1218 发表于 2023-11-28 21:52
举个例子,现在有三篇古文(实际是200多篇)要从网上爬取,但是直接爬取百度内容会不全或重复,请问如何批量处理
1. 邴原泣学
2. 王冕僧寺夜读
3. 匡衡凿壁借光

现在举例的是三篇,我有200多篇,我应该如何处理,让python自动爬取全部的指定内容,麻烦指导一下,谢谢

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
为之奈何? + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

T4DNA 发表于 2023-11-28 21:58
找一个古文网站写好爬虫,分别搜索,并保存没有爬到的,然后根据没有爬到的搜出第二个网站,直至全部获取。
wapjsx 发表于 2023-11-28 21:59
loadwuai 发表于 2023-11-28 22:04
 楼主| collinchen1218 发表于 2023-11-28 22:05
T4DNA 发表于 2023-11-28 21:58
找一个古文网站写好爬虫,分别搜索,并保存没有爬到的,然后根据没有爬到的搜出第二个网站,直至全部获取。

不是每一篇都在某一个特定网站上有的
d8349565 发表于 2023-11-28 22:06

免费评分

参与人数 1吾爱币 +2 热心值 +1 收起 理由
collinchen1218 + 2 + 1 感谢您的建议,可惜好像没有我适用的古文,爬取方法也不适合

查看全部评分

T4DNA 发表于 2023-11-28 22:06
collinchen1218 发表于 2023-11-28 22:05
不是每一篇都在某一个特定网站上有的

对啊,所以我说的是先确定一个,然后筛选,然后下一个啊
phantom789 发表于 2023-11-28 22:12
建一个空列表存古文名,爬取一首诗前,先获取古文的名称,对比列表中是否存在这个古诗名,没有就先爬取全文,保证全文都完整爬完后再将古文名加入到列表,有就不爬。这个是单线程的爬。你可以根据实际需要找一个好点的自动化的爬虫工具,八爪鱼啥的,或者换个专门搜古文的网站里爬。
1024A1024 发表于 2023-11-28 22:18
几个网址一起爬,查重吧
hwjqc 发表于 2023-11-29 08:06
不错不错

免费评分

参与人数 1吾爱币 -8 收起 理由
wushaominkk -8 请勿灌水,提高回帖质量是每位会员应尽的义务!

查看全部评分

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 18:33

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表