吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 931|回复: 9
收起左侧

[求助] 单个爬取实现,怎样批量爬取

[复制链接]
521zlx 发表于 2024-1-5 21:35
我现在只会爬取一个案例,不知道怎么批量爬取,请教一下大佬!
微信图片_20240105213444.png
微信图片_20240105213246.png

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

frankiy52 发表于 2024-1-5 22:01
通过URL解析得知,文章页面地址具有一定的规律性,比如:

分类:
物体打击: http://www.safehoo.com/Case/Case/Hit/
起重伤害:http://www.safehoo.com/Case/Case/Crane/
机械伤害:http://www.safehoo.com/Case/Case/Machine/

文章地址可以通过枚举分类下的页面URL 得到,然后对URL进行批量采集后,再爬取即可。不是很复杂。
鬼手56 发表于 2024-1-5 22:03
329337656 发表于 2024-1-5 22:18
封装成方法,然后将变动的参数传到方法里执行,用循环去调用,返回自己所需要的内容,觉得慢就拓展开来,格局打开,加上多线程执行循环~~
才不是弱受 发表于 2024-1-5 22:29
到文章列表页面开始爬,可以拿到详情页的url,拼接一下就可以拿到了

import requests
from lxml import etree

url = 'https://www.safehoo.com/Case/Case/Collapse/List_46.shtml'

response = requests.get(url)

response.encoding=response.apparent_encoding
et = etree.HTML(response.text)

index_list=et.xpath('//div[@class="childclass_content"]/li')
for i in index_list:
    index_title=i.xpath('.//a/text()')[0]
    index_url=i.xpath('.//a/@href')[0]
    print(f'详情页链接:https://www.safehoo.com{index_url},文章标题:{index_title}')




1111.png
FruitBaby 发表于 2024-1-5 22:49
多线程性能更好
sai609 发表于 2024-1-6 09:41
for循环函数
AronnaxM 发表于 2024-1-6 09:57
可以找到链接规律,在循环体中每次爬取后更新下一次爬取的地址。
milu1123 发表于 2024-1-6 10:57
//div[@class='lm_lb']/span/a/@href      找这个元素(下一页)这个可以一直找到最后一页
zxmak47 发表于 2024-1-6 14:29
多线程下载,学习学习
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-1-10 12:29

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表