吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2539|回复: 9
收起左侧

[Python 原创] python爬虫爬取高清电脑壁纸

[复制链接]
wxxwjy 发表于 2022-12-15 10:08
本帖最后由 wxxwjy 于 2022-12-15 13:09 编辑

学习爬虫一个星期,没看教程自己写了一个
大佬勿喷,多给些鼓励和建议,嘻嘻
网站url: https://bing.ioliu.cn/
用到的库:requests   pyquery  time
第一步:添加用到的库
1671068693101.jpg
第二步:请求到网页拿到源码,就是加了个代{过}{滤}理ip,和请求头(本来想用params添加cookics 和 请求头来着,访问了一下拿不到源码),只加请求头就拿到源码了,有点奇怪。
image.png
第三步:解析源码pyquery真的好简单,直接拿到图片的链接在img的src里,有个地方注意一下直接拿img会多出一条来里边没有src,直接拿img加上class的内容会取不到内容,所以就先取了div又拿到的img
image.png
最后一步:保存和防封ip,都很简单,防封就是让程序休息几秒,刚开始也没什么数就随便写了个2
image.png
自动翻页的代码没加(思路就是查看每页的url得到之间的关系,拼出url再在最外边套一层循环),昨天学了pymongo数据库后期会存到数据库里,到此程序就完成了,这是我分析的第一个网站,在此纪念一下,感谢52pojie论坛给我的知识和分享的喜悦,
1671080955221.png

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| wxxwjy 发表于 2022-12-15 10:39
本帖最后由 wxxwjy 于 2022-12-15 10:42 编辑

翻页代码在这里了,很简单,把mun图片命名的计数变量拿出来防止名字重复就行了。图片的名字也可从网页源代码里扒拉出来,我没拿有兴趣可以自己试试,只加了前三页哦~
1671072153360.jpg
z1872428255 发表于 2022-12-15 15:31
zeh521 发表于 2022-12-15 15:52
 楼主| wxxwjy 发表于 2022-12-15 16:42
仔细看了pyqery的使用方法    这个img可以直接拿到,img.class的内容就可直接拿到了,如果两者之间加了空格就是查找子孙节点class为。。。的节点了
csf2022 发表于 2022-12-16 11:51
一个星期就学会啦?这么牛的吗?没有一点基础也能做到吗?
 楼主| wxxwjy 发表于 2022-12-16 15:00
csf2022 发表于 2022-12-16 11:51
一个星期就学会啦?这么牛的吗?没有一点基础也能做到吗?

之前没方向,看过两本书,(python基础的一本书写了个小游戏当时)这个还是有用的,(看过B站黑马的C++视频,本科学过c)这俩没大用感觉,其余没了,乱学的多(精神内耗严重)
a2604273891 发表于 2022-12-17 16:47
感谢,学习了
heang567 发表于 2022-12-21 09:12
感谢大佬分享,谢谢
dabiaoge144 发表于 2023-4-1 19:49
问下楼主哪里学的课程,分享一下我也想学习了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 23:28

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表