txq0211 发表于 2022-4-2 23:04

爬虫之引导小白之菜鸟心法

本帖最后由 txq0211 于 2022-4-2 23:16 编辑

《菜鸟心法》
欲练神功
必先 * *
若不 * *
也能成功


关于爬虫入坑,似乎要会一门开发语言譬如Python。
只是作为业余爱好者,什么才叫会呢?
看着网上的一大堆教程,一堆要忽悠报班学习的,
好像要学好多基础,脑壳痛。
(最近有点忙,就拿前几天摸索的例子聊一聊)

一、天下文章一大抄
回想从小到大各种学习,好像我们学语文不需要记住整本词典,
从最开始学习一篇课文,然后通过那些课文来认识那些字。
我们写作文,貌似也是如此,从模仿开始。
于是便有了:
       (原文)                        (创作)
日照香炉生紫烟,         日照香炉生紫烟,
遥看瀑布挂前川。         李白来到烤鸭店。
飞流直下三千尺,         口水直流三千尺,   
疑是银河落九天。         摸摸口袋没带钱。


好诗,好诗,对仗工整,韵也压上了,写诗好像也挺简单的。
好像模仿别人的例子也不难,于是,我们可以开始第一步模仿。
爬虫之如何引导(忽悠)小白学爬虫
https://attach.52pojie.cn/forum/202203/29/144840o9ieeys4r20xf4yt.png
二、大象关冰箱需要几步?



做爬虫呢,模仿别人的例子,自己的想法呢,就像如何把大象关冰箱。
先不管自己有没有那么大的冰箱,先借别人的冰箱用用,
根据自己的想法,第一步如何、第二步如何、第三步如何。

于是东抄抄西抄抄,根据自己的想法便是有了第一篇爬虫帖子:
(在52抛砖引玉,大家评价也很确切)

爬虫之微信发送每天60秒读懂世界

虽然方法笨了点,但是好像也是这么回事,方法不重要,重要的是目标达成。
三、纸上得来终觉浅,绝知此事要躬行
根据自己的想法,东拼西凑,写出的爬虫好像也过得去。
哈哈,后面的创建到PPT部分完全百度抄的。

爬虫之历代版图保存及创建到ppt


有人回帖说,爬小姐姐的图片才是爬虫的动力来源。
好吧,爬小姐姐的图片比这个要稍微复杂点。
想练手的伙伴可以先拿这个爬虫前半部分尝尝鲜。
先在桌面新建一个文件夹,文件夹下建立一个譬如test.py的文件。
然后用小朋友学python的工具打开,试着复制下面我们跑一跑,

能跑能下载这些图片的话,可以尝试抄几遍。

import requests
import re

url = 'http://bbs.tianya.cn/post-no04-2163192-1.shtml'
response = requests.get(url).text
# 不管三七二十一,先抄,然后再百度了解正则表达式如何提取内容,我们需要提取啥内容,这么抄的逻辑是什么,想了解的变量可以print看看打印出来的是啥
maplists = re.findall('original="(.+?)"',response)
i=0
for maplist in maplists:
    map_res = requests.get(maplist)
    i += 1
    path = '%03d.jpg'%i
    with open(path,'wb') as f:
      f.write(map_res.content)
      print('已完成%03d张图片下载'%i)
十几行代码,可以快速爬上百张图片,瞬间可以提升学习的兴趣。
四、熟读唐诗三百首,不会作诗也会吟
关于大家好奇的如何批量爬小姐姐的壁纸?
理清逻辑,和手动一样,第一步:打开链接,第二步:获取图片位置,第三部:保存图片。

譬如,我们先来试试如何通过试着改一改前面这个例子,保存小姐姐的图片。


import requests
import re


url = 'https://www.bilibili.com/read/cv4535874/'
response = requests.get(url).text
maplists = re.findall('data-src="(.+?)"', response)
# 先打印获取的链接
print(maplists)
i = 0
for maplist in maplists:
    # 链接不完整,我们给它补全https://
    maplist = 'https:%s'%maplist
    print(maplist)
    map_res = requests.get(maplist)
    i += 1
    # 这里的图片是webp格式
    path = '%03d.webp' % i
    with open(path, 'wb') as f:
      f.write(map_res.content)
      print('已完成%03d张图片下载' % i)

这不,改改就成了。

txq0211 发表于 2022-5-13 10:22

lcldh 发表于 2022-5-13 09:18
评分收藏了,很好的学习思路。谢谢楼主分享。
请问楼主,可以出一个提取目录标题TXT的思路吗?谢谢

https://www.52pojie.cn/thread-1617083-1-1.html
有的

txq0211 发表于 2022-4-4 07:33

luxingyu329 发表于 2022-4-4 00:45
这是关键,去哪抄?我现在需要

万事不知找度娘。
遇到啥问题,根据自己的想法分解步骤。
报错,百度错误代码。

星光熠熠 发表于 2022-4-2 23:29

关键是还是没学会

txq0211 发表于 2022-4-2 23:37

星光熠熠 发表于 2022-4-2 23:29
关键是还是没学会

从简单的慢慢试着改改就好了

cfsxy 发表于 2022-4-3 05:20

谢谢分享

jffwoo 发表于 2022-4-3 07:40

一门语言想学号都不容易

愷龍 发表于 2022-4-3 08:03

及时追更楼主

beyond1994 发表于 2022-4-3 08:54

关注,期待持续更新

bdpqnumw 发表于 2022-4-3 09:04

原来是高级玩家,我只是来看爬虫的。告辞!

zm55555 发表于 2022-4-3 09:19

谢谢分享!

70manlyczj 发表于 2022-4-3 09:55

楼主很文艺嘛,期待更新
页: [1] 2 3 4
查看完整版本: 爬虫之引导小白之菜鸟心法