【Python】来一个最简单的爬虫

燕子696 · 发表于 2021-7-15 16:06

本教程请使用Python语言，我们一共分为4部分，简简单单完成网页数据抓爬

[Python] 纯文本查看 复制代码

#导入requests库和re库
import requests 
import re

#爬取网页源代码
url = 'https://movie.douban.com/chart' 
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'
}
response = requests.get(url,headers=headers)
html_str = response.text

#网页源代码解析
pattern = re.compile('class="nbg".*?title="(.*?)"')
results = re.findall(pattern,html_str)

#保存数据到本地
with open('douban.txt','w',encoding='utf-8') as f:
    for r in results:
        f.write(r+'\n')

aijiaxiaoxue · 发表于 2021-8-24 20:54

[Python] 纯文本查看 复制代码

#同时取评分 可以这样写：
pattern = re.compile(r'class="nbg".*?title="(.*?)"|.*?<span class="pl">(.*?)</span>')

#最后写入部分
with open('douban.txt','w',encoding='utf-8') as f:
    for r,j in results:
        f.write(r+ j+'\n')

iamshy520 · 发表于 2021-11-29 14:41

dreamrise 发表于 2021-11-29 11:02
返回的内容只是括号里面的内容: " ( 括号里面的内容 ) "

好吧，原来是python会优先返回括号内的，把括号去掉就成了class="nbg" href="https://movie.douban.com/subject/26897885/" title="芬奇"这种了

bdcpc · 发表于 2021-7-15 16:31

真的简单，但还是没看懂。

三滑稽甲苯 · 发表于 2021-7-15 16:38

确实可以用，建议添加爬取评分的功能
屏幕截图 2021-07-15 163825.png

chenblazy · 发表于 2021-7-15 20:06

还不错，学习

燕子696 · 发表于 2021-7-15 20:58

三滑稽甲苯发表于 2021-7-15 16:38
确实可以用，建议添加爬取评分的功能

最简单的爬虫~
评分，可以研究研究哦

逆风123 · 发表于 2021-7-16 10:28

三滑稽甲苯发表于 2021-7-15 16:38
确实可以用，建议添加爬取评分的功能

老哥你这个是啥软件

三滑稽甲苯 · 发表于 2021-7-16 11:22

逆风123 发表于 2021-7-16 10:28
老哥你这个是啥软件

Visual Studio Code

无时顾及 · 发表于 2021-7-16 20:08

简单代码就实现了功能

xsw1000 · 发表于 2021-7-16 22:02

不错，学习了

武胜造纸农 · 发表于 2021-7-30 12:52

简单易懂，
不错，学习了

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 【Python】来一个最简单的爬虫

免费评分