【Python】来一个最简单的爬虫

燕子696 发表于 2021-7-15 16:06

本教程请使用Python语言，我们一共分为4部分，简简单单完成网页数据抓爬

#导入requests库和re库
import requests
import re

#爬取网页源代码
url = 'https://movie.douban.com/chart'
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'
}
response = requests.get(url,headers=headers)
html_str = response.text

#网页源代码解析
pattern = re.compile('class="nbg".*?title="(.*?)"')
results = re.findall(pattern,html_str)

#保存数据到本地
with open('douban.txt','w',encoding='utf-8') as f:
for r in results:
f.write(r+'\n')

aijiaxiaoxue 发表于 2021-8-24 20:54

#同时取评分可以这样写：
pattern = re.compile(r'class="nbg".*?title="(.*?)"|.*?<span class="pl">(.*?)</span>')

#最后写入部分
with open('douban.txt','w',encoding='utf-8') as f:
for r,j in results:
f.write(r+ j+'\n')

iamshy520 发表于 2021-11-29 14:41

dreamrise 发表于 2021-11-29 11:02
返回的内容只是括号里面的内容: " ( 括号里面的内容 ) "

好吧，原来是python会优先返回括号内的，把括号去掉就成了class="nbg" href="https://movie.douban.com/subject/26897885/"title="芬奇"这种了

bdcpc 发表于 2021-7-15 16:31

真的简单，但还是没看懂。

三滑稽甲苯 发表于 2021-7-15 16:38

确实可以用，建议添加爬取评分的功能

chenblazy 发表于 2021-7-15 20:06

还不错，学习

燕子696 发表于 2021-7-15 20:58

三滑稽甲苯发表于 2021-7-15 16:38
确实可以用，建议添加爬取评分的功能
最简单的爬虫~
评分，可以研究研究哦

逆风123 发表于 2021-7-16 10:28

三滑稽甲苯发表于 2021-7-15 16:38
确实可以用，建议添加爬取评分的功能

老哥你这个是啥软件

三滑稽甲苯 发表于 2021-7-16 11:22

逆风123 发表于 2021-7-16 10:28
老哥你这个是啥软件

Visual Studio Code

无时顾及 发表于 2021-7-16 20:08

简单代码就实现了功能{:1_921:}

xsw1000 发表于 2021-7-16 22:02

不错，学习了

武胜造纸农 发表于 2021-7-30 12:52

简单易懂，
不错，学习了

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

【Python】来一个最简单的爬虫