【Python】来一个最简单的爬虫
本教程请使用Python语言,我们一共分为4部分,简简单单完成网页数据抓爬#导入requests库和re库
import requests
import re
#爬取网页源代码
url = 'https://movie.douban.com/chart'
headers = {
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'
}
response = requests.get(url,headers=headers)
html_str = response.text
#网页源代码解析
pattern = re.compile('class="nbg".*?title="(.*?)"')
results = re.findall(pattern,html_str)
#保存数据到本地
with open('douban.txt','w',encoding='utf-8') as f:
for r in results:
f.write(r+'\n') #同时取评分 可以这样写:
pattern = re.compile(r'class="nbg".*?title="(.*?)"|.*?<span class="pl">(.*?)</span>')
#最后写入部分
with open('douban.txt','w',encoding='utf-8') as f:
for r,j in results:
f.write(r+ j+'\n')
dreamrise 发表于 2021-11-29 11:02
返回的内容只是括号里面的内容: " ( 括号里面的内容 ) "
好吧,原来是python会优先返回括号内的,把括号去掉就成了class="nbg" href="https://movie.douban.com/subject/26897885/"title="芬奇"这种了 真的简单,但还是没看懂。 确实可以用,建议添加爬取评分的功能
还不错,学习 三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能
最简单的爬虫~
评分,可以研究研究哦 三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能
老哥你这个是啥软件
逆风123 发表于 2021-7-16 10:28
老哥你这个是啥软件
Visual Studio Code 简单代码就实现了功能{:1_921:} 不错,学习了 简单易懂,
不错,学习了
页:
[1]
2