燕子696 发表于 2021-7-15 16:06

【Python】来一个最简单的爬虫

本教程请使用Python语言,我们一共分为4部分,简简单单完成网页数据抓爬

#导入requests库和re库
import requests
import re

#爬取网页源代码
url = 'https://movie.douban.com/chart'
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'
}
response = requests.get(url,headers=headers)
html_str = response.text

#网页源代码解析
pattern = re.compile('class="nbg".*?title="(.*?)"')
results = re.findall(pattern,html_str)

#保存数据到本地
with open('douban.txt','w',encoding='utf-8') as f:
    for r in results:
      f.write(r+'\n')

aijiaxiaoxue 发表于 2021-8-24 20:54

#同时取评分 可以这样写:
pattern = re.compile(r'class="nbg".*?title="(.*?)"|.*?<span class="pl">(.*?)</span>')

#最后写入部分
with open('douban.txt','w',encoding='utf-8') as f:
    for r,j in results:
      f.write(r+ j+'\n')

iamshy520 发表于 2021-11-29 14:41

dreamrise 发表于 2021-11-29 11:02
返回的内容只是括号里面的内容: " ( 括号里面的内容 ) "

好吧,原来是python会优先返回括号内的,把括号去掉就成了class="nbg" href="https://movie.douban.com/subject/26897885/"title="芬奇"这种了

bdcpc 发表于 2021-7-15 16:31

真的简单,但还是没看懂。

三滑稽甲苯 发表于 2021-7-15 16:38

确实可以用,建议添加爬取评分的功能

chenblazy 发表于 2021-7-15 20:06

还不错,学习

燕子696 发表于 2021-7-15 20:58

三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能
最简单的爬虫~
评分,可以研究研究哦

逆风123 发表于 2021-7-16 10:28

三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能

老哥你这个是啥软件

三滑稽甲苯 发表于 2021-7-16 11:22

逆风123 发表于 2021-7-16 10:28
老哥你这个是啥软件

Visual Studio Code

无时顾及 发表于 2021-7-16 20:08

简单代码就实现了功能{:1_921:}

xsw1000 发表于 2021-7-16 22:02

不错,学习了

武胜造纸农 发表于 2021-7-30 12:52

简单易懂,
不错,学习了
页: [1] 2
查看完整版本: 【Python】来一个最简单的爬虫