吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3542|回复: 19
收起左侧

[Python 转载] 【Python】来一个最简单的爬虫

[复制链接]
燕子696 发表于 2021-7-15 16:06
本教程请使用Python语言,我们一共分为4部分,简简单单完成网页数据抓爬

[Python] 纯文本查看 复制代码
#导入requests库和re库
import requests 
import re

#爬取网页源代码
url = 'https://movie.douban.com/chart' 
headers = {
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0'
}
response = requests.get(url,headers=headers)
html_str = response.text

#网页源代码解析
pattern = re.compile('class="nbg".*?title="(.*?)"')
results = re.findall(pattern,html_str)

#保存数据到本地
with open('douban.txt','w',encoding='utf-8') as f:
    for r in results:
        f.write(r+'\n')

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
itcar + 1 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

aijiaxiaoxue 发表于 2021-8-24 20:54
[Python] 纯文本查看 复制代码
#同时取评分 可以这样写:
pattern = re.compile(r'class="nbg".*?title="(.*?)"|.*?<span class="pl">(.*?)</span>')

#最后写入部分
with open('douban.txt','w',encoding='utf-8') as f:
    for r,j in results:
        f.write(r+ j+'\n')

iamshy520 发表于 2021-11-29 14:41
dreamrise 发表于 2021-11-29 11:02
返回的内容只是括号里面的内容: " ( 括号里面的内容 ) "

好吧,原来是python会优先返回括号内的,把括号去掉就成了class="nbg" href="https://movie.douban.com/subject/26897885/"  title="芬奇"这种了
bdcpc 发表于 2021-7-15 16:31
三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能
屏幕截图 2021-07-15 163825.png
chenblazy 发表于 2021-7-15 20:06
还不错,学习
 楼主| 燕子696 发表于 2021-7-15 20:58
三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能

最简单的爬虫~
评分,可以研究研究哦
逆风123 发表于 2021-7-16 10:28
三滑稽甲苯 发表于 2021-7-15 16:38
确实可以用,建议添加爬取评分的功能

老哥你这个是啥软件
三滑稽甲苯 发表于 2021-7-16 11:22
逆风123 发表于 2021-7-16 10:28
老哥你这个是啥软件

Visual Studio Code
无时顾及 发表于 2021-7-16 20:08
简单代码就实现了功能
xsw1000 发表于 2021-7-16 22:02
不错,学习了
武胜造纸农 发表于 2021-7-30 12:52
简单易懂,
不错,学习了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 10:06

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表