吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2135|回复: 5
收起左侧

[Python 转载] 【好好学爬虫2】用requests爬取豆瓣电影详情数据

  [复制链接]
雨晨 发表于 2022-1-28 22:43
豆瓣电影地址:https://movie.douban.com/typeran ... l_id=100:90&action=
需求:爬取电影详情数据,如电影名,演员,评分等
工具:谷歌浏览器抓包工具  按F12调取出来
分析:1、判断网站是否是动态加载  这里是局部搜索
image.png
是动态加载有去哪里找数据昵? 这个为全局搜索

image.png

找到我们要的数据了
我们把数据复制到https://www.json.cn/json/jsononline.html  JSON解析下数据
image.png

数据存在字典里面的
点击Headers
找到请求链接:https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90&action=&start=0&limit=20
top_list后面的都是请求参数
请求参数在哪里找呢?
image.png
请求链接https://movie.douban.com/j/chart/top_list


下面我们开始写代码

import requests  #导入模块
#请求地址
url="https://movie.douban.com/j/chart/top_list"
#UA伪装
heads={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36"
}
#请求参数
paems={
    "type":"13",
    "interval_id": "100:90",
    "action":" ",
    "start": "80",
    "limit": "20"
}
#发起请求
reqs=requests.get(url=url,headers=heads,params=paems)
#获取响应数据
#json()可以将获取到的json格式的字符串进行反序列化
reqs_text=reqs.json()
print(reqs_text)
#打开一个文件,自动创建
fp=open("./豆瓣电影详情.txt","w",encoding="utf-8")
#循环拿到想要的数据
for dic in reqs_text:
    title=dic["title"]
    year=dic["release_date"]
    actors=dic["actors"]
    fp.write(f"电影名:{title},年份:{year},演员:{actors}\n")
    print(title,"爬取成功")
#关闭文件
fp.close()

reqs_text里的数据是一个字典,循环取出字典中的值

如果有不到位的地方请海涵

免费评分

参与人数 4吾爱币 +5 热心值 +3 收起 理由
won-der-ful + 1 + 1 谢谢@Thanks!
tudigeming + 2 + 1 一定要继续更新呀
lxhyjr + 1 + 1 谢谢@Thanks!
bin123007 + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

1039468583 发表于 2022-1-28 23:06
哈哈哈 豆瓣  好像是爬虫第一课
chenkeai深蓝 发表于 2022-1-29 09:35
du2009 发表于 2022-1-29 10:02
亲测有效,就是感觉放在txt文档里不是很好查看。
dipper 发表于 2022-1-29 12:19
很不错的教程
ing512138 发表于 2022-1-29 13:34
一看这个就想起正则表达式
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 08:31

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表