吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 942|回复: 17
收起左侧

[求助] 为什么运行了爬取豆瓣电影排行榜的代码过后,没有打印出任何东西?

[复制链接]
chi666 发表于 2024-1-26 10:16
为什么运行了爬取豆瓣电影排行榜的代码过后,没有打印出任何东西?
image.png

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

wkdxz 发表于 2024-1-26 10:31
[Python] 纯文本查看 复制代码
#传一个UA进去试试

import requests

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.6045.160 Safari/537.36",
}
response = requests.get("https://movie.douban.com/top250", headers=headers)
html = response.text
if "霸王别" in html:
    print(html)
wapjsx 发表于 2024-1-26 11:04
本帖最后由 wapjsx 于 2024-1-26 11:06 编辑

[Python] 纯文本查看 复制代码
import requests
import bs4
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250',headers=headers)
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets = soup.find_all('div',class_='hd')
for each in targets:
    print(each.a.span.text)
soyadokio 发表于 2024-1-26 11:23
通过使用Py shell单行执行脚本可以知道还处于尚未入门的新手阶段,建议找个Python入门教程先跟着学一下基础语法。

不清楚你是想搞到豆瓣电影TOP250的数据,还是想要借此学习技术。
如果是前者,我找到一个别人爬好的,访问后按Ctrl+S保存就好了:https://raw.githubusercontent.com/dta0502/douban-top250/master/top250_movie.csv
如果是后者,建议找一个靠谱的教程,我搜索了一个看起来尚可的可供你参考:https://zhuanlan.zhihu.com/p/231532655

免费评分

参与人数 1热心值 +1 收起 理由
Aistar + 1 热心回复!

查看全部评分

哈利菜菜 发表于 2024-1-26 13:24
啊哈,跟我爬图片网站一样,得到一堆空文件夹,没有一张图片。百思不得其解
Do_zh 发表于 2024-1-26 13:34
你这代码有点高级哦。
davelu 发表于 2024-1-26 13:38
豆瓣现在已经防爬了吧
Thy 发表于 2024-1-26 14:21
本帖最后由 Thy 于 2024-1-26 14:23 编辑

单步debug就知道返回值不对,后面怎么解析都是错的,豆瓣这个建议你直接看个成品 b站搜scrapy,第一个千峰的视频快速过一遍也有文档
大白baymax 发表于 2024-1-26 15:30
楼主可以参考我写的代码
[Python] 纯文本查看 复制代码
import requests
import re

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 Edg/115.0.1901.188"
}

for i in range(0, 226, 25):
    zxcvzx = f"https://movie.douban.com/top250?start={i}&filter="
    response = requests.get(zxcvzx, headers=headers)
    a = re.findall("<img width=\"100\" alt=\"(.*?)\"", response.text, re.S)
    for vbn in a:
        print(vbn)
海是倒过来的天 发表于 2024-1-26 17:08
建议配置个PYCHARM开始学习
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-24 16:38

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表