吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 969|回复: 8
收起左侧

[求助] python爬虫怎样下载这类文件呢?

[复制链接]
少艾 发表于 2020-8-6 13:04
最近想写个爬虫爬论文,但是有些网页没有文件的链接,如图一中有一个PDF链接的,但是点击这个链接不能直接下载文件,会跳转到图二的预览页面。预览页面有一个下载按键,但是查看源码找不到这个按钮的下载链接,所以不知道该怎么下载这个文件,想请教各位。

图一原页面

图一原页面

图二预览页面

图二预览页面

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

fanvalen 发表于 2020-8-6 17:35
跳转的地址就是下载地址 你直接请求二进制写入储存为pdf格式就玩
fanvalen 发表于 2020-8-6 17:39
 楼主| 少艾 发表于 2020-8-6 17:58
天黑我隐身 发表于 2020-8-6 18:06

    <body>
        <iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0></iframe>
    </body>

图2响应的页面其实就一个iframe,提取下载连接就好了
 楼主| 少艾 发表于 2020-8-6 19:15
天黑我隐身 发表于 2020-8-6 18:06
[md]```
       
               

好的好的,谢谢
 楼主| 少艾 发表于 2020-8-6 19:22
天黑我隐身 发表于 2020-8-6 18:06
[md]```
       
               

还想请问一下,是从这一段里面提取链接吗
<iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0>
 楼主| 少艾 发表于 2020-8-6 19:23
天黑我隐身 发表于 2020-8-6 18:06
[md]```
       
               

还是只要提取界面一里面的链接就可以了
天黑我隐身 发表于 2020-8-6 23:22
少艾 发表于 2020-8-6 19:22
还想请问一下,是从这一段里面提取链接吗


你看src的连接就是指向pdf文件,你可以用正则,或者beautifulsoup,总之拿到这串url再请求下载文件就好了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 13:50

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表