少艾 发表于 2020-8-6 13:04

python爬虫怎样下载这类文件呢?

最近想写个爬虫爬论文,但是有些网页没有文件的链接,如图一中有一个PDF链接的,但是点击这个链接不能直接下载文件,会跳转到图二的预览页面。预览页面有一个下载按键,但是查看源码找不到这个按钮的下载链接,所以不知道该怎么下载这个文件,想请教各位。

fanvalen 发表于 2020-8-6 17:35

跳转的地址就是下载地址 你直接请求二进制写入储存为pdf格式就玩

fanvalen 发表于 2020-8-6 17:39

我看有些什么收费的鬼

少艾 发表于 2020-8-6 17:58

fanvalen 发表于 2020-8-6 17:39
我看有些什么收费的鬼

有些文章要收费下载

天黑我隐身 发表于 2020-8-6 18:06


```
        <body>
                <iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0></iframe>
        </body>
```
图2响应的页面其实就一个iframe,提取下载连接就好了

少艾 发表于 2020-8-6 19:15

天黑我隐身 发表于 2020-8-6 18:06
```
       
               


好的好的,谢谢

少艾 发表于 2020-8-6 19:22

天黑我隐身 发表于 2020-8-6 18:06
```
       
               


还想请问一下,是从这一段里面提取链接吗
<iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0>

少艾 发表于 2020-8-6 19:23

天黑我隐身 发表于 2020-8-6 18:06
```
       
               


还是只要提取界面一里面的链接就可以了

天黑我隐身 发表于 2020-8-6 23:22

少艾 发表于 2020-8-6 19:22
还想请问一下,是从这一段里面提取链接吗


你看src的连接就是指向pdf文件,你可以用正则,或者beautifulsoup,总之拿到这串url再请求下载文件就好了
页: [1]
查看完整版本: python爬虫怎样下载这类文件呢?