python爬虫怎样下载这类文件呢？

少艾发表于 2020-8-6 13:04

最近想写个爬虫爬论文，但是有些网页没有文件的链接，如图一中有一个PDF链接的，但是点击这个链接不能直接下载文件，会跳转到图二的预览页面。预览页面有一个下载按键，但是查看源码找不到这个按钮的下载链接，所以不知道该怎么下载这个文件，想请教各位。

fanvalen 发表于 2020-8-6 17:35

跳转的地址就是下载地址你直接请求二进制写入储存为pdf格式就玩

fanvalen 发表于 2020-8-6 17:39

我看有些什么收费的鬼

少艾发表于 2020-8-6 17:58

fanvalen 发表于 2020-8-6 17:39
我看有些什么收费的鬼

有些文章要收费下载

天黑我隐身 发表于 2020-8-6 18:06

```
<body>
<iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0></iframe>
</body>
```
图2响应的页面其实就一个iframe，提取下载连接就好了

少艾发表于 2020-8-6 19:15

天黑我隐身发表于 2020-8-6 18:06
```

好的好的，谢谢

少艾发表于 2020-8-6 19:22

天黑我隐身发表于 2020-8-6 18:06
```

还想请问一下，是从这一段里面提取链接吗
<iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0>

少艾发表于 2020-8-6 19:23

天黑我隐身发表于 2020-8-6 18:06
```

还是只要提取界面一里面的链接就可以了

天黑我隐身 发表于 2020-8-6 23:22

少艾发表于 2020-8-6 19:22
还想请问一下，是从这一段里面提取链接吗

对
你看src的连接就是指向pdf文件，你可以用正则，或者beautifulsoup，总之拿到这串url再请求下载文件就好了

页: [1]

吾爱破解 - 52pojie.cn's Archiver

python爬虫怎样下载这类文件呢？