python爬虫怎样下载这类文件呢?
最近想写个爬虫爬论文,但是有些网页没有文件的链接,如图一中有一个PDF链接的,但是点击这个链接不能直接下载文件,会跳转到图二的预览页面。预览页面有一个下载按键,但是查看源码找不到这个按钮的下载链接,所以不知道该怎么下载这个文件,想请教各位。 跳转的地址就是下载地址 你直接请求二进制写入储存为pdf格式就玩 我看有些什么收费的鬼 fanvalen 发表于 2020-8-6 17:39我看有些什么收费的鬼
有些文章要收费下载
```
<body>
<iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0></iframe>
</body>
```
图2响应的页面其实就一个iframe,提取下载连接就好了 天黑我隐身 发表于 2020-8-6 18:06
```
好的好的,谢谢 天黑我隐身 发表于 2020-8-6 18:06
```
还想请问一下,是从这一段里面提取链接吗
<iframe src="https://ieeexplore.ieee.org/ielx7/6287639/8948470/09075175.pdf?tp=&arnumber=9075175&isnumber=8948470&ref=" frameborder=0> 天黑我隐身 发表于 2020-8-6 18:06
```
还是只要提取界面一里面的链接就可以了 少艾 发表于 2020-8-6 19:22
还想请问一下,是从这一段里面提取链接吗
对
你看src的连接就是指向pdf文件,你可以用正则,或者beautifulsoup,总之拿到这串url再请求下载文件就好了
页:
[1]