好友
阅读权限10
听众
最后登录1970-1-1
|
吾爱的朋友们,大家好:
我在学习使用selenium爬取图片时遇到了一些问题,想求助一下大家。
具体说就是爬取的网站有权限认证,比如在发请求:?response-content-disposition=attachment
应该是直接获取图片的数据 但是会提示没有权限访问该页面 应该是请求字符串response-content-disposition=attachment 的问题
请问这个请求字符串一般存贮在哪里?
或者说大家是怎么爬取带权限认证的数据的?
希望有大哥解答一下,万分感谢!
from selenium import webdriver
from lxml import etree
from selenium.webdriver.chrome.service import Service
import requests
import time
path = Service('D:\\Python\\project\\Spyder\\resources\\chromedriver.exe')
broswer = webdriver.Chrome(service=path)
url = 'https://bz.zzzmh.cn/index'
res = broswer.get(url=url)
broswer.implicitly_wait(10)
span_button = broswer.find_element_by_xpath(
'//*[@id="app"]/div/main/div/div/div/div[2]/div/span[2]/a[@]')
span_button.click()
html = broswer.page_source
page_text = etree.HTML(html)
a_list = page_text.xpath(
'//*[@id="app"]/div/main/div/div/div/div[2]/div/span[2]/a/@href')
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0,Win64,x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.41'
}
# print(broswer.get_cookies())
broswer.implicitly_wait(10)
time.sleep(15)
# broswer.get(a_list[0])
# r1=broswer.page_source
# response = requests.get(a_list[0], headers=headers).content
time.sleep(5)
print(type(broswer.get(a_list[0])))
print(type(a_list),len(a_list),a_list[0])
broswer.close()
|
|
发帖前要善用【论坛搜索】功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。 |
|
|
|
|