[python] 有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)
有什么办法可以爬取美国亚马逊网页数据(非selenium自动化),本人通过使用request请求,但是无法获取到美国亚马逊的源代码,请问有什么其他的方法可以爬吗 求助不行你得悬赏 这类大网站要爬很困难,因为成千上万人都有跟你一样的想法。。。能联系到领域的牛人还有可能 亚马逊这种大网站,肯定数据都是加密的,怎么可能这么轻松就获取,去悬赏应该有大佬回答 逛逛Pypi有惊喜 # -*- coding: utf-8 -*-import re
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from sqlalchemy import create_engine
import pandas as pd
if __name__ == '__main__':
n = 1
datas = []
while n < 3:
url = "https://www.amazon.co.jp/gp/bestsellers/computers/ref=zg_bs_pg_"+str(2)+"?ie=UTF8&pg="+str(2)
datas = []
htmls = requests.get(url).text
soup = BeautifulSoup(htmls,'lxml')
product = soup.find_all("li",{"class":"zg-item-immersion"})
for i in product:
aaa = i.find_all("span",{"class":"aok-inline-block zg-item"})
for y in aaa:
datas.append({"name":y.span.div.img.get('alt'),"link":"https://www.amazon.co.jp/"+y.a["href"],"photo":y.span.div.img.get('src')})
print("商品名:"+y.span.div.img.get('alt'))
print("链接: https://www.amazon.co.jp/"+y.a["href"])
print("图片:"+y.span.div.img.get('src'))
print("----------------------------")
n += 1
print(datas)
try:
json_data = pd.DataFrame(datas)
#json_data.to_csv("/config/workspace/jupyter/666.csv",mode='a',encoding="utf_8_sig")
except Exception as e:
print("异常:",e)
这是我之前爬取亚马逊日本的代码你可以参考一下 pandora01 发表于 2021-7-17 21:26
亚马逊这种大网站,肯定数据都是加密的,怎么可能这么轻松就获取,去悬赏应该有大佬回答
悬赏了,暂时没人回答,传送门:https://www.52pojie.cn/thread-1477678-1-1.html zyc183369 发表于 2021-7-17 21:06
求助不行你得悬赏
悬赏了,暂时没人回答,传送门:https://www.52pojie.cn/thread-1477678-1-1.html VIP88888888 发表于 2021-7-17 23:06
# -*- coding: utf-8 -*-
import re
import requests
你这个是不行的,我看你导入了UserAgent模块,但是并没有使用UserAgent的代码 Sandwiches 发表于 2021-7-19 11:07
你这个是不行的,我看你导入了UserAgent模块,但是并没有使用UserAgent的代码
UserAgent只是之前测试使用,我这运行是可以抓取到数据的
页:
[1]
2