[python] 有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)

Sandwiches 发表于 2021-7-17 20:22

有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)，本人通过使用request请求，但是无法获取到美国亚马逊的源代码，请问有什么其他的方法可以爬吗

zyc183369 发表于 2021-7-17 21:06

求助不行你得悬赏

cmy2019 发表于 2021-7-17 21:11

这类大网站要爬很困难，因为成千上万人都有跟你一样的想法。。。能联系到领域的牛人还有可能

pandora01 发表于 2021-7-17 21:26

亚马逊这种大网站，肯定数据都是加密的，怎么可能这么轻松就获取，去悬赏应该有大佬回答

三滑稽甲苯 发表于 2021-7-17 22:13

逛逛Pypi有惊喜

VIP88888888 发表于 2021-7-17 23:06

# -*- coding: utf-8 -*-
import re
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from sqlalchemy import create_engine
import pandas as pd

if __name__ == '__main__':
n = 1
datas = []
while n < 3:
   url = "https://www.amazon.co.jp/gp/bestsellers/computers/ref=zg_bs_pg_"+str(2)+"?ie=UTF8&pg="+str(2)
   datas = []
   htmls = requests.get(url).text
   soup = BeautifulSoup(htmls,'lxml')
   product = soup.find_all("li",{"class":"zg-item-immersion"})
   for i in product:
         aaa = i.find_all("span",{"class":"aok-inline-block zg-item"})
         for y in aaa:
            datas.append({"name":y.span.div.img.get('alt'),"link":"https://www.amazon.co.jp/"+y.a["href"],"photo":y.span.div.img.get('src')})
            print("商品名："+y.span.div.img.get('alt'))
            print("链接： https://www.amazon.co.jp/"+y.a["href"])
            print("图片："+y.span.div.img.get('src'))
            print("----------------------------")
         n += 1
         print(datas)

try:
   json_data = pd.DataFrame(datas)
   #json_data.to_csv("/config/workspace/jupyter/666.csv",mode='a',encoding="utf_8_sig")
except Exception as e:
   print("异常：",e)

这是我之前爬取亚马逊日本的代码你可以参考一下

Sandwiches 发表于 2021-7-18 10:45

pandora01 发表于 2021-7-17 21:26
亚马逊这种大网站，肯定数据都是加密的，怎么可能这么轻松就获取，去悬赏应该有大佬回答

悬赏了，暂时没人回答，传送门：https://www.52pojie.cn/thread-1477678-1-1.html

Sandwiches 发表于 2021-7-18 10:52

zyc183369 发表于 2021-7-17 21:06
求助不行你得悬赏

悬赏了，暂时没人回答，传送门：https://www.52pojie.cn/thread-1477678-1-1.html

Sandwiches 发表于 2021-7-19 11:07

VIP88888888 发表于 2021-7-17 23:06
# -*- coding: utf-8 -*-
import re
import requests

你这个是不行的，我看你导入了UserAgent模块，但是并没有使用UserAgent的代码

VIP88888888 发表于 2021-7-19 13:34

Sandwiches 发表于 2021-7-19 11:07
你这个是不行的，我看你导入了UserAgent模块，但是并没有使用UserAgent的代码

UserAgent只是之前测试使用，我这运行是可以抓取到数据的

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

[python] 有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)