Sandwiches 发表于 2021-7-17 20:22

[python] 有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)

有什么办法可以爬取美国亚马逊网页数据(非selenium自动化),本人通过使用request请求,但是无法获取到美国亚马逊的源代码,请问有什么其他的方法可以爬吗

zyc183369 发表于 2021-7-17 21:06

求助不行你得悬赏

cmy2019 发表于 2021-7-17 21:11

这类大网站要爬很困难,因为成千上万人都有跟你一样的想法。。。能联系到领域的牛人还有可能

pandora01 发表于 2021-7-17 21:26

亚马逊这种大网站,肯定数据都是加密的,怎么可能这么轻松就获取,去悬赏应该有大佬回答

三滑稽甲苯 发表于 2021-7-17 22:13

逛逛Pypi有惊喜

VIP88888888 发表于 2021-7-17 23:06

# -*- coding: utf-8 -*-
import re
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from sqlalchemy import create_engine
import pandas as pd


   

if __name__ == '__main__':
    n = 1
    datas = []
    while n < 3:
      url = "https://www.amazon.co.jp/gp/bestsellers/computers/ref=zg_bs_pg_"+str(2)+"?ie=UTF8&pg="+str(2)
      datas = []
      htmls = requests.get(url).text
      soup = BeautifulSoup(htmls,'lxml')
      product = soup.find_all("li",{"class":"zg-item-immersion"})
      for i in product:
            aaa = i.find_all("span",{"class":"aok-inline-block zg-item"})
            for y in aaa:
                datas.append({"name":y.span.div.img.get('alt'),"link":"https://www.amazon.co.jp/"+y.a["href"],"photo":y.span.div.img.get('src')})
                print("商品名:"+y.span.div.img.get('alt'))
                print("链接: https://www.amazon.co.jp/"+y.a["href"])
                print("图片:"+y.span.div.img.get('src'))
                print("----------------------------")
            n += 1
            print(datas)
      
    try:
      json_data = pd.DataFrame(datas)
      #json_data.to_csv("/config/workspace/jupyter/666.csv",mode='a',encoding="utf_8_sig")
    except Exception as e:
      print("异常:",e)

这是我之前爬取亚马逊日本的代码你可以参考一下

Sandwiches 发表于 2021-7-18 10:45

pandora01 发表于 2021-7-17 21:26
亚马逊这种大网站,肯定数据都是加密的,怎么可能这么轻松就获取,去悬赏应该有大佬回答

悬赏了,暂时没人回答,传送门:https://www.52pojie.cn/thread-1477678-1-1.html

Sandwiches 发表于 2021-7-18 10:52

zyc183369 发表于 2021-7-17 21:06
求助不行你得悬赏

悬赏了,暂时没人回答,传送门:https://www.52pojie.cn/thread-1477678-1-1.html

Sandwiches 发表于 2021-7-19 11:07

VIP88888888 发表于 2021-7-17 23:06
# -*- coding: utf-8 -*-
import re
import requests


你这个是不行的,我看你导入了UserAgent模块,但是并没有使用UserAgent的代码

VIP88888888 发表于 2021-7-19 13:34

Sandwiches 发表于 2021-7-19 11:07
你这个是不行的,我看你导入了UserAgent模块,但是并没有使用UserAgent的代码

UserAgent只是之前测试使用,我这运行是可以抓取到数据的
页: [1] 2
查看完整版本: [python] 有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)