吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1506|回复: 10
收起左侧

[求助] [python] 有什么办法可以爬取美国亚马逊网页数据(非selenium自动化)

[复制链接]
Sandwiches 发表于 2021-7-17 20:22
有什么办法可以爬取美国亚马逊网页数据(非selenium自动化),本人通过使用request请求,但是无法获取到美国亚马逊的源代码,请问有什么其他的方法可以爬吗

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

zyc183369 发表于 2021-7-17 21:06
求助不行  你得悬赏
cmy2019 发表于 2021-7-17 21:11
这类大网站要爬很困难,因为成千上万人都有跟你一样的想法。。。能联系到领域的牛人还有可能
pandora01 发表于 2021-7-17 21:26
亚马逊这种大网站,肯定数据都是加密的,怎么可能这么轻松就获取,去悬赏应该有大佬回答
三滑稽甲苯 发表于 2021-7-17 22:13
逛逛Pypi有惊喜 图叨叨_20210717_221256_0.jpg
VIP88888888 发表于 2021-7-17 23:06
[Python] 纯文本查看 复制代码
# -*- coding: utf-8 -*-
import re
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from sqlalchemy import create_engine
import pandas as pd


    

if __name__ == '__main__':
    n = 1
    datas = []
    while n < 3:
        url = "https://www.amazon.co.jp/gp/bestsellers/computers/ref=zg_bs_pg_"+str(2)+"?ie=UTF8&pg="+str(2)
        datas = []
        htmls = requests.get(url).text
        soup = BeautifulSoup(htmls,'lxml')
        product = soup.find_all("li",{"class":"zg-item-immersion"})
        for i in product:
            aaa = i.find_all("span",{"class":"aok-inline-block zg-item"})
            for y in aaa:
                datas.append({"name":y.span.div.img.get('alt'),"link":"https://www.amazon.co.jp/"+y.a["href"],"photo":y.span.div.img.get('src')})
                print("商品名:"+y.span.div.img.get('alt'))
                print("链接: https://www.amazon.co.jp/"+y.a["href"])
                print("图片:"+y.span.div.img.get('src'))
                print("----------------------------")
            n += 1
            print(datas)
        
    try:
        json_data = pd.DataFrame(datas)
        #json_data.to_csv("/config/workspace/jupyter/666.csv",mode='a',encoding="utf_8_sig")
    except Exception as e:
        print("异常:",e)

这是我之前爬取亚马逊日本的代码你可以参考一下
 楼主| Sandwiches 发表于 2021-7-18 10:45
pandora01 发表于 2021-7-17 21:26
亚马逊这种大网站,肯定数据都是加密的,怎么可能这么轻松就获取,去悬赏应该有大佬回答

悬赏了,暂时没人回答,传送门:https://www.52pojie.cn/thread-1477678-1-1.html
 楼主| Sandwiches 发表于 2021-7-18 10:52
zyc183369 发表于 2021-7-17 21:06
求助不行  你得悬赏

悬赏了,暂时没人回答,传送门:https://www.52pojie.cn/thread-1477678-1-1.html
 楼主| Sandwiches 发表于 2021-7-19 11:07
VIP88888888 发表于 2021-7-17 23:06
[mw_shl_code=python,true]# -*- coding: utf-8 -*-
import re
import requests

你这个是不行的,我看你导入了UserAgent模块,但是并没有使用UserAgent的代码
VIP88888888 发表于 2021-7-19 13:34
Sandwiches 发表于 2021-7-19 11:07
你这个是不行的,我看你导入了UserAgent模块,但是并没有使用UserAgent的代码

UserAgent只是之前测试使用,我这运行是可以抓取到数据的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 00:56

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表