Python爬取zg制造网的数据

Hello1 发表于 2024-5-23 16:49

我想问一下有没有大佬们知道 Python爬取的时候 https://www.made-in-china.com/multi-search/glass%2Bbottle/F1/(循环的页数).html 如果我想循环获取1-10页的但是每页的数据的cookies都不一样应该怎么写代码，试过用sessions保持会话但没有用

fire9 发表于 2024-5-23 17:05

把cookie给逆向了

Hello1 发表于 2024-5-23 17:18

fire9 发表于 2024-5-23 17:05
把cookie给逆向了

那Python有没有可以输出网站的cookies值的模块或者其他方法

star0angel 发表于 2024-5-23 18:24

我刚刚试了一下你可能是缺少了防盗链加个Referer貌似根cookie没什么关系

howyouxiu 发表于 2024-5-23 19:06

使用session的话，cookies会自动刷新的，所以可以参考一下4楼

wsxb 发表于 2024-5-23 20:01

有没有GET客的免费版

assuller 发表于 2024-5-23 22:45

你要用浏览器观察规矩，然后再用py模拟，实在不行的话请参考7楼

anning666 发表于 2024-5-24 08:52

我倾向于4楼童鞋的建议,网站服务端应该是加了反爬措施
比如请求第二页的时候,网址是这样的: "www.serverhostxxx.com/news/page/2",服务端可以通过'Refer'判断类似这样的url正则"www.serverhostxxx.com/news/page/server_page_number"
如果正则匹配不上,或者前端压根没传'Refer'参数过来,说明遇到爬虫了,就过滤掉这个请求,返回400状态码
建议加上"Refer"参数试试

页: [1]

吾爱破解 - 52pojie.cn's Archiver

Python爬取zg制造网的数据