Hello1 发表于 2024-5-23 16:49

Python爬取zg制造网的数据

我想问一下有没有大佬们知道 Python爬取的时候 https://www.made-in-china.com/multi-search/glass%2Bbottle/F1/(循环的页数).html 如果我想循环获取1-10页的 但是每页的数据的cookies都不一样 应该怎么写代码,试过用sessions保持会话 但没有用

fire9 发表于 2024-5-23 17:05

把cookie给逆向了

Hello1 发表于 2024-5-23 17:18

fire9 发表于 2024-5-23 17:05
把cookie给逆向了

那Python有没有可以输出网站的cookies值的模块或者其他方法

star0angel 发表于 2024-5-23 18:24

我刚刚试了一下 你可能是缺少了防盗链加个Referer貌似根cookie没什么关系

howyouxiu 发表于 2024-5-23 19:06

使用session的话,cookies会自动刷新的,所以可以参考一下4楼

wsxb 发表于 2024-5-23 20:01

有没有GET客的免费版

assuller 发表于 2024-5-23 22:45

你要用浏览器观察规矩,然后再用py模拟,实在不行的话请参考7楼

anning666 发表于 2024-5-24 08:52

我倾向于4楼童鞋的建议,网站服务端应该是加了反爬措施
比如请求第二页的时候,网址是这样的: "www.serverhostxxx.com/news/page/2",服务端可以通过'Refer'判断类似这样的url正则"www.serverhostxxx.com/news/page/server_page_number"
如果正则匹配不上,或者前端压根没传'Refer'参数过来,说明遇到爬虫了,就过滤掉这个请求,返回400状态码
建议加上"Refer"参数试试
页: [1]
查看完整版本: Python爬取zg制造网的数据