有关python爬虫的问题

城南彼岸花复开 发表于 2021-2-3 14:54

本帖最后由城南彼岸花复开于 2021-2-4 15:52 编辑

请问论坛各位大佬们，网站是有什么反爬机制吗
今天遇到一个网站，每个页面都有一堆贼长的字符串，
比如这样CombId=a8f4c6c6-d307-48e8-bf32-42ff1fed9385%2Cd66d62d0-0efc-4507-8618-4e4c719362da&IsDef=0
用python爬虫爬了个寂寞，同一个爬虫怕iqy一点问题都没有
求大佬支招这种该怎么爬取网站数据{:301_975:}

细水流长 发表于 2021-2-3 15:05

52pojie666z 发表于 2021-2-3 15:05

城南彼岸花复开 发表于 2021-2-3 15:07

细水流长发表于 2021-2-3 15:05
发下网址?

一个医院的，不知道发网址违不违规{:301_998:}

城南彼岸花复开 发表于 2021-2-3 15:12

52pojie666z 发表于 2021-2-3 15:05
哪个站？

一个医院的，但是不知道52能不能在这种帖子发网址{:301_998:}

xian54966 发表于 2021-2-3 15:13

找找字符串的来源，拼凑起网址就行

城南彼岸花复开 发表于 2021-2-3 15:23

xian54966 发表于 2021-2-3 15:13
找找字符串的来源，拼凑起网址就行

我这个爬目标网站只一个页面都不行，没有返回值，同一个爬虫能爬iqy的一个页面，就很奇怪{:301_1005:}

fanvalen 发表于 2021-2-3 15:29

一种网页是js的
一种就是链接有请求权限，不是说你拼接出url就能访问，有的是在headers里验证存活鉴权来自那个页面请求做的一类防盗链

城南彼岸花复开 发表于 2021-2-3 15:45

fanvalen 发表于 2021-2-3 15:29
一种网页是js的
一种就是链接有请求权限，不是说你拼接出url就能访问，有的是在headers里验证存活鉴权...

学习了，不过还得看看，这个网站似乎不用拼接

Light紫星 发表于 2021-2-3 15:50

发网址看一下？一般浏览器能访问的理论上爬虫就能爬

页: [1] 2 3

吾爱破解 - 52pojie.cn's Archiver

有关python爬虫的问题