城南彼岸花复开 发表于 2021-2-3 14:54

有关python爬虫的问题

本帖最后由 城南彼岸花复开 于 2021-2-4 15:52 编辑

请问论坛各位大佬们,网站是有什么反爬机制吗
今天遇到一个网站,每个页面都有一堆贼长的字符串,
比如这样CombId=a8f4c6c6-d307-48e8-bf32-42ff1fed9385%2Cd66d62d0-0efc-4507-8618-4e4c719362da&IsDef=0
用python爬虫爬了个寂寞,同一个爬虫怕iqy一点问题都没有
求大佬支招这种该怎么爬取网站数据{:301_975:}

细水流长 发表于 2021-2-3 15:05

52pojie666z 发表于 2021-2-3 15:05

城南彼岸花复开 发表于 2021-2-3 15:07

细水流长 发表于 2021-2-3 15:05
发下网址?

一个医院的,不知道发网址违不违规{:301_998:}

城南彼岸花复开 发表于 2021-2-3 15:12

52pojie666z 发表于 2021-2-3 15:05
哪个站?

一个医院的,但是不知道52能不能在这种帖子发网址{:301_998:}

xian54966 发表于 2021-2-3 15:13

找找字符串的来源,拼凑起网址就行

城南彼岸花复开 发表于 2021-2-3 15:23

xian54966 发表于 2021-2-3 15:13
找找字符串的来源,拼凑起网址就行

我这个爬目标网站只一个页面都不行,没有返回值,同一个爬虫能爬iqy的一个页面,就很奇怪{:301_1005:}

fanvalen 发表于 2021-2-3 15:29

一种网页是js的
一种就是链接有请求权限,不是说你拼接出url就能访问,有的是在headers里验证 存活 鉴权 来自那个页面请求 做的一类防盗链

城南彼岸花复开 发表于 2021-2-3 15:45

fanvalen 发表于 2021-2-3 15:29
一种网页是js的
一种就是链接有请求权限,不是说你拼接出url就能访问,有的是在headers里验证 存活 鉴权...

学习了,不过还得看看,这个网站似乎不用拼接

Light紫星 发表于 2021-2-3 15:50

发网址看一下?一般浏览器能访问的理论上爬虫就能爬
页: [1] 2 3
查看完整版本: 有关python爬虫的问题