有关python爬虫的问题
本帖最后由 城南彼岸花复开 于 2021-2-4 15:52 编辑请问论坛各位大佬们,网站是有什么反爬机制吗
今天遇到一个网站,每个页面都有一堆贼长的字符串,
比如这样CombId=a8f4c6c6-d307-48e8-bf32-42ff1fed9385%2Cd66d62d0-0efc-4507-8618-4e4c719362da&IsDef=0
用python爬虫爬了个寂寞,同一个爬虫怕iqy一点问题都没有
求大佬支招这种该怎么爬取网站数据{:301_975:} 细水流长 发表于 2021-2-3 15:05
发下网址?
一个医院的,不知道发网址违不违规{:301_998:} 52pojie666z 发表于 2021-2-3 15:05
哪个站?
一个医院的,但是不知道52能不能在这种帖子发网址{:301_998:} 找找字符串的来源,拼凑起网址就行 xian54966 发表于 2021-2-3 15:13
找找字符串的来源,拼凑起网址就行
我这个爬目标网站只一个页面都不行,没有返回值,同一个爬虫能爬iqy的一个页面,就很奇怪{:301_1005:} 一种网页是js的
一种就是链接有请求权限,不是说你拼接出url就能访问,有的是在headers里验证 存活 鉴权 来自那个页面请求 做的一类防盗链
fanvalen 发表于 2021-2-3 15:29
一种网页是js的
一种就是链接有请求权限,不是说你拼接出url就能访问,有的是在headers里验证 存活 鉴权...
学习了,不过还得看看,这个网站似乎不用拼接 发网址看一下?一般浏览器能访问的理论上爬虫就能爬