double07 发表于 2021-3-16 16:58

遇到加密网址的怎样获取正确地址进行数据爬取?

用python,想做人才网数据爬取,但网址太长(https://www.liepin.com/zhaopin/?compkind=&dqs=&pubTime=1&pageSize=40&salary=&compTag=&sortFlag=&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=%E5%88%86%E6%9E%90&siTag=cvp8iLeXNCyNiQNQZmYdxQ%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_unknown&d_ckId=410c7900dcb1c2822f34379cd8aacbed&d_curPage=0&d_pageSize=40&d_headId=410c7900dcb1c2822f34379cd8aacbed),且用requests获取源文件也不对,遇到此类网站怎样获取准确的网址?

minibeetuaman 发表于 2021-3-16 17:04

这不是获取地址的问题,这是通过分析调试JS得到key的问题

飘零星夜 发表于 2021-3-16 17:07

猎聘 刚上315晚会,你这是给他找借口啊,他到时候就说不是主动卖建立,是被黑客黑了。

落破的书生 发表于 2021-3-16 17:09

直接访问不能搞定吗?
https://www.liepin.com/zhaopin/?compkind=&dqs=&pubTime=1&pageSize=40&salary=&compTag=&sortFlag=&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=%E5%88%86%E6%9E%90&siTag=cvp8iLeXNCyNiQNQZmYdxQ%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_unknown&d_ckId=410c7900dcb1c2822f34379cd8aacbed&d_curPage=0&d_pageSize=40&d_headId=410c7900dcb1c2822f34379cd8aacbed
访问回来了解析xml和获得class的匹配就好了

jjingtian 发表于 2021-3-16 17:38

整个地址扔过去,看他返回什么东西,再根据返回的东西写脚本

lovehfs 发表于 2021-3-16 17:43

6楼正解!!找到编码的方法

上尉诗人 发表于 2021-3-16 18:09

这不是加密,这是url编码。
页: [1]
查看完整版本: 遇到加密网址的怎样获取正确地址进行数据爬取?