遇到加密网址的怎样获取正确地址进行数据爬取？

double07 发表于 2021-3-16 16:58

用python,想做人才网数据爬取，但网址太长(https://www.liepin.com/zhaopin/?compkind=&dqs=&pubTime=1&pageSize=40&salary=&compTag=&sortFlag=&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=%E5%88%86%E6%9E%90&siTag=cvp8iLeXNCyNiQNQZmYdxQ%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_unknown&d_ckId=410c7900dcb1c2822f34379cd8aacbed&d_curPage=0&d_pageSize=40&d_headId=410c7900dcb1c2822f34379cd8aacbed)，且用requests获取源文件也不对，遇到此类网站怎样获取准确的网址？

minibeetuaman 发表于 2021-3-16 17:04

这不是获取地址的问题，这是通过分析调试JS得到key的问题

飘零星夜 发表于 2021-3-16 17:07

猎聘刚上315晚会，你这是给他找借口啊，他到时候就说不是主动卖建立，是被黑客黑了。

落破的书生 发表于 2021-3-16 17:09

直接访问不能搞定吗?
https://www.liepin.com/zhaopin/?compkind=&dqs=&pubTime=1&pageSize=40&salary=&compTag=&sortFlag=&compIds=&subIndustry=&jobKind=&industries=&compscale=&key=%E5%88%86%E6%9E%90&siTag=cvp8iLeXNCyNiQNQZmYdxQ%7EfA9rXquZc5IkJpXC-Ycixw&d_sfrom=search_unknown&d_ckId=410c7900dcb1c2822f34379cd8aacbed&d_curPage=0&d_pageSize=40&d_headId=410c7900dcb1c2822f34379cd8aacbed
访问回来了解析xml和获得class的匹配就好了

jjingtian 发表于 2021-3-16 17:38

整个地址扔过去，看他返回什么东西，再根据返回的东西写脚本

lovehfs 发表于 2021-3-16 17:43

6楼正解！！找到编码的方法

上尉诗人 发表于 2021-3-16 18:09

这不是加密，这是url编码。

页: [1]

吾爱破解 - 52pojie.cn's Archiver

遇到加密网址的怎样获取正确地址进行数据爬取？