double07 发表于 2021-4-2 17:52

招聘网站主页数据与详细页数据如何连接?

爬取招聘网站每页的招聘数据(第一图),现希望把最后一列“详细页链接”打开后的“职责描述”及“任职要求”(第二图)的数据加在第一图表格最后2列,请问思路是怎样的?

注:目前只写了第一张图的代码,详情页解析代码还未写,因为目前不知道怎样把第一页获得的数据与详情页(第二图)进行连接?


leannie 发表于 2021-4-2 18:11

你都获得详情页链接了 链接再打开不就行了

qianshang666 发表于 2021-4-2 18:16

把详情页带入url,不就行了

qq2003 发表于 2021-4-2 19:49

不知道你用的啥程序编写,你既然能抓到详细页,那就加个http读文件,将详细页的源码读出来,然后用正则把源码里你需要的取出来,思路是这样的。

Luckyu920 发表于 2021-4-2 20:12

去访问详情页呀,然后读取源码获取

double07 发表于 2021-4-2 20:24

用python写的代码,不知道如何把这两段连接起来

H_Kali 发表于 2021-4-2 20:53

double07 发表于 2021-4-2 20:24
用python写的代码,不知道如何把这两段连接起来

爬取到的数据全部存储在数据库下的同一张表,拿到详细页链接后继续访问详细页链接,然后拿到里面的数据也一并存在同一张表。最后如果需要excel可以从数据库中将表导出成excel格式的。

落曌乾坤 发表于 2021-4-2 21:12

这类网站没有反爬吗

double07 发表于 2021-4-2 22:23

H_Kali 发表于 2021-4-2 20:53
爬取到的数据全部存储在数据库下的同一张表,拿到详细页链接后继续访问详细页链接,然后拿到里面的数据也 ...

好的,试试
页: [1]
查看完整版本: 招聘网站主页数据与详细页数据如何连接?