某企查数据爬取

jiujiukeji 发表于 2021-1-26 16:30

本帖最后由 jiujiukeji 于 2021-1-26 16:43 编辑

<?php
$companyNameStr=$_GET['n'];

$value=getInfo($companyNameStr);
echo '公司名称'.' '.'经营范围'.' '.'注册地址'.' '.'所属行业'.' '.'企业类型'."\n";
echo $value['entName'].' '.$value['scope'].' '.$value['district'].' '.$value['industry'].' '.$value['entType']."\n";

function getInfo($companyName){
$url='https://aiqicha.baidu.com/s?q='.urlencode($companyName).'&t=0';
$urlInfo=file_get_contents($url);

$reTag=get_tag_data($urlInfo,'<body><div id="app"></div><script>','</script>');
$arr=explode('window.pageData =',$reTag);
$resArr=explode('/* eslint-enable */',$arr);

$newStrs=$resArr;
$newstr = substr(trim($newStrs),0,-1);
$body=json_decode($newstr,true);
$pid=$body['result']['resultList']['pid'];
$detail_url='https://aiqicha.baidu.com/detail/basicAllDataAjax?pid='.$pid;
$detailJson=file_get_contents($detail_url);
$detailArr=json_decode($detailJson,true);
$result=$detailArr['data']['basicData']; //返回的企业信息JSON串可以根据自己需要提取
return $result;
}
function get_tag_data($str, $start, $end)
{
if ( $start == '' || $end == '' )
{
return;
}
$str = explode($start, $str);
$str = explode($end, $str);
return $str;
}

PHP版本爬取某企查企业信息,根据自己需要可以批量爬取

使用方式
http://你的域名/?n=企业名

子竹聆风 发表于 2021-1-27 21:16

2021-01-27 15:09:14 INFO: 从redis获取商户信息字典: {'merchant': '青岛环球物业管理有限公司'}
2021-01-27 15:09:33 ERROR: Gave up retrying <GET https://xin.baidu.com/s/a?q=%E9%9D%92%E5%B2%9B%E7%8E%AF%E7%90%83%E7%89%A9%E4%B8%9A%E7%AE%A1%E7%90%86%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&t=1&p=1&s=20&o=0&f=> (failed 11 times): [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]

原先的百度企业信用接口关闭了

ZenHaBit 发表于 2021-1-26 17:04

jiujiukeji 发表于 2021-1-26 17:00
接口没法掉你可以去试试。都是防爬取接口我这都是页面上采集下来的

我记得好像调用这个接口，数据和页面一起返回给你数据是一个json串你用json串的特征进行截取就可以提取json字符串转换一下就可以了

吾爱师姐！ 发表于 2021-1-26 16:46

学习一下

caocao300 发表于 2021-1-26 16:46

好东西，不登录可以爬不？

jiujiukeji 发表于 2021-1-26 16:47

caocao300 发表于 2021-1-26 16:46
好东西，不登录可以爬不？

可以的,不需要登录

淡默发表于 2021-1-26 16:47

来个可以使用代{过}{滤}理的脚本{:301_992:}

ZhiYing520 发表于 2021-1-26 16:49

不错，不错

吾爱师姐！ 发表于 2021-1-26 16:50

出个教程吧！对php不熟悉的不知道怎么用

ZenHaBit 发表于 2021-1-26 16:57

这不叫爬虫吧爱企查直接有接口可以调用的

jiujiukeji 发表于 2021-1-26 17:00

ZenHaBit 发表于 2021-1-26 16:57
这不叫爬虫吧爱企查直接有接口可以调用的

接口没法掉你可以去试试。都是防爬取接口我这都是页面上采集下来的

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

某企查数据爬取