某企查数据爬取python版
前天看了别人的爬虫https://www.52pojie.cn/thread-1359373-1-1.htmlPHP的,不会用,无聊时改成python试试
# -*- coding: utf-8 -*-
import requests
import json
import urllib
import re
from faker import Faker
fake = Faker()
header={'User-Agent': fake.user_agent()}
name = input("请输入公司名称")
data = urllib.parse.quote(str(name))
url = 'https://aiqicha.baidu.com'
url1='https://aiqicha.baidu.com/s?q='+data+'&t=0'
s= requests.Session()
res1 = s.get(url = url,headers =header)
res2 = s.post(url = url1,headers =header)
pattern = 'pid\":\"(\d{14})'
rel = re.findall(pattern,res2.text)
detail_url='https://aiqicha.baidu.com/detail/basicAllDataAjax?pid='+rel#只爬第一个,想要爬取的话加循环
res3 = s.get(url= detail_url,headers = header)
res3.text.encode('utf-8').decode('unicode_escape')
result = json.loads(res3.text) #返回的企业信息JSON串可以根据自己需要提取
qu270051387 发表于 2021-1-27 23:22
请问这种爬取可以爬取到企查查-知识产权-资质证书这部分内容吗也是可以免费查到的内容都是些商业的许 ...
免费的按理说应该能行 请问这种爬取可以爬取到企查查-知识产权-资质证书这部分内容吗也是可以免费查到的内容都是些商业的许可证书等 能爬取什么内容,看见微信里全是介绍python各种爬取的,不太懂! 就是简单的改写,这个爬取的是公司的信息资料 感谢分享 最后输出成什么了?
去练练手咯 不会py....哎 太牛了,好强! 目前正在学习py之中
页:
[1]
2