Python爬取某招聘网站，代码运行成功却没有任何数据

douabi · 发表于 2021-3-2 23:44

运行成功了，但是没有爬取到任何东西，是网站防爬技术升级了吗，还是代收本身有问题
各位大佬帮忙看看

[Python] 纯文本查看 复制代码

import urllib
from urllib.parse import *
from urllib import request
from bs4 import BeautifulSoup
import string
import lxml
import random
import pandas as pd
import os
headers = [
    "Mozilla/5.0 (Windows NT 6.1; Win64; rv:27.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"  
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:27.0) Gecko/20100101 Firfox/27.0"  
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"  
    "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:10.0) Gecko/20100101 Firfox/10.0"  
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/21.0.1180.110 Safari/537.36"  
    "Mozilla/5.0 (X11; Ubuntu; Linux i686 rv:10.0) Gecko/20100101 Firfox/27.0"  
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/34.0.1838.2 Safari/537.36"  
    "Mozilla/5.0 (X11; Ubuntu; Linux i686 rv:27.0) Gecko/20100101 Firfox/27.0"  
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"  
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
    ]
def get_content(url, headers,str):
    '''''
    @url：需要登录的网址
    @headers：模拟的登陆的终端
    *********************模拟登陆获取网址********************
    '''
    random_header = random.choice(headers)
    req = urllib.request.Request(url)
    req.add_header("User-Agent", random_header)
    req.add_header("Get", url)
    req.add_header("Host", "{0}.zhaopin.com".format(str))
    req.add_header("refer", "http://{0}.zhaopin.com/".format(str))
    try:
        html = urllib.request.urlopen(req)
        contents = html.read()
        # print(contents)
        # 判断输出内容contents是否是字节格式
        if isinstance(contents, bytes):
            # 转成字符串格式
            contents = contents.decode('utf-8')
        else:
            print('输出格式正确，可以直接输出')
        ##输出的是字节格式，需要将字节格式解码转成’utf-8‘
        return (contents)
    except Exception as e:
        print(e)
def get_links_from(job, city, page):
    '''''
    @job:工作名称
    @city:网址中城市名称
    @page：表示第几页信息
    @urls：所有列表的超链接，即子页网址
    ****************此网站需要模拟登陆**********************
    返回全部子网页地址
    '''
    urls = []
    for i in range(page):
        url='http://sou.zhaopin.com/jobs/searchresult.ashx?jl={0}&kw={1}&p={2}&isadv=0'.format(str(city),str(job),i)
        url = quote(url, safe=string.printable)
        info = get_content(url, headers,'sou')
        soup = BeautifulSoup(info, 'lxml')  # 设置解析器为“lxml”
        # print(soup)
        link_urls = soup.select('td.zwmc a')
        for url in link_urls:
            urls.append(url.get('href'))
    # print(urls)
    return (urls)
def get_recuite_info(job, city, page):
    '''''
    获取招聘网页信息
    '''
    urls = get_links_from(job, city, page)
    path='/data/zhilian/'
    if os.path.exists(path)==False:
        os.makedirs(path)
    for url in urls:
        print(url)
        file=url.split('/')[-1]
        print(file)
        str=url.split('/')[2].split('.')[0]
        html = get_content(url, headers, str)
        if html!=None and file!='':
            with open(path+file,'w') as f:
                f.write(html)
'''  
*********************获取招聘信息***************************  
'''
if __name__ == '__main__':
    city='北京'
    #city='北京%2b上海%2b广州%2b深圳'
    get_recuite_info('大数据', city, 100)

qianshang666 · 发表于 2021-3-2 23:56

别的不说，这个网站不登陆就没办法看数据，你连cookie都不加，怎么能获取到数据呢

qianshang666 · 发表于 2021-3-3 00:00

import requests
from bs4 import BeautifulSoup
from urllib.parse import quote

url = 'https://sou.zhaopin.com/?jl=763&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE'
headers = {
'cookie': 'acw_tc=2760827d16147003619821719e091b87bfaa99934c2e57611a6028fd77f632; x-zp-client-id=9e638b9b-74e3-41fb-b053-aad08a3b9cdd; FSSBBIl1UgzbN7N443S=WOQCUCqXgN2tt3qOBsWRzi3xffpk8E3.ScNuGUKIlgJH9sO.jpOnw1UaEGtk0Zgv; sajssdk_2015_cross_new_user=1; _uab_collina=161470036303486780634239; locationInfo_search={%22code%22:%22870%22%2C%22name%22:%22%E5%BC%A0%E6%8E%96%22%2C%22message%22:%22%E5%8C%B9%E9%85%8D%E5%88%B0%E5%B8%82%E7%BA%A7%E7%BC%96%E7%A0%81%22}; Hm_lvt_38ba284938d5eddca645bb5e02a02006=1614700363; 1420ba6bb40c9512e9642a1f8c243891=c3c1bee3-8727-4001-870d-4d1a45ef8dc1; zp_passport_deepknow_sessionId=32655f67s08e964d26af689043d632cff551; at=3cf58c8cc64645fe8ad173529779ba6e; rt=6802ce7457c24de28fedb25a052ad536; sts_deviceid=177f3a531bda72-08dccdb029b017-53e356a-921600-177f3a531be8b8; sts_evtseq=1; sts_sid=177f3a531c0533-043f26858fe3a4-53e356a-921600-177f3a531c16c4; sts_sg=1; sts_chnlsid=Unknown; zp_src_url=https%3A%2F%2Fpassport.zhaopin.com%2F; ZP_OLD_FLAG=false; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221022970012%22%2C%22first_id%22%3A%22177f3a43bccb01-022ff395fa962c-53e356a-921600-177f3a43bcd19a%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%2C%22%24latest_referrer%22%3A%22%22%7D%2C%22%24device_id%22%3A%22177f3a43bccb01-022ff395fa962c-53e356a-921600-177f3a43bcd19a%22%7D; LastCity=%E5%B9%BF%E5%B7%9E; LastCity%5Fid=763; Hm_lpvt_38ba284938d5eddca645bb5e02a02006=1614700444; FSSBBIl1UgzbN7N443T=5QGTKzqkINbMjCad397mgWSfNveBqT4f63Td19X_qhqRixI71X3jZBlnOkZeQe6ymyhM9f0UfbS2HyoHFG6FMtzfP38JSfobsb5MYr.XF5yD9.sHj7HkMcANKRIuTSCVHmN.e4MSSjADOxrHevB7fXoFO7u1mkVhc_C0Sot8ZZ24nUWcoJD6VIkLWOQ7FtgSRikyKlhtSpuFMscAXsLrUfz9EY2JLs4uCt2ea0AcqK6cff7Gn0gaue9mpvrsjSzoexwdeTsHWYlsdpFdMXJkkZKvTEjSu32.rzrzwOtLYi_OApA7skvdpIrxtdu28AgHp54BNZje7JrivmB8389SKvHHedXBQWcpAKdmyPF.nKy6AEpSkbN5ZYqWOSp7GXzhBlua',
'referer': 'https://i.zhaopin.com/',
'sec-ch-ua': '"Chromium";v="88", "Google Chrome";v="88", ";Not A Brand";v="99"',
'sec-ch-ua-mobile': '?0',
'sec-fetch-dest': 'document',
'sec-fetch-mode': 'navigate',
'sec-fetch-site': 'same-origin',
'sec-fetch-user': '?1',
'upgrade-insecure-requests': '1',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36'
}

html = requests.get(url = url,headers = headers)
print(html.text)

这样就能获取到数据

qianshang666 · 发表于 2021-3-3 00:05

我对urllib这个库不是很了解，所以没办法在你的代码上改，不急的话明天我可以用requests库写一下

bookaccount · 发表于 2021-3-3 00:07

cookie, ajax，多半总是这类问题

douabi · 发表于 2021-3-3 00:08

qianshang666 发表于 2021-3-3 00:05
我对urllib这个库不是很了解，所以没办法在你的代码上改，不急的话明天我可以用requests库写一下

不急，完全就是小白，在网上找的代码，抱佛脚为了完成论文的代码部分

qianshang666 · 发表于 2021-3-3 00:11

douabi 发表于 2021-3-3 00:08
不急，完全就是小白，在网上找的代码，抱佛脚为了完成论文的代码部分

好家伙，我说呢，没事的

q124444 · 发表于 2021-3-3 00:25

本帖最后由 q124444 于 2021-3-3 00:47 编辑

这Headers写这么多。。。
https://www.bilibili.com/video/BV12E411A7ZQ?from=search&seid=16902707249924159174
爬虫教程

aonima · 发表于 2021-3-3 02:35

添加cookie试试

lili2312280 · 发表于 2021-3-3 08:07

你这最基本的cookie呢

帐号		自动登录	找回密码
密码			注册[Register]

[求助] Python爬取某招聘网站，代码运行成功却没有任何数据

免费评分