吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2144|回复: 11
收起左侧

[求助] python爬的数据与网页实际有出入?

  [复制链接]
double07 发表于 2021-3-17 10:25
本帖最后由 double07 于 2021-3-17 12:34 编辑

[Python] 纯文本查看 复制代码
#导入模块
import requests
import pandas
from lxml import etree

data_list=[]

#获取网页内容
def gethtml(url):
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'}
    response=requests.get(url,headers=headers)
    return response.content.decode()

#获取网页数据
def getpath(r):
    html=etree.HTML(r)
    b=html.xpath('//div//ul[@class="sojob-list"]/li')
    for i in b:
        list={}
        list['职位'] = i.xpath("./div/div/h3/a/text()")[0]
        list['月薪']= i.xpath('./div/div[1]/p[1]/span[1]/text()')[0]
        list['发布时间'] = i.xpath('./div/div[1]/p[2]/time/text()')[0]
        list['招聘企业'] = i.xpath('./div/div[2]/p[1]/a/text()')[0]
        list['工作地点'] = i.xpath('.//*[@class="area"]/text()')[0]
        list['链接'] = i.xpath("./div/div/h3/a/@href")[0]
        data_list.append(list)
    return data_list

#翻页
def next_page():
    url_np='https://www.liepin.com/zhaopin/?&key=运营分析总监&curPage={}'
    url_list=[url_np.format(i) for i in range(0,1,1)]
    return url_list



#主程序
def run_liep():
    page = next_page()
    for i in page:
        gh=gethtml(i)
        gp=getpath(gh)
        gp = pandas.DataFrame(gp)
        gp.to_excel('./liepin.xlsx', index=False)
    return gp

if __name__ == '__main__':
    print(run_liep())



用这段代码爬取的数据,与网页打开的不一样?哪里出问题?
已解决:增加cookie即可

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

DavisC 发表于 2021-3-17 10:35
请以UTF-8编码保存你的这段代码即可正常工作
咸鱼灭 发表于 2021-3-17 10:37
DavisC 发表于 2021-3-17 10:39
WINDOWS 自带的记事本,粘贴你的这段代码进记事本,文件->另存为,编码选择“UTF-8”,保存后运行就行。
 楼主| double07 发表于 2021-3-17 10:55
没弄成功
wuailila 发表于 2021-3-17 11:02
学习一下看看
52changew 发表于 2021-3-17 11:04
你加了“UTF-8"标注了???
cyw_ly 发表于 2021-3-17 11:16
UTF-8编码处理下
raelag 发表于 2021-3-17 12:15
第一个xpath的/多了?
print b 看下
 楼主| double07 发表于 2021-3-17 12:33
原因找到了,要加cookie
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 05:37

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表