[Python爬虫]爬取51job工作信息

lovecloudssh 发表于 2020-3-10 19:23

本帖最后由 lovecloudssh 于 2020-3-10 19:37 编辑

看着大家都在分享，我也分享一个。还在学习中。。。。。。写的比较乱
爬取51job工作信息，包含工作、公司、发布时间、薪水、工作地点等，薪水。
# coding:utf-8
import requests
import re
from lxml import etree

new_headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}
fp=open("51job.txt",'w+',encoding="utf-8")
for i in range(0,15):
print("正在爬取第"+str(i)+"页")
url = "https://search.51job.com/list/090200,000000,0000,00,9,99,Python,2,"+str(i)+".html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare="
response=requests.get(url,headers=new_headers)
response.encoding='gbk'
html=etree.HTML(response.text)
jobname = html.xpath("//a[@onmousedown='']/@title")
jobsalary = html.xpath('//div[@class="el"]/span[@class="t4"]')
jobcompany = html.xpath("//span[@class='t2']/a/text()")
jobtime =html.xpath("//div[@class='el']/span[@class='t5']/text()")
jobaddress=html.xpath("//div[@class='el']/span[@class='t3']/text()")

for j in range(0,len(jobname)):

dic={'工作名称':jobname,'薪水':jobsalary.text,'工作地点':jobaddress,'公司':jobcompany,'发布时间':jobtime}
fp.write(str(dic)+'\n')
fp.close()

lovecloudssh 发表于 2020-3-11 17:09

随遇而安8 发表于 2020-3-11 14:40
保存到了桌面，直接点一下的话黑色对话框闪一下，然后就没啥反应了

没装requests，pip安装一下，:lol

lovecloudssh 发表于 2020-3-11 19:30

随遇而安8 发表于 2020-3-11 19:27
这两个都是需要下载的吗？Python不自带？

嗯,属第三方库的，百度一下就知道了，嘿嘿

mymon 发表于 2020-3-10 19:31

又是gbk又是utf-8的

lovecloudssh 发表于 2020-3-10 19:33

mymon 发表于 2020-3-10 19:31
又是gbk又是utf-8的

还在学习中，多谢指教，嘿嘿:lol

白衣国度 发表于 2020-3-10 20:08

python爬虫还没学会，只会易语言的。Python我遇到的最大问题就是访问被拒绝

霭本王驾到 发表于 2020-3-10 20:36

这个我也想学，大概要多久才能初步掌握呢

yao5201478 发表于 2020-3-10 20:41

霭本王驾到发表于 2020-3-10 20:36
这个我也想学，大概要多久才能初步掌握呢

要是只学爬虫，3天足以

LGG.1024 发表于 2020-3-10 20:55

正在学，感谢楼主分享

随遇而安8 发表于 2020-3-11 14:37

我也是新新新手，这个怎么运行啊，我是这种情况

随遇而安8 发表于 2020-3-11 14:40

保存到了桌面，直接点一下的话黑色对话框闪一下，然后就没啥反应了

页: [1] 2

吾爱破解 - 52pojie.cn's Archiver

[Python爬虫]爬取51job工作信息