吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 8963|回复: 16
收起左侧

[Python 转载] python爬虫爬一个兼职网

[复制链接]
liqi 发表于 2019-7-14 14:43
本帖最后由 wushaominkk 于 2019-7-15 10:18 编辑

今天是接触爬虫的第二天,第一天遇到这个网站,但是被403了,但是今天学的知识完全可以弥补我昨天的坑,于是为了践行从哪里跌倒就要从哪里爬起来的理念,今天我就爬它了!!!
一开始犯了两个错误,一个是用了wb写入,导致我内容根本写不进去,一直报错,第二个是我将ope代码块写入了for循环里面,导致只打印了最后一行,因为w就是如果内容存在就覆盖,没文件创建
见源码,有些小问题需要大牛指教一下

[Python] 纯文本查看 复制代码
import urllib.request
import re
url = "http://qq.ssjzw.com/"
headers = ('User-Agent',"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode("GBK")
tj = '<li>类型:(.*?)</li><li>(.*)</li>'
p = re.compile(tj).findall(str(data))
file = open("兼职群.txt" ,"w",encoding="utf-8")
for i in range(len(p)):
    dawa = str(p[i])    #这个地方我不知道为什么需要把它转换为str,这里索引取的值是一个元组,我直接进行拼接会报错
    file.write(dawa + "\n")      #最后写入文件是元组的样子,类型是字符串,不知道如何去括号

print("------打印完成------")
file.close()

免费评分

参与人数 3吾爱币 +2 热心值 +3 收起 理由
什么跟什么的 + 1 我很赞同!
回首天涯 + 1 + 1 我很赞同!
52pojie666z + 1 + 1 我很赞同!

查看全部评分

本帖被以下淘专辑推荐:

  • · 好帖|主题: 549, 订阅: 87

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

zhuwaihui 发表于 2019-7-23 12:56
Hoa 发表于 2019-7-14 16:04
我也刚开始学爬虫,在爬easyicon网站,发现爬几十张图片就要求被验证一下。。。不知道怎么处理

设置 随机请求头 或 整个ip代{过}{滤}理池 这样 别验证的几率应该会小很多
minjun2046 发表于 2019-7-14 16:47
Hoa 发表于 2019-7-14 16:04
我也刚开始学爬虫,在爬easyicon网站,发现爬几十张图片就要求被验证一下。。。不知道怎么处理

随机 headers ,或者随机ip就得了~
minjun2046 发表于 2019-7-14 15:01
飞翔月色 发表于 2019-7-14 15:03
好的  谢谢
haliluyadada 发表于 2019-7-14 15:05
感谢分享,代码已收藏。
Hoa 发表于 2019-7-14 16:04
我也刚开始学爬虫,在爬easyicon网站,发现爬几十张图片就要求被验证一下。。。不知道怎么处理
cr4ck 发表于 2019-7-14 16:31
BeautifulSoup
库函数find_all()
Miss.D 发表于 2019-7-14 16:46
嗯,学习学习
luopo 发表于 2019-7-14 17:37
dawa = str(p[1]).replace(r"(",'').replace(r")",'')  # 去掉左右括号
jidesheng6 发表于 2019-7-16 22:07
建议文件用with open as ...的格式,在文件用完之后会自动释放,其次这个request库不太好用,推荐看看requests
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 11:35

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表