python爬虫爬一个兼职网

liqi · 发表于 2019-7-14 14:43

本帖最后由 wushaominkk 于 2019-7-15 10:18 编辑

今天是接触爬虫的第二天，第一天遇到这个网站，但是被403了，但是今天学的知识完全可以弥补我昨天的坑，于是为了践行从哪里跌倒就要从哪里爬起来的理念，今天我就爬它了！！！
一开始犯了两个错误，一个是用了wb写入，导致我内容根本写不进去，一直报错，第二个是我将ope代码块写入了for循环里面，导致只打印了最后一行，因为w就是如果内容存在就覆盖，没文件创建
见源码，有些小问题需要大牛指教一下

[Python] 纯文本查看 复制代码

import urllib.request
import re
url = "http://qq.ssjzw.com/"
headers = ('User-Agent',"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode("GBK")
tj = '<li>类型:(.*?)</li><li>(.*)</li>'
p = re.compile(tj).findall(str(data))
file = open("兼职群.txt" ,"w",encoding="utf-8")
for i in range(len(p)):
    dawa = str(p[i])    #这个地方我不知道为什么需要把它转换为str，这里索引取的值是一个元组，我直接进行拼接会报错
    file.write(dawa + "\n")      #最后写入文件是元组的样子，类型是字符串，不知道如何去括号

print("------打印完成------")
file.close()

zhuwaihui · 发表于 2019-7-23 12:56

Hoa 发表于 2019-7-14 16:04
我也刚开始学爬虫，在爬easyicon网站，发现爬几十张图片就要求被验证一下。。。不知道怎么处理

设置随机请求头或整个ip代{过}{滤}理池这样别验证的几率应该会小很多

minjun2046 · 发表于 2019-7-14 16:47

Hoa 发表于 2019-7-14 16:04
我也刚开始学爬虫，在爬easyicon网站，发现爬几十张图片就要求被验证一下。。。不知道怎么处理

随机 headers ，或者随机ip就得了~

minjun2046 · 发表于 2019-7-14 15:01

去括号？用.strip()试试，或者用替换.replace()

飞翔月色 · 发表于 2019-7-14 15:03

好的谢谢

haliluyadada · 发表于 2019-7-14 15:05

感谢分享，代码已收藏。

Hoa · 发表于 2019-7-14 16:04

我也刚开始学爬虫，在爬easyicon网站，发现爬几十张图片就要求被验证一下。。。不知道怎么处理

cr4ck · 发表于 2019-7-14 16:31

BeautifulSoup
库函数find_all()

Miss.D · 发表于 2019-7-14 16:46

嗯，学习学习

luopo · 发表于 2019-7-14 17:37

dawa = str(p[1]).replace(r"(",'').replace(r")",'') # 去掉左右括号

jidesheng6 · 发表于 2019-7-16 22:07

建议文件用with open as ...的格式，在文件用完之后会自动释放，其次这个request库不太好用，推荐看看requests

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] python爬虫爬一个兼职网

免费评分

本帖被以下淘专辑推荐: