小白刚学习python爬虫，分享一下代码,正则爬取糗百。

来两碗米饭 · 发表于 2019-8-26 20:40

本帖最后由 3651535042 于 2019-8-26 20:54 编辑

有免费评分的。给下评分谢谢。攒点吾爱币去换教程！

今天学习的是正则，所以就用正则爬取了一下糗事百科。在保存为json文件

（第一次用正则，写的不好勿喷）。

用到的库，re（正则），requests（解析），json（保存json用的）

[Python] 纯文本查看 复制代码

import re
import requests
from requests.exceptions import ConnectionError
import json

headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}

#get网站通用框架
def get_url(url):
    try:
        r=requests.get(url,headers=headers)
        r.encoding='utf-8'
        html=r.text
        return html
        # return r.content.decode()
    except ConnectionError as e:
        print('采集错误%d'%e)

def re_html(html):
    contents=[]
    #正则表示，获取内容
    content=re.findall(r'<div class="cont.*?<span>(.*?)</span>.*?</div>',html,re.S)
    #获取昵称
    name=re.findall(r'<h2>(.*?)</h2>',html,re.S)
    for i in content:
        #把正文的<br/>标签替换成空，并添加到列表里
        contents.append(i.replace('<br/>',''))
    for a in range(len(name)):
        data = {
            'name':name[a],
            'content':contents[a]
        }
        datas = json.dumps(data,indent=4,ensure_ascii=False)
        print(datas)
        with open('糗事百科.json','a',encoding='utf8') as f:
            f.write(datas)

def main():
    for i in range(1,36):
        #循环糗百每一页的网址
        print('第%s页'%i)
        url='https://www.qiushibaike.com/textnew/page/%s/?s=5222421'%i
        data=get_url(url=url)
        re_html(html=data)

if __name__ == '__main__':
    main()

有哪里不懂的可以评论区问我。
微信图片_20190826205402.png

不出意外的话，每天都会发一篇。
明天发斗图啦爬虫。

prty · 发表于 2019-8-26 22:05

3651535042 发表于 2019-8-26 20:55
return r.content.decode() 这个可以代替那个r.encoding='utf-8' 但是不知道为什么到20页左右就会报错，就 ...

或许是r.content为空空字符不能解码，，，

896749057 · 发表于 2019-8-26 23:49

3651535042 发表于 2019-8-26 20:55
return r.content.decode() 这个可以代替那个r.encoding='utf-8' 但是不知道为什么到20页左右就会报错，就 ...

老哥看下私信

sy727272 · 发表于 2019-8-26 20:49

提示: 作者被禁止或删除内容自动屏蔽

来两碗米饭 · 发表于 2019-8-26 20:55

return r.content.decode() 这个可以代替那个r.encoding='utf-8' 但是不知道为什么到20页左右就会报错，就换成了r.encoding='utf-8'

有梦想人不睡觉 · 发表于 2019-8-26 21:02

有没有好的教程能分享下吗

秋田犬 · 发表于 2019-8-26 21:07

楼上+111111111

来两碗米饭 · 发表于 2019-8-26 21:10

有梦想人不睡觉发表于 2019-8-26 21:02
有没有好的教程能分享下吗

我自己都没找到，都准备去某宝买了 - -

来两碗米饭 · 发表于 2019-8-26 21:11

秋田犬发表于 2019-8-26 21:07
楼上+111111111

我自己都没找到，都准备去某宝买了 - -

ArgentumPC · 发表于 2019-8-26 21:14

用的PYTHON几啊？

a1142099496 · 发表于 2019-8-26 21:16

怎么入门啊

来两碗米饭 · 发表于 2019-8-26 21:17

ArgentumPC 发表于 2019-8-26 21:14
用的PYTHON几啊？

python3.7

帐号		自动登录	找回密码
密码			注册[Register]

sy727272 sy727272 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	sy727272 发表于 2019-8-26 20:49 《站点帮助文档》有什么问题来这里看看吧，这里有你想知道的内容！提示: 作者被禁止或删除内容自动屏蔽
	呼吁大家发布原创作品添加吾爱破解论坛标识！
	回复支持举报

[Python 原创] 小白刚学习python爬虫，分享一下代码,正则爬取糗百。

免费评分