吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1920|回复: 6
收起左侧

[Python 转载] 利用python内置re爬取文章标题

[复制链接]
lbl8029 发表于 2021-7-6 14:29
声明:本人纯属python小白,近些时对python着了迷,在网看看了些教程,小试一下,下一步打算学习一下bs4模块的使用

用正则表达式爬取某论坛标题

如有违规,敬请管理告知!

[Python] 纯文本查看 复制代码
"""
-----------------------------
-*- codeing = utf-8 -*-
[url=home.php?mod=space&uid=238618]@Time[/url] : 2021-06-28 20:41
[url=home.php?mod=space&uid=686208]@AuThor[/url] : 无忧良哥
[url=home.php?mod=space&uid=267492]@file[/url] : demo1.py
@Software: PyCharm
-----------------------------
"""
import requests
import re
import time
for i in range(1,1001):
    url='https://fishc.com.cn/forum-173-%d.html'%i
    headers={
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36"
    }
    abc=requests.get(url=url,headers=headers)
    # print(abc.text)
    html_abc=abc.text
    #数据解析
    tern=re.compile('<a .*?s xst">(.*?)</a>',re.S)
    items=re.findall(tern,html_abc)
    # print(items)
    #存储数据到abc.txt中
    with open('abc.txt','a',encoding='utf-8') as f:
        for item in items:
            f.write(item + '\n')
    print('=====第%d页爬取完成,休息2秒后进入下一页面的信息爬取=====' % i)
    time.sleep(2)
print('%d个页面爬取完毕。。。'%i)

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

gentlespider 发表于 2021-7-6 14:51
访问网址,好像是另一个论坛的,不知道违规吗
ckypamym119 发表于 2021-7-6 17:13
直接 abc=requests.get(url=url,headers=headers).text

不香吗?
xfmiao 发表于 2021-7-6 17:47
阳光七彩小牛马 发表于 2021-7-6 17:55
好使嘛?看看
 楼主| lbl8029 发表于 2021-7-6 18:13
ckypamym119 发表于 2021-7-6 17:13
直接 abc=requests.get(url=url,headers=headers).text

不香吗?

应该香吧,但我是小白,谢谢指教
dummyking 发表于 2021-7-22 20:10
本帖最后由 dummyking 于 2021-7-22 23:10 编辑

建议试用httpx和parsel这两个库,一般情况下比requests + BeautifulSoup快
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 14:44

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表