声明:本人纯属python小白,近些时对python着了迷,在网看看了些教程,小试一下,下一步打算学习一下bs4模块的使用
用正则表达式爬取某论坛标题
如有违规,敬请管理告知!
[Python] 纯文本查看 复制代码 """
-----------------------------
-*- codeing = utf-8 -*-
[url=home.php?mod=space&uid=238618]@Time[/url] : 2021-06-28 20:41
[url=home.php?mod=space&uid=686208]@AuThor[/url] : 无忧良哥
[url=home.php?mod=space&uid=267492]@file[/url] : demo1.py
@Software: PyCharm
-----------------------------
"""
import requests
import re
import time
for i in range(1,1001):
url='https://fishc.com.cn/forum-173-%d.html'%i
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36"
}
abc=requests.get(url=url,headers=headers)
# print(abc.text)
html_abc=abc.text
#数据解析
tern=re.compile('<a .*?s xst">(.*?)</a>',re.S)
items=re.findall(tern,html_abc)
# print(items)
#存储数据到abc.txt中
with open('abc.txt','a',encoding='utf-8') as f:
for item in items:
f.write(item + '\n')
print('=====第%d页爬取完成,休息2秒后进入下一页面的信息爬取=====' % i)
time.sleep(2)
print('%d个页面爬取完毕。。。'%i) |