我就想发帖纪念一下我写的第一个python爬虫,新手可以拿去学习一下,如果是大神希望可以指导我优化一下 哈哈大家相互学习学习{:1_918:}
[Python] 纯文本查看 复制代码 import urllib.request #导入模块
import re
data=urllib.request.urlopen("http://news.sina.com.cn").read() #读取网页
data=data.decode("utf-8","ignore") #编码
pat='href="(https://news.sina.com.cn/.*?[.shtml])"' #正则表达式
allurl=re.compile(pat).findall(data)
for i in range(0,len(allurl)):
try:
data2=urllib.request.urlopen(allurl[i]).read()
data2 = data2.decode("utf-8", "ignore")
pat2 = 'og:title" content="(.*?)"'
tittle = re.compile(pat2).findall(data2)
if(len(tittle)>=1):
print(tittle[0] + "\n" + allurl[i]) #获取标题并且输出
else:
print("标题爬取失败"+ "\n" + allurl[i])
except urllib.error.URLError as e: # 捕获异常并且输出
if hasattr(e, "code"):
print(e.code)
if hasattr(e, "reason"):
print(e.reason)
|