本帖最后由 surepj 于 2022-3-16 13:45 编辑
我也刚学Python,也写了个,大家看看:
[Python] 纯文本查看 复制代码 import requests
from lxml import etree
url = 'https://so.gushiwen.cn/gushi/tangshi.aspx'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36',
'referer': 'https://so.gushiwen.cn/gushi/tangshi.aspx'
}
resp = requests.get(url, headers=headers) # 第一次请求,主要拿到标题和详情链接列表
html = etree.HTML(resp.text)
titles = html.xpath('//div[1][@class="typecont"]/span') # xpath提取标题,链接
for i in titles: # 遍历xpath列表
title = ''.join(i.xpath('.//text()')) # 提取古诗标题
href = "https://so.gushiwen.cn" + i.xpath('.//@href')[0] # 拼接古诗详情链接地址
resp2 = requests.get(url=href,headers=headers) # 请求古诗详情页面,主要拿到古诗内容
html2 = etree.HTML(resp2.text)
content = ''.join(html2.xpath('//div[@id="sonsyuanwen"]/div/div[2]/text()')) # 提取古诗内容
print(title,content) # 打印显示标题和内容
运行效果如下:
[Asm] 纯文本查看 复制代码 行宫(元稹)
寥落古行宫,宫花寂寞红。白头宫女在,闲坐说玄宗。
登鹳雀楼(王之涣)
白日依山尽,黄河入海流。欲穷千里目,更上一层楼。
新嫁娘词(王建)
三日入厨下,洗手作羹汤。未谙姑食性,先遣小姑尝。
... ... |