吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1996|回复: 14
收起左侧

[求助] 爬取学校通知

  [复制链接]
sparename 发表于 2022-4-22 23:22

[Asm] 纯文本查看 复制代码
# -*- coding:utf-8 -*-
"""
作者:4scp8syu@fhzzgfjjjsdzj.anonaddy.com
用途:爬取官网通知
日期:年月日
"""
import requests
import os
from lxml import etree
url="http://www.haue.edu.cn/xwdt/tzgg.htm"
# 创建一个文件夹
if not  os.path.exists('./news'):
    os.mkdir('./news')
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36"
}
re=requests.get(url=url,headers=header)
re.encoding='utf8'
html=etree.HTML(re.text)
# print(html
title=html.xpath('//*[@id="right"]/ul/li//a/text()')
lists=html.xpath('//*[@id="right"]/ul/li//a//@href')
# for i in title:
#     print(i)
for j in lists:
    j=j.replace("..","")
    jurl='http://www.haue.edu.cn'+j
    request=requests.get(url=jurl,headers=header)
    request.encoding = 'utf8'
    html = etree.HTML(request.text)
    t=html.xpath('//*[@id="right"]/h1/text()')
    # print(t)
    content=html.xpath('//*[@id="right"]//text()')
    content = ''.join(content)
    # print(content)
    file = './news/'+' '.join(t)+'.txt'
    with open(file,'w',encoding='utf-8') as fp:
        # 使用write方法进行保存文章内容
        fp.write(content.replace(' ',''))
        # fp.write(content.strip())
        # fp.write(' '.join(content.split()))
        print("over!")


这部分css怎么处理呀

这部分css怎么处理呀

免费评分

参与人数 2吾爱币 +1 热心值 +1 收起 理由
lgc81034 + 1 谢谢@Thanks!
bmsow + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

hackerbob 发表于 2022-4-23 00:40
替换字符串或者用re提取
kafei000 发表于 2022-4-23 01:00
re=requests.get(url=url,headers=header)   这里用改成res, re是正则库,容易造成命名冲突
zhangting2022 发表于 2022-4-23 05:19
wuai_leeda 发表于 2022-4-23 07:17
解析HTML嘛,看看能不能找到接口
surepj 发表于 2022-4-23 08:13
通知的正文,可以单独拿出来处理下。
正文xpath好像是“//*[@id="right"]/div[2]/div/div”
cuixh11 发表于 2022-4-23 08:52
感谢分享
afeia 发表于 2022-4-23 09:28
还行吧哈哈
daymissed 发表于 2022-4-23 10:24
正好学习一波,不过还是有好多语句意思不懂。感谢分享
头像被屏蔽
xiadongming 发表于 2022-4-23 10:56
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 13:24

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表