吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1483|回复: 4
收起左侧

[讨论] 请教各位大佬,政府机关的不同类型的文章排版不同,用何种包进行爬取信息合适呢?

  [复制链接]
hj170520 发表于 2020-11-21 18:41
本帖最后由 hj170520 于 2020-11-21 18:46 编辑

今天都被坛友们吓破了蛋了,然后爬取的速度调的很慢,爬了一天了,终于完成了初步的爬取工作,获取了所有违规处罚对于的网页代码docid,好识别对应的网页地址。

接下来我又犯难了,就是他不同类型的文章排版不一样,有时候文章描述不一样,不好轻易抓取

例如:文字版
https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemDetail.html?docId=633686&itemId=1855
Screen Shot 2020-11-21 at 6.39.35 PM.png
以及:表格版
https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemDetail.html?docId=936806&itemId=1855
Screen Shot 2020-11-21 at 6.39.28 PM.png
表格版的更加清晰,也是我需要的数据内容;文字版的需要处理之后获得例如表格中所对应的数据内容,但是文字类的处理的时候,用re正则表达式好像总发现文章的表述在变化。


所以,各位大佬一般提取网页数据都用什么方法呢?(大家一起爬虫试一下呢)

他的网页无法直接提取数据,需要查看json。但是json的内容全是css 样式的内容,用re的话却不能一劳永逸,因为它们的排版界面总会有时候出现不一样的变化。

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
YinChao + 1 + 1 热心回复!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

倾何 发表于 2020-11-21 19:28
这玩意少趴 最好换地址玩
 楼主| hj170520 发表于 2020-11-21 20:23
列明 发表于 2020-11-21 20:41
其實我覺得無所謂的,都是公開信息的話,應該是沒事的。
塞北的雪 发表于 2020-11-21 20:53
正则是针对有规律的文字,从而提取数据,你这文章里很难提取到固定的关键字,所以用正则是不可能的,或者你试试AI分析一下看看
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 10:39

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表