请教各位大佬，政府机关的不同类型的文章排版不同，用何种包进行爬取信息合适呢？

hj170520 · 发表于 2020-11-21 18:41

本帖最后由 hj170520 于 2020-11-21 18:46 编辑

今天都被坛友们吓破了蛋了，然后爬取的速度调的很慢，爬了一天了，终于完成了初步的爬取工作，获取了所有违规处罚对于的网页代码docid，好识别对应的网页地址。

接下来我又犯难了，就是他不同类型的文章排版不一样，有时候文章描述不一样，不好轻易抓取

例如：文字版
https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemDetail.html?docId=633686&itemId=1855
Screen Shot 2020-11-21 at 6.39.35 PM.png

Screen Shot 2020-11-21 at 6.39.35 PM.png

以及：表格版
https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemDetail.html?docId=936806&itemId=1855
Screen Shot 2020-11-21 at 6.39.28 PM.png

表格版的更加清晰，也是我需要的数据内容；文字版的需要处理之后获得例如表格中所对应的数据内容，但是文字类的处理的时候，用re正则表达式好像总发现文章的表述在变化。

所以，各位大佬一般提取网页数据都用什么方法呢？（大家一起爬虫试一下呢）

他的网页无法直接提取数据，需要查看json。但是json的内容全是css 样式的内容，用re的话却不能一劳永逸，因为它们的排版界面总会有时候出现不一样的变化。

倾何 · 发表于 2020-11-21 19:28

这玩意少趴最好换地址玩

hj170520 · 发表于 2020-11-21 20:23

倾何发表于 2020-11-21 19:28
这玩意少趴最好换地址玩

纯学习用途呀

列明 · 发表于 2020-11-21 20:41

其實我覺得無所謂的，都是公開信息的話，應該是沒事的。

塞北的雪 · 发表于 2020-11-21 20:53

正则是针对有规律的文字，从而提取数据，你这文章里很难提取到固定的关键字，所以用正则是不可能的，或者你试试AI分析一下看看

帐号		自动登录	找回密码
密码			注册[Register]

[讨论] 请教各位大佬，政府机关的不同类型的文章排版不同，用何种包进行爬取信息合适呢？

免费评分