shenyi123 发表于 2019-7-15 09:54

如何提取出一段文本中的特定内容

文本类似于这样的:

5 教学用房及教学辅助用房5.1 一般规定5.1.1 中小学校的教学及教学辅助用房应包括普通教室、专用教室、公共教学用房及其各自的辅助用房。5.1. 2 中小学校专用教室应包括下列用房:1 小学的专用教室应包括科学教室、计算机教室、语言教室、美术教室、书法教室、音乐教室、舞蹈教室、体育建筑设施及劳动教室等,宜设置史地教室;2 中学的专用教室应包括实验室、史地教室、计算机教室、语言教室、美术教室、书法教室、音乐教室、舞蹈教室、体育建筑设施及技术教室等。5.1.3 中小学校的公共教学用房应包括合班教室、图书室、学生活动室、体质测试室、心理咨询室、德育展览室等及任课教师办公室。5.1.4 中小学校的普通教室与专用教室、公共教学用房间应联系方便。教师休息室宜与普通教室同层设置。各专用教室宜与其教学辅助用房成组布置。教研组教师办公室宜设在其专用教室附近或与其专用教室成组布置。5.1.5 中小学校的教学用房及教学辅助用房应设置的给水排水、供配电及智能化等设施除符合本章规定外,还应符合本规范第10章的规定。5.1.6 中小学校的教学用房及教学辅助用房宜多学科共用。5.1.7 中小学校教学用房及教学辅助用房中,隔墙的设置及水、暖、气、电、通信等各种设施的管网布线宜适应教学空间调整的需求。5.1.8 各教室前端侧窗窗端墙的长度不应小于1.00m。窗间墙宽度不应大于1.20m5.1. 9 教学用房的窗应符合下列规定:1 教学用房中,窗的采光应符合现行国家标准《建筑采光设计标准》GB/T 50033的有关规定,并应符合本规范第9.2节的规定;2 教学用房及教学辅助用房的窗玻璃应满足教学要求,不得采用彩色玻璃;3 教学用房及教学辅助用房中,外窗的可开启窗扇面积应符合本规范第9.1节及第10.1节通风换气的规定;4 教学用房及教学辅助用房的外窗在采光、保温、隔热、散热和遮阳等方面的要求应符合国家现行有关建筑节能标准的规定。5.1.10 炎热地区的教学用房及教学辅助用房中,可在内外墙设置可开闭的通风窗。通风窗下沿宜设在距室内楼地面以上0.10m~0.15m高度处。5.1.11 教学用房的门应符合下列规定:1 除音乐教室外,各类教室的门均宜设置上亮窗;2 除心理咨询室外,教学用房的门扇均宜附设观察窗。5.1.12 教学用房的地面应有防潮处理。在严寒地区、寒冷地区及夏热冬冷地区,教学用房的地面应设保温措施。5.1.13 教学用房的楼层间及隔墙应进行隔声处理;走道的顶棚宜进行吸声处理。隔声、吸声的要求应符合现行国家标准《民用建筑隔声设计规范》GB 50118的有关规定。5.1.14 教学用房及学生公共活动区的墙面宜设置墙裙,墙裙高度应符合下列规定:1 各类小学的墙裙高度不宜低于1.20m;2 各类中学的墙裙高度不宜低于1.40m;3 舞蹈教室、风雨操场墙裙高度不应低于2.10m。5.1.15 教学用房内设置黑板或书写白板及讲台时,其材质及构造应符合下列规定:1 黑板的宽度应符合下列规定:1)小学不宜小于3.60m;2)中学不宜小于4.00m;2 黑板的高度不应小于1.00m;3 黑板下边缘与讲台面的垂直距离应符合下列规定:1)小学宜为0.80m~0.90m;2)中学宜为1.00m~1.10m;4 黑板表面应采用耐磨且光泽度低的材料;5 讲台长度应大于黑板长度,宽度不应小于0.80m,高度宜为0.20m。其两端边缘与黑板两端边缘的水平距离分别不应小于0.40m。5.1.16 主要教学用房应配置的教学基本设备及设施应符合表5.1.16的规定。5.1.17 安装视听教学设备的教室应设置转暗设施。




要提取当中的每一个x.x.x后面的内容如:“5.1.1 中小学校的教学及教学辅助用房应包括普通教室、专用教室、公共教学用房及其各自的辅助用房。”这是一条。“5.1. 2 中小学……教室等。”这又是一条。这个能通过正则匹配出来还是要用机器学习来做?求大佬给个思路。

离人心上秋意浓 发表于 2019-7-15 10:18

易语言取文本中间 (, , )

离人心上秋意浓 发表于 2019-7-15 10:21

.版本 2

文本_取中间_批量_正则方式 ()

或者这个。

hearne 发表于 2019-7-15 10:44

就上面那段文本,逻辑判断(循环)+字符串截取就可以了。如果有子项 1 1) 1、之类的,可以加上正则辅助

shenyi123 发表于 2019-7-15 10:48

ly221306 发表于 2019-7-15 10:18
易语言取文本中间 (, , )

没学过易语言,不太懂说的什么意思

逍遥一仙 发表于 2019-7-15 10:48

本帖最后由 逍遥一仙 于 2019-7-15 10:52 编辑

正则呗?
\d(\.\d+|\. \d+){2,} (.*?)(?=\d(\.\d+|\. \d+){2,})

shenyi123 发表于 2019-7-15 10:49

hearne 发表于 2019-7-15 10:44
就上面那段文本,逻辑判断(循环)+字符串截取就可以了。如果有子项 1 1) 1、之类的,可以加上正则辅助

我去尝试下

shenyi123 发表于 2019-7-15 10:57

逍遥一仙 发表于 2019-7-15 10:48
正则呗?
\d(\.\d+|\. \d+){2,} (.*?)(?=\d(\.\d+|\. \d+){2,})

这个可以是可以但是有些问题。首先是最后一条5.1.17提取不出来,然后我想把前面的5.1.1也保留下来,这个好像没办法

逍遥一仙 发表于 2019-7-15 11:06

本帖最后由 逍遥一仙 于 2019-7-15 11:09 编辑

shenyi123 发表于 2019-7-15 10:57
这个可以是可以但是有些问题。首先是最后一条5.1.17提取不出来,然后我想把前面的5.1.1也保留下来,这个 ...
前面的5.1保留的话
\d(\.\d+|\. \d+){1,} (.*?)(?=\d(\.\d+|\. \d+){2,} )
最后一条可能得单独取了。或者考虑先在最后加个标识符再匹配?(5.1.17 )复制括号内的加在最后,包括空格

shenyi123 发表于 2019-7-15 11:16

逍遥一仙 发表于 2019-7-15 11:06
前面的5.1保留的话
\d(\.\d+|\. \d+){1,} (.*?)(?=\d(\.\d+|\. \d+){2,} )
最后一条可能得单独取了。 ...

好吧,我再试试
页: [1] 2
查看完整版本: 如何提取出一段文本中的特定内容