请教各位大佬,政府机关的不同类型的文章排版不同,用何种包进行爬取信息合适呢?
本帖最后由 hj170520 于 2020-11-21 18:46 编辑今天都被坛友们吓破了蛋了,然后爬取的速度调的很慢,爬了一天了,终于完成了初步的爬取工作,获取了所有违规处罚对于的网页代码docid,好识别对应的网页地址。
接下来我又犯难了,就是他不同类型的文章排版不一样,有时候文章描述不一样,不好轻易抓取
例如:文字版
https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemDetail.html?docId=633686&itemId=1855
以及:表格版
https://www.cbirc.gov.cn/branch/beijing/view/pages/common/ItemDetail.html?docId=936806&itemId=1855
表格版的更加清晰,也是我需要的数据内容;文字版的需要处理之后获得例如表格中所对应的数据内容,但是文字类的处理的时候,用re正则表达式好像总发现文章的表述在变化。
所以,各位大佬一般提取网页数据都用什么方法呢?(大家一起爬虫试一下呢){:301_986:}
他的网页无法直接提取数据,需要查看json。但是json的内容全是css 样式的内容,用re的话却不能一劳永逸,因为它们的排版界面总会有时候出现不一样的变化。 这玩意少趴 最好换地址玩 倾何 发表于 2020-11-21 19:28
这玩意少趴 最好换地址玩
{:301_971:} 纯学习用途呀 其實我覺得無所謂的,都是公開信息的話,應該是沒事的。 正则是针对有规律的文字,从而提取数据,你这文章里很难提取到固定的关键字,所以用正则是不可能的,或者你试试AI分析一下看看
页:
[1]