D.A. 发表于 2020-8-26 21:40

python 求助文本分类问题

最近工作中碰到问题,想实现通过企业的经营信息推导出所属细分行业(非国民经济行业),因数据量过大,最近在学习文本分类方法实现自动归类。
顺便安利以下入门视频,讲的很好:https://www.bilibili.com/video/BV1nt411r7tj
学习了两天,先选择朴素贝叶斯算法实现,大概训练了3000个数据,准确率为78%。
有可能是因为文本之间相互不独立的问题,故向大佬们请教,是否有更好更准确的方法实现文本分类?

界神小号 发表于 2020-8-26 21:56

文件分类?
dropit
这个软件加正则表达式几乎解决所有的日常操作

界神小号 发表于 2020-8-26 21:58

win7自带的库也可以,win10的库好像丢失了排序功能,也有可能是我没找到吧.

D.A. 发表于 2020-8-26 22:06

界神小号 发表于 2020-8-26 21:56
文件分类?
dropit
这个软件加正则表达式几乎解决所有的日常操作

文本分类,比如某企业经营范围是:
“金属船舶制造;船用配套设备制造;集装箱制造;金属结构制造;金属压力容器制造;机械零部件加工;钢化玻璃制造;切削工具制造;其他家具制造;船舶修理;通用设备修理;工程勘察设计;机械技术转让服务;室内装饰、设计;水上运输设备租赁服务;集装箱租赁服务;机械设备租赁;工程总承包服务;向境外派遣各类劳务人员(不含海员);为船舶提供码头、过驳锚地、浮筒等设施”,
从这些信息判断将它归类到属于船舶工业

界神小号 发表于 2020-8-26 22:09

你这个是分析后从网上爬下来还是?整理自己整理文档的?

孑然一身的point 发表于 2020-8-26 22:18

朴素贝叶斯够狠,多老的方法了。。。还有你这种问题去CSDN问好一些,52主要是逆向相关的。个人的想法是你可以先使用现在的数据构建语料库,然后通过jieba和word2vec模型负采样训练出词向量(或者你直接用网上公开预训练好的也行),之后通过词向量计算文本向量,然后基于文本向量训练个分类器就行了,如果没标签就是聚类。。。PS:方法可能不是最新的,好久没看过NLP了

D.A. 发表于 2020-8-26 22:21

界神小号 发表于 2020-8-26 22:09
你这个是分析后从网上爬下来还是?整理自己整理文档的?

网上爬的,但是归类标签是自己做的

D.A. 发表于 2020-8-26 22:22

孑然一身的point 发表于 2020-8-26 22:18
朴素贝叶斯够狠,多老的方法了。。。还有你这种问题去CSDN问好一些,52主要是逆向相关的。个人的想法是你可 ...

初学者{:1_907:} 所以来论坛请教有什么更好的方法,多谢解答啊,我查查看word2vec模型

笑熬浆糊4 发表于 2020-8-26 22:46

机器学习我是放弃了,太难了,我的小脑瓜要爆炸了!

fire_flag 发表于 2020-8-26 22:52

D.A. 发表于 2020-8-26 22:21
网上爬的,但是归类标签是自己做的

标签做了多久,3000个?
页: [1] 2
查看完整版本: python 求助文本分类问题