fiy 发表于 2020-11-13 17:13

关于 k- means算法 的模型准确率问题

萌新一枚 ,望大佬指点。{:301_975:}

在做课程设计时遇到的问题。课设的题目是淘宝广告分析

数据为|点击率    |用户深度|   购买平均价格|
             |               |                   |                         |


我们把数据在进行 k - meams 时分成了5类(自己选的)分为5个质心后发现要计算模型的准确率 (我去居然要算准确率没有想到。。。。) 没办法就去网上查到了有位大佬的聚类结果评价的说法 ,
从原数据集的标签可以看出第1-50个数据点为一类(Iris-setosa),第51-100为一类(Iris-versicolor),第101-150为一类(Iris-virginica),因此只需确定每50个数据点中的聚类标号是不是一致。取它们之中数目最多的标号作为正确的个数,最终比上数据集的总数即为准确率。就此我们打算重新聚一次类 聚为3类(因为用户深度有三类)方便计算准确率   代码还在改进中。。。 没有做到结果

就此问问诸位大佬有什么见解麻烦指点一下,不惜赐教

从0开始的小小怪 发表于 2020-11-13 22:09

我记得聚类分析是可以自动计算出不同类个数下的指标,之后得到一个图像选择峰值最后的那个一般来说效果最好,瞎猜没有依据的话就白做了

fiy 发表于 2020-11-14 12:06

mailCat 发表于 2020-11-13 21:36
可以用MATLAB试试,非常方便可视化

感谢感谢,如果之后时间还够的话会了解一下

fiy 发表于 2020-11-14 12:36

领悟者的涂鸦笔 发表于 2020-11-13 23:06
在机器学习算法当中,数据集分为训练集和测试集。
参与了训练的数据是不能拿去测试的。
就是说你用来确定 ...

做的课设,数据是从天池上下的 链接为 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56

我们是用mapreduce做的,数据做过关联。
关联后的数据为 https://share.weiyun.com/jdWpSDkC

十分感谢大佬的指点,这就尝试重新做一下

fiy 发表于 2020-11-14 12:46

从0开始的小小怪 发表于 2020-11-13 22:09
我记得聚类分析是可以自动计算出不同类个数下的指标,之后得到一个图像选择峰值最后的那个一般来说效果最好 ...

k -means 算法是非监督学习只能由自己选择k 值,那如何 计算出不同类个数下的指标,是2,3,4,5分别作为k 计算准确率,选取准确率最高的吗
刚开始学习机器学习希望大佬多多指点

从0开始的小小怪 发表于 2020-11-14 15:40

fiy 发表于 2020-11-14 12:46
k -means 算法是非监督学习只能由自己选择k 值,那如何 计算出不同类个数下的指标,是2,3,4,5分别作为 ...

我说的不是模型自动选,指的是有别人封装好的函数可以直接调用。我之前写毕业论文的时候用的r语言写的,里面有个factoextra包可以自动计算不同数量的情况生成折线图,你要用python应该也可以找到类似的
页: [1]
查看完整版本: 关于 k- means算法 的模型准确率问题