关于 k- means算法的模型准确率问题

fiy · 发表于 2020-11-13 17:13

萌新一枚，望大佬指点。

在做课程设计时遇到的问题。课设的题目是淘宝广告分析

数据为  |点击率 |  用户深度  | 购买平均价格|
         |             |                |                      |

我们把数据在进行 k - meams 时分成了5类（自己选的）分为5个质心后发现要计算模型的准确率（我去居然要算准确率没有想到。。。。）没办法就去网上查到了有位大佬的聚类结果评价的说法，
从原数据集的标签可以看出第1-50个数据点为一类（Iris-setosa），第51-100为一类（Iris-versicolor），第101-150为一类（Iris-virginica），因此只需确定每50个数据点中的聚类标号是不是一致。取它们之中数目最多的标号作为正确的个数，最终比上数据集的总数即为准确率。就此我们打算重新聚一次类聚为3类（因为用户深度有三类）方便计算准确率    代码还在改进中。。。没有做到结果

就此问问诸位大佬有什么见解麻烦指点一下，不惜赐教

从0开始的小小怪 · 发表于 2020-11-13 22:09

我记得聚类分析是可以自动计算出不同类个数下的指标，之后得到一个图像选择峰值最后的那个一般来说效果最好，瞎猜没有依据的话就白做了

fiy · 发表于 2020-11-14 12:06

mailCat 发表于 2020-11-13 21:36
可以用MATLAB试试，非常方便可视化

感谢感谢，如果之后时间还够的话会了解一下

fiy · 发表于 2020-11-14 12:36

领悟者的涂鸦笔发表于 2020-11-13 23:06
在机器学习算法当中，数据集分为训练集和测试集。
参与了训练的数据是不能拿去测试的。
就是说你用来确定 ...

做的课设，数据是从天池上下的链接为 https://tianchi.aliyun.com/dataset/dataDetail?dataId=56

我们是用mapreduce做的，数据做过关联。
关联后的数据为 https://share.weiyun.com/jdWpSDkC

十分感谢大佬的指点，这就尝试重新做一下

fiy · 发表于 2020-11-14 12:46

从0开始的小小怪发表于 2020-11-13 22:09
我记得聚类分析是可以自动计算出不同类个数下的指标，之后得到一个图像选择峰值最后的那个一般来说效果最好 ...

k -means 算法是非监督学习只能由自己选择k 值，那如何计算出不同类个数下的指标，是2，3，4，5分别作为k 计算准确率，选取准确率最高的吗
刚开始学习机器学习希望大佬多多指点

从0开始的小小怪 · 发表于 2020-11-14 15:40

fiy 发表于 2020-11-14 12:46
k -means 算法是非监督学习只能由自己选择k 值，那如何计算出不同类个数下的指标，是2，3，4，5分别作为 ...

我说的不是模型自动选，指的是有别人封装好的函数可以直接调用。我之前写毕业论文的时候用的r语言写的，里面有个factoextra包可以自动计算不同数量的情况生成折线图，你要用python应该也可以找到类似的

帐号		自动登录	找回密码
密码			注册[Register]

[求助] 关于 k- means算法 的模型准确率问题

[求助] 关于 k- means算法的模型准确率问题