本帖最后由 我是人 于 2020-8-7 17:06 编辑
最近在使用百度的情感倾向分析-百度AI开放平台对文本进行情感分析,最终得到的数据结构是这样的
官网链接在这里 http://ai.baidu.com/tech/nlp/sentiment_classify
[Asm] 纯文本查看 复制代码 日期 positive_prob confidence negative_prob sentiment
01-01 0.387509 0.138868 0.61249 0
01-01 0.00183346 0.995926 0.998167 0
01-02 0.907077 0.793503 0.0929234 2
01-02 0.63071 0.179354 0.36929 2
01-02 0.725737 0.390526 0.274263 2
01-02 0.94582 0.879601 0.0541795 2
01-03 0.379795 0.156011 0.620205 0
01-03 0.896995 0.7711 0.103005 2
01-03 0.143061 0.682086 0.856939 0
其中,positive_prob confidence negative_prob sentiment 四个指标的含义,根据官方文档的说明如下
[Asm] 纯文本查看 复制代码 参数 类型 说明
sentiment number 表示情感极性分类结果, 0:负向,1:中性,2:正向
confidence number 表示分类的置信度
positive_prob number 表示属于积极类别的概率
negative_prob number 表示属于消极类别的概率
官方的例子如下
[Asm] 纯文本查看 复制代码 {
"text":"苹果是一家伟大的公司",
"items":[
{
"sentiment":2, //表示情感极性分类结果
"confidence":0.40, //表示分类的置信度
"positive_prob":0.73, //表示属于积极类别的概率
"negative_prob":0.27 //表示属于消极类别的概率
}
]
}
现在我的问题是,希望运用这4个数值(不是必须全部使用4个)进行一些指标的计算,最终每天对应唯一的数值。即,希望结果如下
[Asm] 纯文本查看 复制代码 日期 唯一数值
01-01 XXX
01-02 XXX
01-03 XXX
困难之处在于,经计算后的“唯一数值”怎样才算合理呢?这个需要考虑到4个数值的含义。前思后想也没有好的主意。希望能够得到大家的帮助。
谢谢大家! |