hoochanlon 发表于 2023-5-8 13:38

大家来讨论下有关于“置顶”消息处理的逻辑判断

咨询一下,大家一般对微博热搜的置顶头条里的不可见热度指数是怎么处理的。是前三、前十的平均数?还是置0呢?


```
    for row in ws.iter_rows(min_row=2, min_col=1):
      for cell in row:
            if cell.column == 1 or cell.column == 3:
                if isinstance(cell.value, str) and not cell.value.isnumeric():
                  cell.value = cell.value.replace('[置顶]', '0w') # 去除字符串中的 '[置顶]' 字符
                if isinstance(cell.value, str) and cell.value.isnumeric():
                  cell.value = int(cell.value)
                elif isinstance(cell.value, str):
                  cell.value = float(cell.value.replace('w', ''))
```

hoochanlon 发表于 2023-5-8 20:38

写的基本差不多,统计指数、平均指数、情绪值估算、词频统计,剩下的就是渣优化,看后续放源码了。

![](https://s2.xptou.com/2023/05/08/6458ec48725b8.png)

hoochanlon 发表于 2023-5-10 11:34

更新:

关于“置顶”取了前三的平均值,分类基本完成

![](https://s2.xptou.com/2023/05/10/645b0f226f199.png)

todo

定语统计功能的设计

* 是否纳入宾语补足语,重新设计?
* 形容词、名词、极化限定词、拟态词,取舍?
* 万字语料库的基础上,是否后期加入机器学习
* 以及其他语言的新闻报道语言结构表达方式


hoochanlon 发表于 2023-5-10 18:34

初测定语分析,词组判断、依次写入,记总等效果均不理想,弃用。

![](https://s2.xptou.com/2023/05/10/645b7191c1488.png)

删除功能:定语分析、状语分析;保留功能:词频统计、识别分类。

hoochanlon 发表于 2023-5-14 13:38

完成

![](https://s2.xptou.com/2023/05/14/646072fa7c100.png)
页: [1]
查看完整版本: 大家来讨论下有关于“置顶”消息处理的逻辑判断