大家来讨论下有关于“置顶”消息处理的逻辑判断
咨询一下,大家一般对微博热搜的置顶头条里的不可见热度指数是怎么处理的。是前三、前十的平均数?还是置0呢?```
for row in ws.iter_rows(min_row=2, min_col=1):
for cell in row:
if cell.column == 1 or cell.column == 3:
if isinstance(cell.value, str) and not cell.value.isnumeric():
cell.value = cell.value.replace('[置顶]', '0w') # 去除字符串中的 '[置顶]' 字符
if isinstance(cell.value, str) and cell.value.isnumeric():
cell.value = int(cell.value)
elif isinstance(cell.value, str):
cell.value = float(cell.value.replace('w', ''))
``` 写的基本差不多,统计指数、平均指数、情绪值估算、词频统计,剩下的就是渣优化,看后续放源码了。
![](https://s2.xptou.com/2023/05/08/6458ec48725b8.png) 更新:
关于“置顶”取了前三的平均值,分类基本完成
![](https://s2.xptou.com/2023/05/10/645b0f226f199.png)
todo
定语统计功能的设计
* 是否纳入宾语补足语,重新设计?
* 形容词、名词、极化限定词、拟态词,取舍?
* 万字语料库的基础上,是否后期加入机器学习
* 以及其他语言的新闻报道语言结构表达方式
初测定语分析,词组判断、依次写入,记总等效果均不理想,弃用。
![](https://s2.xptou.com/2023/05/10/645b7191c1488.png)
删除功能:定语分析、状语分析;保留功能:词频统计、识别分类。 完成
![](https://s2.xptou.com/2023/05/14/646072fa7c100.png)
页:
[1]