吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 965|回复: 4
收起左侧

[讨论] 大家来讨论下有关于“置顶”消息处理的逻辑判断

[复制链接]
hoochanlon 发表于 2023-5-8 13:38

咨询一下,大家一般对微博热搜的置顶头条里的不可见热度指数是怎么处理的。是前三、前十的平均数?还是置0呢?

    for row in ws.iter_rows(min_row=2, min_col=1):
        for cell in row:
            if cell.column == 1 or cell.column == 3:
                if isinstance(cell.value, str) and not cell.value.isnumeric():
                    cell.value = cell.value.replace('[置顶]', '0w') # 去除字符串中的 '[置顶]' 字符
                if isinstance(cell.value, str) and cell.value.isnumeric():
                    cell.value = int(cell.value)
                elif isinstance(cell.value, str):
                    cell.value = float(cell.value.replace('w', ''))

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| hoochanlon 发表于 2023-5-8 20:38

写的基本差不多,统计指数、平均指数、情绪值估算、词频统计,剩下的就是渣优化,看后续放源码了。

 楼主| hoochanlon 发表于 2023-5-10 11:34

更新:

关于“置顶”取了前三的平均值,分类基本完成

todo

定语统计功能的设计

  • 是否纳入宾语补足语,重新设计?
  • 形容词、名词、极化限定词、拟态词,取舍?
  • 万字语料库的基础上,是否后期加入机器学习
  • 以及其他语言的新闻报道语言结构表达方式
 楼主| hoochanlon 发表于 2023-5-10 18:34

初测定语分析,词组判断、依次写入,记总等效果均不理想,弃用。

删除功能:定语分析、状语分析;保留功能:词频统计、识别分类。

 楼主| hoochanlon 发表于 2023-5-14 13:38

完成

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-28 09:47

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表