吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4493|回复: 91
收起左侧

[原创工具] [已开源]英文词频统计工具

  [复制链接]
hrh123 发表于 2023-7-26 23:00
本帖最后由 hrh123 于 2023-9-13 20:50 编辑

由于软件已经完善,剩下的工作就是找找bug,优化性能与界面了,日后的开发可能就不发布了,有需要可以自己到https://gitee.com/hrh233/WordCount查看(推荐没有特殊需求的就用论坛里的就够了,因为可能不会使用源码,有需要请询问我)


2023/9/13更新
修复了excel导出出现的崩溃
https://hrh123.lanzoul.com/iHcLK186x2ub
详情:https://www.52pojie.cn/forum.php?mod=redirect&goto=findpost&ptid=1813669&pid=47960173




2023/8/1更新

修复了带-字符无法被正常读取的bug,并采用了更先进的打包方式



下载链接:



2023/7/31更新
  • 改进了GUI样式以及控件位置
  • 增加了导出表格至Word,Markdown,HTML选项
  • 从输入路径变成更加可控的选择文件选项
  • 改进打包方式,增加运行效率
  • 增加了对epub,xbs,cbz等多种格式文档识别的支持

关于之前提过的内置OCR识别,不打算加了.如果直接调用云端的接口,那感觉对于这个小工具来讲,可控性不高,稳定性较差,版本更新会更频繁,于是写了个基于pytorch的本地OCR识别引擎,代码已经写好了,但是模型文件太大了,一起打包不现实,且需要较好的CPU和GPU配置支持运行,最后被迫把代码删掉,有需要识别图片还是自己用其他工具识别成文档再使用.



上个示意图:
example.jpg

这次下载链接就直接放了:



20230728更新
  • 增加了导出Excel选项
  • 增加了对pdf格式的支持
  • 改善输出表格样式,方便复制后导出
  • 重写了匹配规则,修复了一个潜在的匹配问题

示意图(只提供Windows版):
eg.jpg



今日看到了悬赏贴 并作出了回复.
由于一开始回帖时夸下了海口,说甚至不用库,导致最后回复的程序demo比较劣质,效率比较低,还有bug(就是把特殊字符给替换成空格,但是面对缩写,如don't,就会变成don t,影响准确率).不过觉得这是个不错的东西,要是写出个来倒真挺实用,为了面对长文时的效率还有输出的美观,改了好久,最终得到了这个程序.
先上一张示意图:
Ubuntu 64 位-2023-07-26-15-05-16.jpg


历史版本:
down.txt (39 Bytes, 下载次数: 16)

download.txt (39 Bytes, 下载次数: 21)

免费评分

参与人数 10吾爱币 +16 热心值 +8 收起 理由
ptjmzcr + 1 谢谢@Thanks!
aleden + 1 + 1 excel导出存在问题,麻烦修复下。感谢
liyunfei54 + 1 + 1 已经处理,感谢您对吾爱破解论坛的支持!
冬天冷了多穿点 + 1 + 1 我很赞同!
chen0202 + 1 我很赞同!
风之暇想 + 7 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
chao8709 + 1 + 1 我很赞同!
shoe120 + 1 + 1 如何使用,没得个介绍?
15235109295 + 1 + 1 谢谢@Thanks!
info99 + 1 + 1 用来学习真不错,给作者点赞!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| hrh123 发表于 2023-7-27 00:05
梁茵 发表于 2023-7-26 23:35
这个统计出来的数据有啥用?主要比较好奇,用来分析什么

多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是比较不同的作品,看看它们有什么相似或不同之处,有什么独有的或是共有的词汇.
2. 生成词云,然后用词云来展示你的个人简介,喜欢的歌曲,心情日记等
3. 优化你的网站或博客的搜索引擎排名,通过分析你的内容中出现的关键词或短语,你可以调整你的标题,描述,标签等元素,让你的网站或博客更容易被搜索引擎发现和推荐
 楼主| hrh123 发表于 2023-9-13 00:47
@aleden @liyunfei54 久等了,因为前面的时候我Windows上的MingW在整活时头文件被我整废了,导致打包一直出问题
因此我还是采用最朴素的手法,全用Python写一遍再直接pyinstaller打包,性能可能会大幅下降,功能的话起码导出excel测试过应该没问题
下载链接放下面,有bug再反馈吧

https://hrh123.lanzoul.com/iHcLK186x2ub

免费评分

参与人数 2吾爱币 +2 热心值 +2 收起 理由
aleden + 1 + 1 谢谢@Thanks!
liyunfei54 + 1 + 1 热心回复!

查看全部评分

shihe130 发表于 2023-7-30 12:21
hrh123 发表于 2023-7-27 00:05
多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是 ...

这个可以用啦分析英文考试高频词,比如四六级英语、考研英语等等,方便背诵重点词汇
xuximei2011 发表于 2023-7-26 23:20
https://1drv.ms/u/s!Al_XmUrVmOqAhEj5QRgEImc61AHr?e=PfS2dq   链接打不开啊。
鹿鸣 发表于 2023-7-26 23:04
感谢分享,学习用
wuailuntan1234 发表于 2023-7-26 23:31
学习学习,多谢楼主分享!
梁茵 发表于 2023-7-26 23:35
这个统计出来的数据有啥用?主要比较好奇,用来分析什么
reaiwuai 发表于 2023-7-27 00:48
感谢,用于学习
头像被屏蔽
hwxq43 发表于 2023-7-27 04:10
提示: 作者被禁止或删除 内容自动屏蔽
lyj1202 发表于 2023-7-27 06:37
感谢分享,非常实用
梁茵 发表于 2023-7-27 06:52
hrh123 发表于 2023-7-27 00:05
多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是 ...

学习了,确实用处挺大的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-23 12:10

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表