[已开源]英文词频统计工具

hrh123 · 发表于 2023-7-26 23:00

本帖最后由 hrh123 于 2023-9-13 20:50 编辑

由于软件已经完善,剩下的工作就是找找bug,优化性能与界面了,日后的开发可能就不发布了,有需要可以自己到https://gitee.com/hrh233/WordCount查看(推荐没有特殊需求的就用论坛里的就够了,因为可能不会使用源码,有需要请询问我)

2023/9/13更新
修复了excel导出出现的崩溃
https://hrh123.lanzoul.com/iHcLK186x2ub
详情:https://www.52pojie.cn/forum.php?mod=redirect&goto=findpost&ptid=1813669&pid=47960173

2023/8/1更新

修复了带-字符无法被正常读取的bug,并采用了更先进的打包方式

下载链接:

https://wwep.lanzoul.com/ilHkX140xoud

2023/7/31更新

改进了GUI样式以及控件位置
增加了导出表格至Word,Markdown,HTML选项
从输入路径变成更加可控的选择文件选项
改进打包方式,增加运行效率
增加了对epub,xbs,cbz等多种格式文档识别的支持

关于之前提过的内置OCR识别,不打算加了.如果直接调用云端的接口,那感觉对于这个小工具来讲,可控性不高,稳定性较差,版本更新会更频繁,于是写了个基于pytorch的本地OCR识别引擎,代码已经写好了,但是模型文件太大了,一起打包不现实,且需要较好的CPU和GPU配置支持运行,最后被迫把代码删掉,有需要识别图片还是自己用其他工具识别成文档再使用.

上个示意图:

这次下载链接就直接放了:

https://wwep.lanzoul.com/i0EHh13zbhyh

20230728更新

增加了导出Excel选项
增加了对pdf格式的支持
改善输出表格样式,方便复制后导出
重写了匹配规则,修复了一个潜在的匹配问题

示意图(只提供Windows版):

今日看到了悬赏贴

想求一个英文词频统计的软件

并作出了回复.
由于一开始回帖时夸下了海口,说甚至不用库,导致最后回复的程序demo比较劣质,效率比较低,还有bug(就是把特殊字符给替换成空格,但是面对缩写,如don't,就会变成don t,影响准确率).不过觉得这是个不错的东西,要是写出个来倒真挺实用,为了面对长文时的效率还有输出的美观,改了好久,最终得到了这个程序.
先上一张示意图:
Ubuntu 64 位-2023-07-26-15-05-16.jpg

历史版本:

down.txt (39 Bytes, 下载次数: 16)

download.txt (39 Bytes, 下载次数: 21)

hrh123 · 发表于 2023-7-27 00:05

梁茵发表于 2023-7-26 23:35
这个统计出来的数据有啥用？主要比较好奇，用来分析什么

多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是比较不同的作品,看看它们有什么相似或不同之处,有什么独有的或是共有的词汇.
2. 生成词云,然后用词云来展示你的个人简介,喜欢的歌曲,心情日记等
3. 优化你的网站或博客的搜索引擎排名,通过分析你的内容中出现的关键词或短语,你可以调整你的标题,描述,标签等元素,让你的网站或博客更容易被搜索引擎发现和推荐

hrh123 · 发表于 2023-9-13 00:47

@aleden @liyunfei54 久等了,因为前面的时候我Windows上的MingW在整活时头文件被我整废了,导致打包一直出问题

因此我还是采用最朴素的手法,全用Python写一遍再直接pyinstaller打包,性能可能会大幅下降,功能的话起码导出excel测试过应该没问题

下载链接放下面,有bug再反馈吧

https://hrh123.lanzoul.com/iHcLK186x2ub

shihe130 · 发表于 2023-7-30 12:21

hrh123 发表于 2023-7-27 00:05
多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是 ...

这个可以用啦分析英文考试高频词，比如四六级英语、考研英语等等，方便背诵重点词汇

xuximei2011 · 发表于 2023-7-26 23:20

https://1drv.ms/u/s!Al_XmUrVmOqAhEj5QRgEImc61AHr?e=PfS2dq 链接打不开啊。

鹿鸣 · 发表于 2023-7-26 23:04

感谢分享，学习用

wuailuntan1234 · 发表于 2023-7-26 23:31

学习学习，多谢楼主分享！

梁茵 · 发表于 2023-7-26 23:35

这个统计出来的数据有啥用？主要比较好奇，用来分析什么

reaiwuai · 发表于 2023-7-27 00:48

感谢，用于学习

hwxq43 · 发表于 2023-7-27 04:10

提示: 作者被禁止或删除内容自动屏蔽

lyj1202 · 发表于 2023-7-27 06:37

感谢分享，非常实用

梁茵 · 发表于 2023-7-27 06:52

hrh123 发表于 2023-7-27 00:05
多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是 ...

学习了，确实用处挺大的

帐号		自动登录	找回密码
密码			注册[Register]

[原创工具] [已开源]英文词频统计工具

免费评分

本帖被以下淘专辑推荐:

免费评分

hwxq43 hwxq43 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	hwxq43 发表于 2023-7-27 04:10 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报