吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3563|回复: 91
上一主题 下一主题
收起左侧

[原创工具] [已开源]英文词频统计工具

  [复制链接]
跳转到指定楼层
楼主
hrh123 发表于 2023-7-26 23:00 回帖奖励
本帖最后由 hrh123 于 2023-9-13 20:50 编辑

由于软件已经完善,剩下的工作就是找找bug,优化性能与界面了,日后的开发可能就不发布了,有需要可以自己到https://gitee.com/hrh233/WordCount查看(推荐没有特殊需求的就用论坛里的就够了,因为可能不会使用源码,有需要请询问我)


2023/9/13更新
修复了excel导出出现的崩溃
https://hrh123.lanzoul.com/iHcLK186x2ub
详情:https://www.52pojie.cn/forum.php?mod=redirect&goto=findpost&ptid=1813669&pid=47960173




2023/8/1更新

修复了带-字符无法被正常读取的bug,并采用了更先进的打包方式



下载链接:



2023/7/31更新
  • 改进了GUI样式以及控件位置
  • 增加了导出表格至Word,Markdown,HTML选项
  • 从输入路径变成更加可控的选择文件选项
  • 改进打包方式,增加运行效率
  • 增加了对epub,xbs,cbz等多种格式文档识别的支持

关于之前提过的内置OCR识别,不打算加了.如果直接调用云端的接口,那感觉对于这个小工具来讲,可控性不高,稳定性较差,版本更新会更频繁,于是写了个基于pytorch的本地OCR识别引擎,代码已经写好了,但是模型文件太大了,一起打包不现实,且需要较好的CPU和GPU配置支持运行,最后被迫把代码删掉,有需要识别图片还是自己用其他工具识别成文档再使用.



上个示意图:


这次下载链接就直接放了:



20230728更新
  • 增加了导出Excel选项
  • 增加了对pdf格式的支持
  • 改善输出表格样式,方便复制后导出
  • 重写了匹配规则,修复了一个潜在的匹配问题

示意图(只提供Windows版):




今日看到了悬赏贴 并作出了回复.
由于一开始回帖时夸下了海口,说甚至不用库,导致最后回复的程序demo比较劣质,效率比较低,还有bug(就是把特殊字符给替换成空格,但是面对缩写,如don't,就会变成don t,影响准确率).不过觉得这是个不错的东西,要是写出个来倒真挺实用,为了面对长文时的效率还有输出的美观,改了好久,最终得到了这个程序.
先上一张示意图:



历史版本:
down.txt (39 Bytes, 下载次数: 16)

download.txt (39 Bytes, 下载次数: 21)

免费评分

参与人数 10吾爱币 +16 热心值 +8 收起 理由
ptjmzcr + 1 谢谢@Thanks!
aleden + 1 + 1 excel导出存在问题,麻烦修复下。感谢
liyunfei54 + 1 + 1 已经处理,感谢您对吾爱破解论坛的支持!
冬天冷了多穿点 + 1 + 1 我很赞同!
chen0202 + 1 我很赞同!
风之暇想 + 7 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
chao8709 + 1 + 1 我很赞同!
shoe120 + 1 + 1 如何使用,没得个介绍?
15235109295 + 1 + 1 谢谢@Thanks!
info99 + 1 + 1 用来学习真不错,给作者点赞!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

推荐
 楼主| hrh123 发表于 2023-7-27 00:05 |楼主
梁茵 发表于 2023-7-26 23:35
这个统计出来的数据有啥用?主要比较好奇,用来分析什么

多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是比较不同的作品,看看它们有什么相似或不同之处,有什么独有的或是共有的词汇.
2. 生成词云,然后用词云来展示你的个人简介,喜欢的歌曲,心情日记等
3. 优化你的网站或博客的搜索引擎排名,通过分析你的内容中出现的关键词或短语,你可以调整你的标题,描述,标签等元素,让你的网站或博客更容易被搜索引擎发现和推荐
推荐
 楼主| hrh123 发表于 2023-9-13 00:47 |楼主
@aleden @liyunfei54 久等了,因为前面的时候我Windows上的MingW在整活时头文件被我整废了,导致打包一直出问题
因此我还是采用最朴素的手法,全用Python写一遍再直接pyinstaller打包,性能可能会大幅下降,功能的话起码导出excel测试过应该没问题
下载链接放下面,有bug再反馈吧

https://hrh123.lanzoul.com/iHcLK186x2ub

免费评分

参与人数 2吾爱币 +2 热心值 +2 收起 理由
aleden + 1 + 1 谢谢@Thanks!
liyunfei54 + 1 + 1 热心回复!

查看全部评分

推荐
shihe130 发表于 2023-7-30 12:21
hrh123 发表于 2023-7-27 00:05
多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是 ...

这个可以用啦分析英文考试高频词,比如四六级英语、考研英语等等,方便背诵重点词汇
推荐
xuximei2011 发表于 2023-7-26 23:20
https://1drv.ms/u/s!Al_XmUrVmOqAhEj5QRgEImc61AHr?e=PfS2dq   链接打不开啊。
4#
鹿鸣 发表于 2023-7-26 23:04
感谢分享,学习用
5#
wuailuntan1234 发表于 2023-7-26 23:31
学习学习,多谢楼主分享!
6#
梁茵 发表于 2023-7-26 23:35
这个统计出来的数据有啥用?主要比较好奇,用来分析什么
7#
reaiwuai 发表于 2023-7-27 00:48
感谢,用于学习
头像被屏蔽
8#
hwxq43 发表于 2023-7-27 04:10
提示: 作者被禁止或删除 内容自动屏蔽
9#
lyj1202 发表于 2023-7-27 06:37
感谢分享,非常实用
10#
梁茵 发表于 2023-7-27 06:52
hrh123 发表于 2023-7-27 00:05
多了去了,比如:
1. 分析文学作品:看看作者使用了哪些词语,哪些词语反映了他们的风格,主题,情感等,亦或是 ...

学习了,确实用处挺大的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-1 23:10

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表