吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2552|回复: 22
收起左侧

[Python 原创] python导入txt数据-生成词频+词云图

  [复制链接]
qq632280928 发表于 2023-5-29 16:05
本帖最后由 qq632280928 于 2023-5-29 16:08 编辑

之前做的爬虫,用到了词频分析+词云图现在代码分享给大家
导入txt数据,生成词频+词云图
如果词云图乱码就是缺少这个字体 'E:/msyh.ttc' 这个字体文件需要下载 自己百度下载就行
效果图
微信图片_20230529160337.png
下面是代码
[Python] 纯文本查看 复制代码
# 导入所需库
import jieba
import wordcloud
from collections import Counter
import matplotlib.pyplot as plt
# 读取txt文档
with open('E:/甄嬛传.txt', 'r', encoding='utf-8') as f:
    text = f.read()
# 使用jieba进行分词
words = jieba.cut(text)
# 统计词频
word_count = Counter()
for word in words:
    if len(word) >= 2:  # 仅统计长度大于等于2的词语
word_count[word] += 1
# 获取词频前100的词汇
top100_words = word_count.most_common(100)
# 输出结果到txt文档
with open('甄嬛传词频.txt', 'w', encoding='utf-8-sig') as f:
    for word, count in top100_words:
        f.write(f'{word}: {count}\n')
# 生成词云图
wc = wordcloud.WordCloud(
    width=800, height=600, background_color='white',
    font_path='E:/msyh.ttc'  # 使用微软雅黑字体
)
wc.generate_from_frequencies(word_count)
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()
# 导出词云图
wc.to_file('甄嬛传词云图.png')

免费评分

参与人数 3吾爱币 +6 热心值 +3 收起 理由
brucezhuang + 1 + 1 谢谢@Thanks!
bingzhik + 1 谢谢@Thanks!
苏紫方璇 + 5 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

javaxue 发表于 2023-5-29 21:09
本帖最后由 javaxue 于 2023-5-29 21:11 编辑

库都安装了出现
[Asm] 纯文本查看 复制代码
D:\python\pythonProject1\venv\Scripts\python.exe D:/python/pythonProject1/main.py
  File "D:\python\pythonProject1\main.py", line 15
    word_count[word] += 1
IndentationError: expected an indented block after 'if' statement on line 14

进程已结束,退出代码为 1

360截图20230529211126864.jpg
dreamrise 发表于 2023-6-6 15:25
javaxue 发表于 2023-5-29 21:09
库都安装了出现 [mw_shl_code=asm,true]D:\python\pythonProject1\venv\Scripts\python.exe D:/python/pyth ...


原代码缩进有问题。
for word in words:
    if len(word) >= 2:  # 仅统计长度大于等于2的词语
        word_count[word] += 1
PengXP 发表于 2023-5-29 20:07
wu_yang007 发表于 2023-5-30 00:00
本帖最后由 wu_yang007 于 2023-5-30 00:02 编辑

奇数  偶数  加个判断  控制方向就更好了

kaisen868 发表于 2023-5-30 00:06
挺有意思的,原来原理是这样的。感谢分享。
xm65R 发表于 2023-5-30 07:51
非常感谢
cao777 发表于 2023-5-30 08:33
不错的东西 我试一下看看效果
cao777 发表于 2023-5-30 08:53
本帖最后由 cao777 于 2023-5-30 09:44 编辑

很不错~
已经实现了
有没有办法把这些词分类呢?
例如
菩萨:神仙
观音:神仙
狐狸精:妖怪
小贩:人类
...
Figure_1.png
szkgoo 发表于 2023-5-31 07:43
感谢分享
Sogrey 发表于 2023-6-1 22:04
很不错的东西啊,下来研究下
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-4 16:36

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表