吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 542|回复: 0
收起左侧

[Python 原创] 使用4种不同的库切割文本

  [复制链接]
bobo0121 发表于 2024-7-20 15:24
jieba库实现切割文本
[Python] 纯文本查看 复制代码
# 颗粒度较小,可以按词语划分,但会出现冗余情况
# -*- coding: utf-8 -*-
import jieba

# 打开文件并读取文本内容
with open("9000字文本.txt", "r", encoding="GB2312") as file:
    text = file.read()

print("/".join(jieba.lcut(text)))    # 精简模式,返回一个列表类型的结果

# print("/".join(jieba.lcut(seg_str, cut_all=True)))      # 全模式,使用 'cut_all=True' 指定

# print("/".join(jieba.lcut_for_search(seg_str)))     # 搜索引擎模式




langchain text splitters库实现切割文本
[Python] 纯文本查看 复制代码
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用with open语句打开文件并读取内容
with open("9000字文本.txt", "r", encoding="GB2312") as file:
    text = file.read()

# 创建按字符递归拆分器实例
# 默认分隔符列表是 ["\n\n", "\n", " ", ""], 可根据需要调整
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # 每个文本块的目标大小
    chunk_overlap=200,  # 重叠字符数,以保持上下文
    length_function=len,
    is_separator_regex=False
)

# 使用递归字符拆分器对文本进行切割
texts = text_splitter.create_documents([text])

# 打印拆分后的文本块
for i, text_chunk in enumerate(texts):
    print(f"Text chunk {i+1} content:\n{text_chunk}\n")



NLTK库实现切割文本
[Asm] 纯文本查看 复制代码
# 颗粒度较大,只能按句子划分
import nltk
# 确保已经下载了nltk的tokenizers
nltk.download('punkt')

# 使用with open语句打开文件
with open("9000字文本.txt", "r", encoding="GB2312") as file:  # 确保使用正确的文件编码
    paragraph = file.read()

# 使用nltk的word_tokenize进行分词
words_list = nltk.word_tokenize(paragraph)

# 打印分词结果
print(words_list)



pySBD库实现.py
[Python] 纯文本查看 复制代码
# 颗粒度较大,只能按句子划分
from pysbd import Segmenter

# 创建一个Segmenter实例
segmenter = Segmenter()

# 打开文件并逐行读取
with open("9000字文本.txt", "r", encoding="GB2312") as file:  # 确保使用正确的文件编码
    full_text = file.read()

# 使用Segmenter对整个文本进行句子分割
sentences = segmenter.segment(full_text)

# 打印分割后的句子列表
for i, sentence in enumerate(sentences, start=1):
    print(f"Sentence {i}: {sentence}")

9000字文本.txt

20.32 KB, 下载次数: 3, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 1吾爱币 +7 热心值 +1 收起 理由
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-16 01:39

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表