吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 424|回复: 0
收起左侧

[学习记录] 包含不同长度范围内的蛋白序列

[复制链接]
yy951010 发表于 2024-9-16 15:02
from Bio import SeqIO

def split_protein_sequences(input_file, output_file_0_400, output_file_401_1000, output_file_1001):
    # 打开输出文件
    with open(output_file_0_400, "w") as f_0_400, open(output_file_401_1000, "w") as f_401_1000, open(output_file_1001, "w") as f_1001:
        # 读取输入的FASTA文件
        for record in SeqIO.parse(input_file, "fasta"):
            sequence_length = len(record.seq)
            
            # 根据长度写入不同的文件
            if sequence_length <= 400:
                SeqIO.write(record, f_0_400, "fasta")
            elif 401 <= sequence_length <= 1000:
                SeqIO.write(record, f_401_1000, "fasta")
            elif sequence_length > 1000:
                SeqIO.write(record, f_1001, "fasta")

if __name__ == "__main__":
    # 输入蛋白序列的FASTA文件
    input_file = "genome_protein_sequences.fasta"
   
    # 输出文件
    output_file_0_400 = "protein_0_400.fasta"
    output_file_401_1000 = "protein_401_1000.fasta"
    output_file_1001 = "protein_1001_plus.fasta"
   
    # 调用函数分割蛋白序列
    split_protein_sequences(input_file, output_file_0_400, output_file_401_1000, output_file_1001)
   
    print("蛋白序列文件已成功分割并导出。")
protein_0_400.fasta: 保存长度在0-400个氨基酸的蛋白序列。protein_401_1000.fasta: 保存长度在401-1000个氨基酸的蛋白序列。protein_1001_plus.fasta: 保存长度在1001个氨基酸以上的蛋白序列。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-12-12 18:35

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表