当前位置：首页 > news >正文

mmseqs2进行pdb蛋白质序列聚类分析

news 2025/7/2 19:42:18

mmseqs2是一款用于搜索和聚类大规模蛋白质和核酸序列集的开源软件套件。

https://github.com/soedinglab/MMseqs2
本示例将运行mmseqs2对pdb数据库的蛋白质序列进行聚类分析。

1. 安装 MMseqs2

conda activate bioinfoconda install -c bioconda mmseqs2

2. 下载pdb序列数据到指定文件夹

wget https://files.rcsb.org/pub/pdb/derived_data/pdb_seqres.txt.gzgunzip pdb_seqres.txt.gz

3. 过滤只有蛋白质的序列

def extract_protein_sequences(input_file, output_file):"""从FASTA文件中提取蛋白质序列并保存到新文件中"""with open(input_file, 'r') as infile, open(output_file, 'w') as outfile:write_seq = False  # 标记是否要写序列for line in infile:if line.startswith(">"):# 解析序列头部信息，检查是否是蛋白质if "mol:protein" in lin

http://www.mrgr.cn/news/25303.html

相关文章：

适配器模式详解和源码中应用

企业应该如何安全上网，软件防查盗版，企业防盗版

代码随想录冲冲冲 Day43 动态规划Part11

SpringBoot与社区团购：构建可扩展的电商平台

视频怎么旋转方向？教你5种视频旋转方向实用方法

外资对冲基金企业岗位：pythonC++开发要求：3-10经验，本科985起，要能说英语可以base上海，新加坡

月考成绩网上在线查询，老师免费发布的查分平台

ORACLE 导出/导入表空间

外包干了3天，技术退步明显.......

《ECMAScript 与 JavaScript：差异与共通》

提升效率必备，掌握这些Shell文本处理技能！

怎样训练一个自己的大语言模型？这可能是全网最简单易懂的教程！

拓数派荣登2024年《财富》中国最具社会影响力的创业公司

slf4j依赖冲突处理

NX1872三维电气布线

Linux进程（2）（进程状态 - 僵尸、孤儿进程）

获取STM32 MCU的唯一ID

无人机飞行时状态详解！！！

防逆流开关跳闸解决方案|自发自用余电不上网防逆流控制解决方案|微电网防逆流控制器解决方案

（Java企业 / 公司项目）点赞业务系统设计-批量查询点赞状态（二）