当前位置: 首页 > news >正文

mmseqs2进行pdb蛋白质序列聚类分析

mmseqs2是一款用于搜索和聚类大规模蛋白质和核酸序列集的开源软件套件。

https://github.com/soedinglab/MMseqs2
本示例将运行mmseqs2对pdb数据库的蛋白质序列进行聚类分析。

1. 安装 MMseqs2

conda activate bioinfoconda install -c bioconda mmseqs2

2. 下载pdb序列数据到指定文件夹

wget https://files.rcsb.org/pub/pdb/derived_data/pdb_seqres.txt.gzgunzip pdb_seqres.txt.gz

3. 过滤只有蛋白质的序列

def extract_protein_sequences(input_file, output_file):"""从FASTA文件中提取蛋白质序列并保存到新文件中"""with open(input_file, 'r') as infile, open(output_file, 'w') as outfile:write_seq = False  # 标记是否要写序列for line in infile:if line.startswith(">"):# 解析序列头部信息,检查是否是蛋白质if "mol:protein" in lin

http://www.mrgr.cn/news/25303.html

相关文章:

  • 适配器模式详解和源码中应用
  • 企业应该如何安全上网,软件防查盗版,企业防盗版
  • 代码随想录冲冲冲 Day43 动态规划Part11
  • SpringBoot与社区团购:构建可扩展的电商平台
  • 视频怎么旋转方向?教你5种视频旋转方向实用方法
  • 外资对冲基金企业岗位:pythonC++开发要求:3-10经验,本科985起,要能说英语可以base上海,新加坡
  • 月考成绩网上在线查询,老师免费发布的查分平台
  • ORACLE 导出/导入表空间
  • 外包干了3天,技术退步明显.......
  • 《ECMAScript 与 JavaScript:差异与共通》
  • 提升效率必备,掌握这些Shell文本处理技能!
  • 怎样训练一个自己的大语言模型?这可能是全网最简单易懂的教程!
  • 拓数派荣登2024年《财富》中国最具社会影响力的创业公司
  • slf4j依赖冲突处理
  • NX1872三维电气布线
  • Linux进程(2)(进程状态 - 僵尸、孤儿进程)
  • 获取STM32 MCU的唯一ID
  • 无人机飞行时状态详解!!!
  • 防逆流开关跳闸解决方案|自发自用余电不上网防逆流控制解决方案|微电网防逆流控制器解决方案
  • (Java企业 / 公司项目)点赞业务系统设计-批量查询点赞状态(二)