代谢组数据分析七:从质谱样本制备到MaxQuant搜库

news/2024/5/18 22:39:41

前言

LC-MS/MS

Liquid Chromatography-Mass Spectrometry(LC-MS/MS ,液相色谱-质谱串联)可用于残留化合物检测、有机小分子检测、鉴定和定量污染物以及在医药和食品领域添加剂检测和生物小分子等检测。

LC-MS/MS一般包含五个步骤(Figure 1):

  1. 样本制备;
  2. 样本分离:使用液相色谱方法分离;
  3. 质谱上机:离子化、LUMOS原理、采集模式(DDA、DIA、SRM/PRM);
  4. 质谱鉴定:谱图格式(Raw、MzXML、MGF)、搜库、打分算法、FDR质控、蛋白推断;
  5. 生信分析:谱图校验和下游数据统计分析。

步骤详解

样本制备

提取样品中的蛋白质后,再使用蛋白酶对蛋白进行酶切处理,一般处理后的肽段在35AA以内即可上机(Figure2)。常用蛋白酶是Trypsin。

样本分离

液相色谱包括固定相和流动相的一类分离技术,以液体作为流动相,固定相可以是多种类型也可以是液体也可以是固体等。Figure3 固定相是3A中圆孔材料,流动相是两类液体,液体A可将肽段插入到固定相中。在不断增加液体B的浓度后,肽段可以及液体B的浓度大小呈现梯度整齐分布,最后计算肽段在液相过程的保留时间(Retention time, RT),该指标反应肽段的疏水作用,时间越长疏水效果越强。

质谱上机

质谱仪的构成简要图(Figure 4

质谱仪元件

离子源 [Ion Sources make ions from sample molecules.]

  • 基质辅助激光解吸电离(MALDI)
  • 电喷雾电离(ESI)

质量分析器[Mass analyzers separate ions based on their mass-to-charge ratio (m/z)]

  • 傅立叶变换离子回旋加速器(FT-MS)
  • 线性离子阱(Linear ion trap)
  • 三维离子阱(3D ion trap)
  • 轨道离子阱(Orbitrap)
  • 四极杆(Quadrupole)
  • 飞行时间(Time-of-flight, TOF)

信号检测器[Ion Detector registers the number of ions at each m/z value.]**

  • 微通道板(Microchannel Plate)
  • 电子倍增器(Electron Multiplier)
  • 光电倍增混合管(Hybrid with photomultiplier)

质谱图谱示意图(Figure5)图解:

  1. 正面主视图是液相色谱图(以Retention Time作为X轴,intensity可认为是relative abundance作为Y轴),每个峰表示RT时间相近也即是疏水作用强度相同的肽段离子;
  2. 侧面黑色X轴是m/Z是一级质谱图,x轴是肽段的质荷比,每一个峰表示该比值下的肽段集合;
  3. 侧面蓝色是上一步一级图谱同质荷比下的二级图谱,是分辨率更高的图谱结果;
  4. intensity可以理解为色谱和质谱的响应强度。

数据采集模式

非靶向质谱数据采集模式:Full-scan(全扫描)、DDA(数据依赖采集)和DIA(数据非依赖采集)。

  • 全扫描模式是将肽段一级和二级图谱分开全部扫描,所需时间较长,但获取的峰最多。

  • DDA数据依赖采集,根据全扫描的一级图谱中的一堆母离子的intensity以及动态时间去解析二级图谱,但该过程可能后漏掉携带有用信息的峰;**优点:**DDA采用了较窄m/z窗口,二级质谱图没有干扰离子影响,搜库鉴定容易;**缺点:**丰度依赖,谱图采样随机性大,重复性差。

  • DIA数据非依赖采集,在一级图谱扫描过程不对碎裂母离子做筛选,而是设置窗口(窗口大小依据仪器和软件设定),落在该窗口内的母离子全部进入二级碎裂得到二级图谱。**优点:**全面获取所有离子的碎片信息。**缺点:**采集点多会导致谱图信息过度,难以解析。鉴定需要依赖于预先lable的DDA库。

    由于DIA是一次性放了一堆母离子进来,同时碎裂,所以对于DIA来说,不是一张谱图对应一个母离子,而是一堆谱图对应一堆来自多个母离子的碎片离子混合物。因此,我们不可能通过对二级谱图的解析来得到一个一个的母离子。

    那我们应该如何解析呢?我们用DIA二级谱图与平行实验中的DDA的二级谱图进行比对,从中抽取出相同的二级信号,拿这些数据来进行DIA数据的定性以及相应的定量,而这个定量就是依赖于MS2的信号强度。

Targeted是靶向质谱数据采集

质谱鉴定

质谱的原始图谱格式通常有:

  • Thermo RAW(赛默飞二进制加密的图形文件,Thermo Xcalibur Browser软件查看);

  • MGF(Mascot Generic Format,是常用格式但仅保留二级谱图信息,原始数据一般不能被肽段图谱比对打分软件识别,需要经过格式转换为打分软件可识别的格式);

  • mzXML

质谱打分比对软件

图谱识别可通过De novo和Database Search两种方式实现.

搜库策略:软件根据设定理论参数对蛋白数据库模拟实验过程进行理论酶切,接着理论肽段又会生成理论图谱,最后将实验得到的图谱也就是质谱的图谱和数据库模拟出的理论图谱进行比较,最终鉴定和定量蛋白质。Figure7

搜库步骤

搜索引擎会对数据库里所有的蛋白序列进行理论酶切,得到肽段序列,再对肽段序列进行理论碎裂,形成理论谱图。

然后,用每一张导入搜索引擎的实验谱图与落入母离子质量误差窗口内的理论谱图进行匹配打分,并选择打分最好的理论谱图对应的肽段作为该实验谱图的鉴定结果。

搜库质控:实验图谱和理论图谱匹配不一定正确,一般需要设置p value等评估匹配结果的指标阈值

错误匹配原因:

  1. 蛋白质序列库不完整或者存在测序错误;
  2. 未知修饰,导致谱图难以被正确鉴定;
  3. 酶切实验的偏差,比如错切、漏切等;
  4. 母离子或子离子质量偏差;
  5. 搜索引擎的打分无法区分谱图对应的正确肽段和错误肽段,因此需要评价肽段鉴定的可靠性,搜索引擎才能根据鉴定到的可信肽段序列进行蛋白质推断。

定性和定量蛋白质

在获取质谱图谱数据后,可通过带有搜库引擎的软件进行定性和定量鉴定蛋白质。我们从仪器中心获得去质谱原始data是Thermo RAW的二进制加密文件,在一般的搜库软件是无法识别的,需要使用ThermoRawFileParser或MSconvert转换为软件可识别的文件。(FAIMS技术相当于在现有图谱分级基础上又再一次对肽段进行分级)

PS:在获取图谱过程中,常会用到2018年才推出的FAIMS(High-Field Asymmetric Waveform Ion Mobility Spectrometry)技术以用于加载不同电压(肽段在ESI离子化后,进入质谱之前实现快速气相分离,提高分离的峰容量),直接使用多电压下的raw data做MaxQuant定量分析是错误的,MaxQuant软件只能识别单电压的raw data,因此需要使用FAIMS MzXML Generator 软件将raw data转换成各自电压下的MzXML文件。

软件

格式转换软件

  • ThermoRawFileParser
  • MSconvert
  • FAIMS MzXML Generator

搜库软件:

  • 免费:MaxQuant,MSGFplus,Comet(前一个最好用win版本,后两个用linux版本,然后后两个是最好用主流的质控软件);
  • 收费:Proteome Discoverer, Mascot;
  • 也有基于X!Tandem算法的rTANDEM R包。

结果评估:

  • PTXQC R包

  • proteoQC R包

数据库

来自欧洲生物信息学中心的UniProt KB数据库是现在使用较多的蛋白质数据库。除了选择公共数据库外,还可以自行添加或者从头构建蛋白质数据库(一般会加入实验室常见污染物数据库,方便剔除)。另外,如果所研究的物种没有对应的蛋白质数据库,可选择最近物种的序列库。

实操过程

下面部分是原始质谱数据定性和定量蛋白质过程:

  1. 安装数据转换和搜库软件:本教程基于MaxQuant 1.6.17.0版本,该软件可从MaxQuant官网直接下载或从子目录Software直接解压获取。另外,需和仪器中心确定是否使用了FAIMS技术后,再从子目录Software中解压安装FAIMS MzXML Generator软件;

  2. 下载蛋白质数据库Database子目录下已下载23/2/2021年的human的Uniprot蛋白质数据,或者直接上Uniprot官网下载(1.进入官网,选择Proteomes;2.以human作为关键字搜索后,选择Organism的Homo sapiens后进入;3.进入下图后选择Download按钮以FASTA格式下载数据即可);

  3. 转换原始数据格式:若使用FAIMS技术,则需要使用FAIMS MzXML Generator软件将RAW转换成40/60/80不同电压下的mzXML文件,否则跳过该步骤;

  4. 搜库鉴定蛋白质:我们使用免费开源的MaxQuant 1.6.17.0版本软件进行鉴定蛋白质,在运行前,需要配置好一下参数和注意以下事项:

    • Raw data功能项导入图谱数据(mzXML),可通过最右侧功能栏设置样本的名称和分组等信息;

    • Group-specific parameters:

      • “Modifications”:选择样本相关的修饰(LabelFree增加Deamidation(NQ)、Gln->pyro-Glu);

      • “Instrument”:MaxQuant会自动选择机器类型,也可以手动修改,参数选择软件默认的即可;

      • “digestion”:选择默认的Trypsin/P;

      • “Label-free quantification”:选择LFQ及其默认参数。

    • Global parameters:(其他参数选择默认参数即可,也可根据实际情况自行设置)

      • “Sequence”:选择"Add"导入蛋白质fasta文件,并点"Identifier",选择"Up to first space";

      • “Identification”:选择Match between runs;

      • “Label-free quantification”:选择iBAQ;

      • “Folder locations”:可自行设置Combined结果的输出路径也可使用默认。

    • 在设置完所有参数后,点击上面File选择保存parameters files,方便下次重复运行。

    • 完成保存设置参数文件后,最左下方提供选择CPU数目,一般设置电脑total(CPU) -1的数目。设置完成后,可在电脑空闲时候选择Start,即可在Performance界面看到软件在运行的状态。

结果

MaxQuant完成蛋白质定性和定量后,会生成如下combined目录,其子目录txt下的proteinGroups.txt文件即是蛋白质结果文件。

下游数据分析

下游数据分析可参考。

致谢

感谢张乐同学seminar分享的PPT,本文很多图片或知识点来自于他的PPT,再次感谢。

参考

  1. A Critical Review of Trypsin Digestion for LC-MS Based Proteomics

  2. Peptide retention time prediction

  3. 蛋白质组学数据分析基础3

  4. 2019-11-12p值、E值、FDR、q值…你晕菜了吗?

  5. MGF Files (MS/MS container files)

  6. ThermoRawFileParser

  7. proteoQC

  8. MaxQuant – Information and Tutorial

  9. Bioconductor的质谱蛋白组学数据分析


http://www.mrgr.cn/p/53361017

相关文章

BUUCTF——web题目练习

[极客大挑战 2019]LoveSQL 输入1 123 输入1 123 输入2 123 这里可以看出注入位置为password的后面,开始手动注入 闭合方式为1 [极客大挑战 2019]Secret File 查看页面源代码,发现里面有一个跳转页面的连接,点击进去,查看这个…

2024年13个最佳Scrum工具评测

本文将介绍2024年13个高级Scrum敏捷开发管理工具。Scrum 管理工具有:PingCode、Jira、Trello、Zoho Sprints、Active Collab、ProProfs Project、Scrumwise、ClickUp、Monday.com、QuickScrum、Yodiz、ScrumDo、nTask在过去几年中,Scrum方法论已成为敏捷项目管理的主要框架之…

鸿蒙开发前四章

鸿蒙开发前四章 第二章:开发环境搭建 首先要创建project,然后用Empty Activity模版,可以选visual(支持低代码可视化的开发)一个项目可以有多个module,new module选择同上,还可以导入module。第三章:开发一个harmonyOs应用 (1)创建一个新项目(用java写) 那么sdk版本…

根据Docker部署nginx并且实现https

一、根据Docker部署nginx并且实现https 1.1、Docker中启用HTTPS有几个重要的原因 安全性:HTTPS通过加密数据传输,可以确保数据在传输过程中不被窃听或篡改。这对于保护敏感信息(如用户凭据、支付信息等)的传输至关重要。 数据完…

全新突破:「Paraverse平行云」实现3D/XR企业级应用全面接入Apple Vision Pro

在前不久举行的GTC开发者大会上,英伟达引领行业风向,宣布其Omniverse平台能够助力企业将3D/XR应用流畅传输至Apple Vision Pro混合现实头显。在英伟达与苹果这两大科技巨头的合作下,此举标志着3D/XR技术迈向新纪元的关键一步。「Paraverse平行云」实时云…

Window(Qt/Vs)软件添加版本信息

Window(Qt/Vs)软件添加版本信息 文章目录 Window(Qt/Vs)软件添加版本信息VS添加版本信息添加资源文件添加版本定义头自动更新版本添加批处理脚本设置生成事件 Qt添加版本信息添加资源文件文件信息修改自动更新版本 CMake添加版本信…

06. C语言指针

【指针】 C语言使用数据名调用数据,数据名相当于C语言的直接寻址,直接寻址只能调用固定数据,而指针是间接寻址,指针存储了另一个数据的地址,使用指针调用数据时首先取指针存储的内存地址,之后使用此地址调用数据,使用间接寻址有如下几点优势:1.统一数据的调用方式,因为…

程序员天天 CURD,怎么才能成长,职业发展的思考(2)

接着上一篇:程序员天天 CURD,怎么才能成长,职业发展思考 上一篇写到了用年限来谈程序员的发展,在 4 - 6 年这个时间段需要做的一些事情,接着写这个时间段的。 第 4、5 年时候,你可能会做一些关于基层管理工作。这个时期会遇到一些困难。 这个时期,既要编写代码,又要做基…

电脑技巧:推荐一款非常好用的媒体播放器PotPlayer

目录 一、 软件简介 二、功能介绍 2.1 格式兼容性强 2.2 高清播放与硬件加速 2.3 自定义皮肤与界面布局 2.4 多音轨切换与音效增强 2.5 字幕支持与编辑 2.6 视频截图与录像 2.7 网络流媒体播放 三、软件特色 四、使用技巧 五、总结 一、 软件简介 PotPlayer播放器 …

git 服务端

1.安装gityum install -y git 2.查看版本git --version 3.创建用户useradd gitpasswd git 4.初始化仓库git init --bare /home/git/dataCollect.git 5.将拥有者改为gitgit init --bare /home/git/dataCollect.git

如何基于surging跨网关跨语言进行缓存降级

概述surging是一款开源的微服务引擎,包含了rpc服务治理,中间件,以及多种外部协议来解决各个行业的业务问题,在日益发展的今天,业务的需求也更加复杂,单一语言也未必能抗下所有,所以在多语言行业解决方案优势情况下,那么就需要多语言的协同研发,而对于协同研发环境下,…

AtCoder Grand Contest 001

D. Arrays and Palindrome 如果两个字符要求相同就给它们连边,对于一个长度为 \(x\) 的回文串,\(x\) 是偶数会连 \(x/2\) 条边,奇数会连 \(x/2 - 0.5\) 条边。 \(a\) 和 \(b\) 两个序列总和为 \(2n\),要让 \(n\) 个字符相同至少连 \(n - 1\) 条边,也就是奇数个数超过 \(2\…

IoTDB 入门教程 问题篇②——RPC远程连接IoTDB服务器失败

文章目录 一、前文二、发现问题三、分析问题四、检查6667端口是否监听所有IP五、检查ECS云服务器的安全组是否允许六、检查Linux防火墙是否允许 一、前文 IoTDB入门教程——导读 二、发现问题 使用本地IP127.0.0.1可以连接IoTDB服务器使用远程IPxx.xx.xx.xx却连接不到。提示你…

Unity开发微信小游戏(2)分享

目录 1.概述 2.代码 3.示例 4.个人作品 1.概述 这里我们能做有两件事: 1)主动发起分享 2)监听右上角分享(...按钮,发朋友圈也在这里) API:官方文档 2.代码 1)主动发起分享&…

程序的机器级表示——Intel x86 汇编讲解

往期地址: 操作系统系列一 —— 操作系统概述操作系统系列二 —— 进程操作系统系列三 —— 编译与链接关系操作系统系列四 —— 栈与函数调用关系操作系统系列五 —— 目标文件详解操作系统系列六 —— 详细解释【静态链接】操作系统系列七 —— 装载操作系统系列…

分层图像金字塔变压器

文章来源:hierarchical-image-pyramid-transformers 2024 年 2 月 5 日 本文介绍了分层图像金字塔变换器 (HIPT),这是一种新颖的视觉变换器 (ViT) 架构,设计用于分析计算病理学中的十亿像素全幻灯片图像 (WSI)。 HIPT 利用 WSI 固有的层次结…

【Android学习】自定义文本框和输入监听

实现功能 以上代码可实现功能: 1 自定义文本框样式 2. 文本框触发形式转变 3. 文本框输入长度监听,达到最大长度关闭软键盘 4. password框触发检测phone框内容 1. drawable自定义形状 我创建了editor_focus.xml 和 editor_unfocus.xml,两者仅…

eNSP-浮动静态路由配置

ip route-static 192.168.1.0 24 192.168.3.2 preference 60 #设置路由 目标网络地址 和 下一跳地址 preference值越大 优先级越低 一、搭建拓扑结构 二、主机配置 pc1 pc2 三、配置路由器 1.AR1路由器配置 <Huawei>sys #进入系统视图 [Huawei]int g0/0/0 #进入接…

旅游系列之:庐山美景

旅游系列之&#xff1a;庐山美景 一、路线二、住宿二、庐山美景 一、路线 庐山北门乘坐大巴上山&#xff0c;住在上山的酒店东线大巴游览三叠泉&#xff0c;不需要乘坐缆车&#xff0c;步行上下三叠泉即可&#xff0c;线路很短 二、住宿 长江宾馆庐山分部 二、庐山美景

windows安装ffmpeg

官网 https://ffmpeg.org/download.html这个是别人已经编译好的,不染源码还需要重新编译解压到一个目录,添加到环境变量