当前位置: 首页 > news >正文

生信操作文件类型

在你操作过程中涉及到了多个文件类型,每种文件都有其特定的用途和作用。下面介绍一下这些文件类型:

1. SRA 文件 (.sra)

  • 用途SRA(Sequence Read Archive)文件存储了高通量测序(HTS)数据,包括来自 DNA 和 RNA 的原始读数数据。
  • 来源:可以从 NCBI 的 SRA 数据库中下载。
  • 操作:通过 fastq-dumpprefetch 将其转换为 FASTQ 格式,进行进一步的比对和分析。

2. FASTQ 文件 (.fastq)

查看fastq文件命令less demo.fastq

用途:存储了测序数据的读数,包括核苷酸序列和质量分数(每一碱基的测序精确度)。每条读数包含 4 行。

  • 第一行以@开头,包含读段的标识符和描述信息。
  • 第二行是测序读段的序列。
  • 第三行以+开头,通常与第一行的描述信息相同,但也可以是任意内容。
  • 第四行是质量分数,每个字符对应第二行序列中的一个碱基,表示该碱基的测序质量。

操作:用于与参考基因组进行比对,常见的工具如 BWA 会使用 FASTQ 文件进行序列比对。

@SRR14879760.6 A00821:293:H35JJDSXY:2:1101:27579:1031 length=300
GAATATCCACTTGCAGACTTTACAAACAGAGTGTTTCCTAACTGCTCTATGAGAAGAAAAGTTAAACTCTGTGAGTTGAACGCACACATCACAAAAGATTTTCTGAGAATCATTCTGTCTAGTCTTTATATGAAGATAGTTTCCTTTTCTGATTTCTTCATATTCTGCTAGACAGAAGAATTCTCAGTAACTTCCTTGTGTTGTGTGTATTCAACTCACAGAGTTGAACGATCCTTTACACAGAGCAGACTTGAAACACTCTTTTTGTGGAATTTGCAAGTGGAGATTTCAGCCGCTTTG
+SRR14879760.6 A00821:293:H35JJDSXY:2:1101:27579:1031 length=300
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFF,FFFFFFFFFFFFF:F:FFFFF,FFFFF:,FFFFF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFF:,FFFFFFFFFFFFFFFFFFFFFFFFFF:F,F:FFFFFFFF,FFFFFFFFFFFFFFFF:FF:FF,F:F

3. FASTA 文件 (.fa 或 .fasta)

查看fasta文件命令less demo.fasta

  • 用途:存储参考基因组序列或特定基因的序列信息。文件中包含以 > 开头的序列标识符,后面是实际的核苷酸序列。
  • 操作:通过 BWAsamtools faidx 可以进行索引或提取特定区域的序列。
  • 格式示例
>chr20:2652632-2658393
AGCTTGGGCC...

4. SAM 文件 (.sam)

查看sam文件内容samtools view yourfile.sam | less

可选字段

SAM文件还可以包含多个可选字段,这些字段以TAG:TYPE:VALUE的形式出现。常见的可选字段包括:

  • 用途:存储比对信息,包含序列读数如何比对到参考基因组上的详细信息。SAM 文件是人类可读的文本格式,常用于初步比对结果。
  • 操作:由 BWA MEM 生成,包含每条读数的比对位置、质量分数等信息。通常在后续处理中会被转换为更紧凑的 BAM 格式。
  • SAM(Sequence Alignment/Map)文件格式是一种用于存储高通量测序数据比对结果的标准格式。SAM文件包含了测序读取(reads)与参考基因组比对后的详细信息。以下是SAM文件格式的详细说明:

    SAM文件格式字段

    SAM文件由多行组成,每行代表一个比对结果。每行包含11个强制字段和多个可选字段。

    强制字段(11列)
  • QNAME: 读取名称(read name),与BAM文件中的读取名称相同。
  • FLAG: 标志位(flag),一个16位的整数,包含多个标志位,表示读取的各种属性(如是否配对、是否反向互补等)。
  • RNAME: 参考序列名称(reference sequence name),比对到的参考序列名称。
  • POS: 比对位置(position),读取在参考序列上的起始位置。
  • MAPQ: 映射质量(mapping quality),Phred格式的质量分数,表示映射的可靠性。
  • CIGAR: CIGAR字符串(Compact Idiosyncratic Gapped Alignment Report),描述读取与参考序列比对的详细情况,包括匹配、插入、删除等。
  • RNEXT: 下一个读取的参考序列名称(reference name of the mate/next read)。
  • PNEXT: 下一个读取的位置(position of the mate/next read)。
  • TLEN: 观察到的模板长度(observed template length),配对读取之间的距离。
  • SEQ: 序列(sequence),测序读取的核苷酸序列。
  • QUAL: 质量分数(base quality),每个碱基的质量分数,Phred格式。
  • NM: 编辑距离(number of mismatches),表示读取与参考序列之间的编辑距离。
  • MD: 匹配和缺失信息(mismatching positions),描述读取与参考序列之间的不匹配位置。
  • AS: 对齐得分(alignment score),比对算法计算的得分。
  • XS: 拼接得分(cross-strand score),用于检测反义链的比对。
  • SA: 辅助对齐信息(supplementary alignment),表示辅助比对的信息。
  • XA: 替代比对信息(alternative alignments),表示其他可能的比对结果。
SRR14879760.1   0   chr20   2652632   60   100M   *   0   0   AGCTTGGGCC...

5. BAM 文件 (.bam)

  • 用途:与 SAM 文件相同,但以二进制格式存储,因此更高效且占用空间较少。通常用于大规模数据处理。
  • 操作:通过 samtools view 可以将 SAM 转换为 BAM。之后可以用 samtools sort 对其排序,也可以生成索引文件(.bai)。
  • 用途:用于下游的分析步骤,如生成覆盖度文件、变异检测等。

6. BAM 索引文件 (.bai)

  • 用途:为 BAM 文件生成的索引文件,允许工具快速访问 BAM 文件中的特定位置,而无需读取整个文件。
  • 操作:通过 samtools index 生成。

7. bedGraph 文件 (.bedGraph)

  • 用途:以文本格式存储基因组覆盖度信息,描述基因组中每个位置的读数覆盖情况(覆盖深度)。
  • 操作:通过 samtools depthbedtools genomecovBAM 文件生成,常用于将覆盖度数据导出。
  • 格式示例
chr20  2652631  2652632  20
chr20  2652632  2652633  18

8. BigWig 文件 (.bw 或 .bigWig)

  • 用途:是一种紧凑的二进制格式,专门用于可视化基因组覆盖度数据。相比 bedGraph 文件,BigWig 文件占用更小的空间,且读取速度更快,常用于浏览器如 UCSC Genome Browser
  • 操作:由 bedGraph 文件转换而来,通过 bedGraphToBigWig 工具生成。
  • 应用:通常用于基因组浏览器中的覆盖度可视化。

9. 覆盖度文件 (.txt 或 .tsv)

基因组覆盖度

基因组覆盖度是指测序获得的序列占整个基因组的比例。这个比例越高,意味着测序数据对基因组的覆盖越全面,从而能够更准确地反映基因组的组成和结构。

基因组覆盖度的作用

  • 提高测序准确度:较高的基因组覆盖度可以提高测序结果的准确性,减少由于测序深度不足导致的变异检测误差。
  • 发现罕见变异:通过提高覆盖度,可以更有效地发现基因组中的罕见变异,这对于研究遗传疾病、肿瘤等疾病具有重要意义。
  • 全面评估基因组:基因组覆盖度的提高有助于全面评估基因组的组成,包括基因、非编码区域等,从而更好地理解基因组的生物学功能。
  • 用途:存储从 BAM 文件中提取的覆盖度信息,列出基因组中每个位置的覆盖深度。
  • 操作:通过 samtools depth 命令生成,可以进一步转换为 bedGraph 文件。
  • 格式示例
chr20  2652632  20
chr20  2652633  18

10. 基因组大小文件 (.sizes)

  • 用途:存储每条染色体的大小信息,通常与 bedGraphToBigWig 工具一起使用,以便正确转换为 BigWig 格式。
  • 操作:可以手动创建或通过 faidx 命令生成。
  • 格式示例
chr20   64444167

总结:

在整个操作流程中,你会接触到多个文件类型,从原始的测序数据(SRA、FASTQ)到比对文件(SAM、BAM),以及用于可视化的覆盖度文件(bedGraph、BigWig)。通过这些文件类型的协作,能够完成从数据比对到最终基因组浏览器可视化的完整过程。

常用命令

conda remove samtools #卸载某个包

conda clean --all #清理缓存

包/工具的安装

samtools包

安装:base虚拟环境、biostools_env虚拟环境

作用:从下载的人类全基因组序列中截取所需序列

bwa工具

安装:直接安装系统


http://www.mrgr.cn/news/25636.html

相关文章:

  • 【python实现一个更复杂的计算器】
  • 【H2O2|全栈】关于CSS(3)CSS基础(三)
  • Java 图片处理简易指南
  • Python习题 180:使用 sqlite3 模块实现数据库操作
  • 力扣题解2576
  • 计算各种图形的周长(多态)
  • MBD_入门篇_24_SimulinkSources
  • [001-02-001]. 第07-03节:理解线程的安全问题
  • 【AI绘画】Midjourney进阶:景别详解
  • 6.3排序——冒泡排序+快速排序
  • 2024第三届大学生算法大赛 真题训练2 解题报告 | 珂学家 | FFT/NTT板子
  • 先攒一波硬件,过几年再给电脑升级,靠谱吗?想啥呢?
  • 嵌入式边缘计算:融合创新与未来展望
  • C语言实现一个24点游戏
  • GD32/STM32启动过程
  • 深入理解Java中的Lambda表达式
  • DAY14信息打点-JS 架构框架识别泄漏提取API 接口枚举FUZZ 爬虫插件项目
  • C++面向对象结构改进
  • 【隐私计算】Paillier半同态加密算法
  • WInform记录的添加和显示