当前位置：首页 > news >正文

BWA -A -B -O -E参数控制比对得分

news 2026/1/2 14:08:58

为了说明如何使用 -A、-B、-O 和 -E 参数控制比对得分，我们通过一个简单的例子来展示这些参数对比对结果的影响。

假设我们有一个参考基因组序列（ref.fa）和一个读取序列（reads.fq），并希望调整比对得分参数来控制比对的准确性。

>ref
ACTGACTGACTGACTGACTGACTGACTGACTGACTGACTG

@read1
ACTGACTTACTGACTGACTGACTGACTGACTGACTGAC
+
########################################

在这个读取序列中，注意第 9 个碱基与参考序列中的第 9 个碱基不同。读取序列包含一个错配。

首先，我们使用默认的比对参数进行比对：

bwa mem ref.fa reads.fq > aln.sam

比对会成功，但由于默认的错配罚分和间隙罚分，错配可能会影响比对得分。

我们使用以下自定义参数来调整比对得分：

bwa mem -A 1 -B 4 -O 6 -E 1 ref.fa reads.fq > aln.sam

让我们详细计算一下这个读取序列的比对得分：

匹配部分：读取序列的前 8 个碱基与参考序列完全匹配，因此得分为：
```
匹配得分 = 8 * A = 8 * 1 = 8 分
```
错配部分：第 9 个碱基 T（在读取序列中）与参考序列中的 C 不匹配，因此错配罚分为：
```
错配罚分 = -B = -4 分
```
其余匹配部分：第 10 到第 40 个碱基再次与参考序列完全匹配，因此得分为：
```
匹配得分 = 31 * A = 31 * 1 = 31 分
```

总得分 = 8 + (-4) + 31 = 35 分

增加 -B（错配罚分）：如果我们将错配罚分设置为 6，即 -B 6，那么错配的惩罚会加重，比对得分会降低。对于同样的比对结果，得分会变为：
```
总得分 = 8 + (-6) + 31 = 33 分
```
增加 -O 和 -E（空位罚分）：如果在读取序列中有空位（例如插入或缺失），-O 和 -E 参数将会生效。设置较高的空位罚分可以更严格地限制插入或缺失的出现。例如，如果读取序列中有一个长度为 2 的插入，并且设置 -O 6 -E 1，总罚分会是：
```
空位罚分 = -O - E * 1 = -6 - 1 = -7 分
```