跳转到内容

下一代测序 (NGS)/DNA 变异

来自维基教科书,开放世界中的开放书籍
下一代测序 (NGS)
比对 DNA 变异 RNA

DNA 变异

[编辑 | 编辑源代码]

全基因组、外显子组等。对下游分析的影响

[编辑 | 编辑源代码]

典型工作流程

[编辑 | 编辑源代码]

文件格式

[编辑 | 编辑源代码]

VCF 代表 变异调用格式。它是由 1000 基因组计划 创建的,作为一种存储小规模变异数据(SNP、InDel、短结构重排)的方法,并已成为存储此类数据的实际标准格式。官方的详细描述可以在 此处 找到(截至撰写本文时,为 VCF 版本 4.1)。

VCF 可以存储有关变异的信息,例如它在参考序列上的位置、参考和替代等位基因、稳定的变异标识符(例如 rs 号码)以及在多个样本中观察到的等位基因。VCF 还可以包含关于跨所有样本的变异的汇总信息(例如总覆盖深度、等位基因频率等),以及在当前分析期间变异失败的一系列过滤器。

基本 VCF 文件格式为 ASCII 文本。标题部分标识 VCF 格式版本,定义 FILTER 和 INFO 字段以及其他元数据。这之后是实际数据表,包含一行包含标准标题和样本名称,以及每变异一行。表标题和数据行中的所有列都以制表符(\t)字符分隔。

#CHROM POS    ID     REF    ALT     QUAL FILTER INFO                    FORMAT      Sample1        Sample2        Sample3
2      4370   rs6057 G      A       29   .      NS=2;DP=13;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:52,51 1|0:48:8:51,51 1/1:43:5:.,.

(有关更详尽的示例,请参阅官方描述)

创建数据集

[编辑 | 编辑源代码]

SAMtools 是一个库和软件包,用于处理 SAM/BAM 格式的对齐方式。对齐方式的格式是人类可读的。该软件有助于从其他对齐方式格式转换。它还可以对齐方式进行排序和合并。PCR 重复也可以使用 SAMtools 删除。[1]

SAMtools 具有两种独立的实现,一种用 C 语言编写,另一种用 Java 编写,它们的功能略有不同。该实现以 C 语言库的形式提供,以及一个命令行工具,该工具打包了几个实用程序,包括[1]

- 导入:SAM 到 BAM 转换

- 视图:BAM 到 SAM 转换和子对齐方式检索

- 排序:排序对齐方式

- 合并:合并多个排序后的对齐方式

- 索引:索引排序后的对齐方式

- faidx:FASTA 索引和子序列检索

- tview:文本对齐方式查看器

- pileup:生成基于位置的输出和一致性/插入缺失调用

其他...

[编辑 | 编辑源代码]

参考数据集

[编辑 | 编辑源代码]

人类=> 变异=> 1000 基因组、HapMap 等

[编辑 | 编辑源代码]

其他物种

[编辑 | 编辑源代码]

查看数据集

[编辑 | 编辑源代码]

Tablet?

[编辑 | 编辑源代码]

比较数据集

[编辑 | 编辑源代码]

VCF 工具

[编辑 | 编辑源代码]

SEQwiki 内容转储

[编辑 | 编辑源代码]

SNP 检测

[编辑 | 编辑源代码]

SNP,或单核苷酸多态性,是指基因组相对于参考序列的遗传性单碱基变化。它们是更通用的单核苷酸变异 (SNV) 集的一部分,该集合还包括体细胞单碱基变化,这些变化不会遗传给后代,而是由环境损伤引起的。用于识别 SNP 的工具也可用于识别 SNV,尽管也存在专门用于识别 SNV 的工具。在某些情况下,例如癌症基因组,SNV 的识别会因异质性 DNA 样本而变得复杂。

SNP 识别程序必须区分系统噪声(仪器误差、PCR 误差等)和实际变异。它们通常通过对各种误差类型以及在纯合参考 (AA)、纯合变异 (BB) 和杂合变异 (AB) 状态下预期呼叫分布进行建模来做到这一点。呼叫的置信度通常会受到报告的序列质量值和读取深度的影响。一些 SNP/SNV 呼叫器通过将单个样本与参考样本进行比较来工作,而另一些则可以通过使用来自每个样本的信息来帮助在其他样本中进行呼叫,从而同时在多个样本中进行呼叫。还存在用于混合人群样本的 SNP 呼叫器。

SNP/SNV 呼叫中常见的误差来源是由于假基因、重复的基因组片段或密切的直系同源物导致的错位;在这些情况下,来自不同基因组区域的读段的共同比对会导致假阳性呼叫。另一个误差来源可能是由于读段中的插入缺失(真实插入缺失变异或测序错误)造成的局部错位(或模糊比对);Dindel 等重新比对工具以及 GATK 中发现的工具可以生成更一致的插入缺失处理方法,以减少这种误差来源。许多 SNP/SNV 呼叫器是为二倍体 DNA 设计的,在倍性更高的样本中可能无法正常工作。如上所述,肿瘤样本等样本中的异质性会阻碍 SNV 呼叫,并且某些呼叫器专门设计用于应对这种情况。肿瘤样本还可能由于基因或染色体扩增而导致拷贝数发生改变,这意味着它们在某些区域实际上是三倍体或更高倍性的。

SNP/SNV 呼叫器通常只呼叫这些多态性,而不是(例如)小的插入缺失。使用这些工具的用户在呼叫相邻的 SNP/SNV 对时也应小心,因为这些(或更远的 SNP)的定相在许多呼叫器的报告中没有报告。

决策助手

[编辑 | 编辑源代码]

我想快速调用 SNP 与参考 => Freebayes、samtools


软件包

[编辑 | 编辑源代码]

免费软件

[编辑 | 编辑源代码]

Freebayes

[编辑 | 编辑源代码]

Freebayes[2] 是 Poly-Giga 和 BAMBayes 的继任者,应该比它们快得多。与它们一样,它依赖于 BAM 文件。它的开发人员在 Biostar 上也对它进行了更详细的描述。[3]

  • 优点
    • 对于简单的 SNP 呼叫来说非常容易运行
    • 不假设任何倍性
    • 可以通过 STDIN 读取 BAM 文件

基因组分析工具包 GATK 允许执行多个步骤。作者使用他们的管道对使用 NA12878 外显子数据集的变异进行呼叫,并将他们的结果与 Crossbow(使用 SOAPsnp)的结果进行了比较。根据这些结果,他们得出结论,Crossbow 的特异性较低。

运行 GATK 和其他工具的一种简单方法可能是使用 Biostar 上提到的变异管道 Pipette。[4][5]

  • 重要提示
    • 如果您在自己的管道中运行 GATK 框架,则必须牢记 GATK 具有严格的文件格式要求。
    • 例如,基因组参考文件中的染色体排序必须按规范顺序排列。[6]
    • 每个 BAM 文件都必须存在 BAM 标头。
    • BAM 文件必须经过排序,最好由 Picards 排序,因为它在排序后会写入正确的标头
    • 每个 BAM 中都必须存在读取组标签。在映射期间输入正确的标签,否则您可能会浪费时间来修复 BAM 文件
  • 优点
    • 可能相对特异(作者表明比 Crossbow 的特异性更高)
  • 缺点
    • 相对复杂的管道

MAQ

  • 优点
    • 根据独立的比较,MAQ 的表现略好于 soapsnp,优于 snvnmix

使用 mpileup 命令的 samtools[7]

samtools pileup(没有m)已弃用,在最近的 SAMtools 版本中已删除。

Sibelia 是一款比较基因组工具,可帮助生物学家分析与病原体相关的基因组变异,或帮助微生物在不同环境中适应的基因组变化。Sibelia 在多个微生物菌株的进化和基因组重排研究中也很有用。[8]

  • 优点
    • 适用于多个细菌基因组。
    • 易于运行且跨平台,根据 GPL 许可。
  • 缺点
    • 大型基因组运行速度慢。


SOAPsnp 例如用于 Crossbow 管道中。

SNVMix SNVMix 的作者将他们的工具与 MAQ v0.6.8 进行了比较,发现使用 Affymetrix SNP 6.0 数据时,根据曲线下面积判断,其性能更好。但是,在使用 MAQ 0.71 进行独立比较时,MAQ 的表现更好。

  • 缺点
    • 根据独立的比较,在高覆盖区域可能不稳定。
    • 可能不如 MAQ 和 SOAPsnp 精确

VariationHunter

[编辑 | 编辑源代码]

VariationHunter-CommonLaw 是一种使用高通量技术发现结构变异的工具。

  • 优点
    • 允许同时在一个或多个个体中检测结构变异

deStruct 是一款从全基因组 Illumina 测序数据中识别肿瘤基因组结构变异的软件工具。

  • 优点
    • 高灵敏度和特异性
    • 能够在 Linux 集群(如 SGE)上自动分配并行作业
    • 低内存需求

商业软件

[编辑 | 编辑源代码]

Strand NGS Avadis NGS Partek
CLCBio

进一步阅读

[编辑 | 编辑源代码]

参考文献

[编辑 | 编辑源代码]
  1. a b Li, H.; Handsaker, B.; Wysoker, A.; 等人。 (2009). "序列比对/映射 (SAM) 格式和 SAMtools". 生物信息学. 25 (16): 2078–9. doi:10.1093/bioinformatics/btp352. PMC 2723002. PMID 19505943. {{cite journal}}: 显式使用 et al. in: |author= (帮助)CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  2. "ekg/freebayes". GitHub. 2016 年 4 月 19 日. 检索于 2016 年 4 月 30 日.
  3. Lindenbaum, P. (2010 年 4 月 8 日). "问题:您使用什么方法进行 In/Del/Snp 鉴定?". Biostars. Biostar Genomics, LLC. 检索于 2016 年 4 月 30 日.
  4. "metalhelix/pipette". GitHub. 2013 年 6 月 27 日. 检索于 2016 年 4 月 30 日.
  5. Matthieu (2011 年 5 月 12 日). "问题:SNP 鉴定工作流程或教程?". Biostars. Biostar Genomics, LLC. 检索于 2016 年 4 月 30 日.
  6. Van der Auwera, G. (2012 年 7 月 25 日). "GATK 接受/需要哪些输入文件?". GATK 论坛. Broad Institute. 检索于 2016 年 4 月 30 日.
  7. "使用 SAMtools/BCFtools 鉴定 SNP/INDEL". GitHub. 2010 年 12 月 17 日. 检索于 2016 年 4 月 30 日.
  8. "Sibelia(又称同线性块探索工具)". 俄罗斯科学院圣彼得堡国立大学. 检索于 2016 年 4 月 30 日.
华夏公益教科书