跳转到内容

下一代测序 (NGS)/从头基因组组装 (方法)

来自 Wikibooks,开放世界中的开放书籍

从头基因组组装生成一个基因组参考。根据生物学问题,可能需要考虑不同的特征。


务必始终牢记基因组组装的权衡


下一代测序仪产生的短读段导致人们越来越需要能够组装生成的庞大数量的短读段。这不是一个简单的问题,因为读段的数量之多使得几乎不可能使用例如重叠-布局-一致性 (OLC) 方法,该方法曾用于更长的读段。因此,大多数可用的能够处理Illumina生成的典型数据的组装器都使用基于de Bruijn图的k-mer方法。

必须根据要组装的基因组的大小进行明确区分。

  • 小(例如细菌基因组:几兆碱基)
  • 中等(例如低等植物基因组:几百兆碱基)
  • 大(例如哺乳动物和植物基因组:吉字节)

所有从头组装器都能够处理小型基因组,并且如果测序文库质量良好,将产生相对较好的结果。即使对于中等大小的基因组,此处提到的大多数从头组装器以及许多其他组装器也可能会表现良好并产生良好的组装结果。也就是说,基于OLC的组装器可能需要几周时间才能组装一个典型的基因组。当只有短读段(例如Illumina读段提供的读段)时,大型基因组仍然难以组装。使用Illumina读段组装这样的基因组可能需要使用大约256 GB甚至512 GB RAM的机器,除非愿意使用小型集群(ABySSRayContrail),或投资商业软件(CLCbio_Genomics_Workbench)。

有用背景

[编辑 | 编辑源代码]


生物学问题

[编辑 | 编辑源代码]

生成参考序列并不能解决许多有趣的生物学问题,但将为各种下游分析提供基础。

输入和输出

[编辑 | 编辑源代码]
  • 基因组序列
  • 组装的参考序列
  • 组装指标
    • 连贯性统计
    • 完整性指标
    • 准确性指标

实验设计

[编辑 | 编辑源代码]

像任何项目一样,一个好的从头组装始于适当的实验设计。必须考虑生物学、实验、技术和计算问题。

  • 生物学问题:关于基因组有哪些已知信息?
    • 它有多大?显然,更大的基因组需要更多的材料。
    • 重复拷贝的频率、长度和保守性如何?更多重复的基因组可能需要更长的读段或长距离配对来解析结构。
    • 它的AT含量是富集还是缺乏?据说具有强烈AT/GC不平衡(无论哪种方式)的基因组具有低信息含量。换句话说,虚假的序列相似性会更加频繁。
    • 它是单倍体、二倍体还是多倍体?目前基因组组装器最擅长处理单倍体样本,有些可以提供带有注释杂合位点的单倍体组装。多倍体基因组(例如植物)仍然存在很大问题。
  • 实验问题:可以使用哪些样本材料?
    • 是否可以提取大量DNA?如果只有少量材料,则可能需要扩增样本(例如使用MDA),从而引入偏差。
    • 该DNA来自单个细胞、克隆群体还是异质细胞集合?样本中的多样性可以产生或多或少的噪声,不同的组装器对噪声的处理方式不同。
  • 技术问题:使用哪些测序技术?
    • 每种技术的成本是多少?
    • 序列质量如何?噪声越大,需要更多的覆盖深度来校正错误。
    • 读段长度如何?读段越长,它们在消除重复序列方面就越有用。
    • 能否以经济高效且可靠的方式生成配对读段?如果是,片段长度是多少?与长读段一样,可靠的长距离配对可以帮助消除重复序列并构建组装的支架。
    • 能否使用混合方法?例如,将短而便宜的读段与长而昂贵的读段混合。
  • 计算问题:运行哪些软件?
    • 它们需要多少内存?此标准可能是最终标准,因为如果计算机没有足够的内存,它要么崩溃,要么在硬盘上交换数据时速度会大幅下降。
    • 它们的速度有多快?此标准通常不太严格,因为在完整的基因组组装和注释项目中,组装时间通常较小。但是,有些软件的扩展性比其他软件更好。
    • 它们是否需要特定的硬件?(例如大型内存机器或机器集群)
    • 它们有多健壮?它们容易崩溃吗?它们得到良好的支持吗?
    • 它们安装和运行是否容易?
    • 它们是否需要特殊的协议?它们能否处理所选的测序技术?


方法的典型步骤

[编辑 | 编辑源代码]
WGS从头组装过程概述

无论基因组组装项目的大小如何,通常都可以将其划分为几个阶段

  1. 实验设计
  2. 样本采集
  3. 样品制备
  4. 测序
  5. 预处理
  6. 组装
  7. 组装后分析


后续步骤

[编辑 | 编辑源代码]

讨论该方法导致的结果。

工作流程

[编辑 | 编辑源代码]

Galaxy工作流程示例

[编辑 | 编辑源代码]

指向给定Galaxy实例上该方法的Galaxy工作流程示例(包括示例数据集)或描述该工作流程的XML文档的链接。

命令行工作流程示例

[编辑 | 编辑源代码]

关键考虑因素

[编辑 | 编辑源代码]
  1. 如果在合理范围内并且不会影响生物学:尝试获取单倍体或至少大部分纯合个体的DNA。
  2. 确保所有文库在质量方面都非常好,并且没有主要问题(例如,使用FastQC)。
  3. 对于配对末端数据,您可能还想根据草图组装或已经生成的组装来估计插入大小。
  4. 在将数据提交到从头组装程序之前,通常最好先清理数据,例如修剪掉末端的坏碱基和/或完全丢弃读取。由于低质量碱基更有可能包含错误,因此这些错误可能会使组装过程复杂化,并可能导致更高的内存消耗。(更多并不总是更好)也就是说,一些通用短读组装程序,如SOAP de-novo和ALLPATHS-LG,可以在组装前执行读取校正。
  5. 在运行任何大型组装之前,请仔细检查您提供给组装程序的参数。
  6. 组装后,通常建议检查您的读取数据与组装的匹配程度,以及是否存在任何问题区域。
  7. 如果您运行基于de Bruijn图的组装,您将需要尝试不同的k-mer大小。虽然对于任何单个组装都没有经验法则,但如果读取没有错误,较小的k-mer会导致更复杂的图。较大的k-mer大小会产生不太复杂的图,前提是读取没有错误。但是,较低的k-mer大小可能更能抵抗测序错误。而过大的k可能不会在图中产生足够的边,因此会导致小的重叠群。


选择软件工具

[编辑 | 编辑源代码]

这基于个人经验以及已发表的研究。但请注意,基因组是不同的,软件包也在不断发展。

《自然》杂志报道了一项使用合成二倍体基因组组装的Assemblathon挑战,将SOAP de novo、Abyss和ALLPATHS-LG评为获胜者

但是,结果网站http://assemblathon.org/assemblathon-1-results上的一个讨论指出,SOAP de novo、sanger-sga和ALLPATHS-LG始终处于最佳性能之列,用于此合成基因组。

我想组装

  • 主要是454或Ion Torrent数据
    • 小型基因组=>MIRA、Newbler
    • 所有其他使用Newbler
  • 混合数据(454和Illumina)
    • 小型基因组=>MIRA,但也尝试其他工具
    • 中型基因组=>没有明确的建议
    • 大型基因组,使用ALLPATHS-LG和SOAP组装Illumina数据,添加其他读取或用于支架构建
  • 主要是Illumina(或颜色空间)
    • 小型基因组=>MIRA、velvet
    • 中型基因组=>没有明确的建议
    • 大型基因组,使用ALLPATHS-LG和SOAP组装Illumina数据,添加其他读取或用于支架构建

(对于大型基因组,这是基于以下事实:很少有组装程序可以处理大型基因组,并且基于Assemblathon的结果。对于454数据,这是基于Newbler的良好总体性能以及MIRA的不同输出、其多功能性和基于de Bruijn的方法可能效果更差的理论考虑。)

组装后,您可能希望尝试使用SEQuel软件来提高组装质量。

我想以最低成本启动一个大型基因组项目

  • 使用具有ALLPATHS-LG规范(即重叠)的Illumina读取,这些读取也适用于例如SOAP de novo。

(此建议基于Assemblathon的结果、原始ALLPATHS出版物(Gnerre等人,2011)以及使用ALLPATHS组装拟南芥基因组的出版物(Schneeberger等人,2011)。

每个软件都有其自身的优势,如果您有特定需求,Assemblathon的结果将指导您。另一个比较网站GAGE也发布了其比较结果(Salzberg等人,2011)。此外,还存在用于评估基因组组装质量的QUAST工具。

指向BioStar上相关讨论的链接:模板:Biostar

华夏公益教科书