跳转到内容

下一代测序 (NGS)/从头组装

来自维基教科书,开放的书籍,开放的世界
下一代测序 (NGS)
染色质结构 从头基因组组装 从头 RNA 组装

从头组装

[编辑 | 编辑源代码]

下一代测序仪产生的短读序列,导致对组装大量短读序列的需求不断增加。这不是一个简单的问题,因为大量的读序列使得使用例如过去用于较长读序列的重叠布局共识 (OLC) 方法变得几乎不可能。因此,大多数可用的组装器能够处理由 Illumina 产生的典型数据,使用基于 de Bruijn 图的 k-mer 方法。

必须根据要组装的基因组的大小做出明确的区分。

  • 小 (例如细菌基因组:几兆碱基)
  • 中等 (例如低等植物基因组:几百兆碱基)
  • 大 (例如哺乳动物和植物基因组:吉碱基)

所有从头组装器都能够处理小型基因组,并且在提供合理的测序文库的情况下,将产生相对较好的结果。即使对于中等大小的基因组,这里提到的大多数从头组装器以及许多其他组装器,都可能表现良好并产生一个不错的组装。也就是说,基于 OLC 的组装器可能需要数周时间才能组装一个典型的基因组。当只有短读序列 (例如 Illumina 读取提供的) 时,大型基因组仍然很难组装。使用 Illumina 读取组装这样的基因组,可能需要使用大约 256 GB 甚至 512 GB RAM 的机器,除非愿意使用小型集群 (ABySSRayContrail),或者投资商业软件 (CLCbio_Genomics_Workbench)。

典型工作流程

[编辑 | 编辑源代码]
WGS 从头组装过程概述

无论基因组组装项目的大小如何,通常都可以将其划分为几个阶段。

  1. 实验设计
  2. 样本收集
  3. 样本准备
  4. 测序
  5. 预处理
  6. 组装
  7. 组装后分析

实验设计

[编辑 | 编辑源代码]

与任何项目一样,一个好的从头组装从适当的实验设计开始。必须考虑生物学、实验、技术和计算问题。

  • 生物学问题:关于基因组我们了解多少?
    • 它有多大?显然,更大的基因组需要更多材料。
    • 重复序列的频率、长度和保守性如何?重复性更高的基因组可能需要更长的读序列或长距离配对读取,以解析结构。
    • 它有多富含 AT/贫含 AT?据说,AT/GC 严重不平衡(无论哪种方式)的基因组具有较低的信息含量。换句话说,虚假序列相似性将更加频繁。
    • 它是单倍体、二倍体还是多倍体?目前,基因组组装器最擅长处理单倍体样本,有些组装器提供带有注释杂合位点的单倍体组装。多倍体基因组(例如植物)仍然存在很大问题。
  • 实验问题:有哪些样本材料可用?
    • 是否可以提取大量 DNA?如果只有少量材料,可能需要扩增样本(例如使用 MDA),从而引入偏差。
    • 该 DNA 来自单个细胞、克隆群体还是异质细胞集合?样本中的多样性可以或多或少地产生噪声,不同的组装器对噪声的处理方式不同。
  • 技术问题:使用哪些测序技术?
    • 每种技术的成本是多少?
    • 序列质量如何?噪声越大,需要越多的覆盖深度才能纠正错误。
    • 读序列有多长?读序列越长,它们对消除重复序列就越有用。
    • 可以以成本效益高且可靠的方式产生配对读取吗?如果是,片段长度是多少?与长读序列一样,可靠的长距离配对可以帮助消除重复序列并构建组装。
    • 可以使用混合方法吗?例如短读序列和便宜的读序列混合使用。
  • 计算问题:使用哪些软件?
    • 它们需要多少内存?这个标准可能是最终的,因为如果一台计算机没有足够的内存,它要么会崩溃,要么会随着数据在硬盘上不断交换而速度大幅下降。
    • 它们有多快?这个标准通常不太严格,因为组装时间在完整的基因组组装和注释项目中通常是微不足道的。但是,有些组装器比其他组装器更能扩展。
    • 它们是否需要特定硬件?(例如大型内存机器或机器集群)
    • 它们有多稳健?它们容易崩溃吗?它们得到很好的支持吗?
    • 它们安装和运行有多容易?
    • 它们是否需要特殊协议?它们可以处理选定的测序技术吗?

一些可能对大多数组装都通用的步骤

  1. 如果在合理的范围内并且不会干扰生物学:尝试从单倍体或至少大部分纯合个体获得 DNA。
  2. 确保所有文库在质量方面都很好,并且没有任何重大问题(例如使用 FastQC)
  3. 对于配对末端数据,您可能还需要根据草图组装或已经完成的组装来估计插入大小。
  4. 在将数据提交到从头组装器之前,通常最好清理数据,例如修剪掉末端的坏碱基和/或完全删除读取。由于低质量碱基更有可能包含错误,这些错误可能会使组装过程复杂化,并可能导致更高的内存消耗。(更多并不总是更好)也就是说,一些通用短读序列组装器,例如 SOAP 从头组装和 ALLPATHS-LG,可以在组装之前执行读取校正。
  5. 在运行任何大型组装之前,仔细检查提供给组装器的参数。
  6. 组装后,通常建议检查读取数据与组装的匹配程度,以及是否存在任何有问题的区域。
  7. 如果运行基于 de Bruijn 图的组装,您将希望尝试不同的 k-mer 大小。虽然没有适用于任何单个组装的经验法则,但如果读取序列没有错误,则较小的 k-mer 会导致更复杂的图。较大的 k-mer 大小会在没有错误的读取序列的情况下产生不太复杂的图。但是,较低的 k-mer 大小可能会更能抵抗测序错误。而过大的 k 可能会导致图中没有足够的边,因此会导致小的重叠群。

数据预处理

[编辑 | 编辑源代码]

有关更详细的讨论,请参见专门针对预处理的一章。

数据预处理包括过滤数据以去除错误,从而简化组装工作。虽然大多数组装器都集成了错误校正例程,但过滤读数通常可以大大减少组装所需的时间和内存开销,并可能改善结果。

基因组组装

[编辑 | 编辑源代码]

基因组组装是指将大量短于实际基因组的测序读数集合,构建一个可能是所有这些片段来源的基因组序列。什么是可能的基因组通常取决于启发式算法和可用的数据。首先,根据简约性,基因组必须尽可能短。可以将所有读数简单地连接起来形成所有序列的连接,但这并不简约。其次,基因组必须包含尽可能多的输入数据。最后,基因组必须尽可能满足实验数据。通常,预计配对末端读数将以给定的相对方向和给定的距离彼此映射到基因组上。

组装器的输出通常分解为 重叠群,即几乎完全解析的基因组连续区域,以及支架,即彼此之间大致定位和定向的一组重叠群。

有许多组装器可用(有关详细信息,请参阅维基百科关于 序列组装 的页面)。以下是一些教程,介绍如何使用其中的一些组装器。

比较组装的技巧

[编辑 | 编辑源代码]

一旦生成多个基因组组装,就需要对其进行评估。[1][2][3] 当前方法包括

  • N50(重叠群或支架的长度)[4]
  • 用于生成组装的读数的映射[5][6][7][8][9][10]
  • 基于进化预期存在的,识别和计数高度保守的基因[11]
  • 将转录本映射到基因组组装[12]

组装后分析

[编辑 | 编辑源代码]

一旦获得基因组,就可以进行许多分析,甚至可以说是必要的。

  • 质量控制
  • 与其他组装比较
  • 变异检测
  • 注释

创建数据集

[编辑 | 编辑源代码]

免费软件

[编辑 | 编辑源代码]

ABySS 是一种可以跨多个节点运行的从头组装器,它使用消息解析接口 (MPI) 接口进行通信。由于 ABySS 分布式处理任务,每台机器所需的 RAM 量较小,因此 ABySS 能够处理大型基因组。有关教程,请 点击这里

  • 优点
    • 分布式接口,可以使用集群
    • 可以使用相对较少的每计算节点 RAM 来组装大型基因组。人类基因组是在拥有 16GB RAM 的 21 个节点上组装的。
  • 缺点
    • 速度相对较慢
Allpaths-LG
[编辑 | 编辑源代码]

Allpath-LG 是一种需要专门库的新型组装器。该软件的作者将 ALLPATH-LG 与 SOAP-denovo 进行了基准测试,ALLPATH-LG 报告了更优异的性能。但是必须注意,由于时间限制,他们可能没有对其中一个数据集使用 SOAP-denovo 填补间隙模块。这可能会改善 SOAP 组装的连续序列长度。在我们自己的实验中(usadellab),我们看到了类似的良好 N50 结果[13],并且还报告了 ALLPATHS-LG 拟南芥 组装的良好 N50 值。同样,ALLPATHS-LG 在 Assemblathon 中也被评为表现出色。

  • 优点
    • 运行时间相对较快(比 SOAP 慢)
    • 良好的支架长度(可能比 SOAP 更好)
    • 可以使用长读数(例如 PAC Bio),但仅适用于小型基因组
  • 缺点
    • 需要专门定制的库
    • 大型基因组(哺乳动物大小)需要大量的 RAM。尽管出版物估计约 512GB 就足够了
    • 比 SOAP 慢
Euler SR USR
[编辑 | 编辑源代码]

EULER 是一种包含错误校正模块的组装器。

  • 优点
    • 具有错误校正模块
  • 缺点

MIRA 是一种通用组装器,可以集成各种平台数据并执行真正的混合组装。

  • 优点
    • 文档非常完善,并且有许多开关
    • 可以组合不同的测序技术
    • 可能是相对高质量的数据
  • 缺点
    • 仅部分多线程,因此由于技术原因速度较慢
    • 可能不建议组装较大的基因组

Ray 是一种专门针对细菌基因组、宏基因组和病毒基因组的分布式可扩展组装器。

教程请 点击这里

  • 优点
    • 可扩展性(使用 MPI)
    • 正确性
    • 可用性
    • 文档完善
    • 响应式邮件列表
    • 可以组合不同的测序技术
    • 基于 de Bruijn 图
  • 缺点
SOAP de novo
[编辑 | 编辑源代码]

SOAPdenovo 是一种通用基因组组装器。它被用于组装大熊猫基因组。有关教程,请 点击这里

  • 优点
    • SOAP de novo 使用中等量的 RAM
    • SOAP de novo 速度相对较快(可能是速度最快的免费组装器)。
    • SOAP de novo 包含一个支架和一个读数校正器。
    • SOAP de novo 模块化程度较高(读数校正器、组装、支架、间隙填充)。
    • SOAP de novo 在处理非常短的读数方面效果良好[14]
  • 缺点
    • 构建重叠群的方式可能有点令人困惑。
    • 需要相对较大的 RAM 量,BGI 声称约为 150GB(虽然低于 ALLPATHS)。
SPAdes
[edit | edit source]

SPAdes 是一种单细胞基因组组装器。

  • 优点
    • SPAdes 在处理高度不均匀覆盖率方面效果良好(例如,在使用多重置换扩增后)。
    • SPAdes 使用中等量的 RAM。
    • SPAdes 速度相对较快。
    • SPAdes 包含错误校正软件 BayesHammer。
    • SPAdes 具有支架(版本 2.3+)。
  • 缺点
    • SPAdes 只对细菌基因组进行了充分测试。
    • SPAdes 只适用于 Illumina 读数。
Velvet
[edit | edit source]

请查看 此处,了解使用 Velvet 创建组装的教程。

  • 优点
    • 易于安装,稳定。
    • 易于运行。
    • 快速(多线程)。
    • 可以接收长读数和短读数,适用于 SOLiD 颜色空间读数。
    • 可以使用参考基因组来锚定通常映射到重复区域的读数(哥伦布模块)。
  • 缺点
    • 对于大型基因组,Velvet 可能需要大量的 RAM,对于人类基因组,可能需要 > 512 GB(如果可能的话)。这是基于 Simon Gladman[15] 为较小基因组推导的近似公式:-109635 + 18977*ReadSize + 86326*GenomeSize(以 MB 为单位) + 233353*NumReads(以百万为单位) - 51092*Kmersize。
Minia
[edit | edit source]

Minia 是一种 de Bruijn 图组装器,针对非常低的内存使用量进行了优化。

  • 优点
    • 能够在适度的资源上快速组装非常大的基因组。
    • 易于安装和运行。
  • 缺点
    • 仅适用于 Illumina 数据。
    • 不执行任何支架。
    • 某些步骤是 I/O 密集型的,即应使用本地硬盘而不是网络驱动器。

商业

[edit | edit source]
CLC cell
[edit | edit source]

CLC 组装单元是 CLC 发布的商业组装器。它基于 de Bruijn 图方法。

  • 优点
    • CLC 使用非常少的 RAM。
    • CLC 速度非常快。
    • CLC 包含一个支架(版本 4.0+)。
    • CLC 可以组装来自大多数常见测序平台的数据。
    • 在 Linux、Mac 和 Windows 上运行。
  • 缺点
    • CLC 不是免费的。
    • 根据我们自己的植物数据,CLC 在折叠重复方面可能更为宽松。
Newbler
[edit | edit source]

Newbler 是罗氏公司发布的组装器。

  • 优点
    • Newbler 已被用于许多组装项目。
    • Newbler 似乎能够产生良好的 N50 值。
    • Newbler 通常比较精确。
    • Newbler 通常可以免费获得。
  • 缺点
    • Newbler 主要针对 454 数据。由于 Ion Torrent PGM 数据具有类似的错误特征(主要是错误调用同聚物重复序列),因此它也可能是一个不错的选择。虽然它可以容纳一定量的 Illumina 数据,正如生物信息学家 Lex Nederbragt[16] 所述,但这对于大型数据集来说是不可能的。火蚁基因组[17] 在“伪”454 读数形式中添加了约 40x Illumina 数据到约 15x 454 覆盖率:首先使用 SOAPdenovo 组装 Illumina 数据,然后将获得的重叠群切成重叠的 300bp 读数,最后将这些伪 454 读数与真实 454 数据一起输入 Newbler。
    • 由于 Newbler 至少部分使用 OLC 方法,因此大型组装可能需要时间。

决策助手

[edit | edit source]

这基于个人经验以及已发表的研究。但请注意,基因组是不同的,软件包也在不断发展。

一项使用合成二倍体基因组组装的 Assemblathon 挑战赛被 Nature 报道,SOAP de novo、Abyss 和 ALLPATHS-LG 被评为获胜者。[18]

然而,Assemblethon 网站上的一个演讲将 SOAP de novo、sanger-sga 和 ALLPATHS-LG 称为该合成基因组的最佳执行者[19]

我想组装

  • 主要是 454 或 Ion Torrent 数据
    • 小型基因组 => MIRA、Newbler
    • 所有其他使用 Newbler
  • 混合数据(454 和 Illumina)
    • 小型基因组 => MIRA,但也要尝试其他组装器
    • 中等基因组 => 没有明确的建议
    • 大型基因组,使用 ALLPATHS-LG 和 SOAP 组装 Illumina 数据,添加其他读数或使用它们进行支架
  • 主要是 Illumina(或颜色空间)
    • 小型基因组 => MIRA、velvet
    • 中等基因组 => 没有明确的建议
    • 大型基因组,使用 ALLPATHS-LG 和 SOAP 组装 Illumina 数据,添加其他读数或使用它们进行支架

(对于大型基因组,这是基于这样一个事实:没有多少组装器可以处理大型基因组,并且基于 assemblathon 的结果。对于 454 数据,这是基于 Newbler 的良好通用性能以及 MIRA 的不同输出、其多功能性以及 de Bruijn 基于方法可能表现更差的理论考虑。)

组装完成后,您可能想尝试使用 SEQuel 软件来提高组装质量。

我想以最低的成本启动大型基因组项目

  • 使用 Illumina 读数(符合 ALLPATHS-LG 规范,即重叠),这些读数也可在 SOAP de novo 中使用。

(此建议基于 Assemblathon 的结果、原始 ALLPATHS 发表[20] 以及使用 ALLPATHS 对拟南芥基因组进行组装的出版物。[13])。

每个软件都有其独特的优势,如果您有特定的要求,Assemblathon 的结果将为您提供指导。另一个比较网站 GAGE 也发布了其比较。[2]。此外,还存在用于评估基因组组装质量的QUAST 工具。

案例研究

[edit | edit source]

进一步阅读材料

[edit | edit source]
  • 比较
    • Ye et al., 2011 Sanger/PCAP、454/Roche 和 Illumina/SOAP 组装的比较。Illumina/SOAP替换、删除和插入率较低,但重叠群和支架 N50 大小低于 454/Newbler
    • Paszkiewicz et al., 2010 关于短读组装器的综述。
    • Zhang et al., 2011 对不同基因组组装器在模拟 Illumina 读数数据上的深入比较。不幸的是,只测试了中等基因组。对于真核基因组短读数,建议使用 Soap denovo,对于长读数,建议使用 ALLPATHS-LG
    • Chapman JA et al. 2011 介绍了新的组装器 Meraculous,收集了关于 E. coli K12 MG1655 组装的文献数据(适用于 Allpaths 2、Soapdenovo、Velvet、Euler-SR、Euler、Edena、AbySS 和 SSAKE)。Allpaths2重叠群和支架 N50 大小远远超过其他组装器,并且除了 Meraculous 之外,它是唯一一个无错误组装的组装器。Meraculous 被证明甚至没有错误
    • Liu 等人,2011 使用三个细菌数据集,将他们新的组装器 PASHA 与 SOAP de novo (v 1.04)、velvet (1.0.17) 和 ABySS (1.2.1) 进行对比。虽然 PASHA 通常拥有最大的 NG50 和 NG80(使用真实基因组大小计算的 N50 和 N80),**但 SOAP de novo 生成的重叠群数量最多**,有时 NG50 和 NG80 较差。然而,对于一个数据集,**SOAP denovo 显示出最佳的基因组覆盖率**。
    • Assemblathon 基于一个合成基因组,比较了许多不同团队的从头基因组组装结果。Assemblathon 1 竞赛现已由 Earl 等人在《基因组研究》杂志上发表[1]

参考数据集

[edit | edit source]

有关更多信息,请点击此处

欧洲核苷酸档案 (ENA) 采用三层数据架构。它整合了以下信息:

  • EMBL-Bank。
  • 欧洲痕迹档案:包含来自电泳测序仪的原始数据。
  • 序列读取档案:包含来自下一代测序平台的原始数据。

有关更多信息,请参阅SRA

序列读取档案 (SRA) 是:

  • 下一代测序读取和比对 (BAM) 的主要归档库。
  • 扩展以管理其他高通量数据,包括序列变异 (VCF)。
  • 很快也会接受毛细管测序读取。
  • 通过与 NCBI 和 DDBJ 的 INSDC 数据交换,实现全球全面覆盖。
  • 欧洲核苷酸档案 (ENA) 的一部分。
  • 数据归提交者所有,并是对出版物的补充。
  • 预期数据将公开并免费提供;不允许访问/使用限制。
  • 支持出版前保密。
  • 提交到 EGA 的受控访问数据。
  • 积极参与序列数据存储和压缩算法/技术开发。

SRA 元数据模型

[edit | edit source]
  • 研究:测序研究描述。
  • 样本:测序样本描述。
  • 实验/运行:主要读取和比对数据。
  • 分析:二级比对和变异数据。
  • 项目:将研究组合在一起。
  • EGA DAC:数据访问委员会。
  • EGA 策略:数据访问策略。
  • EGA 数据集:受策略和 DAC 控制的数据集。

查看数据集

[edit | edit source]

ENSEMBL

[edit | edit source]

Tablet

[edit | edit source]

IGV 是由 NCBI(美国国家生物技术信息中心)开发的整合基因组浏览器。IGV 允许轻松浏览大规模基因组数据集,并支持整合基因组数据类型,例如比对的序列读取、突变、拷贝数、干扰 RNA 筛选、基因表达、甲基化和基因组注释。用户可以放大特定区域,直至单个碱基对,并且更一般地滚动浏览整个基因组。它可用于可视化和共享整个基因组/参考基因组、比对、变异和感兴趣区域,以及过滤、排序和分组基因组数据。

比较数据集

[edit | edit source]

全基因组比对

[edit | edit source]

参考文献

[edit | edit source]
  1. a b Earl, D.; Bradnam, K.; St. John, J.; et al. (2011). "Assemblathon 1: A competitive assessment of de novo short read assembly methods". Genome Research. 21 (12): 2224–41. doi:10.1101/gr.126599.111. PMC 3227110. PMID 21926179. {{cite journal}}: Explicit use of et al. in: |author= (help)CS1 maint: PMC format (link) CS1 maint: multiple names: authors list (link)
  2. a b Salzberg, S.L.; Phillippy, A.M.; Zimin, A. 等人 (2012)。"GAGE:对基因组组装和组装算法的批判性评估"Genome Research22 (3): 557–67。 doi:10.1101/gr.131383.111PMC 3290791PMID 22147368. {{cite journal}}: 在 |author= 中明确使用 et al. (帮助)CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  3. Bradnam, K.R.; Fass, J.N.; Alexandrov, A. 等人 (2013)。"Assemblathon 2:评估三种脊椎动物物种的基因组从头组装方法"GigaScience2 (1): 10。 doi:10.1186/2047-217X-2-10PMC 3844414PMID 23870653. {{cite journal}}: 在 |author= 中明确使用 et al. (帮助)CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  4. Mäkinen, V.; Salmela, L.; Ylinen, J. (2012)。"使用间隙限制共线性链的归一化 N50 组装指标"BMC Bioinformatics13: 255。 doi:10.1186/1471-2105-13-255PMC 3556137PMID 23031320.{{cite journal}}: CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  5. Ghodsi, M.; Hill, C.M.; Astrovskaya, I. 等人 (2013)。"从头似然性方法用于比较基因组组装"BMC Research Notes6: 334。 doi:10.1186/1756-0500-6-334PMC 3765854PMID 23965294. {{cite journal}}: 在 |author= 中明确使用 et al. (帮助)CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  6. Hunt, M.; Kikuchi, T.; Sanders, M. 等人 (2013)。"REAPR:基因组组装评估的通用工具"Genome Biology14 (5): R47。 doi:10.1186/gb-2013-14-5-r47PMC 3798757PMID 23710727. {{cite journal}}: 在 |author= 中明确使用 et al. (帮助)CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  7. Phillippy, A.M.; Schatz, M.C.; Pop, M. (2008)。"基因组组装取证:寻找难以捉摸的错误组装"Genome Biology9 (3): R55。 doi:10.1186/gb-2008-9-3-r55PMC 2397507PMID 18341692.{{cite journal}}: CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  8. Rahman, A.; Pachter, L. (2013)。"CGAL:计算基因组组装可能性"Genome Biology14 (1): R8。 doi:10.1186/gb-2013-14-1-r8PMC 3663106PMID 23360652.{{cite journal}}: CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  9. Vezzi, F.; Narzisi, G.; Mishra, B. (2012). "重新评估使用特征响应曲线的组装评估:GAGE 和组装竞赛". PLoS One. 7 (12): e52210. doi:10.1371/journal.pone.0052210. PMC 3532452. PMID 23284938.{{cite journal}}: CS1 maint: PMC 格式 (link) CS1 maint: 多个名称:作者列表 (link)
  10. Howison, M.; Zapata, F.; Dunn, C.W. (2013). "走向对从头测序组装的统计学明确理解". 生物信息学. 29 (23): 2959–63. doi:10.1093/bioinformatics/btt525. PMID 24021385.{{cite journal}}: CS1 maint: 多个名称:作者列表 (link)
  11. Parra, G.; Bradnam, K.; Korf, I. (2007). "CEGMA:一个准确注释真核生物基因组核心基因的流程". 生物信息学. 23 (9): 1061–7. doi:10.1093/bioinformatics/btm071. PMID 17332020.{{cite journal}}: CS1 maint: 多个名称:作者列表 (link)
  12. Ryan, J.F. (2014 年 2 月 7 日). "Baa.pl:一个使用 RNA 转录本评估从头测序组装的工具". 康奈尔大学图书馆. 检索于 2016 年 5 月 4 日.
  13. a b Schneeberger, K.; Ossowski, S.; Ott, F. 等. (2011). "四个不同拟南芥基因组的参考引导组装". PNAS. 108 (25): 10249–54. doi:10.1073/pnas.1107739108. PMC 3121819. PMID 21646520. {{cite journal}}: 在“|author=” 中显式使用“et al.” (help)CS1 maint: PMC 格式 (link) CS1 maint: 多个名称:作者列表 (link)
  14. Zhang, W.; Chen, J.; Yang, Y. 等. (2011). "从头测序技术中从头基因组组装软件工具的实际比较". 6 (3): e17915. doi:10.1371/journal.pone.0017915. PMC 3056720. PMID 21423806. {{cite journal}}: Cite journal 需要 |journal= (help); 在“|author=” 中显式使用“et al.” (help); 忽略文本“journal PLoS One” (help)CS1 maint: PMC 格式 (link) CS1 maint: 多个名称:作者列表 (link)
  15. Gladman, S. (2009 年 7 月 23 日). "(Velvet-users) Velvetg 运行时间". Velvet-users 邮件列表. 欧洲生物信息学研究所. 检索于 2016 年 5 月 4 日.
  16. Nederbragt, L. (2011 年 1 月 21 日). "Newbler 输入 II:来自其他平台的测序读取". 读取、重叠群和支架的组装. 检索于 2016 年 5 月 4 日.
  17. Wurm, Y.; Wang, J.; Riba-Grognuz, O.; 等 (2010). "入侵红火蚁Solenopsis invicta的基因组". PNAS. 108 (14): 5679–84. doi:10.1073/pnas.1009690108. PMC 3078418. PMID 21282665. {{cite journal}}: 在“作者”参数中显式使用“等”:|author= (帮助)CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
  18. Hayden, E.C. (2011). "基因组构建者面临竞争". 自然. 471 (7339): 425. doi:10.1038/471425a. PMID 21430748.
  19. "Assemblathon 1 结果". assemblathon.org. 加州大学戴维斯分校. 2011年6月1日. 检索于 2016年5月4日.
  20. Gnerre, S.; Maccallum, I.; Przybylski, D. (2011). "从海量平行测序数据中获得高质量哺乳动物基因组草图". 美国国家科学院院刊. 108 (4): 1513–8. doi:10.1073/pnas.1017351108. PMC 3029755. PMID 21187386.{{cite journal}}: CS1 maint: PMC 格式 (链接) CS1 maint: 多个名称:作者列表 (链接)
华夏公益教科书