跳转到内容

下一代测序 (NGS) / 从头 RNA 序列组装

来自维基教科书,开放书籍,开放世界
下一代测序 (NGS)
从头组装 从头 RNA 序列组装 作者

从头 RNA-seq 序列组装包括在没有参考基因组支持的情况下从 RNA-seq 读数中组装转录本。此过程是由于没有可用的基因组组装,或者为了检测与基因组组装不一致的事件(例如,在重排后检测融合基因)而完成的。

大多数 RNA-seq 从头 序列组装技术都来自从头 基因组组装,并且 DNA 组装的大多数问题都适用于 RNA 组装。然而,RNA-seq 从头 序列组装可以说比 DNA 版本更复杂。特别是,RNA-seq 组装必须处理极不均匀的覆盖深度(跨基因、亚型,甚至跨转录本的定位),具有高度序列同一性的保守基因家族,以及可变剪接。

典型工作流程

[编辑 | 编辑源代码]

典型工作流程与从头 基因组组装中描述的工作流程基本相同。以下是 RNA-seq 分析特有的要点

  • 选择协议
  • 质量控制和数据过滤
  • 调整表达水平参数
  • 合并组装

扩增和归一化

[编辑 | 编辑源代码]

Poly-A 选择

[编辑 | 编辑源代码]

链特异性

[编辑 | 编辑源代码]

文件格式

[编辑 | 编辑源代码]

创建数据集

[编辑 | 编辑源代码]

transABySS

[编辑 | 编辑源代码]

Velvet/Oases

[编辑 | 编辑源代码]

Velvet 和 Oases 可以一起使用来组装从头转录组。首先必须使用 velveth 生成哈希表,然后使用 velvetg 组装节点。最后,使用 Oases 将节点重新组装成转录本、转录本变体和剪接连接点。可以使用能够解释转录本变体的映射软件(例如 Tophat)将读数映射回组装以执行最终验证步骤。

以下是一些命令示例[1]


./velveth NewDirectoryName(默认值为 Assem) 21 -shortPaired reads.fa

其中 21 等于哈希长度,reads.fa 是一个成对的末端 fasta 文件,其中反向读数直接位于正向读数之后。也可以使用 -separate 选项将成对的末端读数输入为两个独立的文件


./velvetg NewDirectoryName -read_trkg yes

-read_trkg yes 选项必须开启才能运行 Oases


./oases NewDirectoryName

Oases 的输出将是 NewDirectoryName 目录/transcripts.fa 目录/splicing_events.txt 目录/contig-ordering.txt 中的三个文件。如果此组装将用作参考来映射其他读数,则目录/transcripts.fa 应用作参考

参考数据集

[编辑 | 编辑源代码]

查看数据集

[编辑 | 编辑源代码]

比较数据集

[编辑 | 编辑源代码]

转录组从头短读序列组装器

[编辑 | 编辑源代码]

组装转录组本身也带来了挑战。这是因为读数不是从所有基因中随机采样的,但来自表达量更高的基因的读数会更多。

一些可能大多数组装都通用的步骤

  1. 在开始之前,确保你拥有合适的硬件,你可能需要超过 100 GB 的 RAM(见下文)
  2. 如果合理并且不会影响生物学:尝试获得链特异性 RNA
  3. 生成归一化 cDNA 文库可能会有所帮助
  4. 确保所有文库的质量都很好,并且没有主要问题(质量控制软件
  5. 在将数据提交到从头组装器之前,通常最好先清理数据,例如,修剪掉末端的错误碱基或完全丢弃读段。由于低质量碱基更有可能包含错误,这些错误可能会使组装过程复杂化,并可能导致更高的内存消耗。也就是说,例如 Trinity 可以在组装之前使用 ALLPATHS-LG 的读段校正模块。此外,请移除可能仍然存在的接头或引物序列。 (修剪工具)
  6. 准备好拥有超过 5000 万个读段对用于哺乳动物(这是基于 Trinity 的出版物,其中 5260 万个 76bp 的读段对获得了良好的结果。更多可能更好)。
  7. 在运行任何大型组装之前,请仔细检查您提供给组装器的参数。
  8. 组装后,通常建议检查您的读段数据与组装的匹配程度,并可能可视化数据 (组装可视化)

决策助手

[edit | edit source]

这是基于个人经验和文献调查。特别是,搜索了介绍新工具的原始出版物以进行比较(即使这些出版物可能经常偏向作者介绍的新工具)。此外,还查询了比较转录组组装器的稿件中的数据。

如果您使用 454 数据 => 使用基于 OLC 的组装器,您可能会使用 Newbler 获得非常好的结果。

如果您使用 Illumina 数据 => 如果您有资源,请尝试使用 Trinity、Trans-AbySS 或 Velvet-Oases。哪种方法表现最佳取决于读段长度、测序覆盖率和转录组的复杂性。请参阅参考资料,了解以下组装器的比较。

如果您有 CLC 流程并且没有计算机经验 => 这可能足够好

软件包

[edit | edit source]

免费软件

[edit | edit source]

ABySS

[edit | edit source]

AbySS 是一个从头组装器,它可以在多个节点上运行,它使用消息解析接口 (MPI) 接口进行通信。由于 AbySS 分布任务,每个机器所需的 RAM 量更小,因此 Abyss 能够处理大型基因组。对于转录组组装,它通常与 Trans-ABySS 相结合。

  • 优点
    • 分布式接口可以使用集群
  • 缺点
    • 速度相对较慢

MIRA 是一种通用组装器,可以集成各种平台数据并执行真正的混合组装。

  • 优点
    • 文档非常完善,并且有很多开关
    • 可以组合不同的测序技术
    • 数据质量可能相对较好
  • 缺点
    • 只有部分多线程,并且受技术影响,速度非常慢
    • 可能不建议组装更大的转录组

SOAP de novo

[edit | edit source]

SOAPdenovo 是一种全能基因组组装器。它被用于组装大熊猫基因组。

  • 优点
    • SOAP de novo 使用中等数量的 RAM
    • SOAP de novo 相对较快(可能是最快的免费组装器)
    • SOAP de novo 包含一个支架构建器和一个读段校正器
    • SOAP de novo 相对模块化(读段校正器、组装、支架构建、间隙填充)
  • 缺点
    • 构建重叠群的方式可能有点令人困惑。
    • SOAP denovo 没有专门用于转录组组装的扩展

Trinity

[edit | edit source]

Trinity 是三个程序的集合,它们完成三个不同的任务:Inchworm、Chrysalis 和 Butterfly。它最适合于链特异性数据。当 Trinity 的作者将其与 Trans-Abyss 和 SOAPdenovo 进行比较时,它在恢复完整的长度小鼠和酵母基因方面表现更好。Trinity 建议每个 100 万个 Illumina 读段对使用 1 GB RAM。Trinity 可以使用 ALLPATHS-LG 读段校正器。但是,这需要安装 ALLPATHS。

  • 优点
    • 生成非常好的转录组组装
  • 缺点
    • 需要时间,组装器 Inchworm(第一步)在多线程方面没有太多收益

Velvet-Oases

[edit | edit source]

Velvet 对转录组组装的看法是 Oases。在论坛中 这里 讨论了 Velvet。

  • 优点
    • Oases 是最敏感准确从头转录组组装器之一
    • Oases 包含一个模块,用于将多个单 k 组装合并为一个
    • Oases 用户可以通过 Oases 邮件列表 [1] 快速获得答案。
    • Oases 支持多种输入数据类型和格式
  • 缺点
    • 根据 velvet/oases 邮件列表,组装 2 亿个大约 100bp 的双端读段可能需要高达 200GB 的 RAM。[2] 但是,绝对内存消耗是转录组复杂性的函数,难以先验估计。

商业软件

[edit | edit source]

CLC cell

[edit | edit source]

CLC 组装单元是 CLC 发布的商业组装器。它很可能基于 kmer 方法。

  • 优点
    • CLC 使用很少的 RAM
    • CLC 速度很快
  • 缺点
    • CLC 不是免费的

Newbler

[edit | edit source]

Newbler 是罗氏公司发布的组装器。

  • 优点
    • Newbler 已用于许多组装项目
    • Newbler 似乎能够产生良好的 N50 值
    • Newbler 通常比较精确
    • Newbler 通常是免费提供的
  • 缺点
    • Newbler 专为(主要是)454 数据量身定制。虽然它可以容纳一些有限的 Illumina 数据,正如生物信息学家 Lex Nederbragt 所描述的[3],但对于更大的数据集来说,这是不可能的。
    • 由于 Newbler 至少部分使用了 OLC 方法,因此大型组装可能需要时间

进一步阅读资料

[edit | edit source]
  • 454 数据的比较
    • Kumar 和 Baxter 2010 发现,对于 454 数据,在 CAP3、MIRA、Newbler、SeqMan 和 CLC 等组装器中,Newbler 在他们的测试数据集中表现最佳
    • Garg 等人,2011 再次使用 454 数据,发现短读拼接程序 **Velvet 和 ABySS 表现较差**,而 **CLC 的性能几乎与 MIRA、Newbler v2.3、Newbler v2.5p1、CAP3 和 TGICL 相当**。有趣的是,Newbler v2.3 的性能可能比更新的版本 2.5p1 更好。
    • Mundry 等人,2012 对模拟的 454 数据比较了 CAP3、MIRA、Newbler 和 Oases 拼接程序。
  • 比较 Illumina 数据
    • Zaho 等人,2011 对三个不同的 RNA-seq 数据集比较了 SOAPdenovo、ABySS、Trinity 和 Oases,分析了合并不同单 k 拼接的影响。

参考文献

[编辑 | 编辑源代码]
  1. Zerbino, D. (2008 年 8 月 29 日). "Velvet 手册 - 版本 1.1" (PDF). NIH HPC 组. 从 原始位置 (PDF) 存档于 2015 年 9 月 14 日. 检索于 2016 年 5 月 4 日.
  2. Martin, J. (2011 年 6 月 10 日). "(Oases-users) 内存需求". Oases-users 邮件列表. 欧洲生物信息学研究所. 检索于 2016 年 5 月 4 日.
  3. Nederbragt, L. (2011 年 1 月 21 日). "Newbler 输入 II:来自其他平台的测序读数". 读取、重叠群和支架的集合. 检索于 2016 年 5 月 4 日.
华夏公益教科书