跳转到内容

下一代测序 (NGS) / 从头 RNA 序列组装

来自华夏公益教科书，开放书籍，开放世界

< 下一代测序 (NGS)

此页面可能需要审查以确保质量。

下一代测序 (NGS)
从头组装	从头 RNA 序列组装	作者

维基百科在De_novo_transcriptome_assembly中包含相关信息

从头 RNA-seq 序列组装包括在没有参考基因组支持的情况下从 RNA-seq 读数中组装转录本。此过程是由于没有可用的基因组组装，或者为了检测与基因组组装不一致的事件（例如，在重排后检测融合基因）而完成的。

大多数 RNA-seq 从头序列组装技术都来自从头基因组组装，并且 DNA 组装的大多数问题都适用于 RNA 组装。然而，RNA-seq 从头序列组装可以说比 DNA 版本更复杂。特别是，RNA-seq 组装必须处理极不均匀的覆盖深度（跨基因、亚型，甚至跨转录本的定位），具有高度序列同一性的保守基因家族，以及可变剪接。

典型工作流程

[编辑 | 编辑源代码]

典型工作流程与从头基因组组装中描述的工作流程基本相同。以下是 RNA-seq 分析特有的要点

选择协议
质量控制和数据过滤
调整表达水平参数
合并组装

协议

[编辑 | 编辑源代码]

扩增和归一化

[编辑 | 编辑源代码]

Poly-A 选择

[编辑 | 编辑源代码]

链特异性

[编辑 | 编辑源代码]

文件格式

[编辑 | 编辑源代码]

创建数据集

[编辑 | 编辑源代码]

transABySS

[编辑 | 编辑源代码]

Trinity

[编辑 | 编辑源代码]

Velvet/Oases

[编辑 | 编辑源代码]

Velvet 和 Oases 可以一起使用来组装从头转录组。首先必须使用 velveth 生成哈希表，然后使用 velvetg 组装节点。最后，使用 Oases 将节点重新组装成转录本、转录本变体和剪接连接点。可以使用能够解释转录本变体的映射软件（例如 Tophat）将读数映射回组装以执行最终验证步骤。

以下是一些命令示例^[1]

./velveth NewDirectoryName(默认值为 Assem) 21 -shortPaired reads.fa

其中 21 等于哈希长度，reads.fa 是一个成对的末端 fasta 文件，其中反向读数直接位于正向读数之后。也可以使用 -separate 选项将成对的末端读数输入为两个独立的文件

./velvetg NewDirectoryName -read_trkg yes

-read_trkg yes 选项必须开启才能运行 Oases

./oases NewDirectoryName

Oases 的输出将是 NewDirectoryName 目录/transcripts.fa 目录/splicing_events.txt 目录/contig-ordering.txt 中的三个文件。如果此组装将用作参考来映射其他读数，则目录/transcripts.fa 应用作参考

参考数据集

[编辑 | 编辑源代码]

查看数据集

[编辑 | 编辑源代码]

比较数据集

[编辑 | 编辑源代码]

转录组从头短读序列组装器

[编辑 | 编辑源代码]

组装转录组本身也带来了挑战。这是因为读数不是从所有基因中随机采样的，但来自表达量更高的基因的读数会更多。

一些可能大多数组装都通用的步骤

在开始之前，确保你拥有合适的硬件，你可能需要超过 100 GB 的 RAM（见下文）
如果合理并且不会影响生物学：尝试获得链特异性 RNA
生成归一化 cDNA 文库可能会有所帮助
确保所有文库的质量都很好，并且没有主要问题（质量控制软件）
在将数据提交到从头组装器之前，通常最好先清理数据，例如，修剪掉末端的错误碱基或完全丢弃读段。由于低质量碱基更有可能包含错误，这些错误可能会使组装过程复杂化，并可能导致更高的内存消耗。也就是说，例如 Trinity 可以在组装之前使用 ALLPATHS-LG 的读段校正模块。此外，请移除可能仍然存在的接头或引物序列。 (修剪工具)
准备好拥有超过 5000 万个读段对用于哺乳动物（这是基于 Trinity 的出版物，其中 5260 万个 76bp 的读段对获得了良好的结果。更多可能更好）。
在运行任何大型组装之前，请仔细检查您提供给组装器的参数。
组装后，通常建议检查您的读段数据与组装的匹配程度，并可能可视化数据 (组装可视化)

决策助手

[edit | edit source]

这是基于个人经验和文献调查。特别是，搜索了介绍新工具的原始出版物以进行比较（即使这些出版物可能经常偏向作者介绍的新工具）。此外，还查询了比较转录组组装器的稿件中的数据。

如果您使用 454 数据 => 使用基于 OLC 的组装器，您可能会使用 Newbler 获得非常好的结果。

如果您使用 Illumina 数据 => 如果您有资源，请尝试使用 Trinity、Trans-AbySS 或 Velvet-Oases。哪种方法表现最佳取决于读段长度、测序覆盖率和转录组的复杂性。请参阅参考资料，了解以下组装器的比较。

如果您有 CLC 流程并且没有计算机经验 => 这可能足够好

软件包

[edit | edit source]

免费软件

[edit | edit source]

ABySS

[edit | edit source]

AbySS 是一个从头组装器，它可以在多个节点上运行，它使用消息解析接口 (MPI) 接口进行通信。由于 AbySS 分布任务，每个机器所需的 RAM 量更小，因此 Abyss 能够处理大型基因组。对于转录组组装，它通常与 Trans-ABySS 相结合。

优点
- 分布式接口可以使用集群

缺点
- 速度相对较慢

MIRA

[edit | edit source]

MIRA 是一种通用组装器，可以集成各种平台数据并执行真正的混合组装。

优点
- 文档非常完善，并且有很多开关
- 可以组合不同的测序技术
- 数据质量可能相对较好

缺点
- 只有部分多线程，并且受技术影响，速度非常慢
- 可能不建议组装更大的转录组

SOAP de novo

[edit | edit source]

SOAPdenovo 是一种全能基因组组装器。它被用于组装大熊猫基因组。

优点
- SOAP de novo 使用中等数量的 RAM
- SOAP de novo 相对较快（可能是最快的免费组装器）
- SOAP de novo 包含一个支架构建器和一个读段校正器
- SOAP de novo 相对模块化（读段校正器、组装、支架构建、间隙填充）

缺点
- 构建重叠群的方式可能有点令人困惑。
- SOAP denovo 没有专门用于转录组组装的扩展

Trinity

[edit | edit source]

Trinity 是三个程序的集合，它们完成三个不同的任务：Inchworm、Chrysalis 和 Butterfly。它最适合于链特异性数据。当 Trinity 的作者将其与 Trans-Abyss 和 SOAPdenovo 进行比较时，它在恢复完整的长度小鼠和酵母基因方面表现更好。Trinity 建议每个 100 万个 Illumina 读段对使用 1 GB RAM。Trinity 可以使用 ALLPATHS-LG 读段校正器。但是，这需要安装 ALLPATHS。

优点
- 生成非常好的转录组组装
缺点
- 需要时间，组装器 Inchworm（第一步）在多线程方面没有太多收益

Velvet-Oases

[edit | edit source]

Velvet 对转录组组装的看法是 Oases。在论坛中这里讨论了 Velvet。

优点
- Oases 是最敏感和准确的从头转录组组装器之一
- Oases 包含一个模块，用于将多个单 k 组装合并为一个
- Oases 用户可以通过 Oases 邮件列表 [1] 快速获得答案。
- Oases 支持多种输入数据类型和格式
缺点
- 根据 velvet/oases 邮件列表，组装 2 亿个大约 100bp 的双端读段可能需要高达 200GB 的 RAM。^[2] 但是，绝对内存消耗是转录组复杂性的函数，难以先验估计。

商业软件

[edit | edit source]

CLC cell

[edit | edit source]

CLC 组装单元是 CLC 发布的商业组装器。它很可能基于 kmer 方法。

优点
- CLC 使用很少的 RAM
- CLC 速度很快

缺点
- CLC 不是免费的

Newbler

[edit | edit source]

Newbler 是罗氏公司发布的组装器。

优点
- Newbler 已用于许多组装项目
- Newbler 似乎能够产生良好的 N50 值
- Newbler 通常比较精确
- Newbler 通常是免费提供的

缺点
- Newbler 专为（主要是）454 数据量身定制。虽然它可以容纳一些有限的 Illumina 数据，正如生物信息学家 Lex Nederbragt 所描述的^[3]，但对于更大的数据集来说，这是不可能的。
- 由于 Newbler 至少部分使用了 OLC 方法，因此大型组装可能需要时间

进一步阅读资料

[edit | edit source]

背景
- Martin 和 Wang 2011 关于转录组组装的综述

原始出版物
- Chevreaux 等人，2004 mira
- Simpson 等人，2009 ABySS
- Zerbino 和 Birney，2008 Velvet
- Robertson 等人，2011 Trans-ABySS
- Grabherr 等人，2011 Trinity
- Schulz 等人 2012 Oases

454 数据的比较

- Kumar 和 Baxter 2010 发现，对于 454 数据，在 CAP3、MIRA、Newbler、SeqMan 和 CLC 等组装器中，Newbler 在他们的测试数据集中表现最佳
- Garg 等人，2011 再次使用 454 数据，发现短读拼接程序 **Velvet 和 ABySS 表现较差**，而 **CLC 的性能几乎与 MIRA、Newbler v2.3、Newbler v2.5p1、CAP3 和 TGICL 相当**。有趣的是，Newbler v2.3 的性能可能比更新的版本 2.5p1 更好。
- Mundry 等人，2012 对模拟的 454 数据比较了 CAP3、MIRA、Newbler 和 Oases 拼接程序。

比较 Illumina 数据
- Zaho 等人，2011 对三个不同的 RNA-seq 数据集比较了 SOAPdenovo、ABySS、Trinity 和 Oases，分析了合并不同单 k 拼接的影响。

参考文献

[编辑 | 编辑源代码]

↑ Zerbino, D. (2008 年 8 月 29 日). "Velvet 手册 - 版本 1.1" (PDF). NIH HPC 组. 从原始位置 (PDF) 存档于 2015 年 9 月 14 日. 检索于 2016 年 5 月 4 日.
↑ Martin, J. (2011 年 6 月 10 日). "(Oases-users) 内存需求". Oases-users 邮件列表. 欧洲生物信息学研究所. 检索于 2016 年 5 月 4 日.
↑ Nederbragt, L. (2011 年 1 月 21 日). "Newbler 输入 II：来自其他平台的测序读数". 读取、重叠群和支架的集合. 检索于 2016 年 5 月 4 日.

检索自 "https://wikibooks.cn/wiki/Next_Generation_Sequencing_(NGS)/De_novo_RNA_assembly"

书籍：下一代测序 (NGS)

华夏公益教科书