下一代测序 (NGS) / 从头 RNA 序列组装
从头 RNA-seq 序列组装包括在没有参考基因组支持的情况下从 RNA-seq 读数中组装转录本。此过程是由于没有可用的基因组组装,或者为了检测与基因组组装不一致的事件(例如,在重排后检测融合基因)而完成的。
大多数 RNA-seq 从头 序列组装技术都来自从头 基因组组装,并且 DNA 组装的大多数问题都适用于 RNA 组装。然而,RNA-seq 从头 序列组装可以说比 DNA 版本更复杂。特别是,RNA-seq 组装必须处理极不均匀的覆盖深度(跨基因、亚型,甚至跨转录本的定位),具有高度序列同一性的保守基因家族,以及可变剪接。
典型工作流程与从头 基因组组装中描述的工作流程基本相同。以下是 RNA-seq 分析特有的要点
- 选择协议
- 质量控制和数据过滤
- 调整表达水平参数
- 合并组装
Velvet 和 Oases 可以一起使用来组装从头转录组。首先必须使用 velveth 生成哈希表,然后使用 velvetg 组装节点。最后,使用 Oases 将节点重新组装成转录本、转录本变体和剪接连接点。可以使用能够解释转录本变体的映射软件(例如 Tophat)将读数映射回组装以执行最终验证步骤。
以下是一些命令示例[1]
./velveth NewDirectoryName(默认值为 Assem) 21 -shortPaired reads.fa
其中 21 等于哈希长度,reads.fa 是一个成对的末端 fasta 文件,其中反向读数直接位于正向读数之后。也可以使用 -separate 选项将成对的末端读数输入为两个独立的文件
./velvetg NewDirectoryName -read_trkg yes
-read_trkg yes 选项必须开启才能运行 Oases
./oases NewDirectoryName
Oases 的输出将是 NewDirectoryName 目录/transcripts.fa 目录/splicing_events.txt 目录/contig-ordering.txt 中的三个文件。如果此组装将用作参考来映射其他读数,则目录/transcripts.fa 应用作参考
组装转录组本身也带来了挑战。这是因为读数不是从所有基因中随机采样的,但来自表达量更高的基因的读数会更多。
一些可能大多数组装都通用的步骤
- 在开始之前,确保你拥有合适的硬件,你可能需要超过 100 GB 的 RAM(见下文)
- 如果合理并且不会影响生物学:尝试获得链特异性 RNA
- 生成归一化 cDNA 文库可能会有所帮助
- 确保所有文库的质量都很好,并且没有主要问题(质量控制软件)
- 在将数据提交到从头组装器之前,通常最好先清理数据,例如,修剪掉末端的错误碱基或完全丢弃读段。由于低质量碱基更有可能包含错误,这些错误可能会使组装过程复杂化,并可能导致更高的内存消耗。也就是说,例如 Trinity 可以在组装之前使用 ALLPATHS-LG 的读段校正模块。此外,请移除可能仍然存在的接头或引物序列。 (修剪工具)
- 准备好拥有超过 5000 万个读段对用于哺乳动物(这是基于 Trinity 的出版物,其中 5260 万个 76bp 的读段对获得了良好的结果。更多可能更好)。
- 在运行任何大型组装之前,请仔细检查您提供给组装器的参数。
- 组装后,通常建议检查您的读段数据与组装的匹配程度,并可能可视化数据 (组装可视化)
决策助手
[edit | edit source]这是基于个人经验和文献调查。特别是,搜索了介绍新工具的原始出版物以进行比较(即使这些出版物可能经常偏向作者介绍的新工具)。此外,还查询了比较转录组组装器的稿件中的数据。
如果您使用 454 数据 => 使用基于 OLC 的组装器,您可能会使用 Newbler 获得非常好的结果。
如果您使用 Illumina 数据 => 如果您有资源,请尝试使用 Trinity、Trans-AbySS 或 Velvet-Oases。哪种方法表现最佳取决于读段长度、测序覆盖率和转录组的复杂性。请参阅参考资料,了解以下组装器的比较。
如果您有 CLC 流程并且没有计算机经验 => 这可能足够好
软件包
[edit | edit source]免费软件
[edit | edit source]ABySS
[edit | edit source]AbySS 是一个从头组装器,它可以在多个节点上运行,它使用消息解析接口 (MPI) 接口进行通信。由于 AbySS 分布任务,每个机器所需的 RAM 量更小,因此 Abyss 能够处理大型基因组。对于转录组组装,它通常与 Trans-ABySS 相结合。
- 优点
- 分布式接口可以使用集群
- 缺点
- 速度相对较慢
MIRA
[edit | edit source]MIRA 是一种通用组装器,可以集成各种平台数据并执行真正的混合组装。
- 优点
- 文档非常完善,并且有很多开关
- 可以组合不同的测序技术
- 数据质量可能相对较好
- 缺点
- 只有部分多线程,并且受技术影响,速度非常慢
- 可能不建议组装更大的转录组
SOAP de novo
[edit | edit source]SOAPdenovo 是一种全能基因组组装器。它被用于组装大熊猫基因组。
- 优点
- SOAP de novo 使用中等数量的 RAM
- SOAP de novo 相对较快(可能是最快的免费组装器)
- SOAP de novo 包含一个支架构建器和一个读段校正器
- SOAP de novo 相对模块化(读段校正器、组装、支架构建、间隙填充)
- 缺点
- 构建重叠群的方式可能有点令人困惑。
- SOAP denovo 没有专门用于转录组组装的扩展
Trinity
[edit | edit source]Trinity 是三个程序的集合,它们完成三个不同的任务:Inchworm、Chrysalis 和 Butterfly。它最适合于链特异性数据。当 Trinity 的作者将其与 Trans-Abyss 和 SOAPdenovo 进行比较时,它在恢复完整的长度小鼠和酵母基因方面表现更好。Trinity 建议每个 100 万个 Illumina 读段对使用 1 GB RAM。Trinity 可以使用 ALLPATHS-LG 读段校正器。但是,这需要安装 ALLPATHS。
- 优点
- 生成非常好的转录组组装
- 缺点
- 需要时间,组装器 Inchworm(第一步)在多线程方面没有太多收益
Velvet-Oases
[edit | edit source]Velvet 对转录组组装的看法是 Oases。在论坛中 这里 讨论了 Velvet。
- 优点
- Oases 是最敏感和准确的从头转录组组装器之一
- Oases 包含一个模块,用于将多个单 k 组装合并为一个
- Oases 用户可以通过 Oases 邮件列表 [1] 快速获得答案。
- Oases 支持多种输入数据类型和格式
- 缺点
- 根据 velvet/oases 邮件列表,组装 2 亿个大约 100bp 的双端读段可能需要高达 200GB 的 RAM。[2] 但是,绝对内存消耗是转录组复杂性的函数,难以先验估计。
商业软件
[edit | edit source]CLC cell
[edit | edit source]CLC 组装单元是 CLC 发布的商业组装器。它很可能基于 kmer 方法。
- 优点
- CLC 使用很少的 RAM
- CLC 速度很快
- 缺点
- CLC 不是免费的
Newbler
[edit | edit source]Newbler 是罗氏公司发布的组装器。
- 优点
- Newbler 已用于许多组装项目
- Newbler 似乎能够产生良好的 N50 值
- Newbler 通常比较精确
- Newbler 通常是免费提供的
- 缺点
- Newbler 专为(主要是)454 数据量身定制。虽然它可以容纳一些有限的 Illumina 数据,正如生物信息学家 Lex Nederbragt 所描述的[3],但对于更大的数据集来说,这是不可能的。
- 由于 Newbler 至少部分使用了 OLC 方法,因此大型组装可能需要时间
进一步阅读资料
[edit | edit source]- 背景
- Martin 和 Wang 2011 关于转录组组装的综述
- 原始出版物
- Chevreaux 等人,2004 mira
- Simpson 等人,2009 ABySS
- Zerbino 和 Birney,2008 Velvet
- Robertson 等人,2011 Trans-ABySS
- Grabherr 等人,2011 Trinity
- Schulz 等人 2012 Oases
- 454 数据的比较
- Kumar 和 Baxter 2010 发现,对于 454 数据,在 CAP3、MIRA、Newbler、SeqMan 和 CLC 等组装器中,Newbler 在他们的测试数据集中表现最佳
- Garg 等人,2011 再次使用 454 数据,发现短读拼接程序 **Velvet 和 ABySS 表现较差**,而 **CLC 的性能几乎与 MIRA、Newbler v2.3、Newbler v2.5p1、CAP3 和 TGICL 相当**。有趣的是,Newbler v2.3 的性能可能比更新的版本 2.5p1 更好。
- Mundry 等人,2012 对模拟的 454 数据比较了 CAP3、MIRA、Newbler 和 Oases 拼接程序。
- 比较 Illumina 数据
- Zaho 等人,2011 对三个不同的 RNA-seq 数据集比较了 SOAPdenovo、ABySS、Trinity 和 Oases,分析了合并不同单 k 拼接的影响。
- ↑ Zerbino, D. (2008 年 8 月 29 日). "Velvet 手册 - 版本 1.1" (PDF). NIH HPC 组. 从 原始位置 (PDF) 存档于 2015 年 9 月 14 日. 检索于 2016 年 5 月 4 日.
- ↑ Martin, J. (2011 年 6 月 10 日). "(Oases-users) 内存需求". Oases-users 邮件列表. 欧洲生物信息学研究所. 检索于 2016 年 5 月 4 日.
- ↑ Nederbragt, L. (2011 年 1 月 21 日). "Newbler 输入 II:来自其他平台的测序读数". 读取、重叠群和支架的集合. 检索于 2016 年 5 月 4 日.