跳转到内容

下一代测序 (NGS)/大数据

来自维基教科书,开放的书籍,为开放的世界
下一代测序 (NGS)
简介 大数据 从外部看生物信息学

大数据

[编辑 | 编辑源代码]

数据泛滥

[编辑 | 编辑源代码]

您遇到的第一个问题可能是 NGS FASTQ 文件的大小 - "数据泛滥"问题。您不再仅仅处理微孔板读数或数字化凝胶照片;NGS 数据的大小可能是巨大的。例如,来自 60x 人类全基因组测序的压缩 FASTQ 文件仍然需要 200Gb。一个包含 10-20 个全基因组测序 (WGS) 样本的小型项目可以生成约 4TB 的原始数据。即使这些估计也不包括下游分析所需的磁盘空间。

存储数据

[编辑 | 编辑源代码]

引用自 BioStars 的一篇帖子[1]

  • 高端:企业集群和 SAN。
  • 高端:位于不同建筑物中的两台镜像服务器或云。
  • 典型:带有 raid-5/6 的外部硬盘驱动器和/或 NAS

移动数据

[编辑 | 编辑源代码]

在合作者之间移动数据也不简单。对于 RNA-Seq 样本,FTP 可能就足够了,但对于 WGS 数据,运输硬盘驱动器可能是唯一的解决方案。

将计算需求从研究组中分离出去

[编辑 | 编辑源代码]

单个实验室很难维护足够的计算设施。单个实验室可能拥有某些基本的计算硬件;但是,许多任务将具有巨大的计算需求(例如,从头基因组组装的内存),需要在其他地方执行。一个机构/核心设施可以托管一个集中式集群。或者,您可以考虑在云上执行该任务。

  • NIH 维护一个名为 Biowulf 的集中式计算集群。
  • 建议使用生物信息学云计算。[2][3] EBI 采用了一个名为 Helix Nebula 的云平台。[4]

参考文献

[编辑 | 编辑源代码]
  1. Wo, H. (24 March 2011). "Question: Huge Ngs Data Storage And Transferring". Biostars. Biostar Genomics, LLC. Retrieved 28 April 2016.
  2. Akhlaghpour, H. (3 July 2012). "Genomic Analysis in the Cloud". YouTube. Google. Retrieved 28 April 2016.
  3. Schadt, E.E.; Linderman, M.D.; Sorenson, J.; Lee, L.; Nolan, G.P. (2010). "Computational solutions to large-scale data management and analysis". Nature Reviews Genetics. 11 (9): 647–57. doi:10.1038/nrg2857. PMC 3124937. PMID 20717155.{{cite journal}}: CS1 maint: PMC format (link) CS1 maint: multiple names: authors list (link)
  4. Lueck, R. (16 January 2013). "Big data and HPC on-demand: Large-scale genome analysis on Helix Nebula – the Science Cloud" (PDF). Trust-IT Services. Retrieved 28 April 2016.
华夏公益教科书