下一代测序 (NGS)/大数据
外观
您遇到的第一个问题可能是 NGS FASTQ 文件的大小 - "数据泛滥"问题。您不再仅仅处理微孔板读数或数字化凝胶照片;NGS 数据的大小可能是巨大的。例如,来自 60x 人类全基因组测序的压缩 FASTQ 文件仍然需要 200Gb。一个包含 10-20 个全基因组测序 (WGS) 样本的小型项目可以生成约 4TB 的原始数据。即使这些估计也不包括下游分析所需的磁盘空间。
引用自 BioStars 的一篇帖子[1]
- 高端:企业集群和 SAN。
- 高端:位于不同建筑物中的两台镜像服务器或云。
- 典型:带有 raid-5/6 的外部硬盘驱动器和/或 NAS
在合作者之间移动数据也不简单。对于 RNA-Seq 样本,FTP 可能就足够了,但对于 WGS 数据,运输硬盘驱动器可能是唯一的解决方案。
单个实验室很难维护足够的计算设施。单个实验室可能拥有某些基本的计算硬件;但是,许多任务将具有巨大的计算需求(例如,从头基因组组装的内存),需要在其他地方执行。一个机构/核心设施可以托管一个集中式集群。或者,您可以考虑在云上执行该任务。
- ↑ Wo, H. (24 March 2011). "Question: Huge Ngs Data Storage And Transferring". Biostars. Biostar Genomics, LLC. Retrieved 28 April 2016.
- ↑ Akhlaghpour, H. (3 July 2012). "Genomic Analysis in the Cloud". YouTube. Google. Retrieved 28 April 2016.
- ↑ Schadt, E.E.; Linderman, M.D.; Sorenson, J.; Lee, L.; Nolan, G.P. (2010). "Computational solutions to large-scale data management and analysis". Nature Reviews Genetics. 11 (9): 647–57. doi:10.1038/nrg2857. PMC 3124937. PMID 20717155.
{{cite journal}}
: CS1 maint: PMC format (link) CS1 maint: multiple names: authors list (link) - ↑ Lueck, R. (16 January 2013). "Big data and HPC on-demand: Large-scale genome analysis on Helix Nebula – the Science Cloud" (PDF). Trust-IT Services. Retrieved 28 April 2016.