下一代测序 (NGS)

对下一代测序技术的最新综合的需要

对低成本测序的高需求推动了高通量测序的发展，该技术也被称为下一代测序 (NGS)。在单个下一代测序过程中，会同时产生数千或数百万个序列。下一代测序已成为一种商品。随着各种经济实惠的桌面测序仪的商业化，NGS 已进入传统湿实验室生物学家的视野。正如近年来所见，全基因组规模的计算分析正越来越多地被用作促进生物医学研究中新发现的支柱。然而，随着测序数据量的呈指数级增长，分析瓶颈尚未解决。

当前的 NGS 信息学来源非常分散。初学者可以阅读各种期刊的评论文章，关注Biostar^[1]或SEQanswers ^[2]等论坛的讨论主题，或注册各种机构组织的课程。找到一个集中的综合要困难得多。书籍是可用的，但该领域的发展速度如此之快，以至于书籍章节在印刷出来时可能会过时。此外，让少数作者不断更新他们的文本的成本可能会占用他们很多时间。

借鉴讨论论坛中明显的好意和社区精神，并利用维基媒体基金会提供的协作工具，我们提议启动关于 NGS 的协作华夏公益教科书的编辑。我们的计划是收集足够的文本，以激励人们为其做出贡献，实质上提供与论坛相同的信息，但以更整洁的形式。最终，我们的目标是创建一个集体实验室手册，解释 NGS 的关键概念并描述最佳实践。

目标受众

这组动态材料是为实验室生物学家（具有无或基本生物信息学经验的博士后研究生和早期职业博士后研究人员，并对 NGS 数据分析表现出兴趣）设计的。随着社区的贡献以及该领域的需要和趋势的发展，可能会添加高级材料。在线材料的灵活性应允许读者在第一次阅读时忽略细节，但可以立即获得他们需要的细节。但是，总体结构和风格应优先为非生物信息学读者设计。

某些章节附带实践练习，以便读者可以熟悉这些步骤。

在数据分析中卡住了吗？

从在线社区寻求帮助，包括Biostar和SEQanswers，请确保您遵循Dall’Olio 等人^[3]制定的指南。

关于本书

前四章是关于生物信息学和NGS的广义概念的概述。它们是“必备先决条件”，将在本书的其余部分中提及
- 在引言中，我们从测序技术、它们的特性、优缺点开始，涵盖了它们可以检测的各种生物学过程，并以关于常见测序术语的部分结束，对该领域进行了几乎完整的概述。最后，我们以典型测序流程概述结束。
- 在大数据中，我们将处理处理典型NGS数据量时出现的一些（可能意想不到的）困难。从在世界各地运送硬盘驱动器，到您在计算机中组装数据时所需的内存量，这些问题往往让新手感到意外。我们将深入探讨为解决这些问题而开发的文件格式、档案和算法。
- 在外部的生物信息学中，我们将讨论生物信息学家使用的界面。我们将展示带有文本界面和闪烁光标的命令行，但也展示专门为生物信息学流程开发的更友好的图形用户界面 (GUI)。
- 在预处理中，我们将讨论控制NGS数据集质量和清理低质量数据的最佳实践。

接下来的五章描述了可以使用参考基因组序列进行的分析，假设参考基因组可用
- 在比对中，我们将讨论如何将一组读取比对到参考数据集。
- 在DNA变异中，我们将描述如何使用比对读取来调用变异（无论是SNV、CNV还是断点）。
- 在RNA中，我们将解释如何从比对的RNA-seq读取中确定外显子、亚型和基因表达水平。
- 在表观遗传学中，我们将描述用于确定表观遗传特征（如组蛋白或CpG甲基化）的拉下测定。
- 在染色质结构中，我们将讨论用于确定染色质结构的技术，例如组蛋白的位置或DNA位于细胞核中的不同染色体区域的物理邻近性。

最后，最后两章将描述在没有参考基因组的情况下进行的分析
- 从头组装将描述如何从NGS读取中组装基因组。
- 从头RNA组装将解释如何仅从NGS读取中组装转录组。

细节

在预处理中，fastq、QC、修剪、错误校正等。
在比对中，格式、算法、评估。
在DNA变异中，协议、格式、数据库、可视化。
在RNA中，转录组学流程、工具、基因预测、格式、数据库。
在表观遗传学中……亚硫酸氢盐测序，
在染色质结构中……chipseq eh？
在从头组装中，算法、流程、工具、数据库。
在RNA组装中，与DNA组装相关的相似之处、差异和挑战。

参考文献

↑ Parnell, Laurence D. (2011年10月27日). "BioStar: An Online Question & Answer Resource for the Bioinformatics Community". PLoS Computational Biology. 7 (10): e1002216. doi:10.1371/journal.pcbi.1002216. {{cite journal}}: Unknown parameter |coauthors= ignored (|author= suggested) (help)
↑ Li, J.-W. (2012年3月13日). “SEQanswers：一个用于协作解码基因组的开放获取社区”. 《生物信息学》. 28 (9): 1272–1273. doi:10.1093/bioinformatics/bts128. {{cite journal}}: 未知参数 |coauthors= 被忽略 (|author= 建议) (帮助)
↑ Dall'Olio, Giovanni M. (2011年9月28日). “从在线科学社区获取帮助的十个简单规则”. 《PLoS 計算生物學》. 7 (9): e1002202. doi:10.1371/journal.pcbi.1002202. {{cite journal}}: 未知参数 |coauthors= 被忽略 (|author= 建议) (帮助)

[1] Parnell, Laurence D. (2011年10月27日). "BioStar: An Online Question & Answer Resource for the Bioinformatics Community". PLoS Computational Biology. 7 (10): e1002216. doi:10.1371/journal.pcbi.1002216. {{cite journal}}: Unknown parameter |coauthors= ignored (|author= suggested) (help)

[2] Li, J.-W. (2012年3月13日). “SEQanswers：一个用于协作解码基因组的开放获取社区”. 《生物信息学》. 28 (9): 1272–1273. doi:10.1093/bioinformatics/bts128. {{cite journal}}: 未知参数 |coauthors= 被忽略 (|author= 建议) (帮助)

[3] Dall'Olio, Giovanni M. (2011年9月28日). “从在线科学社区获取帮助的十个简单规则”. 《PLoS 計算生物學》. 7 (9): e1002202. doi:10.1371/journal.pcbi.1002202. {{cite journal}}: 未知参数 |coauthors= 被忽略 (|author= 建议) (帮助)

[1]

[2]

[3]

对下一代测序技术的最新综合的需要

目标受众

在数据分析中卡住了吗？

目录

关于本书

细节

参考文献