跳转至内容

下一代测序 (NGS)/简介

来自 Wikibooks,开放世界中的开放书籍
下一代测序 (NGS)
简介 大数据

关于本书

[编辑 | 编辑源代码]
  • 前四章是对生物信息学和特别是 NGS 的广泛概念的概括性介绍。它们是“必备先决条件”,将在本书的其余部分中被引用。
    • 简介中,我们对该领域进行了几乎完整的概述,从测序技术、其特性、优势和劣势开始,涵盖它们可以检测的各种生物过程,最后以关于常见测序术语的部分结束。最后,我们以典型测序工作流程的概述结束。
    • 大数据中,我们处理了一些在处理典型 NGS 数据量时出现的(也许意想不到的)困难。从在世界各地运送硬盘驱动器,到您计算机中需要多少内存才能在数据到达时组装数据,这些问题往往会让新手感到意外。我们将深入了解为解决这些问题而开发的文件格式、存档和算法。
    • 外部的生物信息学中,我们将讨论生物信息学家使用的接口。我们将介绍带有文本界面和闪烁光标的命令行,但也介绍了专门为生物信息学管道开发的更友好的图形用户界面 (GUI)。
    • 预处理中,我们将讨论控制 NGS 数据集质量和清除低质量数据的最佳实践。
  • 接下来的五章描述了可以使用参考基因组序列进行的分析,假设有一个可用。
    • 比对中,我们将讨论如何将一组读取映射到参考数据集。
    • DNA 变异中,我们将描述如何使用映射读取来调用变异(无论是 SNV、CNV 还是断点)。
    • RNA中,我们将解释如何从映射的 RNA-seq 读取中确定外显子、异构体和基因表达水平。
    • 表观遗传学中,我们将描述用于确定表观遗传特征(如组蛋白或 CpG 甲基化)的拉下测定。
    • 染色质结构中,我们将讨论用于确定染色质结构的技术,例如组蛋白的放置或当 DNA 位于细胞核中时不同染色体区域的物理邻近性。
  • 最后,最后两章将描述在没有参考基因组的情况下进行的分析。
    • 从头组装将描述如何从 NGS 读取中组装基因组。
    • 从头 RNA 组装将解释如何仅从 NGS 读取中组装转录组。

平台和技术

[编辑 | 编辑源代码]

NGS 平台采用不同的技术来解码 DNA 中核苷酸的身份,或检测核苷酸上的甲基化等共价修饰。

NGS 平台发展迅速。通常,新技术和平台会在基因组生物学和技术进步 (AGBT) 大会上发布[1]

出于教育目的,一些 2011 年发表的 NGS 平台综述[2]。在此处阅读有关测序技术的更多信息 此处

文件格式和术语

[编辑 | 编辑源代码]

FASTA 格式,通常用后缀 .fa 或 .fasta 表示,是一种简单易懂的人类可读格式。通常,每个文件包含一组序列,其中每个序列由一行标题表示,以“>”字符开头,后跟相应的核苷酸序列,以多行常规宽度(通常为 60 或 80 个字符宽)显示。在实践中,某些工具可能会生成一个带有标题和单行长序列的序列。有关更详细的信息,请参阅 FASTA 维基百科页面。

FASTQ 是一种文本文件格式(人类可读),每个序列提供 4 行数据。

  1. 序列标识符
  2. 序列
  3. 注释
  4. 质量得分

FASTQ 格式通常用于存储测序读取,特别是来自 Illumina 和 Ion Torrent 平台的读取。

配对端读取可以存储在一个 FASTQ 文件(交替)中或两个不同的 FASTQ 文件中。配对端读取的序列标识符可能分别以“/1”和“/2”结尾。

一个 Illumina 读取的示例 FASTQ 条目

@EAS20_8_6_1_3_1914/1
CGCGTAACAAAAGTGTCTATAATCACGGCAGAAAAGTCCACATTGATTATTTGCACGGCGTCACACTTTGCTATGCCATAGCATTTTTATCCATAAGATT
+
HHHHHHHHHFHGGHHHHHHHHHHHHHHHHHHHHEHHHHHHHHHHHHHHGHHHGHHHGHIHHHHHHHHHHHHHHHGCHHHHFHHHHHHHGGGCFHBFBCCF

通常,FASTQ 文件存储在以 .fq 或 .fastq 为后缀的文件中,使用 Gzip 文件压缩,以 .gz 或 .gzip 为后缀表示。

有关更详细的信息,请参阅 FASTQ 维基百科页面。

SFF 是一种二进制文件格式,用于编码来自 454 平台的测序读取。

http://en.wikipedia.org/wiki/Standard_Flowgram_Format

用于编码短读取比对的文件格式。有关更多信息,请参阅 下一代测序 (NGS)/比对

FASTG 是一种新兴的基因组组装文件格式,它考虑了模糊性。FASTG 类似于 FASTA,但 G 代表“图”。

变异调用格式 (VCF) 是生物信息学中用于存储基因序列变异的规范。有关更多信息,请参见 [1]

读取长度

[编辑 | 编辑源代码]

截至 2013 年 2 月,第二代测序平台的读取长度短于传统的桑格测序,这给读取比对和组装带来了挑战。

  • 使用最广泛的 Illumina 平台可以产生高达 250bp 的读取长度。在实践中,全球研究人员大多可以访问约 100bp 的读取长度。
  • Ion Torrent:变化很大,通常峰值为 400bp
  • SOLiD:50-75bp

配对/单端

[编辑 | 编辑源代码]
  • 单端读取表示序列片段仅从一个方向进行测序。
  • 配对末端测序中,单个片段从 5' 端和 3' 端进行测序,产生正向和反向读取。测序的片段可以通过一定数量的碱基(内部插入大小)分隔开,或者可以重叠,在合并后产生一个连续的更长的单端片段。配对末端读取的使用可以提高读取比对到参考基因组的准确性。典型的片段大小(外部插入大小)为 200bp500bp

匹配对

[编辑 | 编辑源代码]

匹配对配对末端在测序文库构建方式上有所不同。在匹配对测序中,选择 2-5kb 的片段并从两端进行测序,从而提供关于相距较远的核苷酸如何连接在一起的信息。匹配对更适合于研究基因组结构重排,并有助于从头基因组组装。它们还有助于在更宽的 SV 尺寸范围内以及基因组的重复区域中进行灵敏的结构变异 (SV) 检测。

颜色空间

[编辑 | 编辑源代码]

颜色空间是由 Life Tech 商业化的 2-碱基编码系统,并用于 SOLiD 平台。技术概述见 此处

质量得分

[编辑 | 编辑源代码]

质量分数表示碱基调用错误的概率。质量分数用于 FASTQ 格式。

有多种编码方案可用,包括最常见的 [Phred 质量分数]。

错误特征和测序偏差

[编辑 | 编辑源代码]

NGS 的用途

[编辑 | 编辑源代码]

查找肿瘤细胞中的突变。

使用逆转录重建转录组(基于基因组或从头),以便研究人员可以计算有多少读取与转录组的注释部分比对。这用于比较彼此差异显著的样本中的基因表达,并构建生物体的生化途径。

染色质免疫沉淀测序 (ChIP-seq) 是一种用于分析蛋白质与 DNA 相互作用的方法。ChIP-seq 将染色质免疫沉淀 (ChIP) 与大规模平行 DNA 测序相结合,以识别 DNA 相关蛋白的结合位点。它可用于精确绘制任何感兴趣蛋白的全局结合位点。以前,ChIP-on-chip 是研究这些蛋白质-DNA 关系最常用的技术。

染色质结构

[编辑 | 编辑源代码]

NGS 工作流程概述

[编辑 | 编辑源代码]

参考文献

[编辑 | 编辑源代码]
华夏公益教科书