跳转到内容

生命科学方法与概念/DNA测序

来自维基教科书,开放的书籍,开放的世界

DNA测序

[编辑 | 编辑源代码]

经典方法

[编辑 | 编辑源代码]

Maxam-Gilbert测序

[编辑 | 编辑源代码]

Allan Maxam和Walter Gilbert于1977年发表了一种基于DNA化学修饰和随后在特定碱基处切割的DNA测序方法。该方法也被称为化学测序,允许使用纯化的双链DNA样品,而无需进一步克隆。由于该方法使用放射性标记和其技术复杂性,在Sanger方法改进后,其使用率逐渐减少。

Maxam-Gilbert测序需要在DNA的5'末端进行放射性标记,并纯化要测序的DNA片段。化学处理随后在四种反应(G、A+G、C、C+T)中的一个或两个中,在少量四种核苷酸碱基中的一个或两个处产生断裂。控制修饰化学物质的浓度,以平均在每个DNA分子中引入一个修饰。因此,会生成一系列标记的片段,从放射性标记的末端到每个分子中的第一个“切割”位点。四种反应中的片段在变性丙烯酰胺凝胶中并排电泳,进行大小分离。为了可视化这些片段,将凝胶暴露在X射线片中进行放射自显影,从而产生一系列暗带,每个暗带对应一个放射性标记的DNA片段,由此可以推断出序列。

一个Maxam-Gilbert测序反应示例。在不同点切割相同的标记DNA片段,会产生不同大小的标记片段。然后可以通过凝胶电泳分离这些片段。

Sanger测序

[编辑 | 编辑源代码]
放射性标记测序凝胶的一部分。

Frederick Sanger和同事在1977年开发的链终止方法很快就成为首选方法,因为它相对容易和可靠。发明时,链终止方法比Maxam和Gilbert方法使用了更少的毒性化学物质和更少的放射性。由于其相对的易用性,Sanger方法很快实现了自动化,并且是第一代DNA测序仪中使用的方法。

经典的链终止方法需要单链DNA模板、DNA引物、DNA聚合酶、正常脱氧核苷三磷酸 (dNTPs) 和修饰的双脱氧核苷三磷酸 (ddNTPs),后者会终止DNA链延伸。这些链终止核苷酸缺乏形成两个核苷酸之间磷酸二酯键所需的 3'-OH 基团,导致DNA聚合酶在掺入 ddNTP 后停止DNA延伸。

DNA样品被分成四个独立的测序反应,每个反应包含所有四种标准dNTPs和DNA聚合酶。在每个反应中只添加四种双脱氧核苷酸 (ddATP、ddGTP、ddCTP或ddTTP) 中的一种。在模板DNA从结合的引物进行多轮延伸后,将所得的DNA片段进行热变性,并使用凝胶电泳按大小分离。在1977年的最初出版物中,Sanger使用放射性标记的dATP来检测条带,方法是放射自显影。

右侧的图像显示了一个暴露在测序凝胶中的X射线片,暗带对应不同长度的DNA片段。一条泳道中的暗带表示在掺入特定ddNTP后链终止产生的DNA片段。然后,使用四个泳道中不同条带的相对位置(从下到上)来读取DNA序列。

链终止测序的技术变体包括使用标记的引物,该引物可以是放射性的,也可以包含荧光染料。染料引物测序便于在光学系统中读取,以实现更快、更经济的分析和自动化。

循环测序
[编辑 | 编辑源代码]

循环测序将Sanger测序和PCR结合起来,对极少量的DNA进行测序。测序反应在热循环仪中进行,其中耐热聚合酶的重复变性、退火和DNA合成导致链终止产物的扩增。与正常的PCR相比,这种扩增不是指数型的,而是线性的,因为只使用一个引物。

染料终止子测序
[编辑 | 编辑源代码]
放射性测序的序列梯度与荧光峰的比较。

染料终止子测序利用链终止ddNTPs的标记,允许在单一反应中进行测序,而不是像标记引物方法那样进行四种反应。在染料终止子测序中,四种ddNTP链终止子中的每一种都用荧光染料标记,每种染料在不同的波长下发出光。

由于其更高的效率和速度,染料终止子测序现在是自动化测序中的主要方法。它的局限性包括染料效应,这是由于染料标记的链终止子在DNA片段中掺入的差异导致的,从而导致毛细管电泳后电子DNA序列轨迹图谱中峰高和形状不一致。

这个问题已经通过使用修饰的DNA聚合酶酶系统和最大限度地减少掺入差异的染料,以及消除“染料斑点”的方法得到了解决。染料终止子测序方法以及自动化的高通量DNA测序仪现在被用于绝大多数测序项目。

使用染料终止子的Sanger测序。
局限性
[编辑 | 编辑源代码]

使用Sanger方法进行DNA测序的常见挑战包括序列前15-40个碱基的质量较差(由于引物结合导致),以及在700-900个碱基后测序轨迹质量下降。当前方法只能在单一反应中直接测序相对较短的DNA片段(长度为300-1000个核苷酸)。测序大于此尺寸限制的DNA片段的主要障碍是,对于长度仅相差一个核苷酸的大型DNA片段,分离能力不足。

染料终止子读取示例的开始视图。

高级方法

[编辑 | 编辑源代码]

焦磷酸测序

[编辑 | 编辑源代码]

焦磷酸测序方法于 1996 年开发,基于检测使用化学发光酶的 DNA 聚合酶活性。本质上,该方法允许通过沿其合成互补链,一次一个碱基对,并检测在每个步骤中实际添加了哪个碱基来对单链 DNA 进行测序。模板 DNA 是固定的,A、C、G 和 T 核苷酸的溶液依次添加和从反应中移除。只有当核苷酸溶液与模板的第一个未配对碱基互补时才会产生光。产生化学发光信号的溶液顺序允许确定模板的顺序。

将 ssDNA 模板与测序引物杂交,并与酶 DNA 聚合酶、ATP 硫酸化酶、荧光素酶和焦磷酸酶以及底物腺苷 5´ 磷酸硫酸盐 (APS) 和荧光素一起温育。

  1. 添加四种脱氧核苷三磷酸 (dNTP) 之一将启动第二步。DNA 聚合酶将正确的互补 dNTP 掺入模板中。这种掺入会按化学计量释放焦磷酸 (PPi)。
  2. 在存在腺苷 5´ 磷酸硫酸盐的情况下,ATP 硫酸化酶定量地将 PPi 转换为 ATP。这种 ATP 作为荧光素酶介导的荧光素转换为氧化的荧光素的底物,在与 ATP 量成正比的量中产生可见光。在荧光素酶催化反应中产生的光被相机检测并分析成焦磷酸图谱。
  3. 未掺入的核苷酸和 ATP 被焦磷酸酶降解,反应可以使用另一种核苷酸重新开始。

目前,该方法的一个局限性是,DNA 序列的单个读数的长度在 300-500 个核苷酸附近,短于链终止方法(例如桑格测序)可获得的 800-1000 个核苷酸。这会使基因组组装过程变得更加困难,特别是对于包含大量重复 DNA 的序列而言。截至 2007 年,焦磷酸测序最常用于对已知近亲序列的基因组进行重测序或测序。

焦磷酸测序的模板可以通过固相模板制备(链霉亲和素包被的磁珠)和酶促模板制备(焦磷酸酶+核酸外切酶)来制备。因此,焦磷酸测序分为两种类型;即固相焦磷酸测序和液相焦磷酸测序。

下一代测序

[编辑 | 编辑源代码]

对低成本测序的迫切需求推动了高通量测序(或下一代测序)技术的发展,这些技术并行化了测序过程,同时产生了数千或数百万个序列。高通量测序技术旨在降低 DNA 测序成本,超出标准染料终止方法所能达到的水平。在超高通量测序中,可能同时运行多达 500,000 个合成测序操作。

454 测序

[编辑 | 编辑源代码]

454 测序使用大规模平行焦磷酸测序系统,能够在每次 10 小时运行中测序大约 400-600 兆碱基的 DNA。

基因组 DNA 被分成更小的片段(300-800 个碱基对)并抛光(在每个末端使其变钝)。然后将短接头连接到片段的末端。这些接头提供了用于样品库片段的扩增和测序的引物序列。一个接头(接头 B)包含一个 5´-生物素标签,用于将 DNA 库固定到链霉亲和素包被的珠子上。在切口修复后,释放非生物素化链,并用作单链模板 DNA (sstDNA) 库。评估 sstDNA 库的质量,并通过滴定确定 PCR 所需的最佳量(每个珠子的 DNA 拷贝数)。

sstDNA 库固定在珠子上。包含库片段的珠子携带一个单一的 sstDNA 分子。将珠子结合的库与扩增试剂在油包水混合物中乳化。每个珠子在其自己的微反应器中被捕获,在那里发生 PCR 扩增。这导致珠子固定、克隆扩增的 DNA 片段。

将单链模板 DNA 库珠子添加到 DNA 珠子温育混合物(包含 DNA 聚合酶)中,并将酶珠(包含硫酸化酶和荧光素酶)分层到 PicoTiterPlate 设备上。将设备离心以将珠子沉积到孔中。酶珠层确保 DNA 珠子在测序反应过程中保持定位在孔中。珠子沉积过程旨在最大限度地提高含有单个扩增库珠子的孔的数量。

将装载的 PicoTiterPlate 放入 Genome Sequencer FLX 仪器中。流体系统在板的孔上输送测序试剂(包含缓冲液和核苷酸)。在测序运行期间,四种 DNA 核苷酸按固定顺序依次添加到 PicoTiterPlate 上。在核苷酸流动期间,与每个珠子结合的 DNA 的数百万个拷贝并行测序。当与模板链互补的核苷酸添加到孔中时,聚合酶会通过添加核苷酸来延伸现有的 DNA 链。添加一个(或多个)核苷酸会产生光信号,该信号被仪器中的 CCD 相机记录。信号强度与核苷酸的数量成正比;例如,在单个核苷酸流中掺入的同聚物延伸产生的信号比单个核苷酸产生的信号更大。但是,同聚物延伸的信号强度仅在八个连续核苷酸之前呈线性,之后信号迅速下降。数据以标准流程图格式 (SFF) 文件存储,供下游分析使用。

2007 年 3 月下旬,罗氏诊断宣布达成协议,以 1.549 亿美元收购 454 Life Sciences。2013 年 10 月,罗氏宣布将关闭 454,并在 2016 年年中停止支持该平台。

Illumina 测序

[编辑 | 编辑源代码]
Illumina HiSeq 2500 测序仪。

Solexa(现为 Illumina 的一部分)成立于 1998 年,开发了一种基于可逆终止子的合成测序技术。在这种方法中,首先将 DNA 剪切,并将两个接头连接到片段的末端。然后将单链、接头连接的片段随机结合到流动槽的表面,并通过桥扩增进行扩增:流动槽被涂有与接头相对应的寡核苷酸。因此,片段的游离末端可以“桥接”到表面上的互补寡核苷酸,然后作为 DNA 聚合酶的引物。新合成的双链桥的变性会留下两个与表面连接的单链片段。重复延伸和变性会在整个流动槽中产生数百万个独特的簇(或 polonies,即聚合酶生成的菌落)。在下一步中,可以使用可逆终止子对这些菌落进行测序。这些是其 3'‑OH 基团被化学封锁的核苷酸。此外,四种类型的核苷酸带有不同的荧光标记。在测序的第一轮循环中,将所有四种核苷酸、引物和 DNA 聚合酶添加到流动槽中。在每个模板中,可以掺入单个核苷酸,其余的被冲洗掉。现在,使用激光激发荧光标记,并拍摄整个流动槽的高分辨率图像。任何高于背景的信号都标识了簇的物理位置,荧光发射标识了掺入了哪四个碱基。接下来,去除染料和末端 3´ 阻断剂,添加四种可逆终止子和聚合酶,开始下一轮循环。通过这种方式,可以一次确定一个碱基的片段序列。最终,可以对数百万个读数进行比对,以得出原始 DNA 的序列。

Illumina 目前是下一代测序机领域的市场领导者。它提供了几种版本的测序仪,其中 HiSeq 是功能最强大,最常用于对大型基因组进行测序的仪器。据 Illumina 称,HiSeq X Ten 是第一个打破人类基因组 1000 美元门槛的测序平台。它可以为每个流动槽产生高达 30 亿个读数,每个模板两端的最大读数长度为 150 bp。运行时间最长可达三天。MiSeq 是一种更快、更便宜的替代方案,每个流动槽有 2500 万个读数,每个模板两端的最大读数长度为 300 bp。

Ion Torrent 半导体测序

[编辑 | 编辑源代码]

Ion Torrent Systems Inc.(现为 Life Technologies 所有)开发了一种基于使用标准测序化学,但具有新颖的半导体检测系统的系统。这种测序方法基于检测 DNA 聚合反应过程中释放的氢离子,而不是其他测序系统中使用的光学方法。包含要测序的模板 DNA 链的微孔被单一类型的核苷酸淹没。如果引入的核苷酸与引导模板核苷酸互补,它就会被掺入到正在生长的互补链中。这会导致氢离子的释放,从而触发超灵敏的离子传感器,表明发生了反应。如果模板序列中存在同聚物重复序列,则在单个循环中会掺入多个核苷酸。这会导致相应数量的氢释放和成比例更高的电子信号。

Ion Torrent 测序:氢离子的释放表明掺入了零个、一个或多个核苷酸。

单分子实时 (SMRT) 测序

[编辑 | 编辑源代码]

SMRT 测序基于合成测序方法。DNA 在零模波导 (ZMW) 中合成 - 这些是底部带有捕获工具的小型井状容器。测序使用未修饰的聚合酶 (连接到 ZMW 底部) 和自由流动的荧光标记核苷酸进行,这些核苷酸存在于溶液中。这些井的结构使得只有在井底部发生的荧光会被检测到。荧光标记在核苷酸整合到 DNA 链中后会从核苷酸上脱落,留下未修饰的 DNA 链。根据 SMRT 技术开发商太平洋生物科学公司,这种方法允许检测核苷酸修饰(如胞嘧啶甲基化)。这是通过观察聚合酶动力学实现的。这种方法可以产生 20,000 个核苷酸或更长的读长,平均读长为 5 千碱基。

纳米孔测序

[编辑 | 编辑源代码]

该方法基于读取核苷酸通过与环糊精共价结合的 α-溶血素孔时的电信号。通过纳米孔的 DNA 会改变其离子电流。这种变化取决于 DNA 序列的形状、大小和长度。每种类型的核苷酸会阻断通过孔的离子流不同的时间。该方法具有发展潜力,因为它不需要修饰的核苷酸,但是单核苷酸分辨率尚未实现。

纳米孔测序发展的两个主要领域是固态纳米孔测序和蛋白质纳米孔测序。蛋白质纳米孔测序利用膜蛋白复合物,例如 ∝‑溶血素和 MspA(分枝杆菌 smegmatis 孔蛋白 A),由于它们能够区分单个核苷酸和核苷酸组,因此显示出巨大前景。固态纳米孔测序利用合成材料,例如氮化硅和氧化铝,由于其优异的机械性能以及热稳定性和化学稳定性而被优先选择。对于这种类型的测序,制造方法至关重要,因为纳米孔阵列可以包含数百个直径小于 8 纳米的孔。

这个概念源于这样一种想法:单链 DNA 或 RNA 分子可以通过电泳以严格的线性顺序通过生物孔,该孔可以小于 8 纳米,并且可以检测到,因为分子在通过孔时会释放离子电流。该孔包含一个检测区域,能够识别不同的碱基,每个碱基在穿过孔时会产生不同的特定时间信号,这些信号对应于碱基的顺序,然后进行评估。在实施此过程时,需要注意的是,精确控制 DNA 通过孔的传输对于成功至关重要。各种酶,如核酸外切酶和聚合酶,已被用于通过将它们放置在孔的入口附近来调节此过程。

测序策略

[编辑 | 编辑源代码]

引物步进

[编辑 | 编辑源代码]

引物步进是一种用于测序 1.3 到 7 千碱基之间 DNA 片段的方法。这些片段太长,无法使用链终止方法在单次序列读取中测序。该方法通过将长序列分成几个连续的短序列来实现。目标 DNA 可以是质粒插入片段、PCR 产物或代表基因组测序时间隙的片段。

该片段首先像较短片段一样进行测序 - 使用通用引物或客户指定的引物从每个末端进行测序。这应该会识别出前 1000 个(大约)碱基。为了完全测序感兴趣的区域,需要设计和合成新的引物 - 互补于已知序列的最后 20 个碱基 - 以获得连续的序列信息。

这样,测序的长的 DNA 的短部分就会沿着序列“步进”。该方法可用于测序整个染色体(因此称为染色体步进)。

鸟枪法测序

[编辑 | 编辑源代码]

在鸟枪法测序中,DNA 被随机分解成许多小片段,这些片段被测序以获得读长。通过执行多轮这种片段化和测序,获得目标 DNA 的多个重叠读长。然后,计算机程序利用不同读长的重叠末端将它们组装成一个连续的序列。

传统的鸟枪法测序基于桑格测序法:这是大约 1995 年至 2005 年期间用于基因组测序的最先进技术。鸟枪法策略仍然应用于今天,但使用的是下一代测序。这些技术产生较短的读长(从 25 到 500bp 不等),但在相对较短的时间内(大约一天)会产生数十万甚至数百万个读长。这会导致高覆盖率,但组装过程在计算上要昂贵得多。由于数据量大,以及测序整个基因组所需的时间相对较短,这些技术远远优于桑格测序。

参考文献

[编辑 | 编辑源代码]
  • Mardis, E.R., 2008. Next-generation DNA sequencing methods. Annu. Rev. Genomics Hum. Genet. 9, 387–402.
  • Metzker, M.L., 2010. Sequencing technologies - the next generation. Nat. Rev. Genet. 11, 31–46.
  • Sanger, F., Coulson, A.R., 1975. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biol. 94, 441–8.
  • Sanger, F., Nicklen, S., Coulson, A.R., 1977. DNA sequencing with chain-terminating inhibitors. Proc. Natl. Acad. Sci. U. S. A. 74, 5463‑7.
华夏公益教科书