分子生物学/遗传密码简介

在詹姆斯·沃森和弗朗西斯·克里克发现DNA结构之后，他们利用了莫里斯·威尔金斯和罗莎琳德·富兰克林（以及其他）的实验证据，人们开始认真地努力去理解蛋白质编码的性质。1954年，乔治·伽莫夫^[1]推测必须使用一个三字母密码来编码活细胞用来编码蛋白质的20种标准氨基酸。3是最小的整数n，使得4ⁿ至少为20。

密码子由三个DNA碱基组成这一事实最早是在克里克、布伦纳等人的实验中得到证实。 ^[2] 第一个密码子的阐明是由马歇尔·尼伦伯格和海因里希·J·马特海在1961年美国国立卫生研究院完成的。^[3]他们使用无细胞系统翻译多尿嘧啶RNA序列（即UUUU...），发现他们合成的多肽仅由苯丙氨酸组成。由此他们推断密码子UUU指定了氨基酸苯丙氨酸。随后，塞韦罗·奥乔阿实验室的实验表明，多腺嘌呤RNA序列（AAAAA...）编码多肽，多赖氨酸，而多胞嘧啶RNA序列（CCCCC...）编码多肽，多脯氨酸。因此，密码子AAA指定了氨基酸赖氨酸，而密码子CCC指定了氨基酸脯氨酸。使用不同的共聚物，随后确定了大多数剩余的密码子。扩展这项工作，尼伦伯格和菲利普·莱德揭示了遗传密码的三联体性质，并允许对标准遗传密码的密码子进行破译。在这些实验中，各种mRNA组合通过包含核糖体的过滤器，核糖体是细胞中将RNA翻译成蛋白质的成分。独特的三个碱基促进了特定tRNA与核糖体的结合。莱德和尼伦伯格能够在他们的实验中确定54个密码子中的64个密码子的序列。

哈尔·戈宾德·科拉纳的后续工作确定了剩余的遗传密码。不久之后，罗伯特·W·霍利确定了转运RNA（tRNA）的结构，转运RNA是促进将RNA翻译成蛋白质过程的适配器分子。这项工作基于塞韦罗·奥乔阿早期的研究，奥乔阿因其在RNA合成酶学方面的研究获得了1959年的诺贝尔奖。1968年，科拉纳、霍利和尼伦伯格因他们的工作获得了诺贝尔生理学或医学奖。^[4]

遗传密码的起源

关于遗传密码起源有很多理论。所有已知生命形式使用的遗传密码几乎是通用的。然而，可能的遗传密码数量巨大。如果氨基酸与三联体密码子随机关联，则将有1.5 x 10⁸⁴个可能的遗传密码。转运RNA的系统发育分析表明，转运RNA分子是在现有的氨酰-tRNA合成酶出现之前进化出来的。

理论上，遗传密码可能是完全随机的（“冻结的意外”）、完全非随机的（最优的）或随机和非随机的组合。有足够的数据来反驳第一个可能性。首先，简单地看一下遗传密码表已经显示出氨基酸分配的聚类。此外，在相同生物合成途径中共享相同氨基酸的倾向于在其密码子中具有相同的第一个碱基，而具有相似物理特性的氨基酸往往具有相似的密码子。

在试图解释遗传密码的进化（因此解释这些模式的起源）的许多理论中，有四个主题贯穿其中

1. 化学原理决定了特定的RNA与氨基酸的相互作用。适体实验表明，一些氨基酸对其编码的碱基三联体具有选择性的化学亲和力。最近的实验表明，在测试的8种氨基酸中，有6种显示出一些RNA三联体-氨基酸关联。这被称为立体化学密码。立体化学密码可能创造了一个古代的核心分配。当前复杂的翻译机制，包括tRNA和相关的酶，可能是后来的发展，最初，蛋白质序列直接在碱基序列上模板化。

2. 生物合成扩展。现代标准遗传密码是从一个更简单的早期密码通过“生物合成扩展”过程发展而来的。这里的意思是，原始生命“发现”了新的氨基酸（例如，作为代谢的副产物），后来将其中一些氨基酸重新整合到遗传编码机制中。虽然已经找到了许多间接证据表明过去使用的不同氨基酸比今天少，但关于哪些氨基酸以何种顺序进入密码的具体和详细假设，已被证明具有更大的争议性。

3. 自然选择导致了遗传密码的密码子分配，从而最大程度地减少了突变的影响。最近的一个假设表明，三联体密码是从使用比三联体密码子更长的密码子演变而来的。比三联体解码具有更高的密码子冗余度，并且比三联体解码更具抗错性。此功能允许在没有高度复杂的翻译机制（如核糖体）的情况下进行准确解码。

4. 信息通道：信息论方法将遗传密码视为一个容易出错的信息通道。通道固有的噪声（即错误）给生物体带来了一个基本问题：如何构建一个能够承受噪声影响并准确有效地翻译信息的遗传密码？这些“速率-失真”模型表明，遗传密码的起源是三种相互冲突的进化力量相互作用的结果：对不同氨基酸的需求、对容错性的需求以及对资源最小成本的需求。当密码子到氨基酸的映射变得非随机时，代码就会出现在编码转变处。代码的出现受可能错误定义的拓扑结构控制，并且与地图着色问题有关。

科拉纳研究概述

具有两个重复单元的核糖核酸（RNA）（UCUCUCU → UCU CUC UCU）产生了两种交替的氨基酸。这与尼伦伯格和莱德的实验相结合，表明UCU编码丝氨酸，而CUC编码亮氨酸。具有三个重复单元的RNA（UACUACUA → UAC UAC UAC，或 ACU ACU ACU，或 CUA CUA CUA）产生了三种不同的氨基酸串。具有四个重复单元（包括UAG、UAA或UGA）的RNA仅产生了二肽和三肽，因此揭示了UAG、UAA和UGA是终止密码子。通过此，科拉纳及其团队已经确定了所有生物通用的所有代码之母，生物学语言是用三个字母的单词拼写的：每组三个核苷酸编码一个特定的氨基酸。他们的诺贝尔演讲于1968年12月12日发表。为此，科拉纳也是第一个合成寡核苷酸的人，即核苷酸串。

遗传密码表


		第二碱基
		T		C		A		G
第一碱基	T	TTT	(Phe/F) 苯丙氨酸	TCT	(Ser/S) 丝氨酸	TAT	(Tyr/Y) 酪氨酸	TGT	(Cys/C) 半胱氨酸
		TTC	(Phe/F) 苯丙氨酸	TCC	(Ser/S) 丝氨酸	TAC	(Tyr/Y) 酪氨酸	TGC	(Cys/C) 半胱氨酸
		TTA	(Leu/L) 亮氨酸	TCA	(Ser/S) 丝氨酸	TAA	赭石 (停止)	TGA	蛋白石 (停止)
		TTG	(Leu/L) 亮氨酸	TCG	(Ser/S) 丝氨酸	TAG	琥珀 (停止)	TGG	(Trp/W) 色氨酸
	C	CTT	(Leu/L) 亮氨酸	CCT	(Pro/P) 脯氨酸	CAT	(His/H) 组氨酸	CGT	(Arg/R) 精氨酸
		CTC	(Leu/L) 亮氨酸	CCC	(Pro/P) 脯氨酸	CAC	(His/H) 组氨酸	CGC	(Arg/R) 精氨酸
		CTA	(Leu/L) 亮氨酸	CCA	(Pro/P) 脯氨酸	CAA	(Gln/Q) 谷氨酰胺	CGA	(Arg/R) 精氨酸
		CTG	(Leu/L) 亮氨酸	CCG	(Pro/P) 脯氨酸	CAG	(Gln/Q) 谷氨酰胺	CGG	(Arg/R) 精氨酸
	A	ATT	(Ile/I) 异亮氨酸	ACT	(Thr/T) 苏氨酸	AAT	(Asn/N) 天冬酰胺	AGT	(Ser/S) 丝氨酸
		ATC	(Ile/I) 异亮氨酸	ACC	(Thr/T) 苏氨酸	AAC	(Asn/N) 天冬酰胺	AGC	(Ser/S) 丝氨酸
		ATA	(Ile/I) 异亮氨酸	ACA	(Thr/T) 苏氨酸	AAA	(Lys/K) 赖氨酸	AGA	(Arg/R) 精氨酸
		ATG	(Met/M) 甲硫氨酸	ACG	(Thr/T) 苏氨酸	AAG	(Lys/K) 赖氨酸	AGG	(Arg/R) 精氨酸
	G	GTT	(Val/V) 缬氨酸	GCT	(Ala/A) 丙氨酸	GAT	(Asp/D) 天冬氨酸	GGT	(Gly/G) 甘氨酸
		GTC	(Val/V) 缬氨酸	GCC	(Ala/A) 丙氨酸	GAC	(Asp/D) 天冬氨酸	GGC	(Gly/G) 甘氨酸
		GTA	(Val/V) 缬氨酸	GCA	(Ala/A) 丙氨酸	GAA	(Glu/E) 谷氨酸	GGA	(Gly/G) 甘氨酸
		GTG	(Val/V) 缬氨酸	GCG	(Ala/A) 丙氨酸	GAG	(Glu/E) 谷氨酸	GGG	(Gly/G) 甘氨酸

非极性	极性	碱性	酸性	(终止密码子)

遗传密码的简并性

简并性是指遗传密码的冗余性。遗传密码具有冗余性，但不具有歧义性（以上是完整相关性）。例如，虽然密码子GAA和GAG都指定谷氨酸（冗余性），但它们都不指定任何其他氨基酸（无歧义性）。编码一个氨基酸的密码子可能在其三个位置中的任何一个都不同。例如，氨基酸谷氨酸由密码子GAA和GAG指定（第三位不同），氨基酸亮氨酸由密码子UUA、UUG、CUU、CUC、CUA、CUG指定（第一位或第三位不同），而氨基酸丝氨酸由密码子UCA、UCG、UCC、UCU、AGU、AGC指定（第一位、第二位或第三位不同）。

如果密码子中的一个位置上的任何核苷酸都指定相同的氨基酸，则称该位置为四重简并位点。例如，甘氨酸密码子（GGA、GGG、GGC、GGU）的第三位是一个四重简并位点，因为该位点的所有核苷酸替换都是同义的；也就是说，它们不会改变氨基酸。只有某些密码子的第三位可能是四重简并的。如果密码子中的一个位置上只有四个可能的核苷酸中的两个指定相同的氨基酸，则称该位置为二重简并位点。例如，谷氨酸密码子（GAA、GAG）的第三位是一个二重简并位点。在二重简并位点，等效核苷酸总是两个嘌呤（A/G）或两个嘧啶（C/U），因此只有二重简并位点的颠换替换（嘌呤到嘧啶或嘧啶到嘌呤）是非同义的。

如果密码子中的一个位置上的任何突变都会导致氨基酸替换，则称该位置为非简并位点。只有一个三重简并位点，改变为四个核苷酸中的三个可能对氨基酸没有影响（取决于改变成什么），而改变为第四个可能的核苷酸总是会导致氨基酸替换。这是异亮氨酸密码子的第三位：AUU、AUC或AUA都编码异亮氨酸，但AUG编码蛋氨酸。在计算中，该位置通常被视为二重简并位点。

有三个氨基酸由六个不同的密码子编码：丝氨酸、亮氨酸和精氨酸。只有一个氨基酸由单个密码子指定。其中一个是氨基酸蛋氨酸，由密码子AUG指定，该密码子也指定翻译的开始；另一个是色氨酸，由密码子UGG指定。遗传密码的简并性解释了同义突变的存在。

简并性是由于密码子数量多于可编码的氨基酸数量。例如，如果每个密码子有两个碱基，那么只能编码16个氨基酸 **(4²=16)**。因为至少需要21个密码子（20个氨基酸加上终止密码子），而下一个最大的碱基数是三个，那么 **4³得到64** 个可能的密码子，这意味着必须存在一些简并性。

遗传密码的这些特性使其对点突变具有更强的容错性。例如，理论上，四重简并密码子可以容忍第三位上的任何点突变，尽管在实践中，密码子使用偏好限制了这一点，尤其是在许多生物体中；二重简并密码子可以容忍第三位上的三种可能的点突变中的一种。由于转换突变（嘌呤到嘌呤或嘧啶到嘧啶突变）比颠换突变（嘌呤到嘧啶或反之）更可能发生，因此二重简并位点上嘌呤或嘧啶的等效性进一步增强了容错性。

尽管遗传密码具有冗余性，但单个点突变仍然会导致蛋白质功能障碍。例如，突变的珠蛋白基因会导致镰状细胞病。在突变的珠蛋白中，亲水性谷氨酸（Glu）被疏水性缬氨酸（Val）取代，即GAA或GAG变为GUA或GUG。谷氨酸被缬氨酸取代降低了 β-珠蛋白的溶解度，导致珠蛋白形成由缬氨酸基团之间的疏水相互作用连接的线性聚合物，从而导致红细胞的镰状变形。镰状细胞病通常不是由从头突变引起的。相反，它在疟疾流行的地理区域被选择出来（与地中海贫血相似），因为杂合子对疟疾的寄生虫 *疟原虫* 有一定的抵抗力（杂合子优势）。^[5]

这些氨基酸的可变密码是允许的，因为 tRNA 反密码子的第一个碱基中存在修饰碱基，形成的碱基对称为摆动碱基对。修饰的碱基包括肌苷和非沃森-克里克 U-G 碱基对。^[6]

起始密码子和终止密码子

起始密码子

起始密码子通常被定义为核糖体开始将 RNA 序列翻译成氨基酸的点，即序列。当核糖体从 mRNA 的 5' 端碳到 3' 端碳“读取”时，起始密码子是 tRNA 结合蛋氨酸、甲硫氨酸和核糖体亚基附着到的第一个密码子。**ATG 和 AUG 分别表示 DNA 和 RNA 序列，它们是编码真核生物中甲硫氨酸 (Met) 和原核生物中修饰的 Met (fMet) 的起始密码子或起始密码子。**中心法则描述了基因到蛋白质的翻译过程。特定的 DNA 序列充当模板在细胞核中合成 mRNA，这个过程称为“转录”。这种 mRNA 从细胞核输出到细胞的细胞质中，并充当模板在细胞质中合成蛋白质，这个过程称为“翻译”。三个核苷酸碱基指定遗传密码中的一个氨基酸，这种映射编码在生物体的 tRNA 中。mRNA 编码序列 (CDS) 中要翻译成蛋白质的前三个碱基称为起始密码子或起始密码子。起始密码子几乎总是位于一个未翻译区 5' UTR 之前。起始密码子通常是 AUG（或 DNA 中的 ATG；这也编码甲硫氨酸）。在高等生物（真核生物）中，很少使用非 AUG 起始密码子。除了 AUG 之外，原核生物中还使用备用起始密码子，主要是 **GUG** 和 **UUG**。例如，大肠杆菌使用 83% ATG (AUG)、14% GTG (GUG)、3% TTG (UUG) 和一两个其他密码子（例如，ATT 和 CTG）。

终止密码子

在遗传密码中，终止密码子（也称为终止密码子）是信使 RNA 中的核苷酸三联体，它指示翻译终止。蛋白质基于多肽，多肽是氨基酸的独特序列；大多数信使 RNA 中的密码子对应于向生长的多肽链添加一个氨基酸，该多肽链最终可能成为蛋白质——终止密码子指示此过程终止，释放氨基酸链。

终止密码子在历史上被赋予了许多不同的名称，因为它们各自对应于一类不同的突变体，这些突变体的行为方式都相似。**这些突变体最初是在噬菌体中分离出来的**（T4 和 λ），噬菌体是感染大肠杆菌的病毒。病毒基因中的突变削弱了它们的感染能力，有时会产生只能感染和生长在某些大肠杆菌品种中的病毒。

1. **琥珀突变**是发现的第一组无义突变。它们是由理查德·埃普斯坦和查尔斯·斯坦伯格分离出来的，但以他们朋友哈里斯·伯恩斯坦的名字命名（见埃德加第 580-581 页^[7]）关于这个事件背后的故事）。

带有琥珀突变的病毒的特点是它们只能感染某些菌株的细菌，这些细菌被称为琥珀抑制子。这些细菌携带着自身的突变，使突变病毒恢复功能。例如，识别琥珀终止密码子的 tRNA 中的突变允许翻译“通读”该密码子并产生全长蛋白质，从而恢复蛋白质的正常形式并“抑制”琥珀突变。因此，琥珀突变体是可以在含有琥珀抑制子突变的细菌中生长的整个病毒突变体类别。

2.赭石赭石突变是发现的第二个终止密码子突变。为了与琥珀突变体的名称相匹配，赭石突变体病毒具有类似的特性，即它们在某些抑制子菌株的细菌中恢复了感染能力。赭石抑制子组与琥珀抑制子组不同，因此推断赭石突变体对应于不同的核苷酸三联体。通过一系列比较这些突变体彼此之间以及其他已知氨基酸密码子的突变实验，悉尼·布伦纳得出结论，琥珀和赭石突变体分别对应于核苷酸三联体“UAG”和“UAA”。^[8]

3. 碧玉突变或褐色突变标准遗传密码中的第三个也是最后一个终止密码子不久后被发现，对应于核苷酸三联体“UGA”。产生这种过早终止密码子的无义突变后来被称为碧玉突变或褐色突变。

在 RNA 中：UAG (“琥珀”) UAA (“赭石”) UGA (“碧玉”)

在 DNA 中：TAG (“琥珀”) TAA (“赭石”) TGA (“碧玉”或“褐色”)。

线粒体中通用遗传密码 (UGC) 的例外情况
生物体	密码子	标准	新颖
哺乳动物	AGA, AGG	精氨酸	终止密码子
	AUA	异亮氨酸	甲硫氨酸
	UGA	终止密码子	色氨酸
无脊椎动物	AGA, AGG	精氨酸	丝氨酸
	AUA	异亮氨酸	甲硫氨酸
	UGA	终止密码子	色氨酸
酵母	AUA	异亮氨酸	甲硫氨酸
	UGA	终止密码子	色氨酸
	CUA	亮氨酸	苏氨酸

需要记住的事实

遗传密码的例外情况：尽管今天绝大多数生物体使用标准遗传密码，但遗传学家已经发现了一些关于该密码的变异。此外，这些变异存在于不同的进化谱系中，并且包括对少数密码子的不同翻译。

CUG 密码子通常翻译为亮氨酸，在许多真菌物种中对应于丝氨酸 2 ，如 Candida 3。

许多绿藻属 Acetabularia 的物种使用终止密码子 UAG 和 UAA 来编码甘氨酸。

许多纤毛虫，如 Paramecium tetraurelia 、 Tetrahymena thermophila 或 Stylonychia 4 lemnae，使用密码子 UAG 和 UAA 来编码谷氨酰胺而不是终止。UGA 是这些细胞使用的唯一终止密码子。

纤毛虫 Euplotes octocarinatus 使用密码子 UGA 来编码半胱氨酸，使 UAG 和 UAA 成为终止信号。

在生命的三界中，我们有时会发现一种第二十一氨基酸，硒代半胱氨酸，由 UGA 密码子 (通常为终止密码子) 编码。

在古细菌和真细菌中，有时会发现一种第二十二氨基酸，吡咯赖氨酸，由 UAG (通常为终止密码子) 编码。

第一个掺入的氨基酸（由起始密码子 AUG 决定）在大多数真核生物中是甲硫氨酸，更少见的是缬氨酸（在一些真核生物中），以及大多数原核生物中的甲酰甲硫氨酸。此外，在一些原核生物中，该密码子有时是 GUG 或 GUU。

因此，我们认为今天的生命最初具有较少的氨基酸数量。这些氨基酸已被修饰，并且它们的数量已经增加（通过类似于硒代半胱氨酸和吡咯赖氨酸形成的现象，分别源自丝氨酸和赖氨酸，在核糖体上对其转移 RNA 进行修饰）。这些新的氨基酸随后被用于一小部分转移 RNA 及其相关编码。也许我们注意到这种现象的迹象，即谷氨酰胺，在某些细菌中，仍然附着在它的 tRNA 上的谷氨酸衍生而来。

另一个例外：代码有时是不明确的。例如，密码子 UGA 在同一个生物体中（例如大肠杆菌）有时编码上面提到的第 21 个氨基酸（硒代半胱氨酸）或“终止”。

参考文献

↑ Gamow, G. 1954. 脱氧核糖核酸与蛋白质结构之间的可能关系。自然 173: 318。
↑ CRICK FH, BARNETT L, BRENNER S, WATTS-TOBIN RJ (1961)。“蛋白质遗传密码的一般性质”。自然。192: 1227–32。PMID 13882203。
↑ NIRENBERG MW, MATTHAEI JH (1961)。“大肠杆菌无细胞蛋白质合成的依赖性，依赖于天然存在或合成的多核苷酸”。美国国家科学院院刊。47: 1588–602。PMC 223178。PMID 14479932。
↑ 遗传密码
↑ Hebbel RP (2003)。“镰状血红蛋白不稳定性：疟疾保护的机制”。氧化还原报告。8 (5): 238–40。doi:10.1179/135100003225002826。PMID 14962356。
↑ Varani G, McClain WH (2000)。“G x U 摆动碱基对。RNA 结构的基本组成部分，对各种生物系统中 RNA 功能至关重要”。EMBO 报告。1 (1): 18–23。doi:10.1093/embo-reports/kvd001。PMC 1083677。PMID 11256617。 {{cite journal}}: Unknown parameter |month= ignored (help)
↑ Edgar B (2004). "T4噬菌体的基因组：一项考古学发掘". 遗传学. 168 (2): 575–82. PMC 1448817. PMID 15514035.
↑ Brenner S. 科学生活 2001 年（参见第 101-104 页） BioMed Central Limited 出版 ISBN 0954027809 ISBN 978-0954027803

[1] Gamow, G. 1954. 脱氧核糖核酸与蛋白质结构之间的可能关系。自然 173: 318。

[pmid13882203-2] CRICK FH, BARNETT L, BRENNER S, WATTS-TOBIN RJ (1961)。“蛋白质遗传密码的一般性质”。自然。192: 1227–32。PMID 13882203。

[pmid14479932-3] NIRENBERG MW, MATTHAEI JH (1961)。“大肠杆菌无细胞蛋白质合成的依赖性，依赖于天然存在或合成的多核苷酸”。美国国家科学院院刊。47: 1588–602。PMC 223178。PMID 14479932。

[4] 遗传密码

[pmid14962356-5] Hebbel RP (2003)。“镰状血红蛋白不稳定性：疟疾保护的机制”。氧化还原报告。8 (5): 238–40。doi:10.1179/135100003225002826。PMID 14962356。

[pmid11256617-6] Varani G, McClain WH (2000)。“G x U 摆动碱基对。RNA 结构的基本组成部分，对各种生物系统中 RNA 功能至关重要”。EMBO 报告。1 (1): 18–23。doi:10.1093/embo-reports/kvd001。PMC 1083677。PMID 11256617。 {{cite journal}}: Unknown parameter |month= ignored (help)

[pmid15514035-7] Edgar B (2004). "T4噬菌体的基因组：一项考古学发掘". 遗传学. 168 (2): 575–82. PMC 1448817. PMID 15514035.

[8] Brenner S. 科学生活 2001 年（参见第 101-104 页） BioMed Central Limited 出版 ISBN 0954027809 ISBN 978-0954027803

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]