结构生物化学/DNA重组技术/人类基因组计划
人类基因组计划是一个由美国能源部和美国国立卫生研究院实施的为期 13 年的项目。对估计的 30 亿个 DNA 碱基对进行测序的任务令人生畏,完成这项任务需要国际合作,英国的 Wellcome Trust 是该项目的合作伙伴,许多其他国家,如德国、法国、中国和日本也做出了巨大贡献。该项目的目標包括:对 30 亿个人类 DNA 碱基对进行测序,识别人类 DNA 中估计的 20,000-25,000 个基因,将所有这些信息存储在可访问的数据库中,并改进数据分析工具。
一组模式生物的 DNA 也经过了测序和研究,以提供比较信息,以便科学家能够了解人类基因组是如何运作的。该项目的首要原因是利用测序的基因组来了解并最终治疗折磨人类的约 4000 种遗传病,以及许多遗传易感性起重要作用的多因素疾病。目前,人类基因组计划的研究和开发的技术正在以下领域得到应用:分子医学、能源/环境应用、风险评估、生物考古学、人类学、进化、人类迁徙、DNA 法医(用于识别目的)、农业、畜牧业育种、生物加工等等领域。
人类基因组计划 (HGP) 是一项旨在发现并创建整个人类基因组数据库的全球合作项目。基因组是生物体(包括其基因)的全部 DNA。DNA 由四种不同碱基腺嘌呤、鸟嘌呤、胸腺嘧啶和胞嘧啶的序列组成。了解这些骨架碱基的特定序列,可以让我们进行比较并确定某些疾病。例如,镰状细胞性贫血是由单个碱基从 A 改变为 T 引起的。识别这些差异使得研究和寻求针对疾病和 DNA 疾病的医疗进展成为可能。为了进一步了解人类基因组序列的重要性及其意义,对非人类物种(如果蝇、小鼠和大肠杆菌)进行了研究。
创建一种方法来存储人类基因组计划获得的信息本身就是一个挑战。人类基因组包含大约 30 亿个不同的序列,仅这些序列本身就需要大约 3 吉字节的内存,而这些序列的持续进步还需要额外的内存。生物信息学家 Morey Parang、Richard Mural 和 Mark Adams 是设计这种存储海量信息方法的主要贡献者。
HGP 的其他目标包括:识别人类 DNA 中的所有 20,000 到 25,000 个基因,改进数据分析工具,将技术转移到私营部门,并解决 HGP 可能带来的伦理、法律和社会 (ELSI) 问题。
这个价值 30 亿美元的项目原本需要 15 年才能完成,这是一个全球合作项目,包括来自中国、日本、英国、德国和法国的科学家。奇怪的是,该项目在预计的 15 年内以 13 年的时间完成了。有些人认为,造成这种异常的原因是 Celera Genomics 仅用大约 3 亿美元的私人资金进行了一个项目。由于 Celera Genomics 宣布他们将在全球科学家合作努力的 30 亿美元项目完成之前完成对人类基因组的测序。他们使用了一种略微冒险的方法,称为“鸟枪法测序”,而不是以线性方式对基因组进行测序,他们将序列“射击”成小的片段,并找到它们重叠的位置。两组之间的竞争帮助推动了这个项目,因为双方都付出了更大的努力,希望先于对方完成。因此,他们共同完成了对整个人类基因组测序的最终项目。
该项目于 1990 年启动,于 2003 年完成。虽然该项目确定的目标已经完成,但所获得的信息仍在不断地被分析和研究,以便在生命科学领域取得进展。HGP 使分子医学、能源和环境应用、风险评估、生物考古学、人类学、进化、人类迁徙、DNA 法医和生物加工等许多科学领域受益。虽然人类基因组现在被认为是“完整的”,但仍有很多基因组部分尚未测序。仍然存在很多空白,但当世界各地不同的研究小组对这些小片段进行测序时,这些序列会被放到世界范围内的数据库(如 BLAST)中。
人类基因组计划的开发是为了打开人类的眼睛。
例如,通过对人类基因组进行测序,科学家现在可以更详细深入地研究遗传疾病。人类基因组计划帮助识别了与不同遗传疾病相关的基因,如肌强直营养不良、脆性 X 染色体综合征、阿尔茨海默病、家族性乳腺癌等等。这将帮助研究人员开发出更好的方法来治疗疾病的根本原因,而不仅仅是治疗疾病的症状。在传统医学中,它还将允许更早地识别疾病,并为个人定制治疗方案。目前正在进行的研究旨在改进基因治疗——在未来,科学家可能能够修复或替换有缺陷的基因。另一个研究领域涉及个人对环境的反应差异。随着研究人员确定哪些基因编码对环境压力的敏感性,如致癌物质和刺激物,他们将能够更好地预测暴露于危险环境的个体所面临的风险。在这一研究领域中,最重要的结果之一是加深了对低剂量辐射对癌症风险影响的理解。
该项目还有助于推动法医学的发展;科学家现在可以创建 DNA 指纹,这些指纹来自个体之间存在差异的 DNA 区域的小片段,从而实现精确的识别技术。由于遗传研究的直接结果,犯罪现场的体液、组织和头发在用途方面有了很大提高。人类基因组计划对法医学的重要性超出了刑事领域。“DNA 指纹”还可以用于匹配器官捐献者,建立亲属关系,并识别可能污染环境的微生物。
由于与基因组测序相关的普遍知识的扩展,微生物基因组计划等较小的项目被开发出来,以对细菌的基因组进行测序。该项目的目标是找到利用微生物和微生物酶生产能源、减少有毒废物和工业加工的方法。它可以用于更深入地分析即使是最微小的生命形式对生态系统的影响。此外,对某些微生物基因组进行测序使科学家能够深入了解病原微生物感染人体的方式。由于人类对微生物世界的依赖,人类世界与微生物世界之间的关系也值得研究。这将有利于人类健康和环境。
人类基因组计划还有助于人们了解人类在进化过程中所走的道路。它让科学家们得以一窥历史,因为它帮助连接了生命的三界:确定古细菌、原核生物和真核生物完全没有种族划分。比较基因组学通过将人类 DNA 的特定片段与其他生物体中相应的片段进行比较,帮助科学家确定这些片段编码什么。
至于最近的历史,DNA 研究已应用于种族层面上,证明种族是社会而不是不同 DNA 的产物。也就是说,Y 染色体上的特定标记可用于追踪一个男人父系血统在整个人类历史上的迁徙。人类基因组计划的完成也帮助了行为遗传学领域。多年来,科学家们已经认识到,许多行为都具有生物学基础的证据。例如,在一个物种中,某些行为会持续出现,而这些特定行为可以传递给后代(例如澳洲牧羊犬的放牧本能)。该理论的进一步支持包括行为的跨物种平行现象,尤其是在密切相关的物种中。虽然传统上,行为遗传学领域一直集中在对双胞胎和收养者的研究上,试图阐明自然与教养之间的辩论——也就是说,我们行为中有多少是真正编码在我们 DNA 中的,以及有多少是由环境影响造成的。行为遗传学因量化某些抽象概念(如智力)的难度以及任何行为都由多个基因编码并受其他因素影响而变得复杂。此外,关于行为遗传学研究的任何结果都可能是敏感话题,因此在得出结论之前需要更加谨慎。
最后,人类基因组计划开发了许多基因工程技术,从而产生了转基因植物和动物,以改善食品和能源生产。例如,培育出的作物需要更少的杀虫剂或更少的水。人类基因组计划还允许开发能够分解某些类型废物的植物。这引发了许多关于人类是否有权改变“自然”生物的争论,以及人们对转基因生物(尤其是那些用于人类消费的转基因生物)的长期影响的担忧。
94年9月: 产生了包含约 3,000 个标记的 1-cM 分辨率遗传图谱。
94年12月: 开发了高通量寡核苷酸合成技术。
96年8月: 对詹纳氏甲烷球菌基因组进行了测序;证实了地球上存在第三个主要的生命分支。
96年9月: 完成了第一个测序的基因组,即酵母基因组。
96年12月: 开发了 DNA 微阵列技术。
98年10月: 完成了一个包含约 52,000 个 STS(即序列标签位点,一个在基因组中只出现一次的短 DNA 片段)的物理图谱。
99年12月: 第一条人类染色体完全测序。
02年11月: 财政报告显示,该项目在资金方面按计划进行;该项目每年测序超过 1,400 个片段,每个完成碱基仅需 0.09 美元,远低于预计的每年 500 个片段,每个碱基 0.25 美元的成本。
02年12月: 基因组规模技术:开发了用于蛋白质-蛋白质相互作用的两杂交系统的规模化。
03年2月: 370 万个已定位的人类 SNP(即单核苷酸多态性,当序列中的单个核苷酸发生改变时发生的 DNA 序列变异)。
03年3月: 15,000 个全长人类 cDNA(即与特定信使 RNA 互补的 DNA 分子)被测序。
03年4月: 人类序列中含有基因的部分的 99% 已完成到 99.99% 的准确度。
03年4月: 大肠杆菌、酿酒酵母、秀丽隐杆线虫、果蝇等模式生物的完整基因组序列,以及其他模式生物(包括秀丽隐杆线虫、拟南芥、小鼠和大鼠)的基因组草图已经完成。
08年5月: 遗传信息非歧视法 (GINA) 成为法律。
人类的 DNA 序列首先被分解成更小的项目,称为 cosmid、BAC、PAC 或 P1 克隆。这些项目可以分配给世界各地的私人实验室。以下阶段是私人或政府实验室测序这些主要基因组的部分或片段的顺序。
随机阶段 对于许多实验室来说,这意味着使用鸟枪法测序 DNA,它利用 DNA 限制性内切酶将项目 DNA 切割成不同大小的碱基对区域。
间隙闭合阶段 连接由限制性内切酶引起的 DNA 片段是 DNA 测序过程中的瓶颈,并且通过 phredPhrap 等金标准计算机程序大大加快了速度。随着这些程序的改进,需要更少的重叠才能找到匹配的链,但同时,这些链的重叠越多,准确性越高。
歧义解析阶段 通过使用 confed 等程序,可以分析测序 DNA 的低质量区域,以查找异常,例如缺失或污染读数。此步骤主要是完成或拼写检查功能,用于提高原始测序 DNA 的准确性。
分析阶段 测序的这一部分会找到 DNA 中常见的已知模式。模式由 BLAST、XGRAIL 和 REPBASE 等程序找到。XGRAIL 寻找的共性包括外显子、内含子、poly-a 位点、启动子区域(TATA 盒等)和重复碱基。REPBASE 会找到已知存在于家族和亚家族中的重复序列。BLAST 拥有一个由大量科学家组成的社区,他们输入了来自各种物种的 DNA 序列,并允许所讨论的 DNA 找到其最近的进化亲属。
有很多不同的方法可以绘制人类基因组。最常见的方法之一是使用厘摩单位。每个厘摩代表两个基因在减数分裂过程中分离的 1% 的可能性。一个例子是与亨廷顿病一起遗传的基因,它有 96% 的时间被遗传。剩下的 4% 的时间它没有与亨廷顿病一起传播,因此它与该基因的距离为 4 厘摩。
在用于查看 DNA 的图谱中,有两种类型的图谱,遗传连锁图谱和物理图谱。遗传连锁图谱参考另一个 DNA 组以及它们一起被遗传的频率来查看 DNA。这些遗传图谱包括细胞遗传学图谱、限制性图谱、cosmid 图谱和序列图谱。
细胞遗传学图谱 由 Victr McKusick 创建,它利用染色体染色来查看组。这种方法的分辨率有限,因为科学家可能正在寻找的目标基因可能位于包含 1000 万个碱基对的染色中。这就是为什么这种方法对广泛分析和将序列缩小到染色体的特定区域有用。
限制性图谱 由雷蒙德·怀特博士创建,它利用限制性内切酶。该过程使用一个家庭或一代人的基因组,并找到这些相关人员之间紧密相连的基因的百分比。通过使用限制性内切酶,从家庭的基因组中切割出相同的特定 DNA 序列,并可以对其进行分析。这种方法的分辨率比细胞遗传学作图高十倍,并且可以将注意力集中在一个百万个碱基对内的遗传标记上。
cosmid 图谱 来自从鸟枪法测序获得的实际重叠的碱基对序列。这种方法采用大约 40,000 个碱基对长度的碱基,并将它们重叠。这种方法的分辨率非常准确,可以在 10,000-100,000 个碱基对内找到一个基因。
序列图谱 是所有测序的实际结果,并列出了所有 46 条染色体已知基因组的完整顺序。它包含超过 30 亿个碱基对,有 20,000-25,000 个蛋白质编码基因。
"如果科学家不扮演上帝的角色,谁会呢?" 詹姆斯·沃森,人类基因组计划前负责人。
人类基因组计划引发了许多伦理问题,了解了整个人类 DNA 序列和它们编码的基因,人们可以改变自己的基因(有偿),从而导致可能的基因歧视和其他“扮演上帝”的道德后果。虽然其意图可能是高尚的,试图更好地理解和帮助治疗折磨人类的许多遗传疾病和缺陷,但许多人认为基因操作/改变是一个滑坡。虽然现在大多数研究都针对识别或治疗由单个基因引起的出生缺陷,例如囊性纤维化和泰-萨克斯病,以及更艰巨的任务,如预防糖尿病、心脏病和其他重大杀手,但许多人担心接下来会发生什么。思想是否会被针对改进——预防酒精成瘾和精神疾病,以及增强视觉敏锐度或智力,试图改进人类设计?即使对胎儿的基因检测也会引发有关越来越准确的基因筛查的伦理后果的问题。在消除感知缺陷的方面,应该在哪里划清界限?更平淡地说,人类基因组计划的完成引发了人们对雇主和健康保险公司根据个人对现有疾病的易感性进行基因歧视的担忧。截至 2008 年 5 月,GINA(遗传信息非歧视法)保护个人免受这种歧视,并禁止雇主要求进行此类测试。
美国能源部生物和环境研究办公室生命科学部主任马文·弗雷泽博士说,科学家需要几十年的时间才能弄清楚如何操纵人类智力或运动能力,因为这些特征的复杂性(它们依赖于许多基因)以及环境对这些能力的未知作用。为了实现预期目标,成本将是巨大的,不仅在财政资本方面,而且在人力资本方面,因为将涉及大量有风险的实验。“我认为这是错误的,”他补充说,“但这不会阻止有些人想尝试。关键问题不是人类(基因)操纵是否会发生,而是如何以及何时会发生。”
GLT:美国能源部的基因组学:通过微生物和植物基因组的 DNA 序列来探索它们的生物多样性,以了解生物系统如何运作。
人类微生物组计划:生成有关人类微生物组的数据,以研究其在人类疾病中的作用。该项目不是单独研究单个物种,而是研究从其自然环境中收集的微生物群落。
基因地理计划:与国家地理和 IBM 合作开展的项目,该项目的目的是在五年内分析人类遗传根源。
2008年5月21日,乔治·W·布什总统签署了《遗传信息非歧视法案》(GINA)。该法案禁止美国保险公司和雇主根据潜在客户的基因检测信息进行预筛选。该法案经过几轮争论,最终在两个议院获得通过,但直到几个月后才生效。
GINA的实施旨在防止歧视性行为,例如雇主利用未来雇员的基因信息来决定其工作表现、迟到倾向、健康风险等。该法案还禁止要求或索取基因检测。
由于不再担心基因检测会影响他们的工作或保险费率,美国人将更愿意进行疾病的基因检测。这令人鼓舞,因为它可能为新的医疗发现和治愈方法打开大门。它还可以早期发现健康问题,从而实现具有成本效益的预防措施。
更多信息请访问:http://www.ornl.gov/sci/techresources/Human_Genome/publicat/GINAMay2008.pdf