蛋白质组学/蛋白质组学导论/生物信息学
与生物学的其他子集一样,高通量方法的使用使得能够生成大量的生物数据,这使得人们越来越依赖计算机来进行数据采集、存储和分析。互联网还使协作和数据共享成为可能,这些数据以前是不可能获得的,从而导致了大型公共数据库的开发,这些数据库由世界各地的贡献者共同维护。许多数据库都包含与蛋白质相关的各种信息,例如蛋白质数据库(PDB),该数据库处理具有确定晶体结构的蛋白质的结构和序列信息。ExPASy 是一个流行的且经过良好管理的蛋白质组学数据库和工具资源,包括 Prosite 蛋白质特征和结构域数据库、蛋白质 BLAST(基本局部比对搜索工具,用于相似性搜索)和结构预测等资源。NCBI 还为多种类型的数据提供许多资源,包括蛋白质,所有这些数据都可搜索且良好整合。
与其他生物信息学资源一样,“in-silico” 发现并非旨在替代实验室技术,而是作为补充湿实验室工作的工具。例如,如果一种被认为是跨膜蛋白的蛋白质被用基于序列的定位工具分析,并且分析结果与假设一致,那么在得出结论之前,可能仍然值得进行实验验证。然而,生物信息学工具可以节省大量时间,并且可以提供一个可能的起点进行实验,缩小问题领域,或提供潜在的解决方案来解决难以或不可能通过实验确定的问题,例如蛋白质折叠问题。蛋白质折叠已经成为许多超级计算机和分布式计算系统(例如 IBM 的 BlueGene [1] 和斯坦福大学的 Folding@Home 项目)的基准应用程序。分布式计算利用许多独立的客户端节点连接到一个主服务器来获取要处理的数据并发送回结果,使其非常适合在局域网和互联网上使用。Grid.org 和 Folding@Home 等项目可以由任何人在自己的计算机上运行,目前拥有数千名参与者。虽然目前折叠不能替代晶体学结构测定,但它可以提供一个合理的结构估计,可以在阐明实际结构之前对其进行研究。