化学信息来源/化学信息学
化学信息学是将信息技术应用于化学研究问题的调查以及化学数据的组织和分析。 化学信息学家处理海量数据,并开发系统来组织和评估数据,以便为进一步的化学研究提供新的见解。 理论化学/计算化学和化学信息学之间存在着细微的界限。 化学信息学对制药行业的影响最大,尽管其技术和工具已开始应用于化学的其他领域。
化学信息学可以帮助化学家和其他科学家生产和管理信息。 使用化学信息学技术的计算机模拟分析实际上可以降低开发药物的风险。 虚拟筛选、文库设计和对接等技术都参与了分析。 经常在化学信息学中检查可能影响物质是否可能被开发为药物的物理特性,作为可以在大量物质之间进行比较的特征。 一个例子是 clogP,它衡量系统中脂肪的含量。 有时,可以从相关的一组属性中推断出结论,例如当 Chris Lipinski 制定他著名的“五法则”时,该法则指出,类药物化合物往往具有 5 个或更少的氢供体原子、10 个或更少的氢受体原子、计算出的 logP 小于或等于 5,以及分子量最高为 500。 表现出大于这些值的化合物往往具有较差的吸收或渗透性。
- 分子结构的表示(2D、3D、蛋白质结构、三点药效团、片段)
- 图同构:确定两个图是否相同,例如,通过比较连接
- 线记法,例如 SMILES。
- 化学反应的表示
- 分子模拟(模拟)和分子多样性
- 构效关系(QSAR、QSPR)
- 组合化学和高通量筛选
- 物理化学效应的计算
- 拓扑指数
- 统计学
一个InChI是由计算机算法生成的字符字符串来表示化学结构。 它用于软件应用程序和数据库,在这些应用程序和数据库中,化学结构需要表示为机器可读的信息字符串。 InChI 对它们所描述的化合物是唯一的,并且可以编码绝对立体化学。 InChI 被称为化学和化学结构的条形码。 InChI 格式和算法是非专有的,并且软件是开源的,由社区进行持续开发。
Steve Heller 在 2010 年 9 月 15 日的 CHMINF-L 帖子中写道,几乎所有主要出版商现在都支持 InChI,并且正在将 InChI/InChIKey 添加到期刊文章中报告的化学物质中。 InChI 和 InChIKey 可在 Google、Yahoo、Bing 和其他搜索引擎中搜索。 两个主要的 NIH 数据库(PubChem 和 NCI)拥有超过 6000 万个 InChI,而 ChemSpider 拥有超过 2000 万个 InChI。 所有主要的商业和开源结构绘图程序都在其产品中嵌入了 InChI 生成。 InChI 可以免费使用且是非专有的。 它们允许比其他代码(例如 SMILES 代码)更高级地表示化学信息。 InChI 是明确的(即,使用标准化算法的化学结构转换只会导致一个 InChI),并且它们被主要的搜索引擎(如 Google)精确地索引。
为了使化学信息学取得成功,必须制定某些标准,尽管通常情况下,如果一家占主导地位的公司开发的标准编码方法公开,就会成为标准编码方法,例如 MDL 的 SDF 格式或最近的CTfile 格式。 在晶体学领域,CIF 格式广泛用于小分子,而 mmCIF 用于大分子。 即使对于诸如 3D 描述中分子颜色之类的内容,遵循标准也很重要。 例如,CPK(Corey-Pauling-Koltun)表示法要求使用颜色编码
- 碳:灰色或黑色(虽然有些人使用绿色)
- 氢:白色
- 氧:红色
- 氮:蓝色
- 硫:黄色
- 磷:橙色
- 氯:绿色
- 钠:蓝色
- 铁:紫色
- 溴:棕色
- 锌:棕色
- 钙:深灰色
- 其他金属:深灰色
- 未知:深粉色
CPK 模型的原子半径定义为反映分子在固体中堆积或在液体中缔合时所占的空间。
- 什么是小分子?
- 什么是样本的充分表示?
- 属性计算与测量
- 类药物分子的评分函数
- 对接以预测配体结合
- 计算多样性和相似性
- 化学信息学和生物信息学在哪里融合?
- 毒理学、ADME(吸收、分布、代谢、排泄)以及药物谜题的其他部分
- 结构的描述和数据的可视化
- 电子笔记本
化学信息学(或在欧洲更常称为化学信息学)几乎与计算机本身的历史一样悠久。 它是将计算机技术和方法应用于化学。 相关领域是分子模拟和计算化学。 化学信息学技术在药物行业中发现了特殊的应用,但现在开始渗透到化学的其他领域。