分子相似性搜索识别与给定分子具有相似结构或性质的化合物。它是药物发现,化学研究和材料科学的重要工具。
该过程首先将分子表示为数据结构,例如指纹,微笑字符串或分子图。指纹是编码关键分子特征的二元向量,包括原子类型、键和官能团。
系统生成查询分子的指纹并将其与数据库中的指纹进行比较。使用诸如Tanimoto系数之类的度量来测量相似性,该度量量化两个指纹之间的重叠。
高级方法使用图形神经网络 (gnn) 来创建嵌入,以捕获分子的结构和功能特性。这些嵌入存储在矢量数据库中,实现了可扩展和高效的相似性搜索。
分子相似性搜索可帮助研究人员识别潜在的候选药物,重新利用现有化合物或预测化学活性。其准确性取决于分子表示的质量和所选择的相似性度量。