分子相似性搜索识别具有相似化学结构或性质的分子。这种技术在药物发现和材料科学中至关重要,发现类似化合物可以加速创新。
该过程首先将分子表示为结构化数据,例如SMILES字符串,指纹或分子图。通常用于相似性搜索的指纹是编码分子特征 (如键、原子类型和官能团) 的二元向量。
生成查询分子的指纹并将其与数据库中的分子的指纹进行比较。相似性度量,如Tanimoto系数或Jaccard指数,测量查询和数据库指纹之间的重叠。更高的分数表示更接近的匹配。
更先进的方法使用图形神经网络 (gnn) 来生成分子的嵌入,捕获结构和功能特性。使用矢量数据库中的矢量相似性技术来比较这些嵌入,以进行可扩展和准确的搜索。
分子相似性搜索可以实现识别潜在候选药物、预测化合物活性以及将现有分子重新用于新应用等任务。其有效性取决于分子表示的质量和相似性度量的选择。