首页 文章 个人博客 用 DNA 编码化学和机器学习解锁“化学组”

用 DNA 编码化学和机器学习解锁“化学组”

发布时间:2021-09-22编辑:RainNight阅读(72)

人类疾病疗法的大部分发展都建立在理解和调节蛋白质功能的基础上,蛋白质是许多生物活动的主要动力。布洛芬等小分子药物通常通过抑制或促进蛋白质的功能或其与其他生物分子的相互作用起作用。开发有用的“虚拟筛选”方法,可以通过计算而不是在实验室中评估潜在的小分子,长期以来一直是一个研究领域。然而,持续的挑战是建立一种在广泛的化学空间中工作得足够好的方法,以用于寻找与感兴趣的蛋白质具有物理验证的有用相互作用的小分子,即“命中”。

在最近发表在《药物化学杂志》上的“DNA 编码库的机器学习:命中发现的新范式”中,我们与X-Chem Pharmaceuticals 合作展示一种使用物理筛选与 DNA 编码的小分子库和使用图形卷积神经网络 (GCNN) 的虚拟筛选相结合的寻找生物活性分子的有效新方法。这项研究促成了Chemome 计划的创建,这是我们Accelerated Science 团队与ZebiAI之间的合作项目,它将能够发现更多用于生物研究的小分子化学探针。

化学探针的背景了解

支持生命和产生疾病的生物网络是一项极其复杂的任务。研究这些过程的一种方法是使用化学探针,不一定可用作药物的小分子,但可以选择性地抑制或促进特定蛋白质的功能。当您有一个生物系统需要研究时(例如培养皿中生长的癌细胞),您可以在特定时间添加化学探针,并观察当目标蛋白质活性增加或减少时生物系统的不同反应。但是,尽管化学探针对于此类基础生物医学研究非常有用,但只有4% 的人类蛋白质具有可用的已知化学探针。

寻找化学探针的过程与小分子药物发现的最早阶段类似。给定感兴趣的蛋白质靶标,扫描小分子的空间以找到可以进一步测试的“命中”分子。机器人辅助高通量筛选,其中多达数十万或数百万个分子进行物理测试,是现代药物研究的基石。但是,您可以轻松购买的小分子数量(1.2x10 9)远大于该数量,这反过来又远小于小分子药物的数量(估计从10 20到10 60)。“虚拟筛选”可能会快速有效地搜索这个巨大的潜在可合成分子空间,并大大加快治疗化合物的发现。

DNA 编码的小分子文库筛选

筛选过程的物理部分使用DNA 编码的小分子文库(DEL),在一个池中包含许多不同的小分子,每个小分子都附着在 DNA 片段上,作为该分子的唯一条形码。虽然这种基本技术已经存在了几十年,但文库和筛选过程的质量是产生有意义结果的关键。

DELs 是解决生化挑战的一个非常聪明的想法,即如何将小分子收集到一个地方,并用一种​​简单的方法来识别每个。关键是用DNA作为条形码来识别每个分子,类似于诺贝尔奖获得者的噬菌体展示技术。首先,产生许多化学片段,每个片段都附有一个独特的 DNA 条形码,以及一个共同的化学句柄(NH 2在这种情况下)。然后将结果合并并分成单独的反应,其中添加一组具有另一种常见化学处理(例如,OH)的不同化学片段。来自两个步骤的化学碎片在共同的化学处理处发生反应并融合在一起。DNA 片段也被连接起来,为每个分子构建一个连续的条形码。最终结果是通过执行 2 N 次操作,可以得到N 2 个独特的分子,每个分子都由其自己独特的 DNA 条形码识别。通过使用更多的片段或更多的循环,制作具有数百万甚至数十亿不同分子的文库相对容易。

file

生成文库后,它可用于通过将 DEL 与蛋白质混合在一起并洗去未连接的小分子来寻找与目标蛋白质结合的小分子。对剩余的 DNA 条形码进行测序会产生数百万个 DNA 片段的单独读取,然后可以仔细处理这些读取,以估计原始 DEL 中数十亿个分子中的哪些与蛋白质相互作用。

DEL 数据的机器学习

鉴于针对特定蛋白质返回的物理筛选数据,我们构建了一个 ML 模型来预测任意选择的小分子是否会与该蛋白质结合。使用 DEL 进行物理筛选为 ML 分类器提供正面和负面示例。稍微简化一下,筛选过程结束时剩下的小分子是正例,其他一切都是反例。我们使用图卷积神经网络,这是一种专为类似图的小输入而设计的神经网络,例如我们感兴趣的小分子。

结果

我们使用 DEL 文库物理筛选了三种不同的蛋白质:sEH(一种水解酶)、ERα(一种核受体)和c-KIT(一种激酶)。使用 DEL 训练的模型,我们虚拟地筛选了来自Mcule 的大型按需制造库和X-Chem的内部分子库,以识别预测对每个目标表现出亲和力的多种分子。我们将 GCNN 模型的结果与随机森林 (RF) 模型进行了比较,这是一种使用标准化学指纹进行虚拟筛选的常用方法,我们将其用作基线。我们发现 GCNN 模型在发现更有效的候选者方面明显优于 RF 模型。

file

重要的是,与虚拟筛选的许多其他用途不同,根据模型的结果,选择要测试的分子的过程是自动化的或易于自动化的,而且我们不依赖于训练有素的化学家对最有前途的分子的审查和选择。此外,我们测试了三个目标的近 2000 个分子,这是我们所知道的最大的已发表的虚拟筛选前瞻性研究。在为上述命中率提供高可信度的同时,这也允许人们仔细检查命中的多样性以及模型对靠近和远离训练集的分子的有用性。

Chemome Initiative

ZebiAI Therapeutics是基于这项研究结果成立的,并与我们的团队和X-Chem Pharmaceuticals 合作应用这些技术有效地向研究界提供新的化学探针,研究人类感兴趣的蛋白质,这项工作称为化学组计划。

作为 Chemome Initiative 的一部分,ZebiAI 将与研究人员合作,以确定感兴趣的蛋白质和来源筛选数据,我们的团队将使用这些数据来构建机器学习模型并对市售小分子库进行预测。ZebiAI 将向研究人员提供预测分子进行活性测试,并将与研究人员合作,通过发现推进一些项目。参与该计划需要在合理的时间范围内发布经过验证的命中,以便整个社区都能受益。虽然必须进行更多的验证才能使命中分子用作化学探针,特别是对于特异性靶向感兴趣的蛋白质以及在普通测定中正确发挥作用的能力,但有效的命中是该过程向前迈出的一大步。

我们很高兴成为由此处描述的有效 ML 技术支持的 Chemome Initiative 的一部分,并期待它发现许多新的化学探针。我们预计 Chemome 将刺激重大的新生物学发现,并最终加速世界的新治疗发现。

网盘推荐

微信公众号

书籍标签