专注行业信息服务
 微信二维码
Ranron观察
ranron 首页 资讯 查看内容
0

JCIM| 基于双向RNN的分子生成模型

摘要: 1.背景小型有机分子的化学空间包含的化学结构众多,并且药物设计主要目标之一是找到能够以所需方式调节给定靶标(通常是蛋白质),使得化学家们在分子的de novo设计这一问题上需要解决一个复杂的多元优化任务。之前 ...

1.背景

小型有机分子的化学空间包含的化学结构众多,并且药物设计主要目标之一是找到能够以所需方式调节给定靶标(通常是蛋白质),使得化学家们在分子的de novo设计这一问题上需要解决一个复杂的多元优化任务。之前传统的方法大部分都需要先验知识,例如需要知道结构-活性关系,化学转化规则等,所以很自然地想到利用可以生成图像或者生成文本的深度生成模型来生成分子。大多模型例如RNN,VAE都建立在分子的文本表示形式上,例如使用SMILES字符串,并在无需显式提出设计规则直接进行采样。因为使用的输入数据形式为文本形式的SMILES字符串,很多实验结果表明RNN在基于序列的方法上(即GAN+RL、AAE等)且在匹配结构和生物特征训练数据分布任务上性能最佳。RNN经常以前向方式(从左到右)训练读取和产生SMILES,然而SMILES能够从非氢原子开始并沿任何方向进行生成,它的非唯一性和无向性启发了作者进行探索双向序列生成的新方法,即前向和后向(从右到左)读取和生成SMILES均可,作者将两种已经提出的双向RNN——同步双向RNN(FB-RNN)和神经自回归分布估计器(NADE)进行结合,将两者优点进行结合提出BIMODAL模型,实验结果表明其可以作为未来分子从头设计的候选方法。

2.方法

双向RNN通常由两个RNN组成以同时进行正向和反向预测,然而,使用RNN进行双向字符串生成并非易事,主要是由于缺少“过去”和“未来”的上下文信息以及难以组合计算出概率。所以,作者借用NLP领域两种双向方法(同步FB-RNN和NADE),提出了一种新的双向RNN模型BIMODAL。


同步FB-RNN: 给定句子中任意位置m的词作为起始词,预测该起始词上文和下文的词,FB-RNN按以下方式估算前向和后向的条件概率分布:(上图b)

从上述公式可以看出,FB-RNN通过同时使用从左到右(前向)和从右到左(后向)信息,每侧只能交替预测一个token(上图b)。


NADE: NADE最初被提议用于重建序列中的缺失值,在第t个位置有一个丢失的token,该模型旨在通过读取前后部分来重建缺失值,并使用此信息来替换丢失的token。条件概率估计如下:

该模型缺少的虚设令牌(“M”)将被替换为朝向字符串中心或以随机方式的有效SMILES字符,直到序列中不再有缺失值为止(上图d)。


BIMODAL: 结合了NADE和FB-RNN模型的功能。BIMODAL由两个RNN组成,一个用于读取每个方向(前向和后向)的序列,然后将其组合以提供联合预测,其前向和后向条件概率估计如下:


3.实验

实验数据选自CHEMBL22数据库中的27914个活性化合物,并且将核酸和多肽去除,只保留长度在34到74之间的SMILES字符串,并将其规范化。实验的评估标准在于1.结构唯一性,有效性和新颖性;2.骨架多样性和新颖性;3.生物化学相关性;作者评估了训练期间起始token位置(固定或者随机),RNN网络规模和引入数据增强对于实验性能的影响。


(1)起始位置

根据上图,能够看出在固定起始token情况下,单向正向RNN的各方面性能最佳,对于BIMODAL来说,起始位置随机对分子的新颖性性能有所提高。


(2)网络规模

从上图能够看出,大多数双向RNN的性能都不如带512个隐藏层单元的单向正向RNN,但增加网络规模对BIMODAL的性能有正向影响。


(3)数据增强

为了研究新型数据增强策略的效果,作者测试了两个增强级别(五倍和十倍)。除NADE之外,数据增强导致所生成分子的独特性和新颖性增加。BIMODAL表现出最大的性能提升,达到94%的新型分子具有10倍的扩增,超过了前向RNN(89%)。


(4)骨架多样性和新颖性

除了起点固定的NADE之外,双向模型性能均优于正向RNN。


(5)生物和化学相关性

30000个SMILES用于从训练集分子中计算FCD距离。FCD越低,就结构和生物学特性而言,生成的分子越接近训练集,并且作者仅使用新颖而独特的分子,而不是奖励能够复制训练集分子的模型。具有512个隐藏单元且没有数据增强,前向RNN产生的FCD值最小,其次是BIMODAL和具有固定起点的FB-RNN。


4.总结

这项研究的结果证实了双向RNN在从头分子设计中的潜力。从生成的化学实体的特征,即它们的化学和生物学相关性及其骨架多样性来看,BIMODAL方法似乎特别适合于分子设计。FB-RNN结果中等,并且NADE不适用于所有测试。引入的数据增强技术使得模型更准确地学习训练数据分布并增加了设计的新颖性。综上所述,这些结果都显示了可以对从头分子设计进行双向生成(尤其是BIMODAL)的进一步探索,需要进行后续研究以确定各种类型的分子表示形式(例如随机SMILES表示形式)和数据增强的潜力,以进一步改善BIMODAL的性能。由于两个相互作用的RNN,BIMODAL运行时间较长。因此,可以在GitHub上获得预训练的模型权重,以用于对新型分子进行采样,而无需重新训练。


代码

https://github.com/ETHmodlab/BI

参考资料

Bidirectional Molecule Generation with Recurrent Neural Networks. Francesca Grisoni, Michael Moret, Robin Lingwood, and Gisbert Schneider. Journal of Chemical Information and Modeling 2020 60 (3), 1175-1183.

DOI: 10.1021/acs.jcim.9b00943


路过

雷人

握手

鲜花

鸡蛋

相关阅读

本文作者
2021-4-9 15:43
  • 0
    粉丝
  • 2038
    阅读
  • 0
    回复
相关分类
资讯幻灯片
热门评论
热门专题
排行榜

关注我们:微信订阅号

官方微信

APP下载

全国服务热线:

4000-018-018

公司地址:上海市嘉定区

运营中心:成都市锦江区

邮编:200082 Email:3318850993@qq.com

Copyright   ©2015-2016  ranronPowered by©ranron技术支持:迪恩网络    ( 沪ICP备2021003091号 )