佐治亚理工提出polyBERT化学语言模型,促进聚合物空间高通量筛选

聚合物在我们的生活中无处不在,它们的分子结构形态各异,差异极大。种类繁多的聚合物为我们提供了足够多的选择,但同时要想在其中筛选出能够满足特定要求的聚合物,有时候又像是大海捞针。

为了让这个寻找和筛选的过程更加快捷而准确,来自佐治亚理工学院的科研团队提出了一种完全端到端的、由机器驱动的聚合物信息学管道。这个管道具备一种被称为 polyBERT 的聚合物化学指纹功能,以及将 polyBERT 指纹映射到不同化学属性上的多任务学习策略。

polyBERT 是一个化学语言学家,它把聚合物的化学结构看作是一种化学语言。这种策略比目前常用的使用人工进行化学指纹映射的方式要快两个数量级,同时还能保证准确性。相关研究日前以“ polyBERT: a chemical language model to enable fully machine-driven ultrafast polymer informatics ”为题发表在《自然·通讯》上。

训练人工智能化学语言学家

在聚合物信息学领域,机器学习已被证明在预测聚合物属性和解决逆向问题方面非常有效。但是将聚合物化学结构转换为数字表示是一个非常关键的步骤,这通常需要通过手工来制作指纹。这些手工制作的指纹存在一些问题,例如不能泛化到所有的聚合物化学类别,而且容易在探索新的聚合物化学类别时出现错误,并且还为开发和部署完全由机器驱动的管道造成了阻碍。

为了克服这些限制,研究团队受自然语言处理的启发,提出使用完全机器制做的 Transformer 指纹。他们设想将简化分子线性输入规范(SMILES)字符串作为聚合物的“化学语言”来表示聚合物。数百万的聚合物 SMILES(PSMILES)字符串被用于训练 polyBERT 语言模型。如前所述,该模型将聚合物的化学结构视为一种化学语言,并成为该语言的专家。结合多任务深度神经网络,polyBERT 实现了完全由机器驱动的聚合物信息学管道。

为了有足够大的数据集来训练 polyBERT,作者使用 BRICS方法(Breaking Retrosynthetically Interesting Chemical Substructures)将 13,766 个已知聚合物分解为 4,424 个片段,并将这些片段随机组合为 1 亿个假想的聚合物。这些假想的聚合物符合化学原理,只是从来没有被合成过了。他们使用 polyBERT 对这些假想聚合物的玻璃化转变温度(Tg)、熔化温度(Tm)、降解温度(Td)、杨氏模量 (E)、断裂伸长率(ϵb)和断裂拉伸强度(σb)进行了预测,以此对 polyBERT 进行训练,并使其学会化学语言。polyBERT 本质上是一个基于 DeBERTa 的仅编码器 Transformer 模型,辅以3阶段的预处理单元用来处理 PSMILES 字串。

展开全文

1 亿个假想聚合物数据集被分成两部分,其中 8 千万用来训练,2 千万用来验证。在训练中,polyBERT 对 PSMILES 字符串进行规范化、分词和掩码处理,然后将其发送给 DeBERTa 模型进行处理。每个 Transformer 编码器具有 12 个注意力头,最后一个密集层具有 softmax 激活函数,以查找掩码标记。polyBERT 指纹是最后一个 Transformer 编码器 token 维度的平均值。polyBERT 通过多头自注意力机制和编码器前馈网络来学习 token 的模式和相互关系,学习将输入的 PSMILES 字符串转换为数字表示,用作聚合物指纹。通过 8 千万个聚合物的训练,polyBERT 成为了聚合物化学语言学家,掌握了聚合物化学语言的语法和句法规则。

随后研究团队使用其多任务机器学习框架,把 PolyBERT 指纹映射到约 36 种聚合物属性,使其成为完全由机器驱动的聚合物化学属性快速预测器。他们将这种新的端到端属性预测管道的性能,即准确性和速度,与之前基于手工制作的 Polymer Genome(PG)指纹的管道进行了比较,发现 PolyBERT 聚合物信息学管道能够预测出 1 亿种假想的聚合物的属性。接下来,他们比较了 PolyBERT 与最先进的手工指纹方法的性能,发现 PolyBERT 在速度和准确性方面均优于手工方法,且比手工方法快了两个数量级,同时保持准确性。

为聚合物信息学带来变革

前馈网络(最后一层)用于在自监督训练期间预测掩码标记,将数字潜空间(即指纹)映射到 PSMILES 字符串。然而,由于作者在最后一个潜空间上对标记维度进行了平均来计算 polyBERT 指纹,因此无法将当前指纹明确地映射回 PSMILES 字符串。未来的 polyBERT 修改版本可以在最后的 Transformer 编码器之后插入一个降维层,以提供 PSMILES 字符串编码和指纹解码。指纹解码器是设计信息学流程的重要组成部分,可以反转预测流程以满足化学属性要求。

polyBERT 方法的第二个优点是可解释性。更详细地分析 polyBERT 指纹的化学相关性可以揭示聚合物结构部分的化学功能和相互作用。

polyBERT 方法的另一个优点是其涵盖了整个化学空间。分子 SMILES 字符串是聚合物 SMILES 字符串的子集,只有两个星号([*])符号不同,指示聚合物重复单元的两个端点。polyBERT 没有内在的限制或功能去阻碍预测分子 SMILES 字符串的指纹。

这是一个通用、超快速、准确的聚合物信息学管道,可在云硬件上进行无缝扩展,适用于高通量筛选庞大的聚合物空间。

聚合物的总体规模是巨大的,考虑到不同的聚合物类型,如均聚物、共聚物和聚合物混合物,还有尚未发现的新型聚合,聚合物的数量是无限的。在合理的时间内准确预测 1 亿个假想聚合物的 29 种属性,证明 polyBERT 是对数量庞大的聚合物进行广泛探索的利器。polyBERT 利用最初为自然语言处理开发的基于 Transformer 的机器学习模型,可以比手工指纹方法快 100 倍,以后可能随着新一代 GPU 的出现而更快。同时它又与手工指纹方法具有相同的准确度,为发现新型聚合物铺平了道路。

声明:本文仅供科研分享,助力科学传播,不做盈利使用,如有侵权,请联系后台删除。

#In Science We Trust#

小程序/APP:络绎科学

官网:https://www.luoyikexue.com返回搜狐,查看更多