AI协助遗传病分子诊断:我院方立副教授在有害突变预测领域取得新进展
错义突变是一种常见的基因突变类型,它是指DNA编码序列中的一个核苷酸被替换成了另一个核苷酸,引起蛋白序列中对应的氨基酸被替换。目前已知的有害突变中超过50%为错义突变。然而由于遗传多态性,正常人群中存在着大量良性的错义突变。尽管变异数据库中记录了已知的良性/有害的错义突变,但在遗传病分子诊断时,依然有很多错义突变无法在数据库中找到匹配。判断错义突变的致病性是当前遗传病分子诊断领域的一个主要挑战。
近日,我院方立副教授与宾夕法尼亚大学王凯教授合作在The Innovation杂志(IF=32.1)发表了题为Deciphering “the language of nature”: A transformer-based language model for deleterious mutations in proteins的研究论文,该研究提出了一种新的AI模型MutFormer,用于预测有害的错义突变。利用强大的AI算力,MutFormer在预训练中学习了人类蛋白质序列(及其常见变体)中近亿种不同的上下文依赖关系,并且在后续的微调训练中学习如何识别有害错义突变。通过对蛋白质序列、常见变异和有害变异的学习,MutFormer在多个独立测试集上均有优异的表现,为遗传病分子诊断提供新的工具。
图1. 生物大分子的计算模拟
目前已有多种错义突变致病性的预测方法,然而其准确性依然有很大提升的空间。Transformer模型是一种序列模型,可以很好的学习和模拟序列中远距离的上下文依赖关系,最初应用于自然语言处理(Natural Language Processing, NLP)领域,在机器翻译、信息提取等多种任务上取得了良好的效果;也成功的用于生物医学领域(比如进行蛋白质结构预测的AlphaFold)。近年来以GPT(Generative Pretrained Transformer)为代表的生成式Transformer模型在理解人类语言和人机对话方面取得了突破性进展。由于蛋白质存在三维空间结构,在一维结构中距离较远的两个氨基酸在三维空间中可能距离接近(即存在氨基酸的远距离相互作用),本研究的作者推测Transformer模型强大的上下文学习能力有利于模拟和预测蛋白质突变的功能。另一方面,卷积神经网络可以很好的模拟短距离的依赖关系。相比Transformer模型的自注意力层(self-attention layer),卷积层往往具有更少的计算量和更高的执行效率。
图2. MutFormer的训练方法与模型结构。
利用强大的AI算力,MutFormer在预训练中学习了人类蛋白质序列(及其常见变体)中近亿种不同的上下文依赖关系,并且在后续的微调训练中学习如何识别有害错义突变。
基于上述分析,本研究提出了MutFormer,一种预测有害错义突变的新模型。MutFormer利用自注意力机制和卷积机制各自的优势,学习蛋白质序列中的长距离和短距离依赖关系(图2)。由于已知的有害错义的突变数量(即训练样本数量)远远小于模型参数,为获得较好的训练效果和避免过拟合,该研究采用迁移学习(transfer learning)的方法进行训练。该研究首先在参考蛋白质序列和常见突变蛋白质序列上对MutFormer进行预训练,使之学习正常蛋白序列中的上下文依赖关系。接下来,研究者探索了三种不同的微调方法,发现微调时将突变蛋白序列和参考蛋白质序列配对输入可以取得最佳的预测效果。最后,研究者将MutFormer与其他现有方法的性能进行了比较,发现MutFormer在多个测试集上均有优异的表现。综上所述,MutFormer采用了以往研究中未涉及的序列模型,为有害遗传变异的预测提供了新的思路,为遗传病分子诊断提供了有利的工具。同时,研究者期待MutFormer作为一种语言模型,能够提高我们对蛋白质序列这一“大自然的语言”的理解。
该研究于2023年9月11日正式发表于Cell 出版社旗下The Innovation杂志(IF=32.1,Q1区,JCI类别排名5/133)。中山大学中山医学院方立副教授、宾夕法尼亚大学医学院王凯教授为论文的共同通讯作者,费城儿童医院实习生江天琪(现就读于麻省理工学院)为第一作者。该研究受到Google公司TPU Research Cloud计划、NIH和中山大学高校基本科研业务费(青年教师培育项目)等项目资助。
原文链接:https://www.cell.com/the-innovation/fulltext/S2666-6758(23)00115-7