技术特征:
1.一种由一个或多个数据处理装置执行的用于使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽的方法,所述方法包括:接收蛋白的掩蔽表示,其中,所述蛋白的掩蔽表示包括:(i)蛋白的氨基酸序列的表示,其包括多个嵌入,每个嵌入对应于蛋白的氨基酸序列中的相应位置,以及(ii)蛋白的结构的表示,其包括多个嵌入,每个嵌入对应于蛋白的相应结构特征,其中,包括在蛋白的掩蔽表示中的嵌入中的至少一个被掩蔽;以及使用蛋白重建神经网络处理蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的相应预测嵌入,其中,对应于蛋白的氨基酸序列的表示中的掩蔽嵌入的预测嵌入定义了对氨基酸序列中对应位置处的氨基酸的同一性的预测,其中,与蛋白的结构的表示中的掩蔽嵌入相对应的预测嵌入定义了对蛋白的相应结构特征的预测。2.根据权利要求1所述的方法,还包括:通过用相应的预测嵌入替换蛋白的掩蔽表示中的掩蔽嵌入的适当子集来更新蛋白的掩蔽表示;使用蛋白重建神经网络处理更新的蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个剩余掩蔽嵌入相对应的相应预测嵌入。3.根据权利要求1或2所述的方法,其中,所述蛋白的氨基酸序列的表示包括一个或多个掩蔽嵌入,并且还包括:使用蛋白折叠神经网络处理蛋白的预测氨基酸序列,以生成定义了预测氨基酸序列的预测蛋白结构的数据,所述蛋白的预测氨基酸序列通过用相应的预测嵌入替换氨基酸序列的表示中的每个掩蔽嵌入来定义;以及使用蛋白重建神经网络处理以下两者:(i)蛋白的掩蔽表示,以及(ii)预测氨基酸序列的预测蛋白结构,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的新的预测嵌入。4.根据前述权利要求中任一项所述的方法,其中,包括在蛋白的掩蔽表示中的每个掩蔽嵌入是默认嵌入。5.根据权利要求4所述的方法,其中,所述默认嵌入包括零向量。6.根据前述权利要求中任一项所述的方法,其中,与蛋白的结构的表示中的掩蔽嵌入相对应的每个预测嵌入定义了对蛋白的结构中的相应氨基酸对之间的空间距离的预测。7.根据前述权利要求中任一项所述的方法,其中,所述蛋白的氨基酸序列的表示的嵌入中的至少一个被掩蔽。8.根据前述权利要求中任一项所述的方法,其中,所述蛋白的结构的表示的嵌入中的至少一个被掩蔽。9.根据前述权利要求中任一项所述的方法,其中,所述蛋白的氨基酸序列的表示包括多个单一嵌入,所述多个单一嵌入各自对应于蛋白的氨基酸序列中的相应位置;其中,所述蛋白的结构的表示包括多个成对嵌入,每个成对嵌入对应于蛋白的氨基酸序列中的相应位置对;
其中,所述蛋白重建神经网络包括更新块序列;其中,每个更新块具有一组相应的更新块参数,并且执行以下操作:接收当前成对嵌入和当前单一嵌入;基于当前成对嵌入,根据更新块的更新块参数的值,更新当前单一嵌入;以及基于更新的单一嵌入,根据更新块的更新块参数的值,更新当前成对嵌入;以及其中,所述更新块序列中的最终更新块生成最终成对嵌入和最终单一嵌入。10.根据权利要求9所述的方法,其中,所述蛋白重建神经网络执行进一步操作,所述进一步操作包括,对蛋白的氨基酸序列的表示中的一个或多个掩蔽单一嵌入中的每一个:基于由最终更新块生成的相应的最终单一嵌入,生成针对掩蔽单一嵌入的预测嵌入。11.根据权利要求9-10中任一项所述的方法,其中,所述蛋白重建神经网络执行进一步操作,所述进一步操作包括,对蛋白的氨基酸序列的表示中的一个或多个掩蔽成对嵌入中的每一个:基于由最终更新块生成的相应的最终成对嵌入,生成针对掩蔽成对嵌入的预测嵌入。12.根据权利要求9-11中任一项所述的方法,其中,基于当前成对嵌入更新当前单一嵌入包括:使用对当前单一嵌入的注意力来更新当前单一嵌入,其中,所述注意力以当前成对嵌入为条件。13.根据权利要求12所述的方法,其中,使用对当前单一嵌入的注意力来更新当前单一嵌入包括:基于当前单一嵌入,生成多个注意力权重;基于当前成对嵌入,生成与每个注意力权重相对应的相应注意力偏置;基于注意力权重和注意力偏置,生成多个偏置的注意力权重;以及基于偏置的注意力权重,使用对当前单一嵌入的注意力来更新当前单一嵌入。14.根据权利要求9-13中任一项所述的方法,其中,基于更新的单一嵌入来更新当前成对嵌入包括:将变换操作应用于更新的单一嵌入;以及通过将变换操作的结果添加到当前成对嵌入来更新当前成对嵌入。15.根据权利要求14所述的方法,其中,所述变换操作包括外积运算。16.根据权利要求14-15中任一项所述的方法,其中,基于更新的单一嵌入来更新当前成对嵌入还包括,在将变换操作的结果添加到当前成对嵌入之后:使用对当前成对嵌入的注意力来更新当前成对嵌入,其中,所述注意力以当前成对嵌入为条件。17.一种获得配体的方法,其中,所述配体是药物或工业酶的配体,所述方法包括:执行根据权利要求1-16中任一项所述的方法,以通过生成定义了靶蛋白的完整蛋白结构表示的预测嵌入来确定靶蛋白的预测结构,其中,所述蛋白的掩蔽表示包括靶蛋白的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括靶蛋白的结构的完全掩蔽表示;评估一个或多个候选配体与靶蛋白的预测结构的相互作用;以及根据评估结果选择候选配体中的一个或多个作为配体。
18.一种获得配体的方法,其中,所述配体是药物或工业酶的配体,所述方法包括:执行根据权利要求1-16中任一项所述的方法,以通过生成定义了每个靶蛋白的完整蛋白结构表示的预测嵌入来确定多个靶蛋白中的每一个的预测结构,其中,对于每个靶蛋白,所述蛋白的掩蔽表示包括靶蛋白的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括靶蛋白的结构的完全掩蔽表示;评估一个或多个候选配体与每个靶蛋白的预测结构的相互作用;以及选择一个或多个候选配体作为配体以i)获得与每个靶蛋白相互作用的配体,或ii)获得仅与一个靶蛋白相互作用的配体。19.根据权利要求17或18所述的方法,其中,所述靶蛋白包括受体或酶,并且其中,所述配体是受体或酶的激动剂或拮抗剂。20.一种获得多肽配体的方法,其中,所述配体是药物或工业酶的配体,所述方法包括:对于一个或多个候选多肽配体中的每一个,执行根据权利要求1-16中任一项所述的方法,以通过生成定义了候选多肽配体的完整蛋白结构表示的预测嵌入来确定候选多肽配体的预测结构,其中,对于一个或多个候选多肽配体中的每一个,所述蛋白的掩蔽表示包括候选多肽配体的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括候选多肽配体的结构的完全掩蔽表示;获得靶蛋白的靶蛋白结构;评估一个或多个候选多肽配体中的每一个的预测结构与靶蛋白结构之间的相互作用;以及根据评估结果,选择一个或多个候选多肽配体中的一个作为多肽配体。21.根据权利要求20所述的方法,其中,所述靶蛋白包括受体或酶,并且其中,所述配体是受体或酶的激动剂或拮抗剂,或者其中,所述多肽配体包括抗体,并且所述靶蛋白包括抗原,并且其中,所述抗体与抗原结合以提供治疗效果。22.一种获得针对抗原的抗体的方法,所述方法包括:执行根据权利要求1-16中任一项所述的方法,以通过生成预测嵌入来确定抗体的预测结构和氨基酸序列,所述预测嵌入定义了i)抗体的完整氨基酸序列表示,和ii)抗体的完整蛋白结构表示,其中,所述蛋白的掩蔽表示包括与抗原结合的抗体的补位的表示,并且包含i)抗体的氨基酸序列的部分掩蔽表示,和ii)抗体的结构的部分掩蔽表示。23.根据权利要求21或22所述的方法,其中,所述抗原包括病毒蛋白或癌细胞蛋白。24.一种获得疾病的诊断抗体标记的方法,所述方法包括:对于一个或多个候选抗体中的每一个,执行权利要求1-16中任一项所述的方法,以通过生成定义了候选抗体的完整蛋白结构表示的预测嵌入来确定候选抗体的预测结构,其中,对于一个或多个候选抗体中的每一个,所述蛋白的掩蔽表示包括候选抗体的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括候选抗体的结构的完全掩蔽表示;获得靶蛋白的靶蛋白结构;评估一个或多个候选抗体中的每一个的预测结构与靶蛋白结构之间的相互作用;以及根据评估结果,选择一个或多个候选抗体中的一个作为诊断抗体标记。25.一种设计具有优化特性的突变蛋白的方法,包括:
获得i)已知蛋白的氨基酸序列的完整表示,和ii)已知蛋白的完整蛋白结构表示;以及对于一个或多个候选突变蛋白中的每一个,执行根据权利要求1-16中任一项所述的方法,以通过生成定义了候选突变蛋白的完整氨基酸序列的预测嵌入来确定候选突变蛋白的预测氨基酸序列,其中,生成预测嵌入包括:通过掩蔽候选突变蛋白的氨基酸序列的表示中的一个或多个嵌入来生成候选突变蛋白的部分掩蔽表示;对于每个掩蔽氨基酸嵌入,生成定义了一组可能的氨基酸类型中的每个氨基酸类型的得分的相应的得分分布;通过根据氨基酸的得分分布对每个掩蔽氨基酸的相应类型进行采样来生成预测嵌入;以及通过从候选突变蛋白中识别预测候选突变蛋白的最优特性的预测氨基酸序列,选择候选突变蛋白之一作为突变蛋白。26.根据权利要求25所述的方法,还包括合成突变蛋白。27.一种识别蛋白错误折叠疾病的存在的方法,包括:执行根据权利要求1-16中任一项所述的方法,以通过生成定义了蛋白的完整蛋白结构表示的预测嵌入来确定蛋白的预测结构,其中,所述蛋白的掩蔽表示包括蛋白的氨基酸序列的完整表示,并且其中,所述蛋白的结构的表示包括蛋白的结构的完全掩蔽表示;获得从人体或动物体获得的蛋白的版本的结构;将蛋白的预测结构与从人体或动物体获得的蛋白的版本的结构进行比较;以及根据比较结果,识别蛋白错误折叠疾病的存在。28.一种获得蛋白的氨基酸序列的方法,包括:接收蛋白的结构,其中,所述蛋白的结构已经通过实验获得;从所述结构确定蛋白的完整蛋白结构表示;以及执行根据权利要求1-16中任一项所述的方法,以通过生成定义了蛋白的完整氨基酸序列表示的预测嵌入来确定蛋白的预测氨基酸序列,其中,所述蛋白的掩蔽表示包括蛋白的结构的完整表示,其中,所述蛋白的氨基酸序列的表示包括蛋白的氨基酸序列的完全掩蔽表示,并且其中,所述蛋白的预测氨基酸序列是获得的蛋白的氨基酸序列。29.一种系统,包括:一个或多个计算机;以及通信地耦合到所述一个或多个计算机的一个或多个存储设备,其中,所述一个或多个存储设备存储指令,所述指令在由所述一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求1-28中任一项所述的相应方法的操作。30.一种存储指令的一个或多个非暂时性计算机存储介质,所述指令在由一个或多个计算机执行时,使得所述一个或多个计算机执行根据权利要求1-28中任一项所述的相应方法的操作。
技术总结
方法、系统和装置,包括在计算机存储介质上编码的计算机程序,用于使用蛋白重建神经网络对蛋白的掩蔽表示进行去掩蔽。在一个方面,一种方法包括:接收蛋白的掩蔽表示;以及使用蛋白重建神经网络处理蛋白的掩蔽表示,以生成与包括在蛋白的掩蔽表示中的一个或多个掩蔽嵌入相对应的相应预测嵌入,其中与蛋白的氨基酸序列的表示中的掩蔽嵌入相对应的预测嵌入定义了对氨基酸序列中的对应位置处的氨基酸的同一性的预测,其中,与蛋白的结构的表示中的掩蔽嵌入相对应的预测嵌入定义了对蛋白的相应结构特征的预测。相应结构特征的预测。相应结构特征的预测。
技术研发人员:a
受保护的技术使用者:渊慧科技有限公司
技术研发日:2022.01.27
技术公布日:2023/10/15