前沿FacebookAI用自监督语言建

特邀五家优质单位直播宣讲招聘需求

数十年来,公共数据库中蛋白质序列的数量呈指数增长趋势,这使人们对生命中蛋白质序列的广度和多样性有了更深入的了解。这些数据为利用人工智能研究生物学的预测模型和遗传模型提供了一个很有前途的基础。我们这里的重点将是适应跨进化的许多不同序列的单一模型。因此,我们研究高容量的神经网络,调查什么可以从大规模模拟进化数据中了解蛋白质的生物学。

Biologicalstructureandfunctionemergefromscalingunsupervisedlearningtomillionproteinsequences,该论文于4月5日发表在PNAS网站

生物学功能和结构被记录在通过进化选择的蛋白质序列的数据中,这一观点有着悠久的历史。在一个序列可能的随机扰动中,进化偏向于选择那些与适应度一致的。决定蛋白质适应性的未观测变量,如结构、功能和稳定性,在观测到的自然序列的分布中留下了记录。解开蛋白质序列变异中编码的信息是生物学中一个长期存在的问题。人工智能领域的一个类似问题是自然语言理解,分布假说认为,一个词的语义可以从它出现的语境中推导出来。最近,基于自监督的技术——一种在文本中使用上下文来预测缺失单词的无监督学习方法已经被证明可以实现单词意义的表达,从而在自然语言任务中概括出来。随着训练数据集的增加,学习这种表示的能力显著提高。蛋白质序列产生于一个与自然语言极不相同的过程。这些模型和客观函数能否有效地促进跨领域的自然语言迁移,目前尚不得而知。我们通过在演化数据上训练大容量Transformer语言模型来探索这个问题。我们研究由此产生的无监督表示的存在的生物组织原则和信息的内在生物学性质。我们发现表示空间中的度量结构符合从物理化学到远程同源的尺度上的组织原则。我们还发现,二级和三级蛋白质结构可以在表示中识别。这些表示所捕获的结构性质在折叠中得到了广泛的应用。我们将这些表示应用于一系列预测任务,还发现了它们改进了应用程序中的最新特性。▍背景序列比对和检索是生物序列数据比较和统计分析的标准基础。在包含进化多样性的大型数据库中搜索,将相关序列组合成一个多重序列比对(multiplesequencealignment,MSA)。在序列家族中,突变模式传递关于功能位点、稳定性、第三联系、结合和其他性质的信息。保守位点与功能和结构重要性相关。局部生物化学和结构背景反映在对不同类别的氨基酸的偏好。变化的突变与功能、三级接触和结合有关。从进化统计中推断生物结构和功能的前景促使了对单个序列家族的机器学习的发展。直接耦合分析通过对蛋白质MSA中的序列拟合一个Markovrandomfield(MRF)形式的生成模型来推断蛋白质结构的约束。研究人员已经开发了各种方法来适应MRF。该方法还可用于推断功能约束,并且生成图可以扩展为包括潜在变量。近年来,自监督已成为人工智能研究的一个核心方向。不像监督学习数据库需要对每个数据点进行人工注释,自监督的方法使用未标记的数据集,因此可以利用大量的数据。自监督学习使用代理任务进行训练,例如预测一个句子中所有前面的单词的下一个单词,或者预测那些已经从上下文中隐藏起来的单词。增加数据集大小和模型容量显示了所学表示的改进。在最近的研究工作中,与大数据和高容量模型结合使用的自监督方法产生了在各种问题回答和语义推理基准以及连贯的自然文本生成方面接近人类表现的最新成果。本文探讨了自监督语言建模方法,这些方法在一系列自然语言处理任务中性能SOTA,并将它们应用于蛋白质数据中的非标记氨基酸序列。由于蛋白质序列使用20个规范元素的小词汇表,因此建模问题更类似于字符级语言模型,而不是词级模型。与自然语言一样,蛋白质序列也包含远程依赖性,激励使用用于检测和建模远程上下文的架构。▍将语言模型扩展到2.5亿个不同的蛋白质序列大型蛋白质序列数据库包含了生命周期中不同的序列样本。在我们的实验中,我们探索了UniParc数据库中多达2.5亿个序列的数据集,其中有亿个氨基酸。这些数据在大小上与大型文本数据集相当,后者用于在自然语言上训练高容量的神经网络结构。为了以保真度对演化数据进行建模,神经网络结构必须具有能力和归纳偏差来表示其广度和多样性。我们研究Transformer,它已经成为一个强大的通用模型体系结构,用于表示学习和生成建模,在自然语言环境中表现优于循环和卷积结构。我们使用Transformer,以输入氨基酸序列。Transformer处理输入通过一系列block,交替自注意与前馈连接。自注意允许网络建立复杂的表现形式,这些表现形式包含了跨序列的上下文。由于自注意显式地在序列中的所有位置之间构造成对的相互作用,Transformer架构直接表示残留-残留的相互作用。我们使用掩码语言建模目标来训练模型。每个输入序列通过用一个特殊的掩码标记替换一部分氨基酸而被破坏。网络被训练成从损坏的序列中预测缺失的标记。对于每个序列x,我们抽取一组索引M进行掩蔽,用掩蔽令牌替换每个索引i处的真实令牌。对于每个被掩蔽的令牌,我们分别最小化真实氨基酸的负对数似然,给定掩蔽序列作为上下文。▍语言模型的评价我们首先对UniParc中的所有序列进行一系列Transformer训练,并提供M序列的随机样本进行验证。我们通过使用这些模型来研究表征的性质和在预训练中学到的信息。为了比较不同语言模型的泛化性能,我们使用UniRef50,一个UniParc的聚类在50%的序列身份。为了进行评价,随机抽取了UniRef50聚类的0%作为保留样本。评估数据集由这些聚类的代表序列组成。所有的序列属于举行群从预训练数据集删除。我们探讨了基本序列多样性在训练前数据中的作用。聚类UniParc显示了聚类大小的幂律分布,这意味着大多数序列属于一小部分聚类。使用一个序列聚类的训练结果重新加权的掩码语言建模损失向一个更多样化的序列集。我们使用UniRef创建了三个具有不同多样性水平的预训练数据集:)低多样性数据集(UR00)使用UniRef00代表序列,2)高多样性稀疏数据集(UR50/s)使用UniRef50代表序列,)高多样性密集数据集(UR50/d)在UniRef50簇上均匀采样UniRef00序列。表展示了通过一系列实验探索不同的模型类、参数数量和预训练数据集的持久UniRef50序列的建模性能。模型比较使用指数交叉熵(ECE)度量,这是模型平均每令牌损失的指数。就Transformer而言,这是。ECE描述了每个预测的一组选项中该模型的平均不确定性:从理想模型的一个选项到完全随机预测的25个选项(数据中唯一的氨基酸标记的数目)。为了衡量评估集的通用化难度,我们在UR50/s上训练了一系列n-gram模型,这些n-gram模型跨越了上下文长度和Laplace平滑的设置范围。最好的n-gram模型的ECE为7.8,上下文大小为4。▍序列表示中的多尺度组织在大型蛋白质序列数据集中观察到的变异受到许多尺度的过程的影响,包括直接影响适应性的性质,如活性、稳定性、结构、结合和其他选择下的性质,以及系统发育偏差、实验和选择偏差和噪声源,如随机遗传漂变。无监督学习可能编码潜在因素,这些因素虽然没有被观察到,但对于解释模型在训练前看到的序列变化是有用的。我们在从生物化学到进化同源的多重尺度上研究网络的表征空间,寻找生物组织的特征。神经网络包含了归纳偏差,将结构赋予了表征。随机初始化的网络可以产生不需要任何学习就能表现良好的特性。为了理解学习过程如何塑造表征,有必要比较表征在训练前后的异同。此外,由于氨基酸组成存在偏差,序列数据本身需要有一个基本的内在组织水平。为了解开数据中频率偏差的作用,我们还比较了将每个序列映射到标准化氨基酸计数向量的基线。▍学习编码生化特性Transformer神经网络表示每个氨基酸在其输入和输出嵌入中的同一性。输入嵌入将输入氨基酸标记投射到第一个Transformer块中。输出嵌入将最终的隐藏表示投射回对数概率。蛋白质中氨基酸在给定的结构或功能上的互换性取决于它们的生化特性。自监督可以期望捕捉这些模式,以建立一个反映生物化学知识的表征空间。为了研究网络是否已经学会在其表示中编码物理化学性质,我们将网络最终嵌入层的权重矩阵投影到二维空间,并采用t分布随机相邻嵌入(t-SNE)。在表中,嵌入空间的结构反映了疏水性和极性残基、芳香族氨基酸以及分子量和电荷组成的明显聚集性的生化互换性。▍生物变异被编码在表征空间中每个蛋白质可以表示为一个单一的矢量,通过平均每个位置的隐藏表示在其序列。蛋白质嵌入将序列表示为高维空间中的点。每个序列被表示为一个单点,由网络分配给相似表示的序列被映射到邻近的点。我们研究同源基因在这个空间中是如何表达的。直系同源基因的结构和功能很可能被保留,尽管它们的序列有分歧。我们在表2A中发现,训练形成了表征空间,因此直系同源基因被聚集。表2A显示了使用t-SNE的模型表示空间的二维投影。在训练之前,模型表征空间中直系同源蛋白的组织是扩散的。直系同源基因聚集在学习表征空间。▍学习编码远程同源远端同源蛋白尽管其序列存在差异,但其结构相似性基因仍然存在。如果结构同源编码在表征空间的度量结构中,那么蛋白质之间的距离反映了它们的结构相关程度。我们研究了表征空间是否能够检测到超家族(属于不同家族但属于同一超家族的蛋白质)和折叠(属于不同超家族但具有相同折叠水平的蛋白质)的远程同源性。我们利用SCOPe(蛋白质结构分类ー扩展)构建了一个数据集来评估远程同源检测。按照标准惯例,我们排除了类似Rossmann的折叠和四至八叶式β-propellers。图2表明,使用表示形式的向量最近邻查询可以检测远端同源物,这些同源物的性能与HHblits类似,后者是一种基于隐Markov模型的方法。在超家族级别上,序列相似性较高,HMM性能较好,但转换器嵌入较接近。快速向量最近邻查找方法允许在毫秒内搜索数十亿个序列以寻找与查询蛋白质的相似性。▍在一个蛋白质家族中学习编码对齐MSA识别一系列相关序列中的对应位点。这些对应给出了序列家族中不同位点进化变异的图片。该模型接收输入单个序列,并且除了通过学习之外不能访问相关序列的家族。我们调查序列的最终隐藏表示是否编码了关于它所属家族的信息。家族信息可以出现在网络通过分配类似的表示位置在不同的序列是对齐在家族的MSA。利用Pfam中结构相关序列的MSAs集合,我们比较了该家族MSA中对齐的成对残基之间表征的余弦相似性的分布,以及未对齐的成对残基之间余弦相似性的背景分布。对齐和不对齐分布之间的一个巨大差异意味着表示使用家族所有序列中相关站点的共享特性。▍线性投影我们首先识别蛋白质结构的信息,这些信息在表征中被线性编码。线性投影的使用确保了信息来源于Transformer表示,从而能够直接检查表示的结构内容。通过比较Transformer在训练前后的表现形式,我们可以识别出作为非监督学习的结果出现的信息。我们进行了五次交叉验证实验来研究结构信息在家族、超家族和折叠层次上的概括性。对于这三个层次中的每一个层次,我们使用SCOPe数据库构建了个蛋白质结构的数据集。我们把这些结构分成五个部分,按家族、超家族分开,然后相应地折叠。五次交叉验证是针对每个结构阻塞层次独立进行的。为了检测关于二级结构的信息,我们使用八级二级结构标签对隐藏表示适配一个Logit模型。为了检测关于三级结构的信息,我们将两个独立的线性投影拟合到序列中成对位置的隐藏表示上,用它们的点积回归一个二进制变量,表示这些位置是否在蛋白质的三维结构中相互接触。将神经表征与序列剖面的投影和直接耦合分析的CCMpred实现预测的非监督接触进行比较。使用HHblits的三次搜索迭代,从UniClust0数据库生成基线的管理事务协议。对于二级结构,我们报告了八级精度。为了接触精确度,我们报告了最高的L长程精确度,即L(蛋白质的长度)的最高排序预测的精确度与至少24个残基的序列分离接触。图显示了交叉验证实验的结果。在预训练之前,可以检测到关于二级结构和接触点的最小信息。经过预训练,预测恢复关于二级结构和远程联系的信息,这些信息普遍存在于家族、超家族和折叠之间。二级结构预测八级精度分布和远程接触预测TOP-L精度分布,证明了预训练可以在整个测试域的分布范围内产生结构信息的增加。图显示,Transformer表示的投影比序列剖面的投影恢复更多的结构。对于远距离接触,Transformer的预测精度高于CCMpred在所有结构综合层次上预测的接触。随着结构分裂水平变得越来越远,二级结构退化不明显,在家族水平上的表现与折叠水平相似。对于长距离接触,虽然与家族水平相比,泛化在倍水平上减少,但最佳模型仍然比无监督的基线捕获更多的结构。高分化序列(UR50数据集)训练可以改善二级结构和远程接触的学习,对远程接触的影响更为显著。表4显示了属于伸出折叠的两个域的三类二级结构投影。在预训练之前,预测产生一个不连贯的二级结构预测。经过预训练,预测恢复出一个连贯的预测,大多数误差发生在二级结构区域的边界。图5比较了投影接触图和CCMpred的预测。Transformer预测恢复复杂的接触模式,包括远程接触。▍深层神经网络我们训练深层神经网络来预测二级结构和接触的表征。我们为这两个任务都选择了最先进的神经结构。这些下游模型训练与监督损失,以预测二级结构或接触图从预先训练的表示。下游模型的架构在具有不同表示和基线的实验中保持固定,以便进行比较。为了预测二级结构,我们使用NetSurf方法引入的模型结构,用深层神经网络取代线性层。对于三级结构,我们根据序列的隐含表示来预测二元接触映射。我们使用扩张的卷积残差网络类似于最新的三级构造预测方法。图4比较了二级结构预测的表示。我们评估模型的CB5测试集和CASP域。为了便于比较,我们还重新实现了NetSurf方法。模型在NetSurf训练数据集上进行训练,该数据集使用CB5和CASP的25%序列同一性拒绝和时间拒绝。比较了无监督预训练前后的变压器特征和LSTM基线的特征。它们也与NetSurf使用的HMM配置文件进行比较。最好的Transformer特性(7.6%)匹配HMM配置文件的性能(7.2%),并且在同一基准上超过RaptorX公布的性能(70.6%),这意味着蛋白质语言模型可以生成与序列配置文件直接竞争的特性,用于二级结构预测。▍语言建模与结构学习的关系为了研究语言建模目标与模型中结构信息之间的关系,利用Transformer模型在训练轨迹上的检查点的表示,拟合了二级结构和接触的线性投影。我们使用的是用UR50/s训练的Transformer。我们使用折叠层次结构持留数据集的第一个分区实现的训练和测试分割来拟合预测和评估。对于每个模型,图6显示了语言建模目标和结构信息之间的线性关系,这种关系在预训练过程中得到维持。线性拟合对二次结构和接触都非常理想。利用NetSurf训练序列和CB5测试集,用深层神经网络代替线性投影对二级结构进行了类似的实验。二级结构精度和语言建模ECE之间的线性关系也观察到了深预测头.因此,对于给定的模型和预训练数据集,ECE测量的语言建模逼真度是表示结构内容的一个很好的代理。由于语言建模目标的性能随着模型容量的提高而提高,这表明进一步的规模可能改善结构预测任务的结果。▍讨论生物学中人工智能的目标之一可能是创建可控的预测和生成模型,这些模型可以用母语阅读和生成生物学。因此,有必要研究能够直接从蛋白质序列中学习内在生物学特性的方法,这些方法可以转化为预测和生成。我们在最大的蛋白质序列数据库中调查了跨进化的深度学习,从2.5亿个序列中训练了亿个氨基酸的语境语言模型。高容量网络从序列中学习的表征空间反映了多层次的生物结构,包括氨基酸、蛋白质和进化同源性。关于二级和三级结构的信息内化并在网络中表示出来。内在生物学特性的知识在没有监督的情况下出现,在训练前没有给出除序列以外的任何学习信号。我们发现,已经通过进化数据训练的网络具有概括性:信息可以通过线性投影、深层神经网络或使用监督调整模型从表示中提取。微调产生的结果与变量活动预测的最新技术状态相匹配。预测是直接从序列,使用特征已经自动学习的语言模型,而不是选择的领域知识。我们发现,预训练发现的信息是不存在于当前的最先进的特征。学习的特征可以与最先进的结构预测方法所使用的特征相结合,以改善结果。根据经验,我们发现大型模型发现的特性在下游任务中表现得更好。Transformer的性能优于跨基准测试具有类似容量的LSTM。增加训练数据的多样性导致表示方法的显著改进。虽然我们研究的蛋白质语言模型与文本领域使用的模型具有可比规模,但我们的实验尚未达到规模的极限。我们观察到,即使我们训练的最高容量模型(参数在~~m)由于模型容量不足,也不能很好地拟合序列数据集。我们发现语言建模逼真度与编码到表征中的结构信息之间的关系表明,更高的容量模型将产生更好的表征。这些发现意味着进一步的模型规模和数据多样性的潜力,纳入来自宏基因组学的序列。将高容量的遗传模型与基因合成和高通量角色塑造相结合,可以使遗传生物学成为可能。我们所训练的模型可以用来生成新的序列。如果神经网络能够将从蛋白质序列中学到的知识转化为设计功能蛋白质,那么就可以与预测模型耦合,共同生成和优化所需功能的序列。当前序列数据的大小和它的预计增长点指向一个通用的生成模型的可能性,可以浓缩序列统计的总体,内化和整合基本的化学和生物概念,包括结构,功能,活动,局部化,结合,和动态,以产生新的序列。预训练的模型和数据集已公布在


转载请注明:http://www.bjgongshangzhuce.com/jyxc/8595.html


当前时间: