主页 | 生物新闻 | 生物热点 | 生物技术 | 生物论文 | 生物考研 | 生物产业 | 核酸技术 | 细胞技术 | 会员中心
 
 当前位置:主页>蛋白技术> 正文  
7.4 蛋白质空间结构预测
文章来源: 文章作者: 发布时间:2007-03-28   字体: [ ]  
 
生物信息学研究的一个主要目标是了解蛋白质序列与三维结构的关系,但是序列与结构之间的关系是非常复杂的。人们已经掌握了一些蛋白质序列与二级结构之间的关系,但是对于蛋白质序列与空间结构之间的关系了解得比较少。预测蛋白质的二级结构只是预测折叠蛋白的三维形状的第一步。一些结构不是很规则的环状区域与蛋白质的二级结构单元共同堆砌成一个紧密的球状天然结构。生物化学研究中一个活跃领域就是了解引起蛋白折叠的各种力。在蛋白质折叠过程中一系列不同的力都起到了重要作用,包括疏水作用、静电力、氢键和范德华力。疏水作用是影响蛋白质结构的重要因素。半胱氨酸之间共价键的形成在决定蛋白构象中也起了决定性的作用。在一类称为伴侣蛋白的特殊蛋白质作用的情况下,蛋白折叠问题变得更复杂。伴侣蛋白通过一些未知的方式改变蛋白质的结构,但这些改变方式是很重要的。

7.4.1 同源模型化方法

同源模型化方法是蛋白质三维结构预测的主要方法。对蛋白质数据库PDB分析可以得到这样的结论:任何一对蛋白质,如果两者的序列等同部分超过30%(序列比对长度大于80),则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠片层区域的一些细节部分有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸序列有50%相同,那么约有90%a碳原子的位置偏差不超过3 Å。这是同源模型化方法在结构预测方面成功的保证。同源模型化方法的主要思想是:对于一个未知结构的蛋白质,首先通过序列同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。这里的前提是必须要有一个已知结构的同源蛋白质。这个工作可以通过搜索蛋白质结构数据库来完成,如搜索PDB。同源模型化方法是目前一种比较成功的蛋白质三维结构预测方法。从上述方法介绍也可以看出,预测新结构是借助于已知结构的模板而进行的,选择不同的同源的蛋白质,则可能得到不同的模板,因此最终得到的预测结果并不唯一。假设待预测三维结构的目标蛋白质为UUnknown),利用同源模型化方法建立结构模型的过程包括下述6个步骤:

(1)       搜索结构模型的模板(T)。同源模型化方法假设两个同源的蛋白质具有相同的骨架。为待预测的蛋白质建立模型时,首先按照同源蛋白质的结构建立模板T。所谓模板是一个已知结构的蛋白质,该蛋白质与目标蛋白质U的序列非常相似。如果找不到这样的模板,则无法运用同源模型法。 (2)       序列比对。将目标蛋白质U的序列与模板蛋白质T的序列进行比对,使U的氨基酸残基与模板蛋白质的残基匹配。比对中允许插入和删除操作。 (3)       建立骨架。将模板结构的坐标拷贝到目标U,仅拷贝匹配残基的坐标。在一般情况下,通过这一步建立目标蛋白质U的骨架。 (4)       构建目标蛋白质的侧链。可以将模板相同残基的坐标直接作为目标蛋白质的残基坐标,但是对于不完全匹配的残基,其侧链构象是不同的,需要进一步预测。侧链坐标的预测通常采用已知结构的经验数据,如ROTAMERS 数据库的经验结构数据。ROTAMERS含有所有已知结构蛋白质中的侧链取向,按下述过程来使用ROTAMER:从数据库中提取ROTAMER分布信息,取一定长度的氨基酸片段(对于螺旋和折叠取7个残基,其它取5个残基);在U的骨架上平移等长的片段,从ROTAMER库中找出那些中心氨基酸与平移片段中心相同的片段,并且两者的局部骨架要求尽可能相同,在此基础上从数据库中取局部结构数据。 (5)       构建目标蛋白质的环区。在第2步的序列比对中,可能加入空位,这些区域常常对应于二级结构元素之间的环区,对于环区需要另外建立模型。一般也是采用经验性方法,从已知结构的蛋白质中寻找一个最优的环区,拷贝其结构数据。如果找不到相应的环区,则需要用其它方法。 (6)       优化模型。通过上述过程为目标蛋白质U建立了一个初步的结构模型,在这个模型中可能存在一些不相容的空间坐标,因此需要进行改进和优化,如利用分子力学、分子动力学、模拟退火等方法进行结构优化。

当然,如果能够找到一系列与目标蛋白相近的蛋白质的结构,得到更多的结构模板,则能够提高预测的准确性。通过多重序列比对,发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核心,然后再按照上述方法构建目标蛋白质的结构模型。对于具有60%等同部分的序列,用上述方法建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。一般,如果序列的等同部分大于30%,则可以期望得到比较好的预测结果。当然,这种计算方法要占用大量的计算时间,主要是由于第4步的数据库搜索过程耗时较多。如果序列的等同部分小于30%或更少,那么预测结果的准确性如何呢?随着UT的相似度降低,比对这两个蛋白质序列所需插入的环区增多。为环区建立精确的三维模型意味着解决结构预测的基本问题。有许多具体的方法可用于为环区建立三维模型,其中最好的方法在一些情况下能够得到环区正确的取向。为环区建立三维模型的一种方法是分子动力学模拟。由于环区一般来说相对比较短,可以用分子动力学方法来模拟,但在动态模拟过程所需要的计算时间随着环区多肽链的残基数指数增长。然而,即使序列等同部分下降到25%-30%,同源模型化方法也能产生出未知结构蛋白质整体折叠的粗糙模型。对于这样初始模型可以进行优化,以得到较好的结果。

也可以用人工神经网络(如BP网)来预测同源蛋白质的空间结构。Bohr等人曾利用BP网预测同源蛋白质的折叠模式,该方法应用距离点矩阵表示蛋白质的结构,同源蛋白质的距离矩阵相似。沿水平轴和垂直轴画出蛋白质序列,如果两个氨基酸Ca原子之间的距离小于指定的距离,则在矩阵对应位置打上点标记。与二级结构预测的神经网络方法相似,将一个窗口在蛋白质序列上移动,利用窗口内蛋白质序列、二级结构类型、反映空间结构信息的点距离矩阵作为神经网络的输入输出数据。其中在网络的输入层输入一个窗口内氨基酸序列信息,于中心氨基酸两侧分别取30 个氨基酸,窗口大小为61。网络的输出层有33个节点,其中30个节点对应于中心氨基酸前30 个氨基酸,其值为“0”或者“1”,这取决于该氨基酸与中心氨基酸的距离是否小于给定的值(如8Å),这与点距离矩阵相对应。另外3个输出节点用于表示二级结构类型(螺旋、折叠、卷曲)。利用已知结构的同源蛋白质训练该网络,然后用训练好的网络对属于同一家族的蛋白质结构进行预测。该模型可以同时进行二级结构和空间结构的预测。

在实际研究中,对于蛋白质结构的分析和预测往往着眼于某些关键部位,或者功能区域。通过对蛋白质序列的分析可以发现,在一个蛋白质家族中,存在着保守的氨基酸序列片段,这些保守的序列片段称为氨基酸序列模式。在蛋白质家族进化的过程中,序列模式的变化被强制约束,以保证蛋白质的主要结构和功能不变。一个序列模式与蛋白质特定的局部空间结构相对应,分析序列模式与局部空间结构之间的关系有助于了解蛋白质的功能区域的结构,而详细地分析这些关键的结构部分,有助于我们认识蛋白质作用的机理了解蛋白质与其它生物分子之间的相互作用,甚至为新药设计提供依据。

7.4.2 线索化方法(折叠识别方法)

在前一节已经提到,两个自然进化的蛋白质如果具有30%的等同序列,则它们是同源的蛋白质,具有基本相同的三维结构。那么,其余的是否就不是同源的呢?实际并非如此。在最新的蛋白质数据库PDB中,有上千对蛋白质具有同源的空间结构,但它们的序列等同部分小于25%,即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个成功的远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2UT的序列必须被正确地比对或对比排列;(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。检测远程同源蛋白质是一个基本问题,而正确比对UT的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题,其基本思想是:建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的,这是因为建立模型的过程不能校正在序列比对阶段出现的错误。现在,线索技术已成为蛋白质结构预测领域中最活跃的一块。在20世纪90年代发表的第一篇关于线索化方法的文章推动了线索化方法的深入研究。线索化的主要思想是利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。不久提出另一种不同的方法,即利用蛋白质数据库中丰富的信息,通过提取平均势场取出结构知识。 由于不同平均势场刻画蛋白质不同的结构特征,正确的远程同源蛋白质很可能是所得到的查找结果之一。然而,目前还没有一个单独方法能够在一半以上的情况下检测到正确远程同源蛋白质。凡是经过大量测试、严格评估的方法,得到正确的远程同源蛋白质的几率小于40%。即使这样,其性能也远远好于传统的序列比对方法(在序列等同部分小于25%的情况下)。另外,各种结构预测实验的成功表明,在专家仔细筛选各种选择后,检测到远程同源蛋白质的可能性将会得到进一步地提高。下面讨论从蛋白质序列到蛋白质结构的线索化方法。建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板T,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。如果找到这样的模板,则将U的序列与模板T的结构进行比对(sequence-structure alignment),即建立线索。在此基础上利用模板结构为蛋白质U建立结构模型。线索化是一个比预测三维结构更复杂的问题,是NP完全问题,需要采用近似求解方法或启发式求解方法。解决该问题的回报是非常高的,如果能够解决线索化问题,那么预测更多的蛋白质结构将成为可能。对应于不同的序列-结构匹配程度度量方法,有不同的线索化方法,但是线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数据库;(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法;(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法。在线索技术中,假设存在有限数目的核心折叠(core folds)。核心折叠实际上是构成蛋白质空间形状的基本模式。线索技术的首要任务是建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。

这里介绍一种基于序列与结构比对的最优线索化算法。令s1, s2,…, sn为蛋白质序列Sn个元素,C1, C2,…, Cm为数据库中核心折叠Cm个核心区域。每一个核心区域由若干个氨基酸残基构成。令Cij为第i个核心区域第j个氨基酸位置。假设核心折叠C中所有重要的相互作用都体现在各个Cij之间的两两作用,利用图这样的数据结构来表示这些相互作用。用图中的顶点表示Cij,如果CijCi’j’之间存在相互作用,则在图中画一条从Cij所在顶点到Ci’j’所在顶点的边。设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素si,sj,sk,…代表核心区域C1, C2,C3,…的起始位置。这实际上是一种从序列S到核心折叠C的比对,但是在这样的比对中序列元素内部没有空位,但是序列元素之间存在空位,这些空位将序列元素分割开来。l代表核心折叠C中的环到序列S中空位的映射,显然l是通过线索化而确定的。令f(t)是进行序列与结构比对的得分函数,其形式定义如下:

其中g1 (v,t) 评价各个氨基酸残基v所处的位置;g2 (u,v,t) 评价残基uv的相对位置,如果uv 键合,则得分高;g3 (l,t)评价环区,根据环区的大小进行打分。

完成上述概念定义之后,可以非常简单地描述线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一从SC的最佳映射。虽然问题的描述非常简单,但是要解决这个问题却非常复杂,这是一个NP-完全问题。准确地求解需要巨大的运算量,在实际应用中,需要采用分支约束方法压缩搜索空间,或采用近似或启发式的方法进行求解,以提高算法的执行效率。

7.4.3 从头预测方法

在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法(Ab initio),即直接根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。从头预测方法一般由下列3个部分组成:(1)一种蛋白质几何的表示方法。由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基。(2)一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数。(3)一种构象空间搜索技术。必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。

7.4.3.1 蛋白质折叠的网格模型

限制蛋白骨架构象中可采取的自由度是在模拟过程中简化蛋白质的一种方法,其中一种限制是α碳原子只允许位于二维或三维格子(网格)的位置上。这种简化方法大大减少了一个蛋白质可以采取的构象数目。于是,对于一个中等大小的多肽链,我们可以对它的构象空间进行穷举搜索,直到找到能量全局最小的构象。而对于比较长的多肽链,简化的格子模型可以使非穷尽的搜索方法对所有可能的构象进行较大比例的取样,因此,可以比较准确地估计出能量全局最小的构象。H-P[疏水(hydrophobic)-极性(polar)] 模型是研究得最成熟的一种简单网格模型。H-P模型用一个固定半径的原子来表示蛋白质中每个氨基酸残基,从而进一步简化蛋白质结构。在这种表示方法中,原子被分为两种类型:疏水原子(H)和极性原子(P)。7.7显示了一段较短的用二维和三维H-P模型表示的多肽链,其中,疏水残基表示为黑色,极性残基表示为白色。按照惯例,N端的氨基酸位于坐标系统的原点,第二个氨基酸残基就位于坐标的(1,0)或(100)处。通常我们认为疏水作用力是使蛋白质折叠成一个紧密球状结构的几种基础力之一。大多数蛋白质的天然结构都有一个疏水核心和一个与溶液相接触的表面,疏水核心中掩藏了疏水残基,使得它们与溶液相隔离,而与溶液相接触的表面大多或者全部由极性残基和带电残基组成。将蛋白质折叠成一个紧密结构以帮助疏水残基与溶液相分离的过程通常称为疏水折叠。膜蛋白却明显不同,这种蛋白具有一个或多个嵌入细胞膜的跨膜区,这些跨膜区的结构主要是螺旋结构。由于细胞膜大多由疏水的碳原子和氢原子组成,因此这些“表面”的螺旋结构实际上是与水分子分离的,它们大多由疏水氨基酸组成。

H-P模型是根据疏水残基之间的接触来进行打分的。为了评价H-P模型中一个特定的构象,我们要计算出网格中疏水残基HH接触的数目。在这里,除了多肽链一级结构中相邻的HH接触外(由于多肽链一级结构中相邻的HH接触在每一个可能的构象中都存在,因此,为了简单起见,这些HH接触就被去除),其它每一个HH的接触对能量的贡献都设为-1。最优的构象就是所有可能的构象中具有最多HH接触的那个构象。一般来说,要获得最大的HH接触的数目通常需要先形成一个疏水核心,这个疏水核心必须含有尽可能多的H残基,同时要将P残基转移至多肽链的表面。7.7中的二维和三维构象的得分都是-3有了网格模型及构象能量计算方法,下一个任务就是搜索能量全局最小的构象。在设计搜索算法时,一个主要问题就是如何表示一个特定的构象。一个最简单的方法就是将第一个残基放在网格的(00)或(000)格点上,然后描述前面一个残基到下一个残基的移动方向。二维模型运用这种绝对方向表示法时,每一个位置上可选择的方向包括上、右、左和下(URLD);而对于三维模型,每一个位置上可选择的方向包括上、右、左、下、后和前(URLDBF)。通过这种绝对方向表示法,可以将7.7中的二维构象表示成(RRDLDLULUUR),而7.7中的三维构象可以表示成(RBUFLURBLLF)。相对方向表示法则利用每个氨基酸残基主链的转动方向来表示每个位置上的残基的方向,这种表示方法能够减少每个位置上可选择的方向数。这种情况下,对一个二维正方形的网格模型,第二个残基以后的每个残基位置上可选择的方向有三个,左、右和前(通常表示为LRF);对一个三维正方体的网格模型,每个残基位置上可选择的方向有左、右、前、上和下(LRFUD)。在这种表示方法中,我们不但要清楚当前的位置,同时还要清楚当前残基“面对”的方向。对于二维模型,第一个残基位于网格的(00)位上,它所面对的方向为右。也就是说,如果第一个移动方向是F,那么第二个残基就应该位于网格的(10)位上。因此,7.7中的二维构象用相对方向表示法可表示为(FFRRLRRLRFR)。对于三维模型,第一个残基位于网格的(000)位上,它所面对的方向为右。当我们沿着多肽链移动时,我们不但必须清楚当前残基面对的方向,同时还要清楚当前哪个方向应该看作是“上”。利用这种表示方法,7.7中的三维构象可以表示为(FLUURUULLFL)。使用上面两种基于方向的表示方法时,我们会遇到的一个关键问题就是一些构象中两个残基会出现在同一个位置上。比如,一个二维构象用相对(基于主链的转动)表示法表示时,如果它的起始四个残基表示为(LLLL),那么,这个构象就会有两个残基位于原点(00)上,从而导致残基碰撞,或者说原子空间碰撞。在构象搜索时,如果出现这种空间碰撞,我们可以采用多种方法来处理。最简单的一种方法就是为每一个具有碰撞的构象设置一个非常高的能量值。由于搜索算法是寻找低能量构象的,因此,具有碰撞的构象在搜索时会被很快地剔除。不过,有些构象如果能够解决碰撞问题,它的能量就会比较小,因此,这些构象可能会是有效构象。但是,如果采用上面的方法解决碰撞问题的话,搜索过程中就会把这些有效构象去除掉。其它处理碰撞的方法包括在为构象打分之前先利用局部优化方法来解决碰撞,另外也可以使用其它在构象搜索过程中不会产生碰撞的表示法。优先排序表示法就是一种在构象搜索过程中不会产生碰撞的表示法。在优先排序法中,每个残基对应的方向并不是某一个方向,而是所有可能的方向的排列。比如,在二维模型中,某一个残基对应的方向可能会是{LFR}{LFR}表示这个残基最可能对应的方向是左;但是,如果残基移向左侧构象中会出现碰撞,这时我们就会为这个残基选择下一个比较有可能的方向,即向前;最后一个可选择的方向为向右。使用这种表示法来表示构象,在有些构象中仍然会出现碰撞(当向所有方向的移动都会导致碰撞时),但这种表示方法中出现碰撞的频率比用绝对方向表示法时出现碰撞的频率要小很多。将优先排序表示法和局部构象搜索方法结合起来,我们就可以设计出构象中绝对不会出现碰撞情况的表示法。H-P模型是基于三种简化的,即蛋白质中各个氨基酸残基的α碳原子都位于二维网格或三维网格的格点上,疏水作用是蛋白折叠中唯一的重要因素,同时通过计算疏水残基接触的数目代替构象的能量计算。虽然这样的处理非常简单,但是,通过H-P 模型的计算分析,能够发现蛋白质折叠的一些机制。如果在蛋白质模型中取消氨基酸定位于网格点的限制(去网格模型),那么蛋白质模型就可以更真实地模拟出蛋白质的实际构象。去网格模型的误差通常用预测构象和实际构象中α碳原子的均方根偏差(RMSD)来计算。α碳原子的RMSD是指当预测构象和实际构象重叠在一起时,两种构象中每个α碳原子位置的Euclidean平方距离的总和。随着蛋白模型与实际情况越来越相符,模型的复杂性也越来越大。去网格蛋白质折叠模型可以只考虑α碳原子,也可以考虑所有的骨架原子,甚至可以考虑所有的骨架原子和侧链原子。假如在模型中考虑侧链的话,那么侧链可以表示成刚性侧链、半柔性侧链和完全柔性侧链。对于刚性侧链,我们已经在X射线结晶结构中得到了这些侧链的构象,X射线结晶结构中每种氨基酸出现最多的构象就被看作这种氨基酸的刚性侧链采取的构象。对于半柔性侧链,我们也是利用类似的经验性方法得到它的构象。从一系列X射线结构中可以得到侧链的多种构象,对这些构象进行分组,形状类似的为一组,这种方法中排除了那些不经常出现的构象,也减少了搜索的复杂度。

7.4.3.2 能量函数和优化

除了要考虑疏水作用,在蛋白质折叠的能量函数中还要考虑到氢键、二硫键的形成,考虑静电作用、范德华力以及溶剂作用。由于这些力中每一个力的相对作用还很难通过实验来计算,因此寻找一个合适的蛋白折叠复合能量函数仍然是一个研究热点。我们可以通过理论方法,针对范德华力、氢键、溶剂、静电和其它力对一个折叠蛋白总体稳定性的相对作用来建立能量函数。它的目标是得到一个近似的能量函数或者力场,那些已知结构的蛋白质结晶构象在这个能量函数中处于一个最小能量的状态。如何寻找一些可行的能量函数,本质上是分子力学的问题。而且,科学家确实已经设计出了许多有效的能量函数。分子力学方法假设正确的蛋白质折叠对应于最低能量的构象。分子力学势能是原子坐标的函数,其极小值对应于原子体系的局部能量最小点。势能函数由多项组成,包括成键作用和非成键作用。成键作用项分为化学键的伸缩能(键长)、弯曲能(键角)和扭转能(二面角),非成键作用包括范德华力、静电力、氢键等。分子力学中的势能参数有各种来源,包括从头算和半经验量子化学计算结果、氨基酸和小分子的实验观察结果等。 对于能量的优化有多种方法。常用的方法是梯度下降法,其中最陡下降法是一种简单的优化算法。在最低能量搜索过程中,最陡下降法反复对能量函数进行微分,计算梯度,每次沿能量下降最多的方向前进。当搜索位置离能量极小点比较远时,用这种方法可以迅速向极小点靠近,但接近极小点时,会产生振荡,收敛速度慢。另一种基于梯度的方法是共轭梯度法,其计算与最陡下降法一样,但是在选择搜索方向时,不仅考虑当前的梯度,还要考虑原来的搜索方向,经过综合决定下一步搜索方向。共轭梯度法收敛的速度快,但是更容易陷入能量局部极小点。牛顿-拉普森方法是另一类能量优化方法。梯度方法在计算时使用的是一阶微分,而牛顿-拉普森方法除使用一阶微分外,还计算二阶微分,利用一阶微分确定搜索方向,用二阶微分确定沿梯度在什么地方改变方向。运用该方法能够迅速收敛,但是计算量非常大。也可以通过分子动力学来寻找具有局部最低能量的构象。分子动力学利用牛顿力学的基本原理,通过求解运动方程得到所有原子的运动轨迹,并根据轨迹计算各种性质。分子动力学的优势在于能够跨过较大的势垒,获得低能量的构象。在蒙特卡罗和其它理论、实验方法的支持下,分子动力学技术作为改进的模型,在搜索过程中能够避免陷入局部能量极小点。分子动力学另外一个特点是可以模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。蒙特卡罗是一种随机采样的方法,通过该方法可以期望找到非常接近于全局能量最优的构象。   也有用模拟退火方法、遗传算法等进行蛋白质构象搜索和结构预测。然而,要确保找到全局最低能量的构象,必须进行全面搜索,以一定步长搜索整个构象空间,从而寻找能量最低点。由于搜索的是整个构象空间,所以最终找到的是全局最小点。但是,对于生物大分子来讲,搜索空间太大,在实际应用中不可行,只能处理很小的蛋白质。即使对搜索空间进行约束,如只允许我们感兴趣的氨基酸和连接两个残基的二面角发生变化,计算量仍然是个问题。对构象空间的进一步简化也只能处理比较小的蛋白质。 虽然利用引起蛋白质折叠的物理力学以及能量函数对蛋白质进行建模有一定实际意义,但是这种从头开始预测蛋白质结构的方法由于种种原因往往得不到令人满意的结果。首先,到目前为止,我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程,同时这些力之间又是如何相互作用的。即使有了一些力场,但是,力场参数不够精确。其次,这种方法需要考虑蛋白质中所有原子之间以及所有原子与周围溶剂之间的相互作用。对于实际大小的多肽,由于计算量太大,这种方法其实并不可行。实际上,也没有对溶剂处理的好方法。再一方面,构象搜索过程容易陷入局部能量极小点,而且自然折叠的蛋白质结构与一般蛋白质构象之间的能量差值比较小,因此,通过计算发现蛋白质的自然折叠结构非常困难。对于从头开始的方法,另外一种变通方法就是根据一些已知结构的蛋白质构象为一个未知结构的蛋白质设计一个经验性的伪能量函数。通常,为得到这种经验性的能量函数表达式,我们首先要选择一系列已知结构的蛋白质,然后对于每一个氨基酸,分析在三维空间上与其相邻的氨基酸。于是,我们可以根据不同氨基酸的相对位置得到一个得分矩阵。例如,得分矩阵中会记录所有丝氨酸残基和苏氨酸残基的距离小于3.6Å的数目。对一个假定的蛋白质构象,为了估计出它的经验性能量,必须考虑这个蛋白中每个残基的相邻残基。对于那些在样本库中经常出现的局部构象,它们的能量得分会比较小,而对于那些在样本库中不经常出现的局部构象,它们的得分则比较高。如果一个构象的得分比较高的话,这个构象就不太稳定。例如,假如一个特定的丝氨酸残基在的距离内有三个相邻的残基,即天冬氨酸、组氨酸和谷氨酸,并且得分矩阵显示天冬氨酸、组氨酸和谷氨酸在蛋白结构样本库中经常与丝氨酸相邻,那么这个丝氨酸残基的能量得分就比较低。但是,假如得分矩阵显示丝氨酸和谷氨酸很少相邻,那么这个丝氨酸残基的经验性能量值就比较高。将蛋白质中所有残基的局部能量值累加,就得到这个蛋白质基于经验的全局能量值。实际上,这种经验性能量函数只对那些与已知蛋白质的结构相似的构象赋予比较低的能量值,而对那些新出现的构象或者不经常出现的构象,这种能量函数给出的能量值则比较高。

7.4.4 预测方法评价

对各种方法所得到的蛋白质结构预测结果需要进行验证,以确定预测方法是否可行,确定其适用面。验证的一种方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较,分析两者之间的差距。为了客观地评价各种预测方法,需要建立权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的CASP就是这样一个系统(http://predictioncenter.llnl.gov/casp4/)。对蛋白质结构预测的同源模型化方法、线索化方法和从头预测方法进行实验测试和评价,结果表明:(1)在同源模型化方法中,得到一个好的序列比对是该方法的关键。当目标蛋白质与模板等同部分超过60%时,完全可以找到正确的比对。然而,如果序列相似程度只有20-25%,则很难找到正确的比对。如果相似程度低于20%,则同源模型化方法几乎无能为力,因为在这种情况下,很难或无法找到合适的模板。(2)对于线索化方法,如果能够找到同一家族远程同源蛋白质,则可以获得比较好的预测结果。如果找到的模板属于不同的家族,则预测准确性难以保证。(3)对于从头预测方法,还难以产生准确的预测结构。在三维结构预测方面,目前有待深入研究预测方法。根据同源性所得到的结构模型一般精度达到原子分辨率,对于SWISS-PROT数据库中的序列,大约三分之一能够得到粗糙的结构模型。不幸的是,许多模型在环区的位置标定方面存在着较大的误差。线索化技术通过搜索远程同源蛋白质能够大大地提高这个比例,但是,对于大规模的序列分析,线索化技术还仍然不是太可靠。对于一个未知结构的蛋白质,若没有其同源蛋白质的结构,则该蛋白质结构信息的唯一来源就是实验,或者通过从头算方法进行结构预测。即使在不远的将来我们会通过实验得到更多的蛋白质结构,但有一类蛋白质仍然对实验测定方法提出挑战,这就是膜蛋白。其中最大的障碍是这类蛋白质不能结晶,并且,即使用核磁共振NMR技术也难以测定其结构。因此,对于这类蛋白质,结构预测方法就显得格外重要。



上一篇:7.5 蛋白质空间结构比较   下一篇:7.3 RNA二级结构的预测


↑返回顶部   打印本页   关闭窗口↓  
用户名: 新注册) 密码: 匿名评论 [所有评论]
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
 §最新评论:
 推荐文章
 
 
 热点文章
·蛋白纯化经验指南
·聚丙烯酰胺凝胶电泳分离过
·免疫印迹(Western blotti
·蛋白质组学及研究技术路线
·薄层层析操作要点
·MALDI-TOF MS引领分子诊断
·蛋白质提取与纯化技术
·蛋白质组鉴定技术
 
 相关文章
·7.5 蛋白质空间结构比较
·7.3 RNA二级结构的预测
·7.2 蛋白质二级结构预测
·第七章 蛋白质结构预测
·附录 常用基本词汇表
·6种方法测定蛋白质含量
·表达蛋白的SDS-聚丙烯酰胺
·植物体内可溶性蛋白质含量
 
粤ICP备05115426号