威望、酷币、资源币获取方法及用途
基因酷保藏中心资源获取规则
保藏中心资源获取流程详细说明
基因酷保藏中心资源进出明细
领取红包获得资源币和威望
各版诚拜版主,每版欲聘5名
生物科研网址导航使用说明
生物科研网络助手使用说明
基因酷资源免费,望您点击广告
来支持基因酷
基因酷大事件回顾
论坛使用说明及酷友指南
基因酷FTP的使用及说明
基因酷个人空间(博客)使用帮助
邀请您参与《生物信息学分析系列图书》编写
祝贺酵母共享平台的建立,征集细胞株共享实验技术支持!
科研文献、资料分享交流倡议
基因酷网络资源调整公告!
情系灾区,奉献爱心
发新话题
打印

[生物信息学] 蛋白质结构预测

本主题由 nano 于 08-8-12 19:48 关闭 

蛋白质三级机构预测-线索化法

蛋白质三级机构预测-线索化法

1 D) H% H6 Y" U: _/ T
线索化模型产生的背景及发展7 u( D. g8 W) [) T
    上面已经提到,两个自然进化的蛋白质如果具有30%的等同序列,则它们是同源的蛋白质,具有基本相同的三维结构。那么,其余的是否就不是同源的呢?实际并非如此。在最新的蛋白质数据库PDB中,有上千对蛋白质具有同源的空间结构,但它们的序列等同部分小于25%,即远程同源。许多结构相似的蛋白质都是远程同源的。对于这类蛋白质,很难通过序列比对找出它们之间的关系,必须设计新的分析方法。
" z" Q, u% k, o8 i1 S- I# X    对于一个未知结构的蛋白质(U),如果找到一个已知结构的远程同源蛋白质(T),那么可以根据T的结构模板通过远程同源模型化方法建立U的三维结构模型。一个成功的远程同源模型化方法要解决三个问题:(1)检测远程同源蛋白质(T);(2UT的序列必须被正确地比对或对比排列;(3)修改一般的同源模型化过程,以应用于相似度非常低的情况,即处理更多的环区,建立合理的三维结构模型。
) g7 f  G( Q8 w1 F! n9 |  e2 b) y    检测远程同源蛋白质是一个基本问题,而正确比对UT的氨基酸序列则是更为复杂的问题。目前有许多方法声称能够解决第一个和第二个问题,其基本思想是:建立一个从U到已知结构T的线索,并通过一些基于环境或基于知识的势,评价序列与结构的适应性。至于最后建立三维结构模型则是非常困难的,这是因为建立模型的过程不能校正在序列比对阶段出现的错误。现在,线索技术已成为蛋白质结构预测领域中最活跃的一块。在90年代发表的第一篇关于线索化方法的文章推动了线索化方法的深入研究。线索化的主要思想是利用氨基酸的结构倾向(如形成二级结构的倾向、疏水性、极性等),评价一个序列所对应的结构是否能够适配到一个给定的结构环境中。不久提出另一种不同的方法,即利用蛋白质数据库中丰富的信息,通过提取平均势场取出结构知识。利用势场监视特定氨基酸残基对之间的观察距离,而这些残基对具有特定的间隔(即两个残基之间的间隔的残基数)。
, t5 p7 ^; ~. y. a直到1995年,许多线索化方法才开始用平均势场。有一种针对二级结构预测的线索化方法,该方法首先对未知结构的蛋白质序列预测其二级结构,然后在已知结构的数据库中提取该二级结构,最终根据标准的动态规划方法,通过序列比对比较从数据库中得到的和预测得到的二级结构。由于不同平均势场刻画蛋白质不同的结构特征,正确的远程同源蛋白质很可能是所得到的查找结果之一。然而,目前还没有一个单独方法能够在一半以上的情况下检测到正确远程同源蛋白质。凡是经过大量测试、严格评估的方法,得到正确的远程同源蛋白质的几率小于40%。即使这样,其性能也远远好于传统的序列对比排列方法(在序列等同部分小于25%的情况下)。另外,各种结构预测实验的成功表明,在专家仔细筛选各种选择后,检测到远程同源蛋白质的可能性将会得到进一步地提高。
0 S5 I7 b& x1 R
+ M$ u( m4 F' S" T" r5 O线索化模型的基本思想
3 ]9 S/ s  @# T( F6 [# ~( M& T    建立序列到结构的线索的过程称为线索化,线索技术又称折叠识别技术。线索化或者折叠识别的目标是为目标蛋白质U寻找合适的蛋白质模板,这些模板蛋白质与U没有显著的序列相似性,但却是远程同源的。如果找到这样的模板,则将U的序列与模板的结构进行比对(sequence-structurealignment),即建立线索。在此基础上利用模板结构为蛋白质U建立结构模型。线索化是一个比预测三维结构更复杂的问题,是NP完全问题,需要采用近似求解方法或启发式求解方法。解决该问题的回报是非常高的,如果能够解决线索化问题,那么预测更多的蛋白质结构将成为可能。0 g1 y4 n2 z! \3 w" m5 B3 A
    对于不同的序列-结构匹配程度度量方法有不同的线索化方法,但是线索化方法一般有5个基本组成部分:(1)已知三维折叠结构的数据库;(2)一种适合于进行序列-结构比对的三维折叠信息的表示方法;(3)一个序列-结构匹配函数,该函数对匹配程度进行打分;(4)建立最优线索的策略,或者是进行序列-结构比对的策略;(5)一种评价序列-结构比对显著性的方法。
: C& j( b5 B* a" Z1 O* m5 x    在线索技术中,假设存在有限数目的核心折叠(corefolds)。核心折叠实际上是构成蛋白质空间形状的基本模式。线索技术的首要任务是建立核心折叠数据库,在预测蛋白质空间结构时将一个待预测结构的蛋白质序列与数据库中核心折叠进行比对,找出比对结果最好的核心折叠,作为构造待预测蛋白质结构模型的根据。: |5 z; P5 ]' W2 y

* a: r4 K4 e5 A7 @$ {9 K" H* J线索化模型的优化算法1 f% `$ D# |4 p% X$ {2 D, Q7 }/ }4 @
    下面介绍一种基于序列与结构比对的最优线索化算法。
2 `6 a% j9 f$ ?% Y8 x6 o. a    令s1s2,···,sn为蛋白质序列Sn个元素,C1C2,···,Cm为数据库中核心折叠Cm个核心区域。每一个核心区域由若干个氨基酸残基构成。令Cij为第i个核心区域第j个氨基酸位置。假设核心折叠C中所有重要的相互作用都体现在各个Cij之间的两两作用,利用图这样的数据结构来表示这些相互作用。用图中的顶点表示Cij,如果CijCi’j’之间存在相互作用,则在图中画一条从Cij所在顶点到Ci’j’所在顶点的边。
8 f+ T1 c; r+ p+ l    设t是一个从序列到核心折叠的线索,那么t说明了序列S的哪些元素sisjsk,···代表核心区域C1C2C3,···的起始位置。这实际上是一种从序列S到核心折叠C的比对,但是在这样的比对中序列元素内部没有空位,但是序列元素之间存在空位,这些空位将序列元素分割开来。
! [. F9 D  {! U8 o% j5 x    令λ代表核心折叠C中的环到序列S中空位的映射,显然λ是通过线索化而确定的。令f(t)是进行比对的得分函数,其定义如下:9 n1 o/ u% A0 ?0 z% \  b- \
f(t)=g1(v,t)+g2(u,v,t)+g3(λ,t)
2 R" G% Q$ {- K3 Y    其中g1(v,t)评价氨基酸残基v所处的位置;g2(u,v,t)评价残基uv的相对位置,如果uv键合,则得分高;g3(λ,t)评价环区,根据环区的大小进行打分。
* p6 Y6 S- n8 ]% `    完成上述概念定义之后,可以非常简单地描述线索化问题:对于给定的序列S和核心折叠C,选择一个线索t,使得f(t)的值最小,即寻找一个从SC的最佳映射。虽然问题的描述非常简单,但是要解决这个问题却非常复杂,这是一个NP-完全问题。准确地求解需要巨大的运算量,在实际应用中只能采用近似或启发式的方法进行求解。如采用分支约束的方法,通过压缩搜索空间,提高算法的执行效率。
付出总有回报,努力会有结果!

TOP



蛋白质三级机构(空间结构)预测-从头预测法

蛋白质三级机构(空间结构)预测-从头预测法

' p- P/ _, k( a; F6 s
从头预测模型的基本思想' m, k8 \: j3 k! j
    在既没有已知结构的同源蛋白质、也没有已知结构的远程同源蛋白质的情况下,上述两种蛋白质结构预测的方法都不能用,这时只能采用从头预测方法(Abinitio,即(直接)仅仅根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。6 O( v1 P; Z0 w& }. e1 n; V
    从头预测方法一般由下列3个部分组成:(1)一种蛋白质几何的表示方法:由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基;(2)一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数;(3)一种构象空间搜索技术:必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。* ]2 ?3 P) i/ j2 b, u  a
. U! E% U5 z. o; M
蛋白质构象的网格模型
' y* y5 T* m& x( K. H" c" ~    限制蛋白骨架构象中可采取的自由度是在模拟过程中简化蛋白质的一种方法,其中一种限制是α碳原子只允许位于二维或三维格子(网格)的位置上。这种简化方法大大减少了一个蛋白质可以采取的构象数目。于是,对于一个中等大小的多肽链,我们可以对它的构象空间进行穷举搜索,直到找到能量全局最小的构象。而对于比较长的多肽链,简化的格子模型可以使非穷尽的搜索方法对所有可能的构象进行较大比例的取样,因此可以比较准确地估计出能量全局最小的构象。7 J2 k& ~3 k8 [7 D# m- P) n
    H-P[疏水(hydrophobic)-极性(polar)]模型是研究得最成熟的一种简单网格模型。H-P模型用一个固定半径的原子来表示蛋白质中每个氨基酸残基,从而进一步简化蛋白质结构。在这种表示方法中,原子被分为两种类型:疏水原子和极性原子。如图:; C/ N/ ]* l( I7 o, ^

一段较短的用二维和三维H-P模型表示的多肽链

1 Z0 \: T: l+ f6 t/ l8 Q7 |


& E) y: B+ Q9 [% Q

左为二维图,右为三位图(疏水残基表示为黑色,极性残基表示为白色)

. Z# z: V2 M( ~) n" ~# k$ p


7 m' b1 |) H* L! Z- g  `$ R2 J    按照惯例,N端的氨基酸位于坐标系统的原点,第二个氨基酸残基就位于坐标的(1,0)或(100)处。通常我们认为疏水作用力是使蛋白质折叠成一个紧密球状结构的几种基础力之一。大多数蛋白质的天然结构都有一个疏水核心和一个与溶液相接触的表面,疏水核心中掩藏了疏水残基,使得它们与溶液相隔离,而与溶液相接触的表面大多或者全部由极性残基和带电残基组成。将蛋白质折叠成一个紧密结构以帮助疏水残基与溶液相分离的过程通常称为疏水折叠。膜蛋白却明显不同,这种蛋白具有一个或多个嵌入细胞膜的跨膜区,这些跨膜区的结构主要是螺旋结构。由于细胞膜大多由疏水的碳原子和氢原子组成,因此这些表面的螺旋结构实际上是与水分子分离的,它们大多由疏水氨基酸组成。
* n6 ~) u# Q! B* k' S; |    H-P模型是基于疏水残基之间的接触来进行打分的。为了评价H-P模型中一个特定的构象,我们要计算出网格中HH接触的数目。在这里,除了多肽链一级结构中相邻的HH接触外(由于多肽链一级结构中相邻的HH接触在每一个可能的构象中都存在,因此为了简单起见这些HH接触就被去除),其它每一个HH的接触对能量的贡献都设为-1。最优的构象就是所有可能的构象中具有最多HH接触的那个构象。一般来说,要获得最大的HH接触的数目通常需要先形成一个疏水核心,这个疏水核心必须含有尽可能多的H残基,同时要将P残基转移至多肽链的表面。上图中的二维和三维构象的得分都是-3+ V0 Y, r2 S! x
    有了网格模型及构象能量计算方法,下一个任务就是搜索能量全局最小的构象。在设计搜索算法时,一个主要问题就是如何表示一个特定的构象。一个最简单的方法就是将第一个残基放在网格的(00)或(000)格点上,然后描述前面一个残基到下一个残基的移动方向。二维模型运用这种绝对方向表示法时,每一个位置上可选择的方向包括上、右、左和下(URLD);而对于三维模型,每一个位置上可选择的方向包括上、右、左、下、后和前(URLDBF)。通过这种绝对方向表示法,可以将上图中的二维构象表示成(RRDLDLULUUR),而三维构象可以表示成(RBUFLURBLLF)。相对方向表示法则利用每个氨基酸残基主链的转动方向来表示每个位置上的残基的方向,这种方法能够减少每个位置上可选择的方向数。这种情况下,对一个二维正方形的网格模型,第二个残基以后的每个残基位置上可选择的方向有三个,左、右和前(通常表示为LRF);对一个三维正方体的网格模型,每个残基位置上可选择的方向有左、右、前、上和下(LRFUD)。在这种表示方法中,我们不但要清楚当前的位置,同时还要清楚当前残基面对的方向。对于二维模型,第一个残基位于网格的(00)位上,它所面对的方向为右。也就是说,如果第一个移动方向是F,那么第二个残基就应该位于网格的(10)位上。因此,上图中的二维构象用相对方向表示法可表示为(FFRRLRRLRFR)。对于三维模型,第一个残基位于网格的(000)位上,它所面对的方向为右。当我们沿着多肽链移动时,我们不但必须清楚当前残基面对的方向,同时还要清楚当前哪个方向应该看作是。利用这种表示方法,上图中的三维构象可以表示为(FLUURUULLFL)。使用上面两种基于方向的表示方法时,我们会遇到的一个关键问题就是一些构象中两个残基会出现在同一个位置上。比如,一个二维构象用相对(基于主链的转动)表示法表示时,如果它的起始四个残基表示为(LLLL),那么这个构象就会有两个残基位于原点(00)上,从而导致残基碰撞(bump),或者说原子空间碰撞。在构象搜索时如果出现这种空间碰撞,我们可以采用多种方法来处理。最简单的一种方法就是为每一个具有碰撞的构象分配一个非常高的能量值。由于搜索算法是寻找低能量构象的,因此具有碰撞的构象在搜索时会被很快地剔除。不过,有些构象如果能够解决碰撞问题,它的能量就会比较小,因此这些构象可能会是有效构象。但是,如果采用上面的方法解决碰撞问题的话,搜索过程中就会把这些有效构象去除掉。其它处理碰撞的方法包括在为构象打分之前先利用局部优化方法来解决碰撞,另外也可以使用其他在构象搜索过程中不会产生碰撞的表示法。优先排序表示法就是一种在构象搜索过程中不会产生碰撞的表示法。在优先排序法中,每个残基对应的方向并不是某一个方向,而是所有可能的方向的排列。比如,在二维模型中,某一个残基对应的方向可能会是{LFR}{LFR}表示这个残基最可能对应的方向是左;但是,如果残基移向左侧构象中会出现碰撞,这时我们就会为这个残基选择下一个比较有可能的方向,即向前,最后一个可选择的方向为向右。使用这种表示法来表示构象,在有些构象中仍然会出现碰撞(当向所有方向的移动都会导致碰撞时),但这种表示方法中出现碰撞的频率比用绝对方向表示法时出现碰撞的频率要小很多。将优先排序表示法和局部构象搜索方法结合起来,我们就可以设计出构象中绝对不会出现碰撞情况的表示法。
! r) O6 ]. o# \# O' U    H-P模型是基于三种简化的,即蛋白质中各个氨基酸残基的α碳原子都位于二维网格或三维网格的格点上,疏水作用是蛋白折叠中唯一的重要因素,同时通过计算疏水残基接触的数目代替构象的能量计算。虽然这样的处理非常简单,但是,通过H-P模型的计算分析,能够发现蛋白质折叠的一些机制。1 x3 N, G1 v+ v2 l$ ~  ~& j5 @$ j
    如果在蛋白质模型中取消氨基酸定位于网格点的限制,那么蛋白模型就可以更真实地模拟出蛋白的实际构象。去网格模型的误差通常用预测构象和实际构象中α碳原子的均方根偏差(RMSD)来计算。α碳原子的RMSD是指当预测构象和实际构象重叠在一起时,两种构象中每个α碳原子位置的Euclidean平方距离的总和。" _% [. P- u. t
    随着蛋白模型与实际情况越来越相符,模型的复杂性也越来越大。去网格蛋白折叠模型可以只考虑α碳原子,也可以考虑所有的骨架原子,甚至可以考虑所有的骨架原子和侧链原子。假如在模型中考虑侧链的话,那么侧链可以表示成刚性侧链、半柔性侧链和完全柔性侧链。对于刚性侧链,我们已经在X射线结晶结构中得到了这些侧链的构象,X射线结晶结构中每种氨基酸出现最多的构象就被看作这种氨基酸的刚性侧链采取的构象。对于半柔性侧链,我们也是利用类似的经验性方法得到它的构象。从一系列X射线结构中可以得到侧链的多种构象,对这些构象进行分组,形状类似的为一组,这种方法中排除了那些不经常出现的构象,这也减少了搜索的复杂度。
' N! S! m8 h8 U( J- F) K( q4 Z+ S" r  ^& _( o1 ~
能量函数及优化% l7 r6 F7 D' x$ K* C8 r" [
    除了要考虑疏水作用,蛋白折叠的能量函数中还要考虑到氢键、二硫桥的形成、静电作用、范德华力以及溶剂作用。由于这些力中每一个力的相对作用还很难通过实验来计算,因此寻找一个合适的蛋白折叠复合能量函数仍然是一个研究热点。我们可以通过理论方法,针对范德华力、氢键、溶剂、静电和其它力对一个已折叠蛋白总体稳定性的相对作用来建立能量函数。它的目标是得到一个近似的能量函数或者力场,那些已知结构的蛋白质结晶构象在这个能量函数中处于一个最小能量的状态。如何寻找一些可行的能量函数,本质上是分子力学的问题。而且,科学家确实已经设计出了许多有效的能量函数。: P7 `% D  x4 r3 H' X
    分子力学方法假设正确的蛋白质折叠对应于最低能量的构象。分子力学势能是原子坐标的函数,其极小值对应于原子体系的局部能量最小点。势能函数由多项组成,包括成键作用和非成键作用。成键作用项分为化学键的伸缩能(键长)、弯曲能(键角)和扭转能(二面角),非成键作用包括范德华力、静电力、氢键等。分子力学中的势能参数有各种来源,包括从头算和半经验量子化学计算结果、氨基酸和小分子的实验观察结果等。! f6 l) z) }2 o, ?! p
    对于能量的优化有多种方法。常用的方法是梯度下降法,其中最陡下降法是一种简单的优化算法。在最低能量搜索过程中,最陡下降法反复对能量函数进行微分,计算梯度,每次沿能量下降最多的方向前进。当搜索位置离能量极小点比较远时,用这种方法可以迅速向极小点靠近,但接近极小点时,会产生振荡,收敛速度慢。另一种基于梯度的方法是共轭梯度法,其计算与最陡下降法一样,但是在选择搜索方向时,不仅考虑当前的梯度,还要考虑原来的搜索方向,经过综合决定下一步搜索方向。共轭梯度法收敛的速度快,但是更容易陷入能量局部极小点。
1 R: \" Q0 P' M& z8 R    牛顿-拉普森方法是另一类能量优化方法。梯度方法在计算时使用的是一阶微分,而牛顿-拉普森方法除使用一阶微分外,还计算二阶微分,利用一阶微分确定搜索方向,用二阶微分确定沿梯度在什么地方改变方向。应用该方法能够迅速收敛,但是计算量非常大。也可以通过分子动力学来寻找具有局部最低能量的构象。分子动力学利用牛顿力学的基本原理,通过求解运动方程得到所有原子的运动轨迹,并根据轨迹计算各种性质。分子动力学的优势在于能够跨过较大的势垒,获得低能量的构象。在蒙特卡罗和其它理论、实验方法的支持下,分子动力学技术作为改进的模型,在搜索过程中能够避免陷入局部能量极小点。分子动力学另外一个特点是可以模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。
6 Q) R1 J) K* m+ i" n* W    蒙特卡罗是一种随机采样的方法,通过该方法可以期望找到非常接近于全局能量最优的构象。也有用模拟退火方法、遗传算法等进行蛋白质构象搜索和结构预测。- @3 ~0 x% l0 Q; ?3 C
    然而,要确保找到全局最低能量的构象,必须进行全面搜索,以一定步长搜索整个构象空间,从而寻找能量最低点。由于搜索的是整个构象空间,所以最终找到的是全局最小点。但是对于生物大分子来讲搜索空间太大,在实际应用中不可行,只能处理很小的蛋白质。即使对搜索空间进行约束,如只允许我们感兴趣的氨基酸和连接两个残基的二面角发生变化,计算量仍然是个问题。对构象空间的进一步简化也只能处理比较小的蛋白质。
6 M- b  {; X' p0 P' S    虽然利用引起蛋白质折叠的物理力学以及能量函数对蛋白质进行建模有一定实际意义,但是这种从头开始预测蛋白质结构的方法由于种种原因往往得不到令人满意的结果。首先,到目前为止,我们还没有完全了解究竟是哪些力决定了蛋白质的折叠过程,同时这些力之间又是如何相互作用的。即使有了一些力场,但是,力场参数不精确。其次,这种方法需要考虑蛋白质中所有原子之间以及所有原子与周围溶剂之间的相互作用。对于实际大小的多肽,由于计算量太大,这种方法其实并不可行。实际上,也没有对溶剂处理的好方法。再一方面,构象搜索过程容易陷入局部能量极小点,而且自然折叠的蛋白质结构与一般蛋白质构象之间的能量差值比较小,因此,通过计算发现蛋白质的自然折叠结构非常困难。  s9 d3 d$ I" G9 k1 H0 J! O
    对于从头开始的方法,另外一种变化方法就是根据一些已知结构的蛋白质构象为一个未知结构的蛋白设计一个经验性的伪能量函数。通常,为得到这种经验性的能量函数表达式,我们首先要选择一系列已知结构的蛋白质,然后对于每一个氨基酸,分析在三维空间上与其相邻的氨基酸。于是,我们可以根据不同氨基酸的相对位置得到一个得分矩阵。例如,得分矩阵中会记录所有丝氨酸残基和苏氨酸残基的距离小于3.6?的数目。对一个假定的蛋白质构象,为了估计出它的经验性能量,必须考虑这个蛋白中每个残基的相邻残基。对于那些在样本库中经常出现的局部构象,它们的能量得分会比较小,而对于那些在样本库中不经常出现的局部构象,它们的得分则比较高。如果一个构象的得分比较高的话,这个构象就不太稳定。例如,假如一个特定的丝氨酸残基在6?的距离内有三个相邻的残基,即天冬氨酸、组氨酸和谷氨酸,并且得分矩阵显示天冬氨酸、组氨酸和谷氨酸在蛋白结构样本库中经常与丝氨酸相邻,那么这个丝氨酸残基的能量得分就比较低。但是,假如得分矩阵显示丝氨酸和谷氨酸很少相邻,那么这个丝氨酸残基的经验性能量值就比较高。将蛋白质中所有残基的局部能量值累加,就得到这个蛋白质基于经验的全局能量值。实际上,这种经验性能量函数只对那些与已知蛋白质的结构相似的构象赋予比较低的能量值,而对那些新出现的构象或者不经常出现的构象,这种能量函数给出的能量值则比较高。
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



蛋白质三级机构预测方法的分析与评价

蛋白质三级机构预测方法的分析与评价


& j3 t/ L: B9 B" r9 ]# T' K    对各种方法所得到的蛋白质结构预测结果需要进行验证,以确定预测方法是否可行,确定其适应面。验证的一种方法是取已知结构的蛋白质,对这些蛋白质进行模拟结构预测,并将预测结构与真实结构进行比较,分析两者之间的差距。为了客观地评价各种预测方法,需要建立权威的评判机构,建立公共认可的蛋白质结构测试数据集。设立在马里兰生物技术研究中心的CASP就是这样一个系统(http://predictioncenter.llnl.gov/casp4/)。9 [$ {8 z1 P+ h' S
    对蛋白质结构预测的同源模型化方法、线索化方法和从头预测方法实验测试和评价,结果表明:(1)在同源模型化方法中,得到一个好的序列比对是该方法的关键。当目标蛋白质与模板等同部分超过60%时,完全可以找到正确的比对。然而如果序列相似程度只有20-25%,则很难找到正确的比对。如果相似程度低于20%,则同源模型化方法几乎无能为力,因为在这种情况下,很难或无法找到合适的模板。(2)对于线索化方法,如果能够找到同一家族远程同源蛋白质,则可以获得比较好的预测结果。如果找到的模板属于不同的家族,则预测准确性难以保证。(3)对于从头预测方法,还难以产生准确的预测结构。+ _/ n; t! U1 M1 K! h  _" J5 |
    在三维结构预测方面,目前有待深入研究预测方法。根据同源性所得到的结构模型一般精度达到原子分辨率,对于SWISS-PROT数据库中的序列,大约三分之一能够得到粗糙的结构模型。不幸的是,许多模型在环区的位置标定方面存在着较大的误差。线索化技术通过搜索远程同源蛋白质能够大大地提高这个比例,但是对于大规模的序列分析,线索化技术还仍然不是太可靠。对于一个未知结构的蛋白质,若没有其同源蛋白质的结构,则该蛋白质结构信息的唯一来源就是实验,或者通过从头算方法进行结构预测。7 P( M% l0 l/ K" b( O
    即使在不远的将来我们会通过实验得到更多的蛋白质结构,但有一类蛋白质仍然对实验测定方法提出挑战,这就是膜蛋白。其中最大的障碍是这类蛋白质不能结晶,并且即使用核磁共振NMR技术也难以测定其结构。因此,对于这类蛋白质,结构预测方法就显得格外重要。
付出总有回报,努力会有结果!

TOP



基于氨基酸组成的蛋白质预测软件

基于氨基酸组成的蛋白质预测软件

6 y0 t- n5 t: _/ s8 S5 I& \6 H
    根据组成蛋白质的20种氨基酸的物理和化学性质可以辨析电泳等实验中的未知蛋白质,也可以分析已知蛋白质的物化性质。
4 \8 V/ C9 z! U( HExPASy工具包包涵的程序:http://www.expasy.ch/tools/
' B( O* l5 n+ `) l; ^% V    AACompIdent与把氨基酸序列在SWISS-PROT库中搜索不同,AACompIdent工具利用未知蛋白的氨基酸组成去确认具有相同组成的已知蛋白。该程序分析时需提交的相关信息包括:蛋白质的氨基酸组成、等电点pI和分子量(如果知道)、正确的物种分类及特别的关键词。此外,用户还需在六种氨基酸组合中作出选择,这影响到分析如何进行。例如,某种组合会把残基Asp/AsnD/N)和Gln/GluQ/E)组合成AsxB)和GlxZ);或者某种残基会在分析中被完全除去。
% C8 L; Q( a& |. Y) E6 D: r1 s    对数据库中的每一个蛋白序列,算法会对其氨基酸组成与所查询的氨基酸组成的差异打分。由电子邮件返回的结果被组织成三级列表:第一张列表中的蛋白都基于特定的物种分类而不考虑pI和分子量;第二张列表包含了不考虑物种分类、pI和分子量的全体蛋白;第三张列表中的蛋白不但基于特定物种分类,并且将pI和分子量也考虑在内。
: d' C$ Q7 z  o$ @! L' o    虽然计算所得结果各不相同,但零分表明了该序列与提出的组成完全相符。! J; {# s; m+ w  P' A* V" N& g
    AACompSimAACompIdent的一个变种, AACompSim提供类似的分析,但与前者以实验所得的氨基酸组成为依据进行搜索不同,后者使用SWISS-PROT中的序列为依据。有报道称,氨基酸组成在物种之间是十分保守的(Cordwell等,1995),并且通过分析氨基酸的组成,研究者能从低于25%序列相似性的蛋白之间发现弱相似性(HobohmSander1995)。因此,在传统的数据库搜索基础上辅以组成分析,能为蛋白质之间关系提供更多见解。
: ]* o6 Q2 w, p" W$ c
; J& F- ?  j! TPROSEARCHhttp://www.embl-heidelberg.de/prs.html. G: _+ E7 @: H( M  v( d4 Q' d
    PROPSEARCH也提供基于氨基酸组成的蛋白质辨识功能。用144种不同的物化性质来分析蛋白质,包括分子量、巨大残基的含量、平均疏水性、平均电荷等,把查询序列的这些属性构成的查询向量SWISS-PROTPIR中预先计算好的各个已知蛋白质的属性向量进行比较。这个工具能有效的发现同一蛋白质家族的成员。可以通过Web使用这个工具,用户只需输入查询序列本身。
# s3 S" ?; B6 s  s  @6 p, @% P) V  E
分子量搜索(MOWSE
% w6 T. y0 B$ n0 s: e    分子量搜索(MolecularWeightSearchMOWSE)算法利用了通过质谱(MS)技术获得的信息。利用完整蛋白质的分子量及其被特定蛋白酶消化后产物的分子量,一种未知蛋白质能被准确无误地确认,给出由若干实验才能决定的结果。由于未知蛋白无需再全部或部分测序,这一方法显著地减少了实验时间。
0 U- W3 _3 r2 g% v2 R4 I6 z7 Z    MOWSE的输入是一个纯文本文件,包含一张实验测定的肽段列表,分子量范围在0.74.0Kda之间。计算过程基于在OWL非冗余蛋白质序列库中包含的信息。打分基于在一定分子量范围内蛋白中一个片段分子量出现的次数。输出的结果是得分最佳的30个蛋白的列表,包括它们在OWL中的条目名称、相符肽段序列、和其它统计信息。模拟研究得出在使用5个或更少输入肽段分子量时,准确率为99%。
' I  e; _! M* Q4 v  F3 b    该搜索服务可通过向mowse@daresburg.ac.uk发送电子邮件实现。为获得更多关于查询格式的细节信息,可以相该地址发送电子邮件,并在消息正文中写上“help”这个词。
付出总有回报,努力会有结果!

TOP