威望、酷币、资源币获取方法及用途
基因酷保藏中心资源获取规则
保藏中心资源获取流程详细说明
基因酷保藏中心资源进出明细
领取红包获得资源币和威望
各版诚拜版主,每版欲聘5名
生物科研网址导航使用说明
生物科研网络助手使用说明
基因酷资源免费,望您点击广告
来支持基因酷
基因酷大事件回顾
论坛使用说明及酷友指南
基因酷FTP的使用及说明
基因酷个人空间(博客)使用帮助
邀请您参与《生物信息学分析系列图书》编写
祝贺酵母共享平台的建立,征集细胞株共享实验技术支持!
科研文献、资料分享交流倡议
基因酷网络资源调整公告!
情系灾区,奉献爱心
 27 123
发新话题
打印

[生物信息学] 蛋白质结构预测

本主题由 nano 于 08-8-12 19:48 关闭 
武林三国

蛋白质结构预测

蛋白质结构预测


2 d1 a! K, ?/ B! m主要内容:
" ~& t( A: F+ x0 |
1、蛋白质结构预测的背景及生物学意义: U9 S/ v5 i  p9 [
2、蛋白质结构预测的思想及相关数据库: Q2 P: W1 r, H% o4 Q
3、蛋白质二级结构预测的发展及局限性0 p$ K: x' y2 ~5 y8 a  g
4、蛋白质二级结构预测-Chou-Fasman预测方法
7 g4 |# O7 ?" _# p% ^; C0 k5、蛋白质二级结构预测-基于氨基酸疏水性的预测方法: c8 r4 F4 U! {+ h- B2 Q0 C
6、蛋白质二级结构预测-最邻近方法(NearestNeighboringmethods
. g) M2 {5 \* _  r% a$ c% b' n7、蛋白质二级结构预测-人工神经网络方法  f' c; t0 v1 H3 f3 l
8、蛋白质二级结构预测-综合各种分析方法预测
  N' I+ ^' |; h5 V2 Y5 y; ^9、蛋白质三级机构预测-同源模型化法$ u3 I7 F6 V; o" `8 C# {9 e
10、蛋白质三级机构预测-线索化法* N* V; Z$ l( L: @  ]2 o9 ~
11、蛋白质三级机构(空间结构)预测-从头预测法
/ U5 }2 j8 v! B0 n$ ~* r12、蛋白质三级机构预测方法的分析与评价
0 B5 n9 [2 ]8 y( L13、基于氨基酸组成的蛋白质预测软件5 d! ], _0 Q0 T9 _7 n' n; T
14、基于蛋白质物理性质的蛋白质预测软件$ T: x0 G3 n% O, a
15、蛋白质二级结构预测软件; P3 E* d) L6 S9 R
16、蛋白质三级结构的预测软件2 O2 f* n0 u8 y
4 k4 Q9 T: t; _& S- O7 n
声明:5 ^; T6 ?' O3 X* |$ G0 n( M
1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@126.com告知。
' ?5 R) k8 n1 U% R9 D; w, ^2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(www.genecool.com/bbs)本篇对应的专题跟贴指出或Email genecool@126.com
0 j  d0 B5 ?* }; y' D
$ x4 g' {% t! m9 Z0 D致谢:
" X5 f- t! @. M0 ?整编者:flashhyh
% f2 R: g7 R# B8 v
主要参考资料:《生物信息学札记》 樊龙江;《生物信息学简介》 张春廷;《蛋白质结构预测》 作者不详;《蛋白质结构预测的优化模型与方法》 作者不详;《蛋白质结构预测方法简述》 作者不详6 T3 u2 L6 s1 I! O) d0 p( V

1 ~' C2 E$ ]3 s% m, Z
" M& u- y  j6 N4 V) m[ 本帖最后由 nano 于 08-9-14 08:44 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



蛋白质结构预测的背景及生物学意义

蛋白质结构预测的背景及生物学意义


: a) h! @9 @# }蛋白质结构预测的背景5 |& u' P/ u8 w+ N
    一种生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成,但是它们只有折叠成特定的空间构象才能具有相应的活性和生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。
. X4 d7 v* [  ^: \1 _    目前,蛋白质序列数据库的数据积累的速度非常快,但是已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展,但是通过实验方法确定蛋白质结构的过程仍然非常复杂,代价较高,因此实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面,随着DNA测序技术的发展,人类基因组及更多的模式生物基因组已被或将被完全测序,DNA序列数量将会急增,而由于DNA序列分析技术和基因识别方法的进步,我们可以从DNA推倒导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度,或者减小两者的差距。那么如何缩小这种差距呢?不能完全依赖现有的结构测定技术,需要发展理论分析方法,这对蛋白质结构预测提出了极大的挑战。
) Q! C+ `1 v4 W. ^$ p5 h    20世纪60年代后期,Anfinsen首先发现去折叠蛋白或者说变性(denatured)蛋白质在允许重新折叠的实验条件下可以重新折叠到原来的结构,这种天然结构(nativestructure)对于行使生物功能具有重要作用,大多数蛋白质只有在折叠成它们天然结构的时候才能具有完全的生物活性。自从Anfinsen提出蛋白质折叠的信息隐含在蛋白质的一级结构中,科学家们对蛋白质结构的预测进行了大量的研究,分子生物学家将有可能直接运用适当的算法从氨基酸序列出发,预测蛋白质的结构。
' g8 q- \; X! S( [' ?0 a2 ]$ L2 L
  Z- K. p' o, ]. e% N蛋白质结构预测的生物学意义# q- k- f: ~$ ~. w
    基因是生命的蓝图,蛋白质是生命的机器。来自于四种字符字母表(ATU),CG)的核酸序列中蕴藏着生命的信息,而蛋白质则执行着生物体内各种重要的工作,如生物化学反应的催化、营养物质的输运、生长和分化控制、生物信号的识别和传递等工作。蛋白质序列由相应的核酸序列所决定,通过对基因的转录和翻译,将原来四字符的DNA序列,根据三联密码翻译成20字符的蛋白质氨基酸序列。
" U" k5 d. F4 }5 [1 j) w( m$ M; c( N    蛋白质具有不同的长度、不同的氨基酸排列和不同的空间结构,实验分析表明蛋白质能够形成特定的结构。蛋白质中相邻的氨基酸通过肽键形成一条伸展的链,肽链上的氨基酸残基形成局部的二级结构,各种二级结构组合形成完整的折叠结构。蛋白质分子很大,其折叠的空间结构会将一些区域包裹在内部,而将其它的区域暴露在外。在蛋白质的空间结构中,序列上相距比较远的氨基酸可能彼此接近。在水溶液中,肽链折叠成为特定的三维结构。主要的驱动力来自于氨基酸残基的疏水性,氨基酸残基的疏水性要求将氨基酸疏水片段放置于分子的内部。5 h* ~/ M1 \/ B8 c0 S( Z" c  }
    研究蛋白质的结构意义重大,分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分。研究蛋白质结构,有助于了解蛋白质的作用,了解蛋白质如何行使其生物功能,认识蛋白质与蛋白质(或其它分子)之间的相互作用,这无论是对于生物学还是对于医学和药学,都是非常重要的。对于未知功能或者新发现的蛋白质分子,通过结构分析,可以进行功能注释,指导设计进行功能确认的生物学实验。通过分析蛋白质的结构,确认功能单位或者结构域,可以为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子及结构。但是,蛋白质的空间结构又是由什么决定的呢?当一个蛋白质的空间结构被破坏以后,或者蛋白质解折叠,可以恢复其自然的折叠结构。大量的实验结果证明:蛋白质的结构由蛋白质序列所决定。虽然影响蛋白质空间结构的另一个因素是蛋白质分子所处的溶液环境,但是决定蛋白质结构的信息则是被编码于氨基酸序列之中。然而,这种编码是否能被破译呢?或者说是否能够直接从氨基酸序列预测出蛋白质的空间结构呢?1 m; k5 y$ X7 J2 a# j6 X
付出总有回报,努力会有结果!

TOP


武林三国

蛋白质结构预测的思想及相关数据库

本帖隐藏的内容需要积分高于 1 才可浏览
' z/ T$ c( q3 ?1 Y

% h/ e6 m! ?/ t0 d[ 本帖最后由 nano 于 08-9-14 08:44 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



蛋白质二级结构预测的发展及局限性

蛋白质二级结构预测的发展及局限性

9 L- v; c7 [$ C$ v& j$ P1 _. t1 c; k
    蛋白质二级结构的预测开始于20世纪60年代中期。二级结构预测的方法大体分为三代,第一代是基于单个氨基酸残基统计分析,从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。第二代预测方法是基于氨基酸片段的统计分析,使用大量的数据作为统计基础,统计的对象不再是单个氨基酸残基,而是氨基酸片段,片段的长度通常为11-21。片段体现了中心残基所处的环境。在预测中心残基的二级结构时,以残基在特定环境形成特定二级结构的倾向作为预测依据。这些算法可以归为几类:(1)基于统计信息;(2)基于物理化学性质;(3)基于序列模式;(4)基于多层神经网络;(5)基于图论;(5)基于多元统计;(6)基于机器学习的专家规则;(7)最邻近算法。第一代和第二代预测方法有共同的缺陷,它们对三态预测的准确率都小于70%,而对β折叠预测的准确率仅为2848%,其主要原因是这些方法在进行二级结构预测时只利用局部信息,最多只用局部的20个残基的信息进行预测。二级结构预测的实验结果和晶体结构统计分析都表明,二级结构的形成并非完全由局域的序列片段决定,长程相互作用不容忽视。蛋白质的二级结构在一定程度上受远程残基的影响,尤其是β折叠。从理论上来说,局部信息仅包含二级结构信息的65%左右,因此,可以想象只用局部信息的二级结构预测方法,其准确率不会有太大的提高。
' ~1 K! E! _, O/ t6 U% L. `5 ?    二级结构预测的第三代方法运用蛋白质序列的长程信息和蛋白质序列的进化信息,使二级结构预测的准确程度有了比较大的提高,特别是对β折叠的预测准确率有较大的提高,预测结果与实验观察趋于一致。一般75%的氨基酸残基可以被置换而不改变蛋白质的结构,然而有时改变几个关键的残基则可能导致破坏蛋白质的结构。这好像是两个矛盾的结论,但解释又非常简单。一个蛋白质在其进化过程中探查了每个位置上氨基酸可能的与不可能的变化,不可能变化的部分是进化保守区域。可变部分的变化不改变结构,而不可变部分的变化则改变蛋白质的结构,由此失去蛋白质原有的功能,因而也就难以延续下去。这些不可变部分体现了蛋白质功能对结构的特定要求。这样,从一个蛋白质家族中提取的残基替换模式高度反映了该家族特异的结构。通过序列的比对可以得到蛋白质序列的进化信息,得到蛋白质家族中的特定残基替换模式,此外,通过序列的比对也可以得到长程信息。& C/ h1 ]+ w' f  h
    目前,许多二级结构预测的算法都是基于序列比对的,通过序列比对可以计算出目标序列(待预测其二级结构的序列)中每个氨基酸的保守程度。对于二级结构三态(αβnone)预测准确率首先达到70%的方法是基于统计的神经网络方法PHDsecPHDsec利用通过多重序列比对得到的进化信息作为神经网络的输入,另外采用了一个全局的描述子,即所有氨基酸组成(20种氨基酸中每个所占的比例)作为蛋白质序列的全局信息。这类算法预测的准确率能达到70%至75%。各种方法预测的准确率随蛋白质类型的不同而变化。例如,一种预测方法在某些情况下预测的准确率能够达到90%,而在最差的情况下仅达到50%,甚至更低。在实际应用中究竟使用那种方法,还需根据具体的情况。虽然二级结构预测的准确性有待提高,其预测结果仍然能提供许多结构信息,尤其是当一个蛋白质的真实结构尚未解出时更是如此。通过对多种方法预测结果的综合分析,再结合实验数据,往往可以提高预测的准确度。二级结构预测通常作为蛋白质空间结构预测的第一步。例如,二级结构预测是内部折叠、内部残基距离预测的基础。更进一步,二级结构预测可以作为其它工作的基础,例如,用于推测蛋白质的功能,预测蛋白质的结合位点等。
付出总有回报,努力会有结果!

TOP


武林三国

蛋白质二级结构预测-Chou-Fasman预测方法

本帖隐藏的内容需要积分高于 2 才可浏览
2 |0 l$ [. O% q6 Q0 I! D2 K' }
5 U/ J5 s. ]* ~0 m1 c
[ 本帖最后由 nano 于 08-9-14 08:45 编辑 ]
付出总有回报,努力会有结果!

TOP



蛋白质二级结构预测-基于氨基酸疏水性的预测方法

本帖隐藏的内容需要积分高于 1 才可浏览
1 o8 X, U1 Q! Q. ^. |' W6 \

3 C/ Q2 K4 H( u9 C0 E* c[ 本帖最后由 nano 于 08-9-14 08:46 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP


武林三国

蛋白质二级结构预测-最邻近方法(NearestNeighboringmethods)

蛋白质二级结构预测-最邻近方法(NearestNeighboringmethods


1 [7 \0 P5 A8 M0 n+ d9 ^- {    早期,由于数据的缺乏,预测方法多基于单条序列。随着序列和结构数据的增加,人们的研究转向同源序列分析,充分利用隐藏在同源序列中的结构信息,使得结构预测的准确率得到了较大的提高。同源分析的基础是序列比较,通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。在Levitt等人建立的相似片段方法中,将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分,根据相似性得分以及数据库中的构象态,构建出待预测片段的二级结构。这一方法对数据库中同源序列的存在非常敏感,若数据库中有相似性大于30%的序列,则预测准确率可大大上升。另一种更为合理的方法是将待预测二级结构的蛋白质U与多个已知结构的同源序列Ti进行多重比对,对于U的每个残基位置,其构象态由多个同源序列对应位置的构象态决定,或取出现次数最多的构象态,或对各种可能的构象态给出得分值。& J: n; {6 c0 G/ v
    基于上述的策略,最邻近方法在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U’与上述训练片段相比较,找出50个最相似的训练片段。假设这些相似片段中心残基各种二级结构的出现频率分别为fc,用它们预测片段U’中心残基的二级结构,可以取频率最高的构象态作为U’中心残基的二级结构,或者直接以fc,反应U’中心残基各种构象态可能的分布。根据处理过程的特点,最邻近方法又称为相似片段法。
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



蛋白质二级结构预测-人工神经网络方法

本帖隐藏的内容需要积分高于 1 才可浏览

3 [' l. w2 }( A
0 x' z. |# W, a/ Y9 r, k[ 本帖最后由 nano 于 08-9-14 08:46 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP


武林三国

蛋白质二级结构预测-综合各种分析方法预测

蛋白质二级结构预测-综合各种分析方法预测

4 {. A3 e1 u7 i0 k7 J
综合各种分析方法预测
# b+ a% V( C, F; a4 h" {    在实际进行蛋白质二级结构预测时,往往会综合应用各种分析方法和相关数据。综合方法不仅包括各种预测方法的综合,而且也包括结构实验结果、序列对比结果、蛋白质结构分类预测结果等信息的综合。实际应用中最常见的综合方法是同时使用多个软件进行预测,通过分析各个软件的特点以及各个软件预测结果,最终形成二级结构一致性的预测结果。将序列比对与二级结构预测相结合也是一种常见的综合方法。双重预测是另一类综合方法,该方法首先预测蛋白质的结构类型,然后根据不同结构类型蛋白质的二级结构形成规律预测新蛋白质的二级结构,并根据结构类型解释预测结果。这种方法若有光谱测定的二级结构含量作参考,则第一步分类结果更可靠。
1 Y$ ]" J1 ?5 z/ W    就像α螺旋和β折叠片的位置可以预测出来一样,其它特定的结构或结构特征,如卷曲螺旋和跨膜区也可以预测出来。但这类预测的方法没有二级结构预测方法多,主要是由于这些结构或结构特征的折叠规律尚不十分清楚。尽管如此,若待预测序列在已知结构数据库中能搜索到相似蛋白,则可以提高预测的准确性。& J* p* p" E+ Q4 G* _3 q
    早期人们建立的多种二级结构的预测方法,都是建立在假定蛋白质的二级结构主要是由局部氨基酸所决定,准确率都不超过65%。随着蛋白质进化信息、长程相互作用信息及全局信息的加入,蛋白质二级结构预测的准确率有了较大的提高。由于序列信息和结构信息的不断增长,通过统计得到的蛋白质序列与二级结构关系及规律更加全面,同时也由于预测方法的不断改进,使得蛋白质二级结构预测的准确率也在不断地提高,预测二级结构的准确率已经可以达到80%以上。一般认为,如果蛋白质二级结构预测准确率足够高的话,就可以基本准确地预测一个蛋白质分子的三维空间结构。但目前所取得的成果还难以达到这一目标。虽然二级结构的预测准确率还不能满足准确推测蛋白质分子三维空间结构的要求,但其预测结果仍能提供许多有用结构信息,尤其当蛋白质的结构尚未解出时更是如此。通过对多种预测结果的综合分析,再结合光谱实验数据,往往可以提高预测的准确度。由于二级结构预测很好地反映了局域序列片段的结构倾向性,因此在进行全新蛋白质设计时,常用二级结构预测的方法来设计二级结构单元。/ D6 h+ e6 p( I* q% ?3 d
* W/ D; b8 O: o  ]
利用氨基酸残基之间的距离预测! u# L& ~, s' V8 ^( @
    只要给出所有残基之间的距离,就可以利用距离几何或分子动力学方法构建蛋白质的三维结构,这是核磁共振NMR测定分子三维结构的一般方法。那么就蛋白质结构而言,是否能够得到残基之间的距离呢?显然,根据残基间氢键模式可以确定一部分螺旋和折叠的距离。因此成功的二级结构预测预示着可以得到一部分残基间的距离。然而需要注意的是这些距离仅仅是短程距离,是关于序列中相邻残基间的距离。若用距离几何的方法推测三维结构,还进一步得到关于长程距离的信息。目前预测长程距离的方法还比较少,有两个问题是这类方法所关心的重点,一是这些方法平均预测准确率是多少,二是是否所有主要的距离都被预测出来了?
付出总有回报,努力会有结果!

TOP



蛋白质三级机构预测-同源模型化法

本帖隐藏的内容需要积分高于 1 才可浏览
! U( Q+ @" t: z# N0 S( q4 u

1 s* M, ]3 U9 [9 v, S2 y+ i[ 本帖最后由 nano 于 08-9-14 08:47 编辑 ]
付出总有回报,努力会有结果!

TOP

 27 123
发新话题