序列比对及数据库搜索
[align=center][color=#000000][b][font=宋体][size=22pt]序列比对及数据库搜索[/size][/font][/b][b][size=22pt][/size][/b][/color][/align]'k q(n&pI`I[color=#000000][font=宋体][size=11pt][/size][/font][/color]
[color=#000000][font=宋体][size=11pt][b]主要内容:
[/b][font=宋体][size=11pt]1、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33595][color=#800080]序列比对的进化基础[/color][/url][/size][/font]
[font=宋体][size=11pt]2、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33597][color=#800080]序列比对的相关算法[/color][/url][/size][/font]@-Qui%J*w
[font=宋体][size=11pt]3、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33598][color=#800080]比对的统计学显著性[/color][/url][/size][/font],?Mi*by.Gk
[font=宋体][size=11pt]4、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33599][color=#800080]序列比对搜索及其难点与评估[/color][/url][/size][/font]
[font=宋体][size=11pt]5、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33601][color=#800080]BLAST程序简介[/color][/url][/size][/font]}ajS c[ a
[font=宋体][size=11pt]6、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33602][color=#800080]BLAST程序使用及其相似性搜索的序列格式[/color][/url][/size][/font]pgS&v2o#f
[font=宋体][size=11pt]7、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33603][color=#800080]在线BLAST的使用方法(图例指引)[/color][/url][/size][/font](y,J zu(\l V g~-i:U
[font=宋体][size=11pt]8、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33604][color=#800080]单机版Blast的安装使用[/color][/url][/size][/font]O;mU&d"_ A-s
[font=宋体][size=11pt]9、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33605][color=#800080]其他的序列相似性搜索工具FASTA[/color][/url][/size][/font]E8bc`#Z
[font=宋体][size=11pt]10、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33606][color=#0000ff]多序列比对简介[/color][/url][/size][/font]
[font=宋体][size=11pt]11、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33608][color=#0000ff]多序列比对工具Clustal的应用及使用图解[/color][/url][/size][/font]q|+d7N }h$g.F
[font=宋体][size=11pt]12、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33609][color=#0000ff]多序列比对的深入[/color][/url][/size][/font]
[font=宋体][size=11pt]13、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33610][color=#0000ff]利用多序列比对构建二次数据库的模型及方法[/color][/url][/size][/font]+c1G+VkP@6[
[font=宋体][size=11pt]14、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33611][color=#0000ff]二次数据库搜索实例指引[/color][/url][/size][/font][/size][/font][/color]6]&D4|e1aeg
[color=#000000][font=宋体][size=11pt][/size][/font][/color]
[color=#000000][font=宋体][size=11pt][b]声明:[/b][/size][/font][size=11pt][/size][/color]
[size=11pt][font=Times New Roman][color=#000000]1、[/color][/font][/size][font=宋体][size=11pt][color=#000000]本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于[/color][/size][/font][size=11pt][url=http://www.genecool.com/][font=宋体][color=#800080]基因酷[/color][/font][/url][/size][font=宋体][size=11pt][color=#000000]及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请[/color][/size][/font][size=11pt][font=Times New Roman][color=#000000]Email [/color][/font][email=genecool@126.com][font=Times New Roman][color=#0000ff]genecool@126.com[/color][/font][/email][/size][color=#000000][font=宋体][size=11pt]告知。[/size][/font][size=11pt][/size][/color]
[size=11pt][font=Times New Roman][color=#000000]2、[/color][/font][/size][font=宋体][size=11pt][color=#000000]由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛([/color][/size][/font][size=11pt][url=http://www.genecool.com/bbs][font=Times New Roman][color=#800080]www.genecool.com/bbs[/color][/font][/url][/size][font=宋体][size=11pt][color=#000000])本篇对应的专题跟贴指出或[/color][/size][/font][size=11pt][font=Times New Roman][color=#000000]Email [/color][/font][email=genecool@126.com][font=Times New Roman][color=#0000ff]genecool@126.com[/color][/font][/email][/size][color=#000000][font=宋体][size=11pt]。[/size][/font][size=11pt][/size][/color]
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
[color=#000000][b][font=宋体][size=11pt]致谢:[/size][/font][/b][b][size=11pt][/size][/b][/color]
[color=#000000][font=宋体][size=11pt]整编者:[/size][/font][size=11pt][font=Times New Roman]flashhyh[/font][/size][/color]go.p$p j5\s(X3q(k
[color=#000000][font=宋体][size=11pt]主要参考资料:《生物信息学札记》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]樊龙江;《实用生物信息学技术》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]罗静初;《多序列比对与[/size][/font][size=11pt][font=Times New Roman]Clustal[/font][/size][font=宋体][size=11pt]的使用[/size][/font][size=11pt][font=Times New Roman]-ppt[/font][/size][font=宋体][size=11pt]》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]中山大学生科院;《序列比较的生物学基础》;《生物序列的相似性搜索及[/size][/font][size=11pt][font=Times New Roman]Blast[/font][/size][font=宋体][size=11pt]的应用[/size][/font][size=11pt][font=Times New Roman]-ppt[/font][/size][font=宋体][size=11pt]》;《序列相似性的概念》;《[/size][/font][size=11pt][font=Times New Roman]Blast[/font][/size][font=宋体][size=11pt]工具的介绍和并行优化》[/size][/font][size=11pt][/size][/color]?-s(XN1M [ B6ZBr%v
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
Ld6M _+^ep }
[[i] 本帖最后由 nano 于 08-9-14 09:07 编辑 [/i]]
序列比对的进化基础
[align=center][color=#000000][b][font=宋体][size=16pt]序列比对的进化基础[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]SE r @~'\$P[color=#000000][font=宋体][size=11pt] 在生物学的研究中[/size][/font][font=宋体][size=11pt],[/size][/font][font=宋体][size=11pt]有一个常用的方法[/size][/font][font=宋体][size=11pt],[/size][/font][font=宋体][size=11pt]就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了[/size][/font][size=11pt][font=Times New Roman]galapagos finches[/font][/size][font=宋体][size=11pt]同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
[color=#000000][font=宋体][size=11pt] 序列分析最常用的比较方法就是序列比对,它为两个或多个序列残基之间的相互关系提供了一个非常明确的图谱。七十年代以来,[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。[/size][/font][size=11pt][/size][/color]ba9|0_Y3z t/Q0}
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
[color=#000000][b][font=宋体][size=11pt]序列比对的进化基础[/size][/font][/b][b][size=11pt][/size][/b][/color]
[color=#000000][font=宋体][size=11pt] 进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念:[b]相似性[/b]是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量;而[b]同源性[/b]是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。[/size][/font][font=宋体][size=11pt][/size][/font][/color]X2uxX#_Ya-U(V
[color=#000000][b][font=宋体][size=11pt] 分子进化的模型:[/size][/font][/b][font=宋体][size=11pt]由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt],我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
[color=#000000][b][font=宋体][size=11pt] 序列保守性:[/size][/font][/b][font=宋体][size=11pt]在残基[/size][/font][font=宋体][size=11pt]-[/size][/font][font=宋体][size=11pt]残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。处于活性位点的残基一般都极为保守的,比如形成二硫键的半胱氨酸、参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映。比如,[/size][/font][size=11pt][font=Times New Roman]mouse[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]rat[/font][/size][font=宋体][size=11pt]的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,序列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。[/size][/font][font=宋体][size=11pt][/size][/font][/color]5B0c]'Iq_OD`N
[color=#000000][b][font=宋体][size=11pt] 结论需通过实验验证:[/size][/font][/b][font=宋体][size=11pt]当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能。但是,这个推断在成为结论之前必须经过实验的验证。当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
[color=#000000][b][font=宋体][size=11pt] 蛋白质的模块性质[/size][/font][/b][b][size=11pt][/size][/b][/color]?){1r%x%z M6~;@
[color=#000000][font=宋体][size=11pt] 早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对就是对序列进行全程扫描,进行比较。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,因为所有的同源序列尚未经过实质上的变化。[/size][/font][size=11pt][/size][/color]
[color=#000000][b][font=宋体][size=11pt] 局部比对:[/size][/font][/b][font=宋体][size=11pt]许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。这些组分可以以不同顺序反复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的外显子[/size][/font][size=11pt][font=Times New Roman]/[/font][/size][font=宋体][size=11pt]内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的。因此,操作者应该明白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的[/size][/font][size=11pt][font=Times New Roman]mRNA[/font][/size][font=宋体][size=11pt]和它的基因序列时,每个外显子都应该进行局部比对。[/size][/font][size=11pt][/size][/color]Y'Z3kx/U,^
[color=#000000][b][font=宋体][size=11pt] 点阵描述[/size][/font][/b][font=宋体][size=11pt]:点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂关系,其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中,序列相似性高于其它一些隔绝的区域(或者由[/size][/font][size=11pt][font=Times New Roman]DOTTER[/font][/size][font=宋体][size=11pt]程序定义的隔绝区域,由不同的灰色阴影标记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置同已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结构域的出现方式。[/size][/font][size=11pt][/size][/color]
[color=#000000][b][font=宋体][size=11pt] 路径图:[/size][/font][/b][font=宋体][size=11pt]在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息进行推理,另外一个图形描述方法即路径图提供了更直接明了的比较结果――路径图。要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点阵中表示残基本身相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空位,全图对应了所有可能的比对中必须审视的搜索空间,这个空间中每条可能的路径都对应于一种比对。[/size][/font][/color]
序列比对的相关算法
**** Hidden Message *****$@_;\^"@/Fuw&y~wi
[[i] 本帖最后由 nano 于 08-9-13 08:04 编辑 [/i]]
比对的统计学显著性
[align=center][color=#000000][b][font=宋体][size=16pt]比对的统计学显著性[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]d#@g:v]u**** Hidden Message *****