基因酷 基因库 Genecool's Archiver

设为首页  |   收藏基因酷  |   推荐给好友  |   站点导航
首页  •   基因酷商务平台  •   科研网址导航  •   科研工具条  •   资源保藏中心  •   质粒图谱信息  •   网游在线交易  •   生物QQ群组

flashhyh 发表于 07-9-2 21:47

序列比对及数据库搜索

[align=center][color=#000000][b][font=宋体][size=22pt]序列比对及数据库搜索[/size][/font][/b][b][size=22pt][/size][/b][/color][/align]'k q(n&p I` I
[color=#000000][font=宋体][size=11pt][/size][/font][/color]
/UU\D tt7II~%}JR [color=#000000][font=宋体][size=11pt][b]主要内容:
fv'IseS [/b][font=宋体][size=11pt]1、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33595][color=#800080]序列比对的进化基础[/color][/url][/size][/font]
x.n'W5hEG2m [font=宋体][size=11pt]2、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33597][color=#800080]序列比对的相关算法[/color][/url][/size][/font]@-Qui%J*w
[font=宋体][size=11pt]3、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33598][color=#800080]比对的统计学显著性[/color][/url][/size][/font],?Mi*by.Gk
[font=宋体][size=11pt]4、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33599][color=#800080]序列比对搜索及其难点与评估[/color][/url][/size][/font]
Z#Q^1c*{|)w#pF2g [font=宋体][size=11pt]5、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33601][color=#800080]BLAST程序简介[/color][/url][/size][/font]}a jS c[ a
[font=宋体][size=11pt]6、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33602][color=#800080]BLAST程序使用及其相似性搜索的序列格式[/color][/url][/size][/font]pgS&v2o#f
[font=宋体][size=11pt]7、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33603][color=#800080]在线BLAST的使用方法(图例指引)[/color][/url][/size][/font](y,J zu(\l Vg~-i:U
[font=宋体][size=11pt]8、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33604][color=#800080]单机版Blast的安装使用[/color][/url][/size][/font] O;mU&d"_ A-s
[font=宋体][size=11pt]9、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=1#pid33605][color=#800080]其他的序列相似性搜索工具FASTA[/color][/url][/size][/font]E8bc`#Z
[font=宋体][size=11pt]10、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33606][color=#0000ff]多序列比对简介[/color][/url][/size][/font]
v2d;XHp,dOO#N [font=宋体][size=11pt]11、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33608][color=#0000ff]多序列比对工具Clustal的应用及使用图解[/color][/url][/size][/font]q|+d7N }h$g.F
[font=宋体][size=11pt]12、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33609][color=#0000ff]多序列比对的深入[/color][/url][/size][/font]
gf6[1t)g{.Of [font=宋体][size=11pt]13、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33610][color=#0000ff]利用多序列比对构建二次数据库的模型及方法[/color][/url][/size][/font]+c1G+VkP@6[
[font=宋体][size=11pt]14、[url=http://www.genecool.com/bbs/viewthread.php?tid=8888&page=2#pid33611][color=#0000ff]二次数据库搜索实例指引[/color][/url][/size][/font][/size][/font][/color]6]&D4|e1aeg
[color=#000000][font=宋体][size=11pt][/size][/font][/color]
5gOh,e!UG e&?#L1_Q [color=#000000][font=宋体][size=11pt][b]声明:[/b][/size][/font][size=11pt][/size][/color]
z'CZ6\LD#r5T B z:V [size=11pt][font=Times New Roman][color=#000000]1、[/color][/font][/size][font=宋体][size=11pt][color=#000000]本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于[/color][/size][/font][size=11pt][url=http://www.genecool.com/][font=宋体][color=#800080]基因酷[/color][/font][/url][/size][font=宋体][size=11pt][color=#000000]及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请[/color][/size][/font][size=11pt][font=Times New Roman][color=#000000]Email [/color][/font][email=genecool@126.com][font=Times New Roman][color=#0000ff]genecool@126.com[/color][/font][/email][/size][color=#000000][font=宋体][size=11pt]告知。[/size][/font][size=11pt][/size][/color]
o:j2p#x0w5F%C:l [size=11pt][font=Times New Roman][color=#000000]2、[/color][/font][/size][font=宋体][size=11pt][color=#000000]由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛([/color][/size][/font][size=11pt][url=http://www.genecool.com/bbs][font=Times New Roman][color=#800080]www.genecool.com/bbs[/color][/font][/url][/size][font=宋体][size=11pt][color=#000000])本篇对应的专题跟贴指出或[/color][/size][/font][size=11pt][font=Times New Roman][color=#000000]Email [/color][/font][email=genecool@126.com][font=Times New Roman][color=#0000ff]genecool@126.com[/color][/font][/email][/size][color=#000000][font=宋体][size=11pt]。[/size][/font][size=11pt][/size][/color]
!ze.q6Y5r [color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
dim"vS3[n3Q r8q [ [color=#000000][b][font=宋体][size=11pt]致谢:[/size][/font][/b][b][size=11pt][/size][/b][/color]
1c1t b'i)X"Le [color=#000000][font=宋体][size=11pt]整编者:[/size][/font][size=11pt][font=Times New Roman]flashhyh[/font][/size][/color] go.p$p j5\ s(X3q(k
[color=#000000][font=宋体][size=11pt]主要参考资料:《生物信息学札记》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]樊龙江;《实用生物信息学技术》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]罗静初;《多序列比对与[/size][/font][size=11pt][font=Times New Roman]Clustal[/font][/size][font=宋体][size=11pt]的使用[/size][/font][size=11pt][font=Times New Roman]-ppt[/font][/size][font=宋体][size=11pt]》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]中山大学生科院;《序列比较的生物学基础》;《生物序列的相似性搜索及[/size][/font][size=11pt][font=Times New Roman]Blast[/font][/size][font=宋体][size=11pt]的应用[/size][/font][size=11pt][font=Times New Roman]-ppt[/font][/size][font=宋体][size=11pt]》;《序列相似性的概念》;《[/size][/font][size=11pt][font=Times New Roman]Blast[/font][/size][font=宋体][size=11pt]工具的介绍和并行优化》[/size][/font][size=11pt][/size][/color]?-s(XN1M [ B6ZBr%v
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
{5`w `~P Ld6M _+^ep}
[[i] 本帖最后由 nano 于 08-9-14 09:07 编辑 [/i]]

flashhyh 发表于 07-9-2 21:48

序列比对的进化基础

[align=center][color=#000000][b][font=宋体][size=16pt]序列比对的进化基础[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]SE r @~'\$P
[color=#000000][font=宋体][size=11pt]    在生物学的研究中[/size][/font][font=宋体][size=11pt],[/size][/font][font=宋体][size=11pt]有一个常用的方法[/size][/font][font=宋体][size=11pt],[/size][/font][font=宋体][size=11pt]就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了[/size][/font][size=11pt][font=Times New Roman]galapagos finches[/font][/size][font=宋体][size=11pt]同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
r@"t.m)pd#{IsX [color=#000000][font=宋体][size=11pt]    序列分析最常用的比较方法就是序列比对,它为两个或多个序列残基之间的相互关系提供了一个非常明确的图谱。七十年代以来,[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。[/size][/font][size=11pt][/size][/color]ba9|0_Y3z t/Q0}
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
.Gl"E!Ga-`:Ogv [color=#000000][b][font=宋体][size=11pt]序列比对的进化基础[/size][/font][/b][b][size=11pt][/size][/b][/color]
w{}1QN'gg [color=#000000][font=宋体][size=11pt]    进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念:[b]相似性[/b]是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量;而[b]同源性[/b]是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。[/size][/font][font=宋体][size=11pt][/size][/font][/color] X2uxX#_Ya-U(V
[color=#000000][b][font=宋体][size=11pt]    分子进化的模型:[/size][/font][/b][font=宋体][size=11pt]由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt],我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
jY1nFM.TC&A9^ [color=#000000][b][font=宋体][size=11pt]    序列保守性:[/size][/font][/b][font=宋体][size=11pt]在残基[/size][/font][font=宋体][size=11pt]-[/size][/font][font=宋体][size=11pt]残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。处于活性位点的残基一般都极为保守的,比如形成二硫键的半胱氨酸、参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映。比如,[/size][/font][size=11pt][font=Times New Roman]mouse[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]rat[/font][/size][font=宋体][size=11pt]的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,序列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。[/size][/font][font=宋体][size=11pt][/size][/font][/color]5B0c]'Iq_OD`N
[color=#000000][b][font=宋体][size=11pt]    结论需通过实验验证:[/size][/font][/b][font=宋体][size=11pt]当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能。但是,这个推断在成为结论之前必须经过实验的验证。当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
D2q NJ{u'M8zAD [color=#000000][b][font=宋体][size=11pt]    蛋白质的模块性质[/size][/font][/b][b][size=11pt][/size][/b][/color] ?){1r%x%z M6~;@
[color=#000000][font=宋体][size=11pt]    早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对就是对序列进行全程扫描,进行比较。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,因为所有的同源序列尚未经过实质上的变化。[/size][/font][size=11pt][/size][/color]
;bS)q!pgs [color=#000000][b][font=宋体][size=11pt]    局部比对:[/size][/font][/b][font=宋体][size=11pt]许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。这些组分可以以不同顺序反复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的外显子[/size][/font][size=11pt][font=Times New Roman]/[/font][/size][font=宋体][size=11pt]内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的。因此,操作者应该明白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的[/size][/font][size=11pt][font=Times New Roman]mRNA[/font][/size][font=宋体][size=11pt]和它的基因序列时,每个外显子都应该进行局部比对。[/size][/font][size=11pt][/size][/color]Y'Z3kx/U,^
[color=#000000][b][font=宋体][size=11pt]    点阵描述[/size][/font][/b][font=宋体][size=11pt]:点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂关系,其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同,则在这个位置上打上标记点,每个点通常都表示在一些小窗口中,序列相似性高于其它一些隔绝的区域(或者由[/size][/font][size=11pt][font=Times New Roman]DOTTER[/font][/size][font=宋体][size=11pt]程序定义的隔绝区域,由不同的灰色阴影标记)。如果两个序列在一段区域内很相似,标记点将会连成一条斜线段,将这些线段的位置同已知的组成结构相比较是很有价值的,特别是要注意连续反复出现的结构域的出现方式。[/size][/font][size=11pt][/size][/color]
^[ z\-BFE7o(M [color=#000000][b][font=宋体][size=11pt]    路径图:[/size][/font][/b][font=宋体][size=11pt]在点阵描述方法中,某些形式的点可能会勾勒出一定的路径,但这需要操作者通过这些信息进行推理,另外一个图形描述方法即路径图提供了更直接明了的比较结果――路径图。要理解路径图,先想象一个二维格子,顶点表示序列残基之间的点(与点阵中表示残基本身相反),沿线段上连接两个顶点的边缘对应两个序列上匹配的残基,水平和竖直线段的边缘对应一个序列拥有而另一个序列上没有的残基,换句话说,这些边缘平台组成了比对中的空位,全图对应了所有可能的比对中必须审视的搜索空间,这个空间中每条可能的路径都对应于一种比对。[/size][/font][/color]

flashhyh 发表于 07-9-2 21:50

序列比对的相关算法

**** Hidden Message *****$@_;\^"@/F
uw&y~wi
[[i] 本帖最后由 nano 于 08-9-13 08:04 编辑 [/i]]

flashhyh 发表于 07-9-2 21:52

比对的统计学显著性

[align=center][color=#000000][b][font=宋体][size=16pt]比对的统计学显著性[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]d#@g:v]u
**** Hidden Message *****
|BP(E,I$g:xM
"J?]'a2^wBg2`f4t [[i] 本帖最后由 nano 于 08-9-13 08:04 编辑 [/i]]

flashhyh 发表于 07-9-2 21:54

序列比对搜索及其难点与评估

[align=center][color=#000000][b][font=宋体][size=16pt]序列比对搜索及其难点与评估[/size][/font][/b][size=16pt][/size][/color][/align]5M0U5y0G Z8\C
[hide][color=#000000][b][font=宋体][size=12pt]新序列的相似性搜索[/size][/font][/b][b][size=12pt][/size][/b][/color]c~&b]P%l1RV%kyH
[color=#000000][font=宋体][size=11pt]    对于一个新发现的序列,我们无法得知用什么序列同它进行比对,数据库相似性搜索使我们能够从数据库中存在的数十万个序列中挑选出可能同感兴趣的序列有关联的序列,这个方法有时会导致意想不到的收获。用这种策略获得成功的第一个例子是人们因此发现病毒肿瘤基因[/size][/font][size=11pt][font=Times New Roman]v-sis[/font][/size][font=宋体][size=11pt]是细胞中编码血小板派生生长因子的基因的一个变体形式。那个时候,序列数据库还不大,因此这个发现足以另人感到万分惊奇。然而今天如果进行数据库搜索并且一无所获的话,那就更另人感到费解了。如同其它几个小的物种基因组一样,酵母[/size][/font][size=11pt][font=Times New Roman]saccharomyces cerevisiae[/font][/size][font=宋体][size=11pt]的基因组全序列已经被测定出来;脊椎动物中,大量的部分基因诸如人类和老鼠的基因都已经被测定并存入基因库([/size][/font][size=11pt][font=Times New Roman]genebank[/font][/size][font=宋体][size=11pt])中,这也导致了表达序列标签([/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt])工程。[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]片段的主要用途是在数据库搜索中,用[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]片段进行[/size][/font][size=11pt][font=Times New Roman]cDNA[/font][/size][font=宋体][size=11pt]克隆可以分离出感兴趣的基因,包括其它模型生物中的同源基因。[/size][/font][size=11pt][/size][/color]
6~$KgR1hU jw [color=#000000][b][font=宋体][size=11pt]    搜索方法及程序[/size][/font][/b][b][font=宋体][size=11pt][/size][/font][/b][/color]G$M s#fT~!]2~
[color=#000000][font=宋体][size=11pt]    在数据库搜索中,基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列好的[/size][/font][size=11pt][font=Times New Roman]hit list[/font][/size][font=宋体][size=11pt],后面是一系列的单独的比对情况,以及不同的分值和统计值。如今的序列数据库非常之大,并且正以爆炸式的速度不断增长,在这种条件下,利用动态程序的方法直接进行数据库搜索已经变得不切实际。一个解决方法就是使用大型计算机和相关的特殊硬件,但是我们要讨论的目的是普通计算机能干些什么。当最佳方法不可行时,我们必须求助于那些启发式方法,这些方法充分利用了近似值以加快序列比较,但同时会在错过正确比对这一方面冒一点险。[/size][/font][size=11pt][/size][/color]
8f6zz#P R)WC3_5au ~ [color=#000000][font=宋体][size=11pt]    有一种启发式方法建立在这样的策略之上,它将序列分解成由连续字母组成的短串(称为字串)。基于字的方法,在八十年代早期由[/size][/font][size=11pt][font=Times New Roman]Wilbur[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]Lipman[/font][/size][font=宋体][size=11pt]提出,并且广泛使用于今天的搜索程序之中。其基本思想是这样的,一个能够揭示出正确的序列关系的比对至少包含一个两个序列都拥有的字串,把查询序列中的所有字串编成索引,并且在数据库扫描中查询这些索引,这些击中的字串就会很快被鉴定出来。[/size][/font][size=11pt][/size][/color]
Z D ~vva:FD5q [color=#000000][font=宋体][size=11pt]目前主要的序列比对、搜索程序有[/size][/font][size=11pt][font=Times New Roman]FASTA[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]BLAST[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]CLUSTAL[/font][/size][font=宋体][size=11pt]等三种。[/size][/font][size=11pt][/size][/color]
:Z5tI~$bl+Z [size=11pt][font=Times New Roman][color=#000000][/color][/font][/size]p.nB*R1v%H
[color=#000000][b][font=宋体][size=12pt]序列比对搜索的难点与评估[/size][/font][/b][b][size=12pt][/size][/b][/color]
4I exa9A6id [color=#000000][b][font=宋体][size=11pt]    低复杂度区域与[/size][/font][/b][b][font=宋体][size=11pt][font=Times New Roman]SEG[/font][/size][/font][/b][b][font=宋体][size=11pt]程序[/size][/font][/b][b][font=宋体][size=11pt]:[/size][/font][/b][b][size=11pt][/size][/b][/color]d%F@[D
[color=#000000][font=宋体][size=11pt]    不管是蛋白还是核酸都包含一些偏颇的区域,在进行序列数据库搜索时这些区域可能会导致一些令人迷惑的结果。这些低复杂度区域([/size][/font][size=11pt][font=Times New Roman]LCRs[/font][/size][font=宋体][size=11pt])在从明显的同性聚合顺串和短周期重复到更精细的情况(如其中某些或一些残基过多表现)的范围内变化。一个称为[/size][/font][size=11pt][font=Times New Roman]SEG[/font][/size][font=宋体][size=11pt]的程序发展起来,目的是要把一个蛋白质序列分解为低复杂度和高复杂度组成的各个片段。这个程序的结果表明数据库中的蛋白质有一半以上拥有至少一个[/size][/font][size=11pt][font=Times New Roman]LCR[/font][/size][font=宋体][size=11pt]。[/size][/font][size=11pt][font=Times New Roman]LCRs[/font][/size][font=宋体][size=11pt]的进化、功能和结构性质并没有被很好地了解。在[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]中,有许多种简单的重复,其中一些已经知道是高度多样性的,并且在作基因图谱时经常使用的。它们源起的机制可能是聚合酶滑动、偏颇核苷酸取代或者不等交换。[/size][/font][size=11pt][font=Times New Roman]LCRs[/font][/size][font=宋体][size=11pt]更偏好于在结构上以非球形区域的形式存在,那些在物理化学上已经被定义为非球形的区域通常可以在使用[/size][/font][size=11pt][font=Times New Roman]SEG[/font][/size][font=宋体][size=11pt]程序时获得较好的结果[/size][/font][font=宋体][size=11pt]。[/size][/font][b][size=11pt][/size][/b][/color]
&},|[#q.C [color=#000000][font=宋体][size=11pt]    对于包含[/size][/font][size=11pt][font=Times New Roman]LCR[/font][/size][font=宋体][size=11pt]的序列进行比对是成问题的,因为这些序列不符合残基[/size][/font][size=11pt][font=Times New Roman]-[/font][/size][font=宋体][size=11pt]残基序列守恒的模型。有些时候,与功能相关的属性可能仅仅是周期性或组成结构,而不是任何特异的序列。而且,对比对作统计学显著性分析的方法是建立在一定的随机概念基础上的,[/size][/font][size=11pt][font=Times New Roman]LCR[/font][/size][font=宋体][size=11pt]显然不符合这一条件,因此,对于一个包含[/size][/font][size=11pt][font=Times New Roman]LCR[/font][/size][font=宋体][size=11pt]的查询序列,在进行数据库搜索的输出里会发现很多不正确的条目,因为这些匹配的显著性被过高评价了。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
(d&{!h"S/^ I4H4a [color=#000000][font=宋体][size=11pt]    这个问题大体上可以通过过滤(或者叫屏蔽)解决,操作是这样的,把有问题的子序列转化为不明确的字符(蛋白质用[/size][/font][size=11pt][font=Times New Roman]X[/font][/size][font=宋体][size=11pt],核酸序列用[/size][/font][size=11pt][font=Times New Roman]N[/font][/size][font=宋体][size=11pt]),这样它们就不会对比对贡献正分了。[/size][/font][b][size=11pt][/size][/b][/color]Hs\)h4e%lv+z
[color=#000000][b][font=宋体][size=11pt]    重复元件与暖序列[/size][/font][/b][b][font=宋体][size=11pt]:[/size][/font][/b][font=宋体][size=11pt]如果查询中包括一个重复元件的序列[/size][/font][font=宋体][size=11pt],[/size][/font][font=宋体][size=11pt]比如说一个[/size][/font][size=11pt][font=Times New Roman]Alu[/font][/size][font=宋体][size=11pt]重复[/size][/font][font=宋体][size=11pt],[/size][/font][font=宋体][size=11pt]可能会出现许多错误的和令人费解的结果。虽然在蛋白质[/size][/font][font=宋体][size=11pt]-[/size][/font][font=宋体][size=11pt]蛋白质搜索中,这一般不会成为什么大问题,但是在包含[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]序列任何比较中,都必须对此引起必要的重视。基因组序列可能会包含大量分散的重复序列,特别是一些多基因族(例如[/size][/font][size=11pt][font=Times New Roman]Alus, LINEs[/font][/size][font=宋体][size=11pt]和人的序列中的[/size][/font][size=11pt][font=Times New Roman]MERs[/font][/size][font=宋体][size=11pt]),甚至[/size][/font][size=11pt][font=Times New Roman]mRNA[/font][/size][font=宋体][size=11pt]序列中也可能含有重复序列,几乎都是信息的非翻译区。因此,重复元件在数据库序列中非常普遍,如果查询序列中也有这些重复,就会在比对中出现大量不正确的正分。虽然重复元件显示了大量不同成分,仍然有足够的相似性使比对具有一定的高显著性。虽然比对会跨越这些重复而不是侧面的单一序列,但是直接从数据库搜索的输出结果观察,这并不是显而易见的。[/size][/font][b][size=11pt][/size][/b][/color]
U"P"w+@K j [color=#000000][size=11pt][font=Times New Roman]        GenBank[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]Swiss-Prot[/font][/size][font=宋体][size=11pt]数据库中都包含一些[/size][/font][size=11pt][font=Times New Roman]“[/font][/size][font=宋体][size=11pt]暖序列([/size][/font][size=11pt][font=Times New Roman]warming sequence[/font][/size][font=宋体][size=11pt])[/size][/font][size=11pt][font=Times New Roman]”[/font][/size][font=宋体][size=11pt],这些数据向使用者指出查询中包含重复序列。在[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]中,这些条目表示了人类[/size][/font][size=11pt][font=Times New Roman]Alu[/font][/size][font=宋体][size=11pt]重复的不同亚科的一致序列;在[/size][/font][size=11pt][font=Times New Roman]Swiss-Prot[/font][/size][font=宋体][size=11pt]中的类似条目是[/size][/font][size=11pt][font=Times New Roman]Alu[/font][/size][font=宋体][size=11pt]序列的六种翻译框架(一个接着一个,中间由若干[/size][/font][size=11pt][font=Times New Roman]X[/font][/size][font=宋体][size=11pt]分隔)。在两种情况下,单词[/size][/font][size=11pt][font=Times New Roman]“WARNING”[/font][/size][font=宋体][size=11pt]在定义行中非常显著。暖序列不必出现在命中列表的上方,而且可以有许多包含[/size][/font][size=11pt][font=Times New Roman]Alu[/font][/size][font=宋体][size=11pt]重复的数据库序列同查询序列非常相似,甚至比查询序列同暖序列还相似。[/size][/font][b][size=11pt][/size][/b][/color]+} }Q8~x9n:ksn4i
[color=#000000][font=宋体][size=11pt]    在查询中更直接地检测[/size][/font][size=11pt][font=Times New Roman]Alu[/font][/size][font=宋体][size=11pt]重复是否存在的方法就是在查询前先对[/size][/font][size=11pt][font=Times New Roman]alu[/font][/size][font=宋体][size=11pt]数据库做一次搜索。做完这个搜索以后,包含[/size][/font][size=11pt][font=Times New Roman]alu[/font][/size][font=宋体][size=11pt]的暖序列作为最高分匹配被报告出来。如果查询序列被发现包含重复元件,接下来的行动就是要对这个序列进行编辑改动,把它剔除或者屏蔽掉。在这里一个有用的工具就是[/size][/font][size=11pt][font=Times New Roman]CENSOR[/font][/size][font=宋体][size=11pt],它能够自动检测并且消除重复元件。[/size][/font][b][size=11pt][/size][/b][/color]8{y7c2|#R2W$qY3Mt+J"y
[color=#000000][font=宋体][size=11pt]    为了鉴定这些潜在的搜索成果,学会怎样评估搜索结果非常重要。上述的一些策略只应用于[/size][/font][size=11pt][font=Times New Roman]Alu[/font][/size][font=宋体][size=11pt]反复,它是人类以及其它一些物种中出现频率最高的,但是其它一些反复仍然存在,而且其它物种会显示出完全不同类型的反复元件。现在有一个数据库搜索输出的附加性质,它可以指示出反复元件。例如,注意比对中与[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]序列编码区域相关的位点是非常有益的。如果非编码区域匹配而编码区域不匹配,那么反复序列就很令人怀疑;如果查询序列同大量序列匹配,但是这些序列相互之间没有什么关系,但是比对的分值都很相近,这样的结果就极为可疑。[/size][/font][/color][b][size=11pt][/size][/b]

flashhyh 发表于 07-9-2 22:00

BLAST程序简介

[align=center][color=#000000][b][size=16pt][font=Times New Roman]BLAST[/font][/size][/b][b][font=宋体][size=16pt]程序简介[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]/| Xc6HvEi
**** Hidden Message *****pm8Nn@rVEc

-v-Y(~+?"NW*F [[i] 本帖最后由 nano 于 08-9-13 08:05 编辑 [/i]]

flashhyh 发表于 07-9-2 22:18

BLAST程序使用及其相似性搜索的序列格式

[align=center][color=#000000][b][size=16pt][font=Times New Roman]BLAST[/font][/size][/b][b][font=宋体][size=16pt]程序使用及其相似性[/size][/font][/b][b][font=宋体][size=16pt]搜索的序列格式[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]hJ6l_e/X&G
**** Hidden Message *****
*H i}9]9OW$kjZ4R"h!e
#A l6{R,K!f7|3W [[i] 本帖最后由 nano 于 08-9-13 08:06 编辑 [/i]]

flashhyh 发表于 07-9-2 22:32

在线BLAST的使用方法(图例指引)

[align=center][color=#000000][b][font=宋体][size=16pt]在线[/size][/font][/b][b][font=宋体][size=16pt][font=Times New Roman]BLAST[/font][/size][/font][/b][b][font=宋体][size=16pt]的使用方法(图例指引)[/size][/font][/b][b][font=宋体][size=16pt][/size][/font][/b][/color][/align]h#Bx!XT%a }2r&s{
**** Hidden Message *****
)H{9vo3W^ iDJ )Lc\.|b}#J7D;@
[[i] 本帖最后由 nano 于 08-9-13 08:06 编辑 [/i]]

flashhyh 发表于 07-9-2 22:39

单机版Blast的安装使用

[align=center][color=#000000][b][font=宋体][size=16pt]单机版[/size][/font][/b][b][font=宋体][size=16pt][font=Times New Roman]Blast[/font][/size][/font][/b][b][font=宋体][size=16pt]的安装使用[/size][/font][/b][b][font=宋体][size=16pt][/size][/font][/b][/color][/align]
y8x5t s2^ **** Hidden Message *****,A/I'jB,d7ID

?h}QN$c'_ [[i] 本帖最后由 nano 于 08-9-13 08:06 编辑 [/i]]

flashhyh 发表于 07-9-2 22:41

其他的序列相似性搜索工具FASTA

[align=center][color=#000000][b][font=宋体][size=16pt]其他的序列相似性搜索工具[/size][/font][/b][size=16pt][font=Times New Roman]FASTA[/font][/size][/color][/align]o3H7ze;u~&D{
[color=#000000][size=11pt][font=Times New Roman]        **** Hidden Message *****
"uz6P Z+Y(t4N
WsZp~#fK [[i] 本帖最后由 nano 于 08-9-13 08:07 编辑 [/i]]

flashhyh 发表于 07-9-2 22:43

多序列比对简介

[align=center][color=#000000][b][font=宋体][size=16pt]多序列比对简介[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]+G#L,P0U'V
**** Hidden Message *****4g/jz'bKFF q
[$r6p \dF,T3E)J S
[[i] 本帖最后由 nano 于 08-9-13 08:07 编辑 [/i]]

flashhyh 发表于 07-9-2 22:59

多序列比对工具Clustal的应用及使用图解

[align=center][color=#000000][b][font=宋体][size=16pt]多序列比对工具[/size][/font][/b][b][font=宋体][size=16pt][font=Times New Roman]Clustal[/font][/size][/font][/b][b][font=宋体][size=16pt]的应用及使用图解[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]3W*\2Q0n"t!{%b9n Q
**** Hidden Message *****B"UW[*}(|%U

M)rNl F.N~I'_ [[i] 本帖最后由 nano 于 08-9-13 08:08 编辑 [/i]]

flashhyh 发表于 07-9-2 23:08

多序列比对的深入

[align=center][color=#000000][b][font=宋体][size=16pt]多序列比对的深入[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]
@l(l0N.j [color=#000000][b][font=宋体][size=11pt]多序列比对的描述定义[/size][/font][/b][b][font=宋体][size=11pt][/size][/font][/b][/color]
tjlS[UW **** Hidden Message *****
X#HJ b(]h U+x.N}l U/kIv8j R
[[i] 本帖最后由 nano 于 08-9-13 08:08 编辑 [/i]]

flashhyh 发表于 07-9-2 23:13

利用多序列比对构建二次数据库的模型及方法

[align=center][color=#000000][b][font=宋体][size=16pt]利用多序列比对构建二次数据库的模型及方法[/size][/font][/b][b][font=宋体][size=16pt][/size][/font][/b][/color][/align]3Xj.Ix-Ty {
[color=#000000][b][font=宋体][size=12pt]二次数据库搜索的意义[/size][/font][/b][b][size=12pt][/size][/b][/color]
Vx.r;S;V c A(j **** Hidden Message *****y"M6@ LV?E`,q

R"Y| n9I9\6yO [[i] 本帖最后由 nano 于 08-9-13 08:09 编辑 [/i]]

flashhyh 发表于 07-9-2 23:17

二次数据库搜索实例指引

[align=center][color=#000000][b][font=宋体][size=16pt]二次数据库搜索实例指引[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]5g9kw2Bs? p(~:I
**** Hidden Message *****0[Ye.K&t:~MgK
6QCn(@j9p)[&W+@'g
[[i] 本帖最后由 nano 于 08-9-13 08:09 编辑 [/i]]

wenjingwang 发表于 07-11-14 17:54

谢谢楼主,认真学习学习

chillgess 发表于 07-12-15 10:22

谢谢楼主!!!!!!!!!!!!

香菱儿 发表于 08-2-18 20:16

Thanks for sharing!

nanyijmz 发表于 08-3-27 09:11

太感谢了,正好要用

cowboy1106 发表于 08-4-3 10:44

:excellent: :excellent: :excellent:

页: [1] 2

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.