基因酷 基因库 Genecool's Archiver

设为首页  |   收藏基因酷  |   推荐给好友  |   站点导航
首页  •   基因酷商务平台  •   科研网址导航  •   科研工具条  •   资源保藏中心  •   质粒图谱信息  •   网游在线交易  •   生物QQ群组

flashhyh 发表于 07-9-2 16:05

生物信息学数据库及查询

[align=center][color=#000000][b][font=宋体][size=22pt]生物信息学数据库及查询[/size][/font][/b][b][size=22pt][/size][/b][/color][/align][b][font=宋体][size=3][/size][/font][/b]
y6Z&\SJ.|-KK g)CB2e [b][font=宋体][size=3]主要内容:
X5a0HO H+v [/size][/font][/b][size=11pt]1、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33538][font=宋体][color=#0000ff]核酸序列数据库概述[/color][/font][/url][/size]
!p+qih$b-s?#J [size=11pt]2、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33539][color=#0000ff][font=Times New Roman]GenBank[/font][font=宋体]数据库概述及子库分类[/font][/color][/url][/size]\-_$Q&S;rw
[size=11pt]3、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33541][color=#0000ff][font=Times New Roman]GenBank[/font][font=宋体]数据库结构[/font][/color][/url][/size]
"~#^"A(Tc [size=11pt]4、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33544][color=#0000ff][font=Times New Roman]GeneBank[/font][font=宋体]([/font][font=Times New Roman]NCBI[/font][font=宋体])服务[/font][font=Times New Roman]/[/font][font=宋体]工具平台之数据检索[/font][/color][/url][/size]/Cbu%^ wB5H%pI
[size=11pt]5、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33545][color=#0000ff][font=Times New Roman]GeneBank[/font][font=宋体]([/font][font=Times New Roman]NCBI[/font][font=宋体])服务[/font][font=Times New Roman]/[/font][font=宋体]工具平台之序列相似搜索[/font][/color][/url][/size]
sjuH ]xM)V [size=11pt]6、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33546][color=#0000ff][font=Times New Roman]GeneBank[/font][font=宋体]([/font][font=Times New Roman]NCBI[/font][font=宋体])服务[/font][font=Times New Roman]/[/font][font=宋体]工具平台之序列分析[/font][/color][/url][/size]4y {,N9G0]r3yqIl:MI[
[size=11pt]7、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33550][color=#0000ff][font=宋体]序列提交-向[/font][font=Times New Roman]GeneBank[/font][font=宋体]提交新序列[/font][/color][/url][/size]
W!Hbsx Fu{0i$WK [size=11pt]8、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33551][color=#0000ff][font=Times New Roman]EMBL[/font][font=宋体]数据库简介[/font][/color][/url][/size]
5\[)d"n\6X*mx/J [size=11pt]9、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=1#pid33552][font=宋体][color=#0000ff]其它常用核酸序列数据库[/color][/font][/url][/size]*OuM"Pq\+l ?,kK
[size=11pt]10、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33553][font=宋体][color=#0000ff]基因组数据库[/color][/font][/url][/size]
I.N$C8ocG.@0} [size=11pt]11、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33555][font=宋体][color=#0000ff]常用蛋白质序列数据库[/color][/font][/url][/size]2t)Q&ml(Ezem
[size=11pt]12、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33557][color=#0000ff][font=Times New Roman]SwissProt[/font][font=宋体]数据库[/font][/color][/url][/size]L:u7M7qi
[size=11pt]13、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33558][color=#0000ff][font=Times New Roman]SwissProt[/font][font=宋体]蛋白质数据库子库[/font][/color][/url][/size]
VhzxUfhK [size=11pt]14、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33559][color=#0000ff][font=Times New Roman]PIR[/font][font=宋体]([/font][font=Times New Roman]PSD[/font][font=宋体])数据库及[/font][font=Times New Roman]PROSITE[/font][font=宋体]数据库[/font][/color][/url][/size]r*K@ k3kc-s
[size=11pt]15、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33561][font=宋体][color=#0000ff]其它蛋白质序列数据库[/color][/font][/url][/size]
K8^0SEp7a B:\:Y [size=11pt]16、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33562][font=宋体][color=#0000ff]蛋白质序列二次数据库[/color][/font][/url][/size]%g Z8mR(J!wQ
[size=11pt]17、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33563][font=宋体][color=#0000ff]蛋白质结构数据库[/color][/font][/url][/size]
h^b-?M [size=11pt]18、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33564][color=#0000ff][font=宋体]数据库查询之[/font][font=Times New Roman]Entrez[/font][font=宋体]查询系统[/font][/color][/url][/size]3z0I(D,}*UgAM
[size=11pt]19、[url=http://www.genecool.com/bbs/viewthread.php?tid=8882&page=2#pid33566][color=#0000ff][font=Times New Roman]SRS[/font][font=宋体]数据库查询系统[/font][/color][/url][/size]YU*qv8a#E
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]
QM]l'Z.v$d [color=#000000][b][font=宋体][size=11pt]声明:[/size][/font][/b][b][size=11pt][/size][/b][/color]3kVA^5q+z k'L
[size=11pt][font=Times New Roman][color=#000000]1、[/color][/font][/size][font=宋体][size=11pt][color=#000000]本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于[/color][/size][/font][size=11pt][url=http://www.genecool.com/][font=宋体][color=#800080]基因酷[/color][/font][/url][/size][font=宋体][size=11pt][color=#000000]及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请[/color][/size][/font][size=11pt][font=Times New Roman][color=#000000]Email [/color][/font][email=genecool@126.com][font=Times New Roman][color=#0000ff]genecool@126.com[/color][/font][/email][/size][color=#000000][font=宋体][size=11pt]告知。[/size][/font][size=11pt][/size][/color]C9M a;^Jj"g
[size=11pt][font=Times New Roman][color=#000000]2、[/color][/font][/size][font=宋体][size=11pt][color=#000000]由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛([/color][/size][/font][size=11pt][url=http://www.genecool.com/bbs][font=Times New Roman][color=#800080]www.genecool.com/bbs[/color][/font][/url][/size][font=宋体][size=11pt][color=#000000])本篇对应的专题跟贴指出或[/color][/size][/font][size=11pt][font=Times New Roman][color=#000000]Email [/color][/font][email=genecool@126.com][font=Times New Roman][color=#0000ff]genecool@126.com[/color][/font][/email][/size][color=#000000][font=宋体][size=11pt]。[/size][/font][size=11pt][/size][/color]y }5Mx8l8o
[color=#000000][b][font=宋体][size=11pt][/size][/font][/b][/color]t)O7j-Z6f m;B5c;u$U"Iw
[color=#000000][b][font=宋体][size=11pt]致谢:[/size][/font][/b][b][size=11pt][/size][/b][/color]
h'Z._;o5R*z e;V$bD7E~ [color=#000000][font=宋体][size=11pt]整编者:[/size][/font][size=11pt][font=Times New Roman]flashhyh[/font][/size][/color]
$rIeT%x.`r-ZB [color=#000000][font=宋体][size=11pt]主要参考资料:《实用生物信息学技术》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]罗静初;《生物信息学札记》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]樊龙江;《生物数据库资源及其应用[/size][/font][size=11pt][font=Times New Roman]-ppt[/font][/size][font=宋体][size=11pt]》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]中山大学生科院;《生物信息学数据库[/size][/font][size=11pt][font=Times New Roman]-ppt[/font][/size][font=宋体][size=11pt]》[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]复旦大学图书馆教研室[/size][/font][size=11pt][/size][/color]
@\;L:yt [b][font=宋体][size=11pt][color=#000000][/color][/size][/font][/b]
3?TS)V @Q%X5u,sX (v%P2LCh:[T
[[i] 本帖最后由 nano 于 08-9-14 09:08 编辑 [/i]]

flashhyh 发表于 07-9-2 16:06

核酸序列数据库概述

[align=center][b][font=宋体][size=16pt][color=#000000]核酸序列数据库概述[/color][/size][/font][/b][/align]YSn-hSr[X
[color=#000000][size=11pt][font=Times New Roman]        [/font][/size][/color]
PDXN;vf&?&Z [color=#000000][size=11pt][font=Times New Roman]        EMBL[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]DDBJ[/font][/size][font=宋体][size=11pt]是国际上三大主要核酸序列数据库。[/size][/font][font=宋体][size=11pt][/size][/font][/color]t1MP/F}H@+z
[color=#000000][size=11pt][font=Times New Roman]        EMBL[/font][/size][font=宋体][size=11pt]是由欧洲分子生物学实验室[/size][/font][size=11pt][font=Times New Roman](European Molecular Biology Laboratory)[/font][/size][font=宋体][size=11pt]于[/size][/font][size=11pt][font=Times New Roman]1982[/font][/size][font=宋体][size=11pt]年创建,其名称也由此而来,目前由欧洲生物信息学研究所负责管理[/size][/font][font=宋体][size=11pt]。[/size][/font][size=11pt][/size][/color]
B^ \3kvT [color=#000000][font=宋体][size=11pt]    美国国家健康研究院[/size][/font][size=11pt][font=Times New Roman](National Institurte of Health[/font][/size][font=宋体][size=11pt],[/size][/font][size=11pt][font=Times New Roman]NIH)[/font][/size][font=宋体][size=11pt]于[/size][/font][size=11pt][font=Times New Roman] 80 [/font][/size][font=宋体][size=11pt]年代初委托洛斯阿拉莫斯[/size][/font][size=11pt][font=Times New Roman](Los Alamos)[/font][/size][font=宋体][size=11pt]国家实验室建立[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt],后移交给国家生物技术信息中心[/size][/font][size=11pt][font=Times New Roman]NCBI[/font][/size][font=宋体][size=11pt],隶属于[/size][/font][size=11pt][font=Times New Roman]NIH[/font][/size][font=宋体][size=11pt]下设的国家医学图书馆[/size][/font][size=11pt][font=Times New Roman](National Library of Medicine[/font][/size][font=宋体][size=11pt],[/size][/font][size=11pt][font=Times New Roman]NLM)[/font][/size][font=宋体][size=11pt]。[/size][/font][font=宋体][size=11pt][/size][/font][/color]
,\$_)r/j4Jm(S [color=#000000][size=11pt][font=Times New Roman]        DDBJ[/font][/size][font=宋体][size=11pt]是[/size][/font][size=11pt][font=Times New Roman]DNA Data Base of Japan [/font][/size][font=宋体][size=11pt]的简称,创建于[/size][/font][size=11pt][font=Times New Roman]1986[/font][/size][font=宋体][size=11pt]年,由日本国家遗传学研究所负责管理。[/size][/font][font=宋体][size=11pt][/size][/font][/color]l X2a5O%v!xn@&I
[color=#000000][size=11pt][font=Times New Roman]        1988[/font][/size][font=宋体][size=11pt]年,[/size][/font][size=11pt][font=Times New Roman]EMBL[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]GenBank [/font][/size][font=宋体][size=11pt]与[/size][/font][size=11pt][font=Times New Roman]DDBJ[/font][/size][font=宋体][size=11pt]共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。[/size][/font][font=宋体][size=11pt][/size][/font][/color]3v#NR`n|
[color=#000000][font=宋体][size=11pt]    鉴于核酸序列数据库规模不断扩大,数据来源种类繁多,特别是大量的基因组序列片段迅速进入数据库,有必要将其分成若干子库,既便于数据库的维护和管理,也便于用户使用。例如,在对数据库进行查询或搜索时,有时不需要进行整库操作,而是将查询和搜索范围限定在一个或几个子库,不仅加快了查找速度,而且可以得到更加明确、可靠的结果。分类的原则:[/size][/font][font=宋体][size=11pt][/size][/font][/color]
tU%D_ g5fW$v [color=#000000][font=宋体][size=11pt]    一是按照种属来源,如哺乳类、啮齿类、病毒等;[/size][/font][font=宋体][size=11pt][/size][/font][/color]
N2x l0sk^H$y&Z&ig \ [color=#000000][font=宋体][size=11pt]    二是根据序列来源,如将专利序列、人工合成序列单独分类;[/size][/font][font=宋体][size=11pt][/size][/font][/color]
'Hpq$fo ^!C+i [color=#000000][font=宋体][size=11pt]    此外,基因组计划测序所得到的序列已经占了数据库总容量的一半以上,而且增长速度远远超过其它各种子库,有必要将其单独分类,包括表达序列标记[/size][/font][size=11pt][font=Times New Roman](Expressed Sequence Tags[/font][/size][font=宋体][size=11pt],简称[/size][/font][size=11pt][font=Times New Roman]EST)[/font][/size][font=宋体][size=11pt]、高通量基因组测序[/size][/font][size=11pt][font=Times New Roman](High Throughput Genomic sequencing[/font][/size][font=宋体][size=11pt],简称[/size][/font][size=11pt][font=Times New Roman]HTG)[/font][/size][font=宋体][size=11pt],序列标签位点[/size][/font][size=11pt][font=Times New Roman](Sqsequence Tag Site[/font][/size][font=宋体][size=11pt],简称[/size][/font][size=11pt][font=Times New Roman] STS)[/font][/size][font=宋体][size=11pt],基因组概览序列[/size][/font][size=11pt][font=Times New Roman](Genome Survey Sequence[/font][/size][font=宋体][size=11pt],简称[/size][/font][size=11pt][font=Times New Roman]GSS)[/font][/size][font=宋体][size=11pt]。其中[/size][/font][size=11pt][font=Times New Roman] EST [/font][/size][font=宋体][size=11pt]序列条目占了整个核酸序列数据库的一半以上。[/size][/font][/color][font=宋体][size=11pt][/size][/font]

flashhyh 发表于 07-9-2 16:07

GenBank数据库概述及子库分类

**** Hidden Message *****9` OGLn_ ^5M
4FeL7[7v*n2bI
[[i] 本帖最后由 nano 于 08-9-13 20:00 编辑 [/i]]

flashhyh 发表于 07-9-2 16:12

GenBank数据库结构

**** Hidden Message *****
D(o4ua%^.Wy
)Y(R AT#_ [[i] 本帖最后由 nano 于 08-9-13 20:01 编辑 [/i]]

flashhyh 发表于 07-9-2 16:14

GeneBank(NCBI)服务/工具平台之数据检索

[align=center][color=#000000][b][size=16pt][font=Times New Roman]GeneBank[/font][/size][/b][b][font=宋体][size=16pt]([/size][/font][/b][b][size=16pt][font=Times New Roman]NCBI[/font][/size][/b][b][font=宋体][size=16pt])服务[/size][/font][/b][b][font=宋体][size=16pt][font=Times New Roman]/[/font][/size][/font][/b][b][font=宋体][size=16pt]工具平台之数据检索[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]~t` w4ra/Hk"SsO
[b][font=宋体][size=11pt][color=#000000][/color][/size][/font][/b]
5E O-S{L!N5M j [b][font=宋体][size=11pt][color=#000000]网址:[/color][/size][/font][/b][size=11pt][url=http://www.ncbi.nlm.nih.gov/][font=Times New Roman][color=#0000ff]http://www.ncbi.nlm.nih.gov/[/color][/font][/url][/size]-?VK3eN/`#yi
[font=Wingdings][size=11pt][color=#000000]Ø[/color][/size][/font][size=11pt][url=http://www.ncbi.nlm.nih.gov/Entrez/][font=Times New Roman][color=#0000ff]Entrez[/color][/font][/url][/size][color=#000000][font=宋体][size=11pt]:[/size][/font][font=宋体][size=11pt]对[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]EMBL[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]DDB[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]PIR-International[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]PRF[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]Swiss-Prot[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]and PDB[/font][/size][font=宋体][size=11pt]数据库中的核酸和蛋白,包括了来自[/size][/font][size=11pt][font=Times New Roman]>70000[/font][/size][font=宋体][size=11pt]个物种的序列序列数据提供整合的访问,同时提供对[/size][/font][size=11pt][font=Times New Roman]3D[/font][/size][font=宋体][size=11pt]蛋白结构,基因组图谱信息和[/size][/font][size=11pt][font=Times New Roman]PubMed MEDLINE[/font][/size][font=宋体][size=11pt]的访问。[/size][/font][size=11pt][font=Times New Roman]Entrez[/font][/size][font=宋体][size=11pt]包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列、结构、及[/size][/font][size=11pt][font=Times New Roman]MEDLINE[/font][/size][font=宋体][size=11pt]记录的表。[/size][/font][size=11pt][font=Times New Roman]Entrez[/font][/size][font=宋体][size=11pt]可以用很广泛的文本方式来搜索,比如作者名字、杂志名字、基因或蛋白名字、物种、唯一的标号(如:[/size][/font][size=11pt][font=Times New Roman]accession number[/font][/size][font=宋体][size=11pt]、序列[/size][/font][size=11pt][font=Times New Roman]ID[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]PubMed ID[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]MEDLINE UID[/font][/size][font=宋体][size=11pt])及其他的术语,可根据被搜索的数据库来确定。使用新的[/size][/font][/color][size=11pt][url=http://www.ncbi.nlm.nih.gov/entrez/query/static/linkoutoverview.html][font=Times New Roman][color=#0000ff]Linkout[/color][/font][/url][/size][color=#000000][font=宋体][size=11pt]服务,外部资源可以被链接到[/size][/font][size=11pt][font=Times New Roman]Entrez[/font][/size][font=宋体][size=11pt]纪录。[/size][/font][size=11pt][/size][/color]KHmTfC6r iHe
[font=Wingdings][size=11pt][color=#000000]Ø[/color][/size][/font][size=11pt][url=http://www.ncbi.nlm.nih.gov/Entrez/batch.html][color=#0000ff][font=宋体]批量[/font][font=Times New Roman]Entrez[/font][/color][/url][/size][color=#000000][font=宋体][size=11pt]:[/size][/font][font=宋体][size=11pt]允许用批量的方式来用[/size][/font][size=11pt][font=Times New Roman]Entrez[/font][/size][font=宋体][size=11pt]检索大量的核酸或蛋白序列,并把他们保存在您计算机的磁盘上,提供如下三种方式:[/size][/font][size=11pt][/size][/color]
/K)V2|,fj[&s%l [font=宋体][size=11pt][font=Times New Roman][color=#000000]1、[/color][/font][/size][/font][color=#000000][font=宋体][size=11pt]输入一个含有[/size][/font][size=11pt][font=Times New Roman]GI[/font][/size][font=宋体][size=11pt]或[/size][/font][size=11pt][font=Times New Roman]accession number[/font][/size][font=宋体][size=11pt]列表的文件;[/size][/font][size=11pt][/size][/color]
:_'[W j B [font=宋体][size=11pt][font=Times New Roman][color=#000000]2、[/color][/font][/size][/font][color=#000000][font=宋体][size=11pt]指定一个物种名字或更高的分类来检索那个类的所有序列;[/size][/font][size=11pt][/size][/color]k5j8P#S ?nw G
[font=宋体][size=11pt][font=Times New Roman][color=#000000]3、[/color][/font][/size][/font][color=#000000][font=宋体][size=11pt]输入一个[/size][/font][size=11pt][font=Times New Roman]Entrez[/font][/size][font=宋体][size=11pt]搜索查询,搜索结果将被直接保存到你的计算机上。[/size][/font][size=11pt][/size][/color]/I Jo-[)ZG%~_
[font=Wingdings][size=11pt][color=#000000]Ø[/color][/size][/font][size=11pt][url=http://www.ncbi.nlm.nih.gov/Genbank/GenBankEmail.html][color=#0000ff][font=宋体]查询[/font][font=Times New Roman]E-Mail[/font][font=宋体]服务器[/font][/color][/url][/size][color=#000000][font=宋体][size=11pt]:[/size][/font][font=宋体][size=11pt]用[/size][/font][size=11pt][font=Times New Roman]Entrez PubMed[/font][/size][font=宋体][size=11pt]查询引擎来检索核酸序列、蛋白序列、三维结构、和[/size][/font][size=11pt][font=Times New Roman]PubMed MEDLINE[/font][/size][font=宋体][size=11pt]纪录。如果要获得帮助文件,给[/size][/font][size=11pt][font=Times New Roman]query@ncbi.nlm.nih.gov[/font][/size][font=宋体][size=11pt]写一封只有内容为[/size][/font][size=11pt][font=Times New Roman] HELP [/font][/size][font=宋体][size=11pt]的[/size][/font][size=11pt][font=Times New Roman]E-Mail[/font][/size][font=宋体][size=11pt]即可。(可批量进行)[/size][/font][size=11pt][/size][/color]
:m4Z)A ~Y [font=Wingdings][size=11pt][color=#000000]Ø[/color][/size][/font][size=11pt][url=http://www.ncbi.nlm.nih.gov/Entrez/Network/nentrez.overview.html][color=#0000ff][font=宋体]网络[/font][font=Times New Roman]Entrez[/font][/color][/url][/size][color=#000000][font=宋体][size=11pt]:[/size][/font][font=宋体][size=11pt]一个[/size][/font][size=11pt][font=Times New Roman]WWW Entrez[/font][/size][font=宋体][size=11pt]基于[/size][/font][size=11pt][font=Times New Roman]TCP/IP[/font][/size][font=宋体][size=11pt]的客户[/size][/font][font=宋体][size=11pt]-[/size][/font][font=宋体][size=11pt]服务器版本。直接通过[/size][/font][size=11pt][font=Times New Roman]Internet[/font][/size][font=宋体][size=11pt]来连接[/size][/font][size=11pt][font=Times New Roman]NCBI [/font][/size][font=宋体][size=11pt]的数据库来检索数据。数据以二进制的方式来传输,减少网络传输的带宽要求。有[/size][/font][size=11pt][font=Times New Roman]PC[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]Mac[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]Unix[/font][/size][font=宋体][size=11pt]等版本的客户软件。[/size][/font][size=11pt][/size][/color]
ge9c+Z-]+e{WZ [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]dbEST,[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]dbGSS[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]dbSTS[/font][/size][font=宋体][size=11pt]搜索页面[/size][/font][font=宋体][size=11pt]:[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman] GSS[/font][/size][font=宋体][size=11pt]、[/size][/font][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]STS[/font][/size][font=宋体][size=11pt]序列可通过两种途径获得,[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt](通过[/size][/font][size=11pt][font=Times New Roman]Entrez[/font][/size][font=宋体][size=11pt])的[/size][/font][size=11pt][font=Times New Roman]EST/GSS/STS[/font][/size][font=宋体][size=11pt]部分;分开的但相关的数据库[/size][/font][size=11pt][font=Times New Roman]dbEST/dbGSS/dbSTS[/font][/size][font=宋体][size=11pt](见数据库一览表)[/size][/font][font=宋体][size=11pt]。两种来源的序列和[/size][/font][size=11pt][font=Times New Roman]accession number[/font][/size][font=宋体][size=11pt]是一致的,但是记录的格式是不一样的:[/size][/font][size=11pt][font=Times New Roman]dbEST/dbGSS/dbSTS[/font][/size][font=宋体][size=11pt]记录包括了一些基于[/size][/font][size=11pt][font=Times New Roman]BLAST[/font][/size][font=宋体][size=11pt]搜索结果增加的注解,包括上至[/size][/font][size=11pt][font=Times New Roman]15[/font][/size][font=宋体][size=11pt]最佳匹配的核酸和蛋白,其还允许用克隆号码来搜索。[/size][/font][size=11pt][/size][/color]
/[L%H4M-w6\.U|A b3[(Fb [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]单篇文章的引用搜索[/size][/font][size=11pt][/size][/color]q D$S,TD&}`D8V
[color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]批量文章的搜索匹配[/size][/font][/color]
%W_@v)_@}'Gi [color=#000000][b][font=宋体][size=11pt][font=Times New Roman][/font][/size][/font][/b][/color]
.^oJ5Tbi [color=#000000][b][font=宋体][size=11pt][font=Times New Roman]NCBI[/font][/size][/font][/b][b][font=宋体][size=11pt]的使用详见:[/size][/font][/b][/color][font=宋体][size=11pt][url=http://www.genecool.com/bbs/thread-8155-1-1.html][font=Times New Roman][color=#800080]http://www.genecool.com/bbs/thread-8155-1-1.html[/color][/font][/url][/size][/font]

flashhyh 发表于 07-9-2 16:16

GeneBank(NCBI)服务/工具平台之序列相似搜索

**** Hidden Message *****
[6O\JF1J$I;^ f
&eIzG{4A5{ [[i] 本帖最后由 nano 于 08-9-13 20:02 编辑 [/i]]

flashhyh 发表于 07-9-2 16:18

GeneBank(NCBI)服务/工具平台之序列分析

**** Hidden Message *****
4?:{ m^_:K'e v:n)vW,{7~"D
[[i] 本帖最后由 nano 于 08-9-13 20:02 编辑 [/i]]

flashhyh 发表于 07-9-2 16:33

序列提交-向GeneBank提交新序列

**** Hidden Message *****4H ]/i~1e*A.r

L7~|mZ#F [[i] 本帖最后由 nano 于 08-9-13 20:03 编辑 [/i]]

flashhyh 发表于 07-9-2 16:38

EMBL数据库简介

**** Hidden Message *****!D`s kA
5~u2L$p/zy
[[i] 本帖最后由 nano 于 08-9-13 20:03 编辑 [/i]]

flashhyh 发表于 07-9-2 16:41

其它常用核酸序列数据库

[align=center][color=#000000][b][font=宋体][size=16pt]其它常用核酸序列数据库[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]
gS r;f'w [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]DDBJ[/font][/size][font=宋体][size=11pt]:[/size][/font][/color][url=http://www.ddbj.nig.ac.jp/][font=Times New Roman][size=3][color=#0000ff]http://www.ddbj.nig.ac.jp/[/color][/size][/font][/url][size=3][color=#000000][font=宋体],[/font][font=Times New Roman]DDBJ[/font][font=宋体]的内容与格式与[/font][font=Times New Roman]GeneBank[/font][font=宋体]基本相同。[/font][size=11pt][/size][/color][/size]uh Aq!X PLlH|w
[color=#000000][font=Wingdings][size=11pt][/size][/font][/color]
Dp3^&R1M6I^? | [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]dbEST[/font][/size][/color]
J)@m2ie{3ES [color=#000000][size=11pt][font=Times New Roman]        dbEST[/font][/size][font=宋体][size=11pt]数据库专门收集[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]数据,该数据库有自己的格式,包括识别符、代码、序列数据以及[/size][/font][size=11pt][font=Times New Roman]dbEST[/font][/size][font=宋体][size=11pt]的注释摘要,也按[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]的种类分成了若干子数据[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]库。[/size][/font][size=11pt][font=Times New Roman]1998[/font][/size][font=宋体][size=11pt]年[/size][/font][size=11pt][font=Times New Roman]5[/font][/size][font=宋体][size=11pt]月[/size][/font][size=11pt][font=Times New Roman]8[/font][/size][font=宋体][size=11pt]日[/size][/font][font=宋体][size=11pt]版的[/size][/font][size=11pt][font=Times New Roman]dbEST[/font][/size][font=宋体][size=11pt]共包括[/size][/font][size=11pt][font=Times New Roman]1.6[/font][/size][font=宋体][size=11pt]ⅹ[/size][/font][size=11pt][font=Times New Roman]106[/font][/size][font=宋体][size=11pt]条[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]。其中有[/size][/font][size=11pt][font=Times New Roman]1[/font][/size][font=宋体][size=11pt]百万条人的[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt],[/size][/font][size=11pt][font=Times New Roman]30[/font][/size][font=宋体][size=11pt]万条小鼠和大鼠的[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]。[/size][/font][size=11pt][/size][/color]!Vyk&O;hidiB'gF
[color=#000000][font=Wingdings][size=11pt][/size][/font][/color]
l`:J+ix0S [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]GSDB[/font][/size][font=宋体][size=11pt]:[/size][/font][/color][url=http://www.ncgr.org/gsdb/][font=Times New Roman][size=3][color=#0000ff]http://www.ncgr.org/gsdb/[/color][/size][/font][/url][size=11pt][/size]
#j$Arpz!FpQ [color=#000000][size=11pt][font=Times New Roman]        GSDB[/font][/size][font=宋体][size=11pt]是基因组序列数据库([/size][/font][size=11pt][font=Times New Roman]Genome Sequence Data Base[/font][/size][font=宋体][size=11pt]),由美国新墨西哥州[/size][/font][size=11pt][font=Times New Roman]Santa Fe[/font][/size][font=宋体][size=11pt]的国家基因组资源中心创建。[/size][/font][size=11pt][font=Times New Roman]GSDB[/font][/size][font=宋体][size=11pt]收集、管理并且发布完整的[/size][/font][size=11pt][font=Times New Roman]DNA[/font][/size][font=宋体][size=11pt]序列及其相关信息,以满足基因组测序中心需要。该数据库采用服务器[/size][/font][size=11pt][font=Times New Roman]-[/font][/size][font=宋体][size=11pt]客户机关系数[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]据库模式,大规模测序机构可以通过计算机网络向服务器提交数据,并在发送之前对数据进行检查,以确保数据的质量。[/size][/font][size=11pt][/size][/color]/j3rr Ci~
[color=#000000][size=11pt][font=Times New Roman]        GSDB[/font][/size][font=宋体][size=11pt]数据库中条目的格式与[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]中的基本一致,主要区别是[/size][/font][size=11pt][font=Times New Roman]GSDB[/font][/size][font=宋体][size=11pt]数据库中增加了[/size][/font][size=11pt][font=Times New Roman]GSDBID[/font][/size][font=宋体][size=11pt]识别符。[/size][/font][size=11pt][/size][/color]cm2T0Z$N(B;~ha
[color=#000000][size=11pt][font=Times New Roman]GSDB[/font][/size][font=宋体][size=11pt]数据库可以通过万维网查询,也可以使用服务器[/size][/font][size=11pt][font=Times New Roman]-[/font][/size][font=宋体][size=11pt]客户机关系数据库方式查询。无论用哪种方法,熟悉数据库结构化查询语言[/size][/font][size=11pt][font=Times New Roman]SQL[/font][/size][font=宋体][size=11pt],对更好地使用[/size][/font][size=11pt][font=Times New Roman]GSDB[/font][/size][font=宋体][size=11pt]数据库会有所帮助。[/size][/font][size=11pt][/size][/color]
,qT5sU*|rv [color=#000000][font=Wingdings][size=11pt][/size][/font][/color]
3g!}t o;_y/G*B"H%y [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]UniGene[/font][/size][font=宋体][size=11pt]:[/size][/font][/color][url=http://www.ncbi.nlm.nih.gov/UniGene/][font=Times New Roman][size=3][color=#0000ff]http://www.ncbi.nlm.nih.gov/UniGene/[/color][/size][/font][/url][size=11pt][/size]
V$`h3jITj1G!X*W [color=#000000][font=宋体][size=11pt]    人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有[/size][/font][size=11pt][font=Times New Roman]30[/font][/size][font=宋体][size=11pt]亿个碱基对,其中大约[/size][/font][size=11pt][font=Times New Roman]3%[/font][/size][font=宋体][size=11pt]可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。[/size][/font][size=11pt][/size][/color]4K.wW}|h#j e$[
[color=#000000][size=11pt][font=Times New Roman]        UniGene [/font][/size][font=宋体][size=11pt]试图通过计算机程序对[/size][/font][size=11pt][font=Times New Roman]GeneBank[/font][/size][font=宋体][size=11pt]中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]序列片段搜集到一起,以便研究基因的转录图[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]谱。[/size][/font][size=11pt][font=Times New Roman]UniGene[/font][/size][font=宋体][size=11pt]除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的[/size][/font][size=11pt][font=Times New Roman]HGI[/font][/size][font=宋体][size=11pt]数据库只包括人的基因。该数据库的标题行[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]([/size][/font][size=11pt][font=Times New Roman]TITLE[/font][/size][font=宋体][size=11pt])给出基因的名称和简单说明,表达部位行([/size][/font][size=11pt][font=Times New Roman]EXPRESS[/font][/size][font=宋体][size=11pt])指出该基因在什么组织中表达以及在基因图谱中的位置等。此外,列出该基因在核酸序[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]列数据库[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]或[/size][/font][size=11pt][font=Times New Roman]EMBL[/font][/size][font=宋体][size=11pt]和蛋白质序列数据库[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]中的编号的超文本链接。[/size][/font][size=11pt][/size][/color]
Q"b^_ Q{e-e$LT'k [color=#000000][size=11pt][font=Times New Roman]        UniGene[/font][/size][font=宋体][size=11pt]中部分条目包括已知基因序列,而有些条目则仅有新测得的[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]序列片段。这就意味着,这些[/size][/font][size=11pt][font=Times New Roman]EST[/font][/size][font=宋体][size=11pt]序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及大规模基因表达分析等研究中,[/size][/font][size=11pt][font=Times New Roman]UniGene[/font][/size][font=宋体][size=11pt]也可以帮助实验设计者选择试剂。[/size][/font][font=宋体][size=11pt][/size][/font][/color]G)X u0I-e"c:F;X
[color=#000000][size=11pt][font=Times New Roman]        UniGene[/font][/size][font=宋体][size=11pt]可以通过[/size][/font][size=11pt][font=Times New Roman]NCBI[/font][/size][font=宋体][size=11pt]或[/size][/font][size=11pt][font=Times New Roman]SRS[/font][/size][font=宋体][size=11pt]系统访问。[/size][/font][/color][size=11pt][/size]

flashhyh 发表于 07-9-2 16:44

基因组数据库

**** Hidden Message *****
s&j;] msH'n$p A1hH-\*Q~ RD O#a
[[i] 本帖最后由 nano 于 08-9-13 20:04 编辑 [/i]]

flashhyh 发表于 07-9-2 16:48

常用蛋白质序列数据库

**** Hidden Message *****
9rr6N,L,`)bf 6s[ \ zf)r z+N
[[i] 本帖最后由 nano 于 08-9-13 20:04 编辑 [/i]]

flashhyh 发表于 07-9-2 16:52

SwissProt数据库

**** Hidden Message *****
/N+w;C4s!WO7E(B hI*pd:q0~O
[[i] 本帖最后由 nano 于 08-9-13 20:05 编辑 [/i]]

flashhyh 发表于 07-9-2 16:57

SwissProt蛋白质数据库子库

**** Hidden Message *****\$Xyw1p

aA;T\8Or-hq(U,K+Us [[i] 本帖最后由 nano 于 08-9-13 20:05 编辑 [/i]]

flashhyh 发表于 07-9-2 17:00

PIR(PSD)数据库及PROSITE数据库

[align=center][color=#000000][b][size=16pt][font=Times New Roman]PIR[/font][/size][/b][b][font=宋体][size=16pt]([/size][/font][/b][b][size=16pt][font=Times New Roman]PSD[/font][/size][/b][b][font=宋体][size=16pt])数据库及[/size][/font][/b][b][size=16pt][font=Times New Roman]PROSITE[/font][/size][/b][b][font=宋体][size=16pt]数据库[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]
cP| we_ [color=#000000][b][size=12pt][font=Times New Roman][/font][/size][/b][/color] 9tB&a x1}Xkx6x
[color=#000000][b][size=12pt][font=Times New Roman]PIR[/font][/size][/b][b][font=宋体][size=12pt]蛋白质序列数据库([/size][/font][/b][b][font=宋体][size=12pt][font=Times New Roman]PSD[/font][/size][/font][/b][b][font=宋体][size=12pt]):[/size][/font][/b][/color][size=11pt][url=http://pir.georgetown.edu/][font=Times New Roman][color=#0000ff]http://pir.georgetown.edu/[/color][/font][/url][/size][b][size=12pt][/size][/b]
6WAm#pJ?| [color=#000000][size=11pt][font=Times New Roman]        PIR[/font][/size][font=宋体][size=11pt]国际蛋白质序列数据库[/size][/font][size=11pt][font=Times New Roman](PSD)[/font][/size][font=宋体][size=11pt]是由蛋白质信息资源[/size][/font][size=11pt][font=Times New Roman](PIR)[/font][/size][font=宋体][size=11pt]、慕尼黑蛋白质序列信息中心[/size][/font][size=11pt][font=Times New Roman](MIPS)[/font][/size][font=宋体][size=11pt]和日本国际蛋白质序列数据库[/size][/font][size=11pt][font=Times New Roman](JIPID)[/font][/size][font=宋体][size=11pt]共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过[/size][/font][size=11pt][font=Times New Roman]142,000[/font][/size][font=宋体][size=11pt]条蛋白质序列[/size][/font][size=11pt][font=Times New Roman]([/font][/size][font=宋体][size=11pt]至[/size][/font][size=11pt][font=Times New Roman]99[/font][/size][font=宋体][size=11pt]年[/size][/font][size=11pt][font=Times New Roman]9[/font][/size][font=宋体][size=11pt]月[/size][/font][size=11pt][font=Times New Roman])[/font][/size][font=宋体][size=11pt],其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过[/size][/font][size=11pt][font=Times New Roman]99%[/font][/size][font=宋体][size=11pt]的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。[/size][/font][size=11pt][font=Times New Roman]PSD[/font][/size][font=宋体][size=11pt]的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。[/size][/font][font=宋体][size=11pt][/size][/font][/color]1So1P`M(x(k
[color=#000000][size=11pt][font=Times New Roman]        PSD[/font][/size][font=宋体][size=11pt]数据库有几个辅助数据库,如基于超家族的非冗余库等。[/size][/font][size=11pt][font=Times New Roman]PIR[/font][/size][font=宋体][size=11pt]提供三类序列搜索服务:[/size][/font][font=宋体][size=11pt][/size][/font][/color]
^Z%]F(f@Q [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]基于文本的交互式检索;[/size][/font][size=11pt][/size][/color]
[3zH9~4Tx5q [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]标准的序列相似性搜索,包括[/size][/font][size=11pt][font=Times New Roman]BLAST[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]FASTA[/font][/size][font=宋体][size=11pt]等;[/size][/font][size=11pt][/size][/color])t!Kzc;t8Vh
[color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索[/size][/font][size=11pt][font=Times New Roman]GeneFIND[/font][/size][font=宋体][size=11pt]等。[/size][/font][/color]
\dW]N@:?fX
V},Y Wp{6L+z [font=宋体][size=11pt][color=#000000]数据库下载地址是:[/color][/size][/font][size=11pt][url=ftp://nbrfa.georgetown.edu/pir/][font=Times New Roman][color=#0000ff]ftp://nbrfa.georgetown.edu/pir/[/color][/font][/url][/size][color=#000000][font=宋体][size=11pt]。[/size][/font][font=宋体][size=11pt][/size][/font][/color]|1]]0~ Z:~*[p'Q8@j[ s
[font=宋体][size=11pt][font=Times New Roman][color=#000000][/color][/font][/size][/font]
l#iPI{dx(x f [color=#000000][b][size=12pt][font=Times New Roman]PROSITE[/font][/size][/b][b][font=宋体][size=12pt]蛋白质序列数据库:[/size][/font][/b][/color][size=11pt][url=http://www.expasy.ch/prosite/][font=Times New Roman][color=#0000ff]http://www.expasy.ch/prosite/[/color][/font][/url][/size][b][size=12pt][/size][/b]
l+~6]+kw [color=#000000][size=11pt][font=Times New Roman]        PROSITE[/font][/size][font=宋体][size=11pt]数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过[/size][/font][size=11pt][font=Times New Roman]PROSITE[/font][/size][font=宋体][size=11pt]的搜索找到隐含的功能[/size][/font][size=11pt][font=Times New Roman]motif[/font][/size][font=宋体][size=11pt],因此是序列分析的有效工具。[/size][/font][font=宋体][size=11pt][/size][/font][/color]^Z sG'h R
[color=#000000][size=11pt][font=Times New Roman]        PROSITE[/font][/size][font=宋体][size=11pt]中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,[/size][/font][size=11pt][font=Times New Roman]PROSITE[/font][/size][font=宋体][size=11pt]还包括由多序列比对构建的[/size][/font][size=11pt][font=Times New Roman]profile[/font][/size][font=宋体][size=11pt],能更敏感地发现序列与[/size][/font][size=11pt][font=Times New Roman]profile[/font][/size][font=宋体][size=11pt]的相似性。[/size][/font][/color]
9]s.{ [w q5u [size=11pt][/size]

flashhyh 发表于 07-9-2 17:03

其它蛋白质序列数据库

[align=center][color=#000000][b][font=宋体][size=16pt]其它蛋白质序列数据库[/size][/font][/b][b][size=16pt][/size][/b][/color][/align]
l/z8F+yEr9?bz(^o [color=#000000][font=宋体][size=11pt][/size][/font][/color]
MI rf!FLc y [color=#000000][font=宋体][size=11pt]上述几个蛋白质序列数据库可称为蛋白质序列一次数据库,或基本数据库。它们各有优缺点:[/size][/font][font=宋体][size=11pt][/size][/font][/color]
7B9K4l!t'R ee [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]NRL3D[/font][/size][font=宋体][size=11pt]包含已知空间结构的序列,但数据量十分有限;[/size][/font][size=11pt][/size][/color]1xCBFkCQ*P8A
[color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]SwissProt[/font][/size][font=宋体][size=11pt]的序列经过严格的审核,注释完善,但数据量较小;[/size][/font][size=11pt][/size][/color]
j6O%wM5C*I]g [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]PIR[/font][/size][font=宋体][size=11pt]数据量较大,但包含未经验证的序列,注释也不完善;[/size][/font][size=11pt][/size][/color]vo l-xp
[color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][size=11pt][font=Times New Roman]TrEMBL[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]GenPept[/font][/size][font=宋体][size=11pt]的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。[/size][/font][size=11pt][/size][/color]#k*?;u$o*j M_&Ta i
[color=#000000][font=宋体][size=11pt]    将上述数据库整合起来,构建复合数据库,或二次数据库,则更利于生物学家的使用。[/size][/font][size=11pt][font=Times New Roman]OWL[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]NRDB[/font][/size][font=宋体][size=11pt]就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据库均是由[/size][/font][size=11pt][font=Times New Roman]GenPept[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]PIR[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]SwissProt[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]NRL3D[/font][/size][font=宋体][size=11pt]等数据库复合而成。[/size][/font][size=11pt][/size][/color][*~W.l%P t
[b][size=11pt][font=Times New Roman][color=#000000][/color][/font][/size][/b]X!jAvtV_
[b][size=11pt][color=#000000][font=Times New Roman]NRDB[/font][/color][/size][/b]
+@TVI:WZ0\+r [color=#000000][size=11pt][font=Times New Roman]        NRDB[/font][/size][font=宋体][size=11pt]是由[/size][/font][size=11pt][font=Times New Roman]NCBI[/font][/size][font=宋体][size=11pt]创建的,是[/size][/font][size=11pt][font=Times New Roman]NCBI[/font][/size][font=宋体][size=11pt]的[/size][/font][size=11pt][font=Times New Roman]BLAST[/font][/size][font=宋体][size=11pt]搜索程序的默认蛋白质序列数据库。该数据库由[/size][/font][size=11pt][font=Times New Roman]GenPept[/font][/size][font=宋体][size=11pt](由[/size][/font][size=11pt][font=Times New Roman]GenBank [/font][/size][font=宋体][size=11pt]编码序列自动翻译而成数据库)、[/size][/font][size=11pt][font=Times New Roman]PDB[/font][/size][font=宋体][size=11pt]序列数据库、[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]数据库、[/size][/font][size=11pt][font=Times New Roman]SPupdate[/font][/size][font=宋体][size=11pt](每周更新的[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]数据库)、[/size][/font][size=11pt][font=Times New Roman]PIR[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman] GenPeptUpdate([/font][/size][font=宋体][size=11pt]每天更新的[/size][/font][size=11pt][font=Times New Roman]GenPept)[/font][/size][font=宋体][size=11pt]数据库复合而成。因此该数据库是一个较完全的,包含最新信息的数据库。该数据库中已将那些与某一序列完全相同的序列信息剔除[/size][/font][size=11pt][font=Times New Roman], [/font][/size][font=宋体][size=11pt]因此不包含重复信息。但严格地说,尽管[/size][/font][size=11pt][font=Times New Roman]NRDB[/font][/size][font=宋体][size=11pt]数据库被称作非冗余数据库,其仍包含冗余信息。此外,由于该数据库是通过简单的比较方法生成的,因此会带来[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]一些问题,例如,一次数据库中的错误序列被引入该数据库。[/size][/font][size=11pt][/size][/color]
Nm4lQ F [b][size=11pt][font=Times New Roman][color=#000000][/color][/font][/size][/b]B c)} g)zDp4],O n \
[b][size=11pt][color=#000000][font=Times New Roman]OWL[/font][/color][/size][/b]9Y(BU3{e9s1S/zv)F
[color=#000000][size=11pt][font=Times New Roman]        OWL[/font][/size][font=宋体][size=11pt]是一个非冗余的蛋白质序列数据库,是由[/size][/font][size=11pt][font=Times New Roman]Leeds[/font][/size][font=宋体][size=11pt]大学和[/size][/font][size=11pt][font=Times New Roman]Warrington[/font][/size][font=宋体][size=11pt]的[/size][/font][size=11pt][font=Times New Roman]Daresbury[/font][/size][font=宋体][size=11pt]实验室合作开发的。[/size][/font][size=11pt][font=Times New Roman] OWL[/font][/size][font=宋体][size=11pt]数据库由四个主要的一级序列数据库复合而成,即[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]PIR[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt](由其编码序列翻译而成的氨基酸序列)和[/size][/font][size=11pt][font=Times New Roman]NRL- 3D[/font][/size][font=宋体][size=11pt]。[/size][/font][size=11pt][/size][/color]F&tkSu
[color=#000000][font=宋体][size=11pt]    在构建[/size][/font][size=11pt][font=Times New Roman]OWL[/font][/size][font=宋体][size=11pt]数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的优先级,[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]数据库的优先级最高。在对数据的处理上,不仅删除与某一序列完全相同的序列条目,也剔除与某一序列相差个别氨基酸残基的序列条目。因此,[/size][/font][size=11pt][font=Times New Roman]OWL[/font][/size][font=宋体][size=11pt]数据库是一个具有较小冗余度的蛋白质序列数据库。尽管如此,与[/size][/font][size=11pt][font=Times New Roman]NRDB[/font][/size][font=宋体][size=11pt]相同,[/size][/font][size=11pt][font=Times New Roman]OWL[/font][/size][font=宋体][size=11pt]数据库也会有一些错误,即在该数据库中仍然包括来自一次数据库的错误序列,例如由[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]中错误序列翻译而得的错误的氨基酸序列。此外,[/size][/font][size=11pt][font=Times New Roman]OWL[/font][/size][font=宋体][size=11pt]数据库更新较慢。[/size][/font][size=11pt][/size][/color]
r L7VHy?I!t [b][size=11pt][font=Times New Roman][color=#000000][/color][/font][/size][/b]
+Q4lx)Q`%kQk [b][size=11pt][color=#000000][font=Times New Roman]MIPSX[/font][/color][/size][/b]
h%E1cXi_(Y{~ [color=#000000][size=11pt][font=Times New Roman]        MIPSX[/font][/size][font=宋体][size=11pt]是由德国[/size][/font][size=11pt][font=Times New Roman]Max-Planck[/font][/size][font=宋体][size=11pt]研究所创建的复合数据库。[/size][/font][size=11pt][font=Times New Roman]MIPSX[/font][/size][font=宋体][size=11pt]由以下数据库整合而成:[/size][/font][size=11pt][font=Times New Roman]PIR[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]MIPS[/font][/size][font=宋体][size=11pt]一级序列数据库[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]([/size][/font][size=11pt][font=Times New Roman]MIPSOwn[/font][/size][font=宋体][size=11pt])、[/size][/font][size=11pt][font=Times New Roman]MIPS/PIR[/font][/size][font=宋体][size=11pt]一级序列数据库([/size][/font][size=11pt][font=Times New Roman]PIRMOD[/font][/size][font=宋体][size=11pt])、[/size][/font][size=11pt][font=Times New Roman]MIPS[/font][/size][font=宋体][size=11pt]一级翻译序列数据库([/size][/font][size=11pt][font=Times New Roman]MIPSTrn[/font][/size][font=宋体][size=11pt])、[/size][/font][size=11pt][font=Times New Roman]MIPS[/font][/size][font=宋体][size=11pt]酵母数据库[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]([/size][/font][size=11pt][font=Times New Roman]MIPSH[/font][/size][font=宋体][size=11pt])、[/size][/font][size=11pt][font=Times New Roman]NRL-3D[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]、[/size][/font][size=11pt][font=Times New Roman]EMTrans[/font][/size][font=宋体][size=11pt](由[/size][/font][size=11pt][font=Times New Roman]EMBL[/font][/size][font=宋体][size=11pt]翻译得到的序列)、[/size][/font][size=11pt][font=Times New Roman]GBTrans[/font][/size][font=宋体][size=11pt](由[/size][/font][size=11pt][font=Times New Roman]GenBank[/font][/size][font=宋体][size=11pt]翻译得到的序[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]列)、[/size][/font][size=11pt][font=Times New Roman]Kabat[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]PseqIP[/font][/size][font=宋体][size=11pt]。[/size][/font][size=11pt][font=Times New Roman]MIPSX[/font][/size][font=宋体][size=11pt]数据库按照一定的优先顺序设置优先级,并将这些数据库中的重复序列删除,只保留一个相关条目。[/size][/font][b][size=11pt][/size][/b][/color]
:ap bGY4S'} Qq&Yw [b][size=11pt][font=Times New Roman][color=#000000][/color][/font][/size][/b]
P;rP{1hBk*U [b][size=11pt][color=#000000][font=Times New Roman]SWISS-PROT + TrEMBL[/font][/color][/size][/b]
C#Qj bKF [color=#000000][size=11pt][font=Times New Roman]        EBI[/font][/size][font=宋体][size=11pt]将[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]TrEMBL[/font][/size][font=宋体][size=11pt]数据库合并,构成一个较全面的并且只有最低限度冗余的数据库。用户可以使用[/size][/font][size=11pt][font=Times New Roman]EBI[/font][/size][font=宋体][size=11pt]网络服务器上的[/size][/font][size=11pt][font=Times New Roman]SRS[/font][/size][font=宋体][size=11pt]序列检索系统查询[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]TrEMBL[/font][/size][font=宋体][size=11pt]数据库。与上面所提到的数据库相比,该数据库只有较少的错误,但它还称不上是真正的非冗余的数据库。据[/size][/font][size=11pt][font=Times New Roman]1997[/font][/size][font=宋体][size=11pt]年年中估计,其中包含了[/size][/font][size=11pt][font=Times New Roman]SWISS-PROT[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]TrEMBL[/font][/size][font=宋体][size=11pt]中的[/size][/font][size=11pt][font=Times New Roman]30%[/font][/size][font=宋体][size=11pt]的重复序列。显然,为了尽可能地减少错误率和冗余度,需要进行大量工作,包括开发专门的数据库处理系统等。[/size][/font][font=宋体][size=11pt][/size][/font][/color]L*FJ7|._ ~q
[font=宋体][size=11pt][color=#000000][/color][/size][/font],{ [%KMqH6OM
[font=宋体][size=11pt][color=#000000]    蛋白质序列数据库种类繁多,各有特色。与核酸序列数据库不同,用户在使用蛋白质序列数据库时,不能只用其中一个,而必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。[/color][/size][/font][font=宋体][size=11pt][/size][/font]

flashhyh 发表于 07-9-2 17:05

蛋白质序列二次数据库

[align=center][color=#000000][b][font=宋体][size=16pt]蛋白质序列二次数据库[/size][/font][/b][b][font=宋体][size=16pt][/size][/font][/b][/color][/align]
N!D&tq6Dv;fM [color=#000000][size=11pt][font=Times New Roman]        Prosite[/font][/size][font=宋体][size=11pt]数据库是第一个蛋白质序列二次数据库,[/size][/font][size=11pt][font=Times New Roman]90[/font][/size][font=宋体][size=11pt]年代初期开始构建,现由瑞士生物信息学研究所[/size][/font][size=11pt][font=Times New Roman]SIB[/font][/size][font=宋体][size=11pt]维护。[/size][/font][size=11pt][font=Times New Roman]Protsite[/font][/size][font=宋体][size=11pt]数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,[/size][/font][size=11pt][font=Times New Roman]Prosite[/font][/size][font=宋体][size=11pt]数据库实际上是蛋白质序列功能位点数据库。[/size][/font][font=宋体][size=11pt][/size][/font][/color] F2oZ Hjq#W
[color=#000000][font=宋体][size=11pt]    通过对[/size][/font][size=11pt][font=Times New Roman]Prosite[/font][/size][font=宋体][size=11pt]数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。[/size][/font][size=11pt][font=Times New Roman]Prosite[/font][/size][font=宋体][size=11pt]数据库实际上包括两个数据库文件,一个为数据文件即[/size][/font][size=11pt][font=Times New Roman]Prosite[/font][/size][font=宋体][size=11pt],该文件给出了能进行匹配的序列及序列的详细信息。另一个为说明文件[/size][/font][size=11pt][font=Times New Roman]PrositeDoc[/font][/size][font=宋体][size=11pt],[/size][/font][size=11pt][font=Times New Roman]PrositeDoc[/font][/size][font=宋体][size=11pt]说明文件中给出该序列模式的生物学功能及其文献资料来源。[/size][/font][size=11pt][font=Times New Roman]Prosite[/font][/size][font=宋体][size=11pt]数据库使用正则表达式来表示序列模式,例如:[/size][/font][size=11pt][font=Times New Roman][GSK]-F-x(2)-[LIVMF]-x(4)-[RKEQA]-x(2)-[RST] -x-[GA]-x-[KN]-P-x-T[/font][/size][font=宋体][size=11pt]。[/size][/font][font=宋体][size=11pt]这里,方括号中为可选残基,如第一个方括号[/size][/font][size=11pt][font=Times New Roman][GSK][/font][/size][font=宋体][size=11pt]中[/size][/font][size=11pt][font=Times New Roman]3[/font][/size][font=宋体][size=11pt]个残基中甘氨酸[/size][/font][size=11pt][font=Times New Roman]G[/font][/size][font=宋体][size=11pt]、丝氨酸[/size][/font][size=11pt][font=Times New Roman]S[/font][/size][font=宋体][size=11pt]和赖氨酸[/size][/font][size=11pt][font=Times New Roman]L[/font][/size][font=宋体][size=11pt]中的任意一个[/size][/font][size=11pt][font=Times New Roman] [/font][/size][font=宋体][size=11pt]均可出现。[/size][/font][size=11pt][font=Times New Roman]x(2)[/font][/size][font=宋体][size=11pt]表示可以有两个任意残基。因此,序列片段[/size][/font][size=11pt][font=Times New Roman]GFxxLxxxxRxxRxGxKPxT[/font][/size][font=宋体][size=11pt]是其中一种可能的模式。[/size][/font][font=宋体][size=11pt][/size][/font][/color]q*n(OZ:u(Ta b5U;p7v/s0p
[color=#000000][size=11pt][font=Times New Roman]        Prosite[/font][/size][font=宋体][size=11pt]数据库基于多序列比较得到的单一保守序列片段,或称序列模体。除[/size][/font][size=11pt][font=Times New Roman]Prosite[/font][/size][font=宋体][size=11pt]外,蛋白质序列二次数据库还包括:[/size][/font][font=宋体][size=11pt][/size][/font][/color]]k:? j3raS;k`*H
[color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]蛋白质序列指纹图谱数据库[/size][/font][size=11pt][font=Times New Roman]Prints[/font][/size][/color]
t.G ]?/B v5^0t [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]蛋白质序列模块数据库[/size][/font][size=11pt][font=Times New Roman]Blocks[/font][/size][/color]
jvh,N q!dy2C8[^&Z [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]蛋白质序列家族数据库[/size][/font][size=11pt][font=Times New Roman]Pfam[/font][/size][/color] N z!D Y,d`I3D&T)[
[color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]蛋白质序列谱数据库[/size][/font][size=11pt][font=Times New Roman]Profile[/font][/size][/color]
^oYi0Kcdj6{ [color=#000000][font=Wingdings][size=11pt]Ø[/size][/font][font=宋体][size=11pt]蛋白质序列识别数据库[/size][/font][size=11pt][font=Times New Roman]Identify[/font][/size][/color]
C~lD Q/z!~\mM [color=#000000][font=宋体][size=11pt]    [/size][/font][/color]
z,L.d8RAsVAO a"k [color=#000000][font=宋体][size=11pt]    这些数据库的共同特点是基于多序列比对,它们的不同之处是处理比对结果的原则和方法:[/size][/font][size=11pt][font=Times New Roman]Prints[/font][/size][font=宋体][size=11pt]和[/size][/font][size=11pt][font=Times New Roman]Blocks[/font][/size][font=宋体][size=11pt]利用了序列中的多重保守片段;[/size][/font][size=11pt][font=Times New Roman]Profiles[/font][/size][font=宋体][size=11pt]着眼于构建序列概貌库;而[/size][/font][size=11pt][font=Times New Roman]Pfam[/font][/size][font=宋体][size=11pt]采用了隐马氏模型;[/size][/font][size=11pt][font=Times New Roman]Identify[/font][/size][font=宋体][size=11pt]则利用模糊正则表达式的概念。这些方法各有一定的特色。[/size][/font][size=11pt][/size][/color]
:Xh3z K_abu*JJ [color=#000000][font=宋体][size=11pt]    从某种意义上说,蛋白质序列二次数据库实际上也是蛋白质功能数据库,因为从这些数据库中,可以得到有关蛋白质功能、家族、进化等信息[/size][/font][font=宋体][size=11pt]。[/size][/font][/color][size=11pt][/size]

flashhyh 发表于 07-9-2 17:11

蛋白质结构数据库

**** Hidden Message *****.W5^:ki Z!M3B2l
!?jcA"v-k"r9T'B
[[i] 本帖最后由 nano 于 08-9-13 20:06 编辑 [/i]]

flashhyh 发表于 07-9-2 17:17

数据库查询之Entrez查询系统

**** Hidden Message *****!aTzbk[DVB5m

+|W U-pC [[i] 本帖最后由 nano 于 08-9-13 20:07 编辑 [/i]]

flashhyh 发表于 07-9-2 17:24

SRS数据库查询系统

**** Hidden Message *****
I%de7Q!nsT%f
3t4RX fCTN|n6} [[i] 本帖最后由 nano 于 08-9-13 20:07 编辑 [/i]]

页: [1] 2

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.