威望、酷币、资源币获取方法及用途
基因酷保藏中心资源获取规则
保藏中心资源获取流程详细说明
基因酷保藏中心资源进出明细
领取红包获得资源币和威望
各版诚拜版主,每版欲聘5名
生物科研网址导航使用说明
生物科研网络助手使用说明
基因酷资源免费,望您点击广告
来支持基因酷
基因酷大事件回顾
论坛使用说明及酷友指南
基因酷FTP的使用及说明
基因酷个人空间(博客)使用帮助
邀请您参与《生物信息学分析系列图书》编写
祝贺酵母共享平台的建立,征集细胞株共享实验技术支持!
科研文献、资料分享交流倡议
基因酷网络资源调整公告!
情系灾区,奉献爱心
发新话题
打印

[生物信息学] 生物信息学数据库及查询

本主题由 nano 于 08-8-12 19:44 关闭 

基因组数据库

本帖隐藏的内容需要积分高于 1 才可浏览

! J6 q% Y6 Q; p2 ]5 F$ G; H3 s/ z! ~5 k0 V0 p5 W
[ 本帖最后由 nano 于 08-9-13 20:04 编辑 ]
付出总有回报,努力会有结果!

TOP



常用蛋白质序列数据库

本帖隐藏的内容需要积分高于 1 才可浏览

4 j. w1 y7 U8 _& r' z9 l6 Y8 f% h$ t; g6 _7 y0 i0 J$ Z& l$ x
[ 本帖最后由 nano 于 08-9-13 20:04 编辑 ]
付出总有回报,努力会有结果!

TOP



SwissProt数据库

本帖隐藏的内容需要积分高于 2 才可浏览
9 Z- l. ]* k% S, E

9 v% [* S" K; M7 v. t0 A# ]* V1 ~[ 本帖最后由 nano 于 08-9-13 20:05 编辑 ]
付出总有回报,努力会有结果!

TOP



SwissProt蛋白质数据库子库

本帖隐藏的内容需要积分高于 2 才可浏览
0 ^5 g; w" K( H
/ ]  y! K( _% ~8 N8 q! i1 i, t
[ 本帖最后由 nano 于 08-9-13 20:05 编辑 ]
付出总有回报,努力会有结果!

TOP



PIR(PSD)数据库及PROSITE数据库

PIRPSD)数据库及PROSITE数据库

7 t; o, \9 _+ A1 z* a# f/ w4 g( z

9 K( y/ p* {# c. z% R$ h( c7 APIR蛋白质序列数据库(PSD):http://pir.georgetown.edu/( f6 `9 L- b' k7 ?/ p& g+ d+ {0 c
        PIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(999),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
4 h" L. P0 |2 h/ @& h        PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:' O7 A! w, e( A9 a+ _
Ø基于文本的交互式检索;2 q% n" t- Z7 k4 A  [9 o* [
Ø标准的序列相似性搜索,包括BLASTFASTA等;" l$ `$ D& A2 j' ?6 }" q! y
Ø结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
; i! h# a$ b' E7 H- |9 R
: a  U) T% W( F' v  u) h  n) k数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/; W+ [( ^& W0 {% z! u/ s0 a
3 h0 U" J7 b$ o# C
PROSITE蛋白质序列数据库:http://www.expasy.ch/prosite/
$ y6 l- t5 Z# O2 e$ ]9 l        PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。4 G6 H8 H6 @: r( f* [- s
        PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。
- T0 E/ p# R3 z% d
付出总有回报,努力会有结果!

TOP



其它蛋白质序列数据库

其它蛋白质序列数据库


* O$ I" ^! r% v8 G) F/ V1 N ( ^& p- J  y3 n
上述几个蛋白质序列数据库可称为蛋白质序列一次数据库,或基本数据库。它们各有优缺点:
0 @3 F2 Y! O: ~# a$ N9 I6 i9 VØNRL3D包含已知空间结构的序列,但数据量十分有限;) Z; k. P( B5 ]: N/ l4 K
ØSwissProt的序列经过严格的审核,注释完善,但数据量较小;
. J# N* M+ R/ w* x# l. U/ V/ N& f0 HØPIR数据量较大,但包含未经验证的序列,注释也不完善;5 Q- W- ^" z9 u/ n: a
ØTrEMBLGenPept的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。
+ G8 E: W( ?2 a. ^    将上述数据库整合起来,构建复合数据库,或二次数据库,则更利于生物学家的使用。OWLNRDB就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据库均是由GenPeptPIRSwissProtNRL3D等数据库复合而成。1 T  _; K- S# \, h) ?

) r- M4 _4 q% h! x7 d2 dNRDB: k1 Z, a- B, V/ A7 L
        NRDB是由NCBI创建的,是NCBIBLAST搜索程序的默认蛋白质序列数据库。该数据库由GenPept(由GenBank 编码序列自动翻译而成数据库)、PDB序列数据库、SWISS-PROT数据库、SPupdate(每周更新的SWISS-PROT数据库)、PIR GenPeptUpdate(每天更新的GenPept)数据库复合而成。因此该数据库是一个较完全的,包含最新信息的数据库。该数据库中已将那些与某一序列完全相同的序列信息剔除, 因此不包含重复信息。但严格地说,尽管NRDB数据库被称作非冗余数据库,其仍包含冗余信息。此外,由于该数据库是通过简单的比较方法生成的,因此会带来 一些问题,例如,一次数据库中的错误序列被引入该数据库。2 I' K+ Y) X; R& W) n( k2 z; ~
7 w. p. L3 C3 W" f5 Z
OWL# f6 \% x, \4 l& I) s  s
        OWL是一个非冗余的蛋白质序列数据库,是由Leeds大学和WarringtonDaresbury实验室合作开发的。 OWL数据库由四个主要的一级序列数据库复合而成,即SWISS-PROTPIRGenBank(由其编码序列翻译而成的氨基酸序列)和NRL- 3D1 x: r7 y" P) }0 |
    在构建OWL数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的优先级,SWISS-PROT数据库的优先级最高。在对数据的处理上,不仅删除与某一序列完全相同的序列条目,也剔除与某一序列相差个别氨基酸残基的序列条目。因此,OWL数据库是一个具有较小冗余度的蛋白质序列数据库。尽管如此,与NRDB相同,OWL数据库也会有一些错误,即在该数据库中仍然包括来自一次数据库的错误序列,例如由GenBank中错误序列翻译而得的错误的氨基酸序列。此外,OWL数据库更新较慢。& R  G- e  `- O% h
6 Y6 y$ S& B" u( L* A$ `3 L
MIPSX
" `) C6 _! H, e9 N9 _2 W0 b        MIPSX是由德国Max-Planck研究所创建的复合数据库。MIPSX由以下数据库整合而成:PIRMIPS一级序列数据库 MIPSOwn)、MIPS/PIR一级序列数据库(PIRMOD)、MIPS一级翻译序列数据库(MIPSTrn)、MIPS酵母数据库 MIPSH)、NRL-3DSWISS-PROTEMTrans(由EMBL翻译得到的序列)、GBTrans(由GenBank翻译得到的序 列)、KabatPseqIPMIPSX数据库按照一定的优先顺序设置优先级,并将这些数据库中的重复序列删除,只保留一个相关条目。
' p$ S* _, E$ |1 i: D. N& D+ X! m. p+ f# r
SWISS-PROT + TrEMBL7 v. T5 Q) f. l1 i( J1 }! `
        EBISWISS-PROTTrEMBL数据库合并,构成一个较全面的并且只有最低限度冗余的数据库。用户可以使用EBI网络服务器上的SRS序列检索系统查询SWISS-PROTTrEMBL数据库。与上面所提到的数据库相比,该数据库只有较少的错误,但它还称不上是真正的非冗余的数据库。据1997年年中估计,其中包含了SWISS-PROTTrEMBL中的30%的重复序列。显然,为了尽可能地减少错误率和冗余度,需要进行大量工作,包括开发专门的数据库处理系统等。
8 @( I( A' h4 R: L8 Y1 n7 s, }/ A' {6 ^$ l7 V! r
    蛋白质序列数据库种类繁多,各有特色。与核酸序列数据库不同,用户在使用蛋白质序列数据库时,不能只用其中一个,而必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。
付出总有回报,努力会有结果!

TOP



蛋白质序列二次数据库

蛋白质序列二次数据库


' |* l6 S1 c* N        Prosite数据库是第一个蛋白质序列二次数据库,90年代初期开始构建,现由瑞士生物信息学研究所SIB维护。Protsite数据库是基于对蛋白质家族中同源序列多重序列比对得到的保守性区域,这样区域通常与生物学功能有关,例如酶的活性位点、配体或金属结合位点等。因此,Prosite数据库实际上是蛋白质序列功能位点数据库。
2 I: k" g5 n" E) r( [4 T7 \    通过对Prosite数据库的搜索,可判断该序列包含什么样的功能位点,从而推测其可能属于哪一个蛋白质家族。Prosite数据库实际上包括两个数据库文件,一个为数据文件即Prosite,该文件给出了能进行匹配的序列及序列的详细信息。另一个为说明文件PrositeDocPrositeDoc说明文件中给出该序列模式的生物学功能及其文献资料来源。Prosite数据库使用正则表达式来表示序列模式,例如:[GSK]-F-x(2)-[LIVMF]-x(4)-[RKEQA]-x(2)-[RST] -x-[GA]-x-[KN]-P-x-T这里,方括号中为可选残基,如第一个方括号[GSK]3个残基中甘氨酸G、丝氨酸S和赖氨酸L中的任意一个 均可出现。x(2)表示可以有两个任意残基。因此,序列片段GFxxLxxxxRxxRxGxKPxT是其中一种可能的模式。' G7 U5 K1 [* K, l4 q2 h$ d1 q- R
        Prosite数据库基于多序列比较得到的单一保守序列片段,或称序列模体。除Prosite外,蛋白质序列二次数据库还包括:9 K/ ]- A/ a& @
Ø蛋白质序列指纹图谱数据库Prints0 U. f+ n, a' C4 P3 ?  j2 R! Q
Ø蛋白质序列模块数据库Blocks8 U9 L( x) D* O6 y. C9 F
Ø蛋白质序列家族数据库Pfam* c" D% M5 _6 o3 A1 f
Ø蛋白质序列谱数据库Profile! B7 j2 b* ]6 I' i$ W- P4 S$ M7 n
Ø蛋白质序列识别数据库Identify8 f4 W/ q+ ~& z1 c, o7 `- @
   
& d4 c  N4 N! Q    这些数据库的共同特点是基于多序列比对,它们的不同之处是处理比对结果的原则和方法:PrintsBlocks利用了序列中的多重保守片段;Profiles着眼于构建序列概貌库;而Pfam采用了隐马氏模型;Identify则利用模糊正则表达式的概念。这些方法各有一定的特色。
2 |+ E- M( Z  }: W/ }    从某种意义上说,蛋白质序列二次数据库实际上也是蛋白质功能数据库,因为从这些数据库中,可以得到有关蛋白质功能、家族、进化等信息
付出总有回报,努力会有结果!

TOP



蛋白质结构数据库

本帖隐藏的内容需要积分高于 2 才可浏览

" R7 K. V5 u) N- }; v% r
& y5 r8 n+ d. ^- m# s[ 本帖最后由 nano 于 08-9-13 20:06 编辑 ]
付出总有回报,努力会有结果!

TOP



数据库查询之Entrez查询系统

本帖隐藏的内容需要积分高于 2 才可浏览

% l1 ]$ C5 k, Q! F6 i, G! K4 \1 Q- Y, g; q6 g1 w
[ 本帖最后由 nano 于 08-9-13 20:07 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



SRS数据库查询系统

本帖隐藏的内容需要积分高于 2 才可浏览
. P5 m& n5 s, I8 N" ^0 P! d, F

" A: w" {7 c* F[ 本帖最后由 nano 于 08-9-13 20:07 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP

发新话题