|
|
16#
大 中
小 发表于 07-9-2 17:03 只看该作者
其它蛋白质序列数据库
其它蛋白质序列数据库
* O$ I" ^! r% v8 G) F/ V1 N ( ^& p- J y3 n
上述几个蛋白质序列数据库可称为蛋白质序列一次数据库,或基本数据库。它们各有优缺点:
0 @3 F2 Y! O: ~# a$ N9 I6 i9 VØNRL3D包含已知空间结构的序列,但数据量十分有限;) Z; k. P( B5 ]: N/ l4 K
ØSwissProt的序列经过严格的审核,注释完善,但数据量较小;
. J# N* M+ R/ w* x# l. U/ V/ N& f0 HØPIR数据量较大,但包含未经验证的序列,注释也不完善;5 Q- W- ^" z9 u/ n: a
ØTrEMBL和GenPept的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。
+ G8 E: W( ?2 a. ^ 将上述数据库整合起来,构建复合数据库,或二次数据库,则更利于生物学家的使用。OWL和NRDB就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据库均是由GenPept、PIR、SwissProt、NRL3D等数据库复合而成。1 T _; K- S# \, h) ?
) r- M4 _4 q% h! x7 d2 dNRDB: k1 Z, a- B, V/ A7 L
NRDB是由NCBI创建的,是NCBI的BLAST搜索程序的默认蛋白质序列数据库。该数据库由GenPept(由GenBank 编码序列自动翻译而成数据库)、PDB序列数据库、SWISS-PROT数据库、SPupdate(每周更新的SWISS-PROT数据库)、PIR和 GenPeptUpdate(每天更新的GenPept)数据库复合而成。因此该数据库是一个较完全的,包含最新信息的数据库。该数据库中已将那些与某一序列完全相同的序列信息剔除, 因此不包含重复信息。但严格地说,尽管NRDB数据库被称作非冗余数据库,其仍包含冗余信息。此外,由于该数据库是通过简单的比较方法生成的,因此会带来 一些问题,例如,一次数据库中的错误序列被引入该数据库。2 I' K+ Y) X; R& W) n( k2 z; ~
7 w. p. L3 C3 W" f5 Z
OWL# f6 \% x, \4 l& I) s s
OWL是一个非冗余的蛋白质序列数据库,是由Leeds大学和Warrington的Daresbury实验室合作开发的。 OWL数据库由四个主要的一级序列数据库复合而成,即SWISS-PROT、PIR、GenBank(由其编码序列翻译而成的氨基酸序列)和NRL- 3D。1 x: r7 y" P) }0 |
在构建OWL数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的优先级,SWISS-PROT数据库的优先级最高。在对数据的处理上,不仅删除与某一序列完全相同的序列条目,也剔除与某一序列相差个别氨基酸残基的序列条目。因此,OWL数据库是一个具有较小冗余度的蛋白质序列数据库。尽管如此,与NRDB相同,OWL数据库也会有一些错误,即在该数据库中仍然包括来自一次数据库的错误序列,例如由GenBank中错误序列翻译而得的错误的氨基酸序列。此外,OWL数据库更新较慢。& R G- e `- O% h
6 Y6 y$ S& B" u( L* A$ `3 L
MIPSX
" `) C6 _! H, e9 N9 _2 W0 b MIPSX是由德国Max-Planck研究所创建的复合数据库。MIPSX由以下数据库整合而成:PIR、MIPS一级序列数据库 (MIPSOwn)、MIPS/PIR一级序列数据库(PIRMOD)、MIPS一级翻译序列数据库(MIPSTrn)、MIPS酵母数据库 (MIPSH)、NRL-3D、SWISS-PROT、EMTrans(由EMBL翻译得到的序列)、GBTrans(由GenBank翻译得到的序 列)、Kabat和PseqIP。MIPSX数据库按照一定的优先顺序设置优先级,并将这些数据库中的重复序列删除,只保留一个相关条目。
' p$ S* _, E$ |1 i: D. N& D+ X! m. p+ f# r
SWISS-PROT + TrEMBL7 v. T5 Q) f. l1 i( J1 }! `
EBI将SWISS-PROT和TrEMBL数据库合并,构成一个较全面的并且只有最低限度冗余的数据库。用户可以使用EBI网络服务器上的SRS序列检索系统查询SWISS-PROT和TrEMBL数据库。与上面所提到的数据库相比,该数据库只有较少的错误,但它还称不上是真正的非冗余的数据库。据1997年年中估计,其中包含了SWISS-PROT和TrEMBL中的30%的重复序列。显然,为了尽可能地减少错误率和冗余度,需要进行大量工作,包括开发专门的数据库处理系统等。
8 @( I( A' h4 R: L8 Y1 n7 s, }/ A' {6 ^$ l7 V! r
蛋白质序列数据库种类繁多,各有特色。与核酸序列数据库不同,用户在使用蛋白质序列数据库时,不能只用其中一个,而必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。
付出总有回报,努力会有结果!
|