威望、酷币、资源币获取方法及用途
基因酷保藏中心资源获取规则
保藏中心资源获取流程详细说明
基因酷保藏中心资源进出明细
领取红包获得资源币和威望
各版诚拜版主,每版欲聘5名
生物科研网址导航使用说明
生物科研网络助手使用说明
基因酷资源免费,望您点击广告
来支持基因酷
基因酷大事件回顾
论坛使用说明及酷友指南
基因酷FTP的使用及说明
基因酷个人空间(博客)使用帮助
邀请您参与《生物信息学分析系列图书》编写
祝贺酵母共享平台的建立,征集细胞株共享实验技术支持!
科研文献、资料分享交流倡议
基因酷网络资源调整公告!
情系灾区,奉献爱心
 18 12
发新话题
打印

[生物信息学] 生物信息学概述

本主题由 nano 于 08-8-12 19:48 关闭 
武林三国

生物信息学概述

生物信息学概述


: F+ J4 j; G5 U& c9 m主要内容:( q) K2 F' n7 w( s, _: y7 z' C# @% Y% Q
1、什么是生物信息学
2 l, Z' Q; U0 u+ h" h& l. \
2、生物信息学的产生及其发展! H/ P; r( ?5 @# i. l1 F+ y, a
3、生物信息学的研究方法及主要内容
4 {6 e4 f+ A4 ?: k6 P* [* O. M* g4、当前生物信息学的研究方向/ H0 p: ~6 S1 f& j0 |- z4 K' q- e
5、当前生物信息学的研究热点
' q$ Q1 Y4 j- V, x, I: C/ c) ]- x6、人类基因组计划(HGP)
0 O$ ]; A3 D: Q5 S1 |6 }7、生物信息产业的发展概况1 e2 U, ^/ j& ?$ o
8、生物信息学参考书籍(入门级)
# Z* s# e) L4 y/ e$ E1 B$ m- E! I& I5 ^3 G; l
声明:! I! l3 j3 x7 x2 a1 o: T2 k! n# D
1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@126.com告知。& O- O& l) _4 U
2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(www.genecool.com/bbs)本篇对应的专题跟贴指出或Email genecool@126.com
7 J; M  K7 ^6 i+ u5 x
% \% l$ {  G  [9 l; w; Z致谢:
% k8 b; H5 Y$ g' q& ~整编者:flashhyh% I  B( {! r- N! g5 |) n4 Y! Z1 J
主要参考资料:《生物信息学札记》 樊龙江;《生物信息学简介》 张春廷;生物信息产业发展概况, Bryce G.Noffman# }3 j0 m' \# f& n7 ?; |

9 I1 l: L% P. F  m5 z, s
1 y  O' }3 s0 T8 m# h# f) P[ 本帖最后由 nano 于 08-9-14 08:55 编辑 ]
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



什么是生物信息学

什么是生物信息学


% E9 j" Q$ H! U' P. ?$ z什么是生物信息学
% X0 D3 p' @) M6 L    生物信息学(bioinformatics)是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科:以核酸、蛋白质等生物大分子数据库为主要对象,以数学、信息学、计算机科学为主要手段,以计算机硬件、软件和计算机网络为主要工具,对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题,搞清它们的基本规律和时空联系,建立" 生物学周期表"。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。4 a4 P( V0 E4 |$ R! e
    其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达的结构与功能的生物信息。目前基因组学的研究出现了几个重心的转移:一是将已知基因的序列与功能联系在一起的功能基因组学研究;二是从作图为基础的基因分离转向以序列为基础的基因分离;三是从研究疾病的起因转向探索发病机理;四是从疾病诊断转向疾病易感性研究。生物芯片(Biochip)的应用将为上述研究提供最基本和必要的信息及依据,将成为基因组信息学研究的主要技术支撑。生物信息学的发展为生命科学的进一步突破及药物研制过程革命性的变革提供了契机。就人类基因组来说,得到序列仅仅是第一步,后一步的工作是所谓后基因组时代 (post-genome era) 的任务,即收集、整理、检索和分析序列中表达的蛋白质结构与功能的信息,找出规律。
5 t: ~  H% w! S: m$ Y# p
6 h2 F5 w' m! n" u2 ~5 {7 Q1 I与生物信息学关系密切的领域7 m7 x+ h2 x; m  w0 J5 L& H
数学领域:
9 ?7 i3 {0 W9 @5 ^Ø统计学,包括多元统计学,是生物信息学的数学基础之一;
! N6 X4 t3 Q9 H' ]& I/ u6 j2 I# PØ概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;
0 p+ D5 m9 q6 s. w1 J& Q2 BØ运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用;
+ G; ^& z* Q5 P0 c+ S5 G. c1 |Ø拓扑学(几何拓扑),在DNA超螺旋研究中是重要工具,在多肽链折叠研究中也有应用;
$ O' k( ~  k5 ~Ø函数论,如傅里叶变换和小波变换等都是生物信息学中的常规工具;" z% ~- l0 I# ^8 Q* D
Ø信息论,在分子进化、蛋白质结构预测、序列比对中有重要应用,而人工神经网络方法则用途极为广泛;
& D% Y; }$ J9 \) X. o+ {Ø计算数学,如常微分方程数值解法是分子动力学的基本工具;' y, i0 R$ y" m
Ø群论,在研究遗传密码和DNA序列的对称性方面有重要应用;& |& v, `2 {  r; F5 a8 [: @5 h
Ø组合数学,在分子进化和基因组序列研究中十分有用。
9 V4 U) o0 j- Z: D) V    原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学,这种情况正像过去的一、两个世纪,数学应用于物理学一样。而且,生物信息学的发展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支科学。
* G0 `" b5 y( m  u* q. }! {6 g8 F+ O6 ~3 L2 G. T+ e
计算机科学技术:1 }4 K1 O% X( j; V
    首先是网络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统(LIMS)。其它诸如数据整合和可视化、数据挖掘(Data Mining)、基于Unix操作系统的各种软件包以及人工智能,和一些重要算法的复杂性研究。
付出总有回报,努力会有结果!

TOP


武林三国

生物信息学的产生及其发展

生物信息学的产生及其发展

) P: G, v4 l; v8 D
生物信息学的产生6 l+ k8 x$ k1 O$ I* b. N
    自从1990年美国启动人类基因组计划以来,人与模式生物基因组的测序工作进展极为迅速。迄今已完成了约40多种生物的全基因组测序工作,人基因组约3x109碱基对的测序工作也接近完成。至2000626,被誉为生命"阿波罗计划"的人类基因组计划,经过美、英、日、法、德和中国科学家的艰苦努力,终于完成了工作草图,这是人类科学世上又一个里程碑式的事件。它预示着完成人类基因组计划已经指日可待。截止目前为止,仅登录在美国GenBank数据库中的DNA序列总量已超过70亿碱基对。; u/ S7 g! S, z
    近20年来,分子生物学发展的一个显著特点是生物信息的剧烈膨胀,且迅速形成了巨量的生物信息库。这里所指的生物信息包括多种数据类型,如分子序列(核酸和蛋白质)、蛋白质二级结构和三维结构数据、蛋白质疏水性数据等等。由实验获得的大量核酸序列和三维结构数据被存在数据库中,这些数据库就是所谓的初级数据库(primary databases);那些由原始数据分析而来的诸如二级结构、疏水位点和功能区(domain)数据,则组成了所谓的二级数据库(secondary databases)。那些由核酸数据库序列翻译而来的蛋白质序列数据组成的蛋白质数据库,都被视为二级数据库。生物信息的增长是惊人的:! b( R8 k$ F+ e0 Z" y2 p: E
Ø近年来,核酸库的数据每10个月左右就要翻一翻;3 |+ D( X) p8 R
Ø2000年底,数据库数据则达到了创记录的100亿个记录;7 R" R/ t3 I8 B! f- ^( V4 h; N
Ø大量生物(甚至包括我们人类自身)的整个基因组序列被测定完成或正在进行中,遍布世界各地研究实验室的高通量大型测序仪在日夜不停地运转,每天都有成千上万的数据被源源不断地输入相应的生物信息库中;
) ?( r/ X6 b7 X7 ]: i* AØ同时,由这些原始数据分析加工而来的蛋白质结构等数据信息也被世界各地的分子生物学、生物信息学等学科领域专家输入二级数据库中。
% y1 j+ E; j# v( y7 m% @" Q    数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘它们。与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢。一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这就构成了一个极大的矛盾。这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学。美国人类基因组计划实施五年后的总结报告中,对生物信息学作了以下定义:生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。Bioinformatics这一名词在1991年左右才出现文献中,还只是出现在电子出版物的文本中,但生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。生物信息学还有一些经常被使用的名字:计算生物学”(computational biology)计算分子生物学”(computational molecular biology)生物分子信息学”(biomolecular informatics)等。5 X9 j( `# n9 m( X2 `4 x- _
& Y* I8 d1 {( p# n" W4 x7 M- [
生物信息学的发展:) T/ v% m) B$ U# t- d/ V2 U
纵观生物信息学的发展历史,可将它分为3个主要阶段:
) W" ]; O4 p, M% l/ t' J9 r萌芽期(60-70年代)Dayhoff的替换矩阵和Neelleman-Wunsch算法为代表,它们实际组成了生物信息学的一个最基本的内容和思路:序列比较。它们的出现,代表了生物信息学的诞生(虽然生物信息学一词很晚才出现),以后的发展基本是在这2项内容上不断改善;
& d" e4 Q! v  k) w, f- G' M形成期(80年代)以分子数据库和BLAST等相似性搜索程序为代表。1982年三大分子数据库的国际合作使数据共享成为可能,同时为了有效管理与日俱增的数据,以BLASTFASTA等为代表工具软件和相应的新算法大量被提出和研制,极大地改善了人类管理和利用分子数据的能力。在这一阶段,生物信息学作为一个新兴学科已经形成,并确立了自身学科的特征和地位;
; ~3 @2 r7 k' a高速发展期(90年代-至今)以基因组测序与分析为代表。基因组计划,特别是人类基因组计划的实施,分子数据以亿计;基因组水平上的分析使生物信息学的优势得以充分表现,基因组信息学成为生物信息学中发展最快的学科前沿。& h5 L- ]" }4 z
1 M) i3 @( e& r# p* w
生物信息学发展简史:4 N4 Q9 m& l- l* y* B- `
8 V" T; c3 I' `
1962
# O1 L- ?  S$ m" s9 m) S
Pauling提出分子进化理论 / X/ _# ^4 R! C; E1 b5 [
1967   r7 a9 O. |# Y; Y( T
Dayhoff构建蛋白质序列替换矩阵 $ ~0 O! f# H4 C& r, |3 Q8 P+ H, h5 G* z
1970 , n  w) a9 @! R) @! O* c& I6 e
Needleman-Wunsch算法被提出 ' l; A5 a. }9 u) {( X- i, z& d: C
1977 : s$ l6 C+ K9 S+ |3 b
Staden利用计算机软件分析DNA序列
5 w2 B% @* @( Q- h5 H0 b
1981 0 v: E+ v6 P& t5 [. s
Smith-Waterman算法出现 : y! `7 l/ g- r& {/ b, L9 U
1981
# @- B$ G' p1 T) g/ }
序列模序(motif)的概念被提出(Doolittle) 4 I% r" Z/ ?( [9 ~* o! P; w$ A
1982
* N  Q& _. ?/ u  C
GenBank数据库(Release3)公开。三大核酸数据库(GenBankEMBLDDBJ)开始国际合作
. j5 ]9 M. ?. ~1 Y
1982
' z% F3 B9 P4 W! l+ G5 u9 d
λ-噬菌体基因组被测序 % J5 ]' N4 S( P( n$ W
1983
' i0 j! c2 R' ?0 N  B1 D
WilburLipman提出序列数据库的搜索算法(Wilber-Lipman算法)
9 `: D& ?; b6 P( o. K
1985 ! F0 A6 A* a+ [! F, q
快速序列相似性搜索程度FASTP/FASTN发布
# t# @, O9 i$ l, n$ A
1988
- y- e9 F( A. J, v; u. c0 x
美国家生物技术信息中心(NCBI)创立 9 T  n7 O/ m# L% Z- l
1988 + R- b0 \- M+ a! I% o* \
欧洲分子生物学网络EMBnet创立 + b2 ?. ]9 H3 B# m4 L  _# ], j
1990 ; m% W: d# e* N$ |' {
快速序列相似性搜索程序BLAST发布 % o0 k4 u' h( e% L' Z1 D3 C
1991
5 ]: C0 u6 l9 Q( p/ O1 E2 j
表达序列标签(EST)概念被提出,从此开创EST测序
1 K4 Y# b% T+ @; G
1993 1 ?5 y/ N" v# G% W: J
英国Sanger中心迁址英国Hinxton
0 b8 p& s- Q7 T2 k( Q1 n9 U5 ~
1994
! _* p* E9 D8 x# {4 d& `5 l
欧洲生物信息学研究所在英国Hinxton成立
% Q# z4 D" r* _. U' ~, ^$ k
1995 ) i& B+ \- f# _" i. k% O
第一个细菌基因组测序完成 % s- }2 a0 m3 \, P* o
1996 $ R% P3 C" k3 |, A; S' K
酶母基因组测序完成
# D1 `. p2 A" {9 o
1997
- _6 V4 [$ b& w( z
PSI-BLAST(BLAST系列程序之一)发布
" o/ O7 ?+ a1 C& q, q# k; T
1998
6 W  Y2 S0 L( A, h$ D4 B
PhilGreen等人研制的自动测序组装系统Phred-Phrap-Consed系统正式发布
# o! r, x$ {, O' r
1998
3 v2 E9 Q$ y* N; m5 ]# Q
多细胞线虫基因组测序完成
' c( t- \6 j8 Q; N& V! M' F4 D- \6 B
1999 3 J2 F# ~4 v% D# L  @! S
果蝇基因组测序完成 3 i' {8 S# @+ l9 q' M8 L1 ]6 d
2000 ) G* B; i* V+ V% b, G- e
人类基因组测序基本完成 / \& W" q3 S% _% M& S! D4 o+ G
2001
7 Y$ p% V9 r$ Y- j
人类基因组初步分析结果公布
1 n/ d; E, S( ?
付出总有回报,努力会有结果!

TOP



生物信息学的研究方法及主要内容

生物信息学的研究方法及主要内容


3 f0 k" V" C5 {2 u, j. h生物信息学研究的基本方法$ M" w. v7 z' ?# ^- Z: `
Ø建立生物数据库:核苷酸顺序数据库(GENBANK)Protein Data Bank(PDB)、氨基酸顺序数据库(SWISS-PRO)、酵母基因组数据库(YEASTS)、美国种质保藏中心(ATCC)、美国专利局数据库(USPO)等;6 V( d( s$ b; F* U* F! g. n
Ø数据库检索:如Blast等;
+ d( s( R  n9 K+ [Ø序列分析:序列对位排列、同源比较、进化分析等;
1 @3 u1 g' I( X& x! O- `Ø统计模型:如隐马尔可夫模型(hidden Markov model, HMM)――基因识别、药物设计;最大似然模型(maximun likelihood model, ML) 最大简约法(Maximun Parsimony, MP)――分子进化分析等;
9 z6 ?8 y2 ^' f  TØ算法:如自动序列拼接、外显子预测和同源比较、遗传算法、人工神经网络(artificial neural network)
8 |: Y- T. V2 ^' X3 F- U4 g
6 ^+ S  z! A3 m- ]# J8 H: }1 H生物信息学研究的主要内容:
8 D0 j' ]: N% S* `    生物信息学的研究内容是伴随着基因组研究而发展的。广义地说,生物信息学从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释。这个定义的含义是双重的:一是对海量数据的收集、整理与服务,即管理好这些数据;二是从中发现新的规律,也就是利用好这些数据。具体地说,生物信息学是把基因组DNA(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和RNA(核糖核酸)基因的编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。
, w3 X1 P. e+ a    其研究范围十分广泛,大体包括以下方面:基因组序列分析和解释、药物设计、基因多态性分析、基因表达调控、疾病相关基因鉴定、基因产物结构与功能预报、基因进化、基于遗传的流行病学等:4 |( U, I! q* m: a; ?4 |* r/ s1 }
序列分析- A5 v) s) b+ O" I/ o$ V$ x
    在基因组测序的原始数据发表后,仍有许多信息研究需要开展,比如注释、同源性分析、基因分类、基因结构分析等,这方面的研究需要建立较优化的数理统计模型,大规模的数据库检索,模式识别和可视化等。2 A$ _; \# y# e% X+ j
基因进化
( D' N4 B" T) Z+ }" v$ [    根据多种生物的基因组数据及对垂直进化和平行演化的研究,可以对生命至关重要的基因结构及它的调控进行研究,对此需要建立较完整的生物进化模型,用基因组的数据来鉴别出环境因素对其进化的影响。这些研究成果将对生态环境、环境卫生提出指导性的建议,对研究生命的起源也有重要的科学意义。: b9 a& F. T- M: Z3 u
药物设计/ n$ _, w7 U1 J7 D
    生物信息学所提供的数据资料,可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速高效的特点,它的研究包括大分子结构功能的模拟和预报,药物分子与大分子结合的模拟,关键性基因的致病机制,及生物分子同源性的分析,生物分子在指定细胞的分布和位点等。
8 d8 z5 E( E* M3 q0 E1 s基因多态性分析8 W1 Y0 S0 R2 M; q
    即使一个基因的序列已经确定,它只是有代表性的序列之一。在群体的分布中,仍存在有基因的多态性。由于多态性的存在,生物表型及对环境、外源物和药物的反应即不同。研究基因多态性可以对群体的基因共性及其中的基因个性( SNPs)都有明确的认识。
& {8 Q7 [: [8 g; [, b基于遗传的流行病学研究' A8 L1 q. W0 q. K" p
    流行病学研究是医学信息学的重要课题之一。将流行病学的遗传和非遗传性的研究与分子基因信息结合起来,会导致对疾病的机理、个体对某种疾病的易感性和疾病在群体中的分布有更明确的认识,对疾病的预防和治疗有极大的指导意义。
" X0 s3 A& a* x" n4 h关键性基因签定
5 ^# e4 j( a/ C/ `$ `9 t7 X+ x3 t    通过基因与生物表型、致病机制和其它生命现象之间的关联,可以发现一些至关重要的基因,结合定向的生物实验,可以确认新的关键性基因。8 v. m+ d! l# N- K9 O7 ]) q
基因产物功能预报. l/ k1 [  L3 Q5 l2 Y, E
    在确认了基因的基础上,通过与已知的基因产物的结构和功能、代谢途径和其它生物功能对照,可以实现新基因产物功能的预报,结合定向的生物实验,可以证实预报的功能。
* c) g3 j% g' t& i. t; V完整基因组的比较基因组学
/ }8 z6 c: w+ z/ h    在后基因组时代,生物信息学家不仅有大量的序列和基因而且有越来越多的完整基因组。有了这些资料人们就能对若干重大生物学问题进行分析。有的科学家估计不同人种间基因组的差别仅为 0.1%;人猿间差别约为1%。但他们表型间的差异十分显著。因此其表型差异不仅应从基因、DNA 序列找原因,也应考虑到整个基因组、考虑染色体组织上的差异。
付出总有回报,努力会有结果!

TOP


武林三国

当前生物信息学的研究方向

当前生物信息学的研究方向

" }- [4 R- e' Q# o6 l
1、获取人和各种生物的完整基因组
6 r8 T' j- A" B* Q    基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。
' [$ ~6 Z: L' O" T' J    但是,我们很容易想象:如果把一本书撕成大小一样的碎片,就再也无法把它们重新正确地拼接起来,这是因为撕的同时丢失了书的上下文联系。这该如何办呢?我们可以取两本一样的书,按照不同的撕法把它们分头打碎。通过不同碎片互相参照,找到相同的单词,就可以部分恢复书的上下文联系。撕的书越多,恢复的上下文联系也越多。因此要获得人的整套遗传密码就不能把人的32亿碱基只测一遍,往往要测很多遍。比如在《自然》、《科学》两杂志上公布的人类基因组工作草图报道,它含有约29亿碱基,其物理图谱覆盖率为96%,序列覆盖率为94%。有大于90%的连续序列群已大于10万碱基;有约25%的连续序列群已等于或大于千万碱基。在这些序列中发现了34万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和组装。
  f* ?2 i6 H) K! B; I0 A    在基因组大规模测序的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接、填补序列间隙,到重复序列标识、读框预测和基因标注,每一步都是紧密依赖生物信息学的软件和数据库的。其中,序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。1 _$ K2 D- h7 i. E- ]( v  x
    有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)等的部分很少,只占11%;外显子与外显子之间的区域(称为内含子)占了24%;而基因与基因之间的间隔序列却占了75%,也就是说在人类基因组中不编码蛋白质的区域占了绝大部分。# m( G1 D3 E" O, U

! J8 K( F; s5 K( x! ^+ f3 L! P2、发现新基因和新的单核苷酸多态性: z. ]3 n' `8 a6 P0 D5 @6 l! L8 q
    发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。比如:啤酒酵母完整基因组所包含的约6000个基因,大约60%是通过信息分析得到的。7 T: B4 ~  Y0 s7 W0 o
1)基因的电脑克隆利用EST数据库发现新基因也被称为基因的电脑克隆。EST序列是基因表达的短cDNA序列,它们携带着完整基因的某些片段的信息。到200110月,GenBankEST数据库中人类EST序列已超过380万条,它大约覆盖了人类基因的90%以上。3 u( D: J" D( V" `$ {
    我国早在1996年就开始了通过电脑克隆寻找新基因的研究。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了一个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。但是进行电脑克隆程序设计是复杂的,计算量是巨大的。
7 C0 O1 v$ R) V: v2)从基因组DNA序列中预测新基因从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。
. J0 J1 U/ E& s    发现了新基因就会使我们对生命活动的认识加深一步。据1999122《自然》杂志,人的第22号染色体数据已鉴定出679个基因,其中55%的基因是未知的。有35种疾病与该染色体突变相关,像免疫系统疾病、先天性心脏病和精神分裂症。但是,要将人类的所有基因及其相应的蛋白质以及与它们相关的功能完整而正确地整合到一个索引中,依然是一个十分重要、十分艰巨的任务。国际人类基因组协作组正着手建立完整的"整合基因索引"及与之相关的"整合蛋白索引"" k/ x& q* l; {0 m, p. M
3)发现单核苷酸多态(SNP有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。
/ d. |0 w% p1 O1 ?. k    现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。SNP在基因组中分布相当广泛,近来的研究表明在人类基因组中每300碱基对就出现一次。大量存在的SNP位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过SNP发现疾病相关基因突变要比通过家系来得容易;有些SNP并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。SNP在基础研究中也发挥了巨大的作用,近年来对Y染色体SNP的分析,使得在人类进化、人类种群的演化和迁徙领域取得了一系列重要成果。
) Z% j7 u# T# @9 M6 M1 a  r' ~: j( g6 Z- I% L0 y1 k* {9 v0 j
3、基因组中非编码蛋白质区域的结构与功能研究
! @( [0 T+ `0 i    近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。; |5 O: r1 J1 N1 ]; S% W. T( ]" h$ \
对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),最新资料说明这部分序列只占基因组的11%。仅占人类基因组11%的编码区的相关研究已经缔造了数十名诺贝尔奖获得者,98%非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。
3 b) W- [9 f" o' K+ L. M6 W5 ?
$ F9 T$ E: \, Y4、在基因组水平研究生物进化
- S. w6 v# X6 o( B8 B) q    近几年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。首先发现同一种群基于不同分子序列所重构出的进化树可能不同。同时,对"垂直进化""水平演化"之间关系的讨论正逐渐引起人们的重视。也就是近年来发现了基因的"横向迁移现象"。即:基因可以在