威望、酷币、资源币获取方法及用途
基因酷保藏中心资源获取规则
保藏中心资源获取流程详细说明
基因酷保藏中心资源进出明细
领取红包获得资源币和威望
各版诚拜版主,每版欲聘5名
生物科研网址导航使用说明
生物科研网络助手使用说明
基因酷资源免费,望您点击广告
来支持基因酷
基因酷大事件回顾
论坛使用说明及酷友指南
基因酷FTP的使用及说明
基因酷个人空间(博客)使用帮助
邀请您参与《生物信息学分析系列图书》编写
祝贺酵母共享平台的建立,征集细胞株共享实验技术支持!
科研文献、资料分享交流倡议
基因酷网络资源调整公告!
情系灾区,奉献爱心
发新话题
打印

[生物信息学] 分子进化与系统进化树的构建

本主题由 nano 于 08-8-12 19:47 关闭 

分子进化与系统进化树的构建

分子进化与系统进化树的构建


* @) a4 v/ c; U; D2 J主要内容:( u" x: H! h% t3 U9 m
1、分子进化的研究方法
! c" G. B  G1 |2、系统进化树的构建方法& ]0 l( g7 m/ k7 C  a
3、系统进化树构建常用软件汇集
. P" A8 K% U" Q. S; ~- S/ c1 F- ?! [4、系统进化树构建方法及软件的选择
% Y! B* a1 p  p5、Phylip分子进化分析软件包简介及使用
) J6 u  d' Q* P( h2 X0 F5 C6、如何利用MEGA3.1构建进化树5 Z4 R5 }  H7 {
; _  y! T7 ], k  J
声明:" n& O( _$ [* j6 ~  ~
1、本篇涉及的资源主要源于网络及相关书籍,由酷友搜集、分析、整理、审改,供大家学习参考用,如有转载、传播请注明源于基因酷及本篇的工作人员;若本篇侵犯了您的版权或有任何不妥,请Email genecool@126.com告知。; K4 s. }1 g! h, u
2、由于我们的学识、经验有限,本篇难免会存在一些错误及缺陷,敬请不吝赐教:请到基因酷论坛(www.genecool.com/bbs)本篇对应的专题跟贴指出或Email genecool@126.com5 ~: u+ U, ~8 M* ^! H- E8 d$ Y: P
$ w( r( J3 y3 e
致谢:
. U1 {+ h& Z: x1 Z整编者:flashhyh
7 a2 f/ y3 U1 x
主要参考资料:《生物信息学札记》 樊龙江;《分子进化分析与相关软件的应用》 作者不详;《进化树构建》 ZHAO Yangguo;《如何用MEGA 3.1构建进化树》 作者不详;《MEGA3指南》 作者不详;  a# H% a' v. f* Z: M4 @
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



分子进化的研究方法

分子进化的研究方法

5 k: j+ }, K1 ?) Q2 S; A1 _
分子进化研究的意义5 l- M1 G$ g" D; M7 _
    自20世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecularevolution)研究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提供了有力的帮助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。& o6 y7 y4 T4 ^& _
    分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。
" d8 b$ q7 `  k' Z* e4 G' u  }( `8 P
分子进化研究的基础5 `0 w5 q8 r( Q; ~" U, f; L
    假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。
) H6 m. O: x3 c% i    分子钟理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。如下图:9 v/ I% _$ f+ p& ]8 z

    直系同源与旁系同源# \/ P3 \# Q3 {2 @0 Z1 v* i
    直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的# ^2 t$ i5 _3 V. t1 c& k- q$ @
    旁系同源(paralogs):同源的基因是由于基因复制产生的6 M# b; U! W, ]% _5 w, T
    两者之间的关系如下图所示:$ e# E% Z5 k$ Z. n7 R0 W
) w1 l4 C3 t9 A


" \, ^0 c! g' Q: }6 Z1 E

    注:用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。
2 N4 Y1 w" d- c- h3 C
' y) u7 n) ?; c: X  _* s分子进化研究的基本方法7 x. J1 N2 s. o  z9 \  k  Q
    对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。
- |2 D; e( U" x& D. H    表型的(phenetic)和遗传的(cladistic)数据有着明显差异。SneathSokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用系统进化树一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称。5 ^0 B  Z5 J# z
    系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。下图表示了4个物种部分有根树和无根树形式:
0 o- E$ u, I0 u( {( j& S6 H5 x3 \6 l1 ?6 o! n


7 J& A! I& [2 \7 P% |. V

    用于构建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提供了基因、个体、群体或物种的信息;二是距离数据(distancedata)或相似性数据(similaritydata),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



系统进化树的构建方法

系统进化树的构建方法


( u$ D4 i- w2 i9 x/ t8 w    系统树的构建主要有三种方法:
( q( ]  d$ L9 EØ距离矩阵法(distancematrixmethod)是根据每对物种之间的距离,其计算一般很直接,所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。
6 ~7 H6 a' R' ~" W* z' p  ZØ最大简约(maximumparsimony)法较少涉及遗传假设,它通过寻求物种间最小的变更数来完成的。
5 k: [* L/ ]' s) k, I: MØ对于模型的巨大依赖性是最大似然(maximumlikelihood)法的特征,该方法在计算上繁杂,但为统计推断提供了基础。( ?/ J, F+ v; h; B, U: g# @$ m* e4 S

9 w/ D" m7 P. l5 s  t; k9 }距离矩阵法1 {9 k. m( y1 m& m+ j
    首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。这里的遗传距离为所有成对实用分类单位(operational taxonomic unitsOTU)之间的距离。用这些距离对OUT进行表型意义的分类可借助于聚类分析(clustering),聚类过程可以看作是鉴别具有相近OUT类群的过程。) T# w/ Z6 T; ]% n
    由进化距离构建进化树的方法很多,常用有如下几种:+ ?# m: I: _) C0 ^3 I
    平均连接聚类法(UPGMA)聚类的方法很多,包括序贯法(sequential)、聚合法(agglomerative)、分层法(hierarchical)和非重叠法(nonoverlapping)等。应用最广泛的是平均连接聚类法(average linkage clustering)或称为UPGMA(应用算术平均数的非加权成组配对法,unweighted pair-group method using anarithmetic average)。该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。Nei等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时,UPGMA法一般能够得到较好的结果。但必须强调有关突变率相等(或几乎相等)的假设对于UPGMA的应用是重要的。另一些模型研究(KimBurgman)已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟(molecularclock)在起作用。
: y! ]# m+ w. j% k+ j    Fitch-Margoliash MethodFM法)UPGMA法包含这样的假定:沿着树的所有分枝突变率为常数。FitchMargoliash(1967)所发展的方法去除了这一假定。该法的应用过程包括插入丧失的”OUT作为后面OUT的共同祖先,并每次使分枝长度拟合于3OTU组。7 ?) B4 W5 e9 g; z! V* h
    Margoliash担心他们的法则所得到的拓扑结构可能是不完全正确的,并建议考查其它的拓扑结构。可以采用FitchMargoliash(1967)称之为百分标准差的一种拟合优度来比较不同的系统树,最佳系统树应具有最小的百分标准差。根据百分标准差选择系统树,其最佳系统树可能与由Fitch-Margoliash法则所得的不相同。当存在分子钟时,可以预期这一标准差的应用将给出类似于UPGMA方法的结果。如果不存在分子钟,因而在不同的世系(分枝)中的变更率是不同的,则Fitch-Margoliash标准就会比UPGMA好得多。通过选择不同的OUT作为初始配对单位,就可以选择其它的系统树进行考查。具有最低百分标准差的系统树即被认为是最佳的,并且这个标准是建立在应用Fitch-    Margoliash算法的基础上的。8 k& ]5 @6 i# L6 A; H
    FM算法的基本步骤:
/ B) `# o+ f: q+ m/ S/ u8 m7 [5 A1、找出关系最近的序列对,如AB: p+ Z% `) F7 {3 @
2、将剩余的序列作为一个简单复合序列,分别计算AB到所有其他序列的距离的平均值  Z9 e9 k9 D/ V( E, u
3、用这些值来计算AB间的距离
( N% b& \  @" G+ b) ~5 J0 z2 E4、AB作为一个单一的复合序列AB,计算与每一个其他序列的距离,生成新的距离矩阵, }  Y+ E' u( t7 G
5、确定下一对关系最近的序列,重复前面的步聚计算枝长  |6 {$ ~8 S! T/ D/ E4 a
6、从每个序列对开始,重复整个过程8 j. s$ Z" s0 Y/ t
7、对每个树计算每对序列间的预测距离,发现与原始数据最符合的树& Z& [8 I# g4 w+ w' x9 a. f
    Neighbor-JoiningMethod(NJ/邻接法)邻接法(Neighbor-joiningMethod)SaitouNei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。) [, r+ ]/ _) P: N8 |

% v: @% k# c8 d6 R) q最大简约法
- D1 `* I! A6 P& O! _- A6 n9 [    最大简约法(maximum parsimonyMP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。
, z& ^7 |4 U7 K' b* S    Felsenstein指出,在试图使进化事件的次数最小时,简约法隐含地假定这类事件是不可能的。如果在进化时间范围内碱基变更的量较小,则简约法是很合理的,但对于存在大量变更的情形,随着所用资料的增加,简约法可能给出实际上更为错误的系统树。
0 |  ]4 U$ N( f  K    最大简约法的优点:最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。
+ y3 N& m- C! U' o" Q    缺点:在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。然而在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。
5 Z5 A9 h- S! Y$ g3 g- a" q. E* B: q$ }+ T- v, t% G. `
最大似然法(ML0 ^  k2 A8 g5 N, |* g0 Z6 h
    最大似然法(maximum likelihood,ML)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。, j3 x. X  k" _5 O2 S$ F% F8 z
    最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率球最大值来估计枝长。最大似然法的建树过程是个很费时的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。8 q0 I4 r! q+ `, n$ \. |4 z' @
    最大似然法也是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。
! t4 s* Y% p) {% P7 F$ h
" V4 ^9 N7 o  m; x6 o# o5 T    注:上述只是对系统进化树构建方法的简要介绍,没有深入每种方法的构建原理等方面,若想进一步了解,请参见附件中的《生物信息学札记――分子进化:系统树的构建,樊龙江编》。若欲深入了解,请参考相关文献。
附件: 您所在的用户组无法下载或查看附件
付出总有回报,努力会有结果!

TOP



系统进化树构建常用软件汇集

系统进化树构建常用软件汇集

软件名称

网址

   

PHYLIP
0 q, _" q! _  F- X8 M9 {
http://evolution.genetics.washinton.edu/phylip/software.html2 w* h) [3 m# S" a5 M9 q  c1 o
目前发布最广,用户最多的通用系统树构建软件,由美国华盛顿大学Felsenstein开发,可免费下载,适用绝大多数操作系统4 s0 M* V  v- T0 I- Z3 L
PAUP
9 X* N. V! ~9 M0 @
scavotto@sinauer.com( v3 I$ M/ k( \! y0 r4 C& B
ftp://onyx.si.edu/paup
  Y+ J+ F1 U% O2 m$ s% E) j
国际上最通用的系统树构建软件之一,美国simthsonion institute开发,仅适用Apple-MacintoshUNIX操作系统
: v* B, {* j. F/ n
MEGA
9 o+ V1 Y7 f6 A: z( @
http://bioinfo.weizmann.ac.il/databases/info/mega.sof
$ H! `( b! C  j: w0 S  \+ |. k2 W
美国宾西法尼亚州立大学MasatoshiNei开发的分子进化遗传学软件,图形化、集成的进化分析工具,不包括ML( J; d* _$ [3 I3 ~# x2 z" y( `  h% X9 C0 M
MOLPHY
2 l1 d4 j( i6 ~7 S( B8 Y
ftp://sunmh.ism.ac.jp/pub/molphy' g3 m1 i# o/ p
日本国立统计数理研究所开发,最大似然法构树
; X: H/ J& R; T3 `4 N
PAML
6 q3 ^7 j8 e5 E/ G
http://abacus.gene.ucl.ac.uk/software/paml.html' i8 S* {* b! o. O
英国University college London 开发,最大似然法构树和分子进化模型
6 N9 {& M! G3 e0 b
PUZZLE% i' f0 B9 C! N+ A
ftp://fx.zi.biologie.uni-muenchen.de/pub/puzzle& r4 h. n) ~4 n
应用quarter puzzling方法(一种最大简约法)构建系统树$ X2 m5 s# N2 \( ?4 v2 Y" X# B; @, c& J
TreeView8 ]6 H  b# o6 K" `! O
http://taxonomy.zoology.gla.ac.uk/rod/treeview.html& S# i6 ^( I6 i; Y: d& r! b
英国University of Glasgow开发,进化树显示工具
1 h: F5 H+ o+ `3 G) w7 t
phylogeny
4 X4 s% Y* E. U; v, O4 E
http://www.ebi.ac.uk/biocat/phylogeny.html
* o9 V) d; p1 P, D+ V0 a
欧洲生物信息研究所(EBI)的系统发育分析软件
# P- @$ U/ K; `3 d
PHYML7 O/ R% o- c, Y9 p! T, F' P  s
http://atgc.lirmm.fr/phyml/ " M5 ^' [( w0 |3 k) H$ N6 D
快速的ML建树工具
# ^) j, A% Z4 s2 i3 T
MrBayes
% o6 c/ Y& x6 q6 b. Z& U- }# O# F/ y
http://mrbayes.csit.fsu.edu/
' O. S) l2 O, D% n+ |& X* X$ R% y5 L
基于贝叶斯方法的建树工具
" X9 u; I: N7 v. V! ~9 t
MAC5
& l0 |: B! b# D- H/ l7 S
http://www.agapow.net/software/mac5/! f3 X5 C6 E  w1 s
基于贝叶斯方法的建树工具% E  Z! C& _) D2 ?& q
Tree of Life. t% \2 U, D' G
http://phylogeny.arizona.edu/tree/program/program.html
( ~* ~# d8 e6 z  @! o( H
美国University of Arizona建立的系统发育方面网站6 f: ]5 e; N1 C; J6 u7 }/ C; y

付出总有回报,努力会有结果!

TOP



系统进化树构建方法及软件的选择

系统进化树构建方法及软件的选择


4 Z4 |' J& l# U: S( p! p5 T构建方法的选择
& x  e0 O) H& T$ y6 M    从上述我们可以了解到,构建系统进化树的方法主要有:基于距离矩阵的方法(UPGMANJNeighbor-Joining,邻接法)等、MPMaximum parsimony,最大简约法)、MLMaximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中基于距离矩阵中的UPGMA法已经较少使用。0 \: T/ C0 Z! `/ }! T7 _7 z* R) Q
    一般情况,若有合适模型,ML的效果较好;近缘序列,一般使用MP(基于的假设少);远缘序列,一般使用NJML
0 d' ]* D1 Z- D8 r) \    对相似度很低的序列,NJ往往出现Long-branch attractionLBA,长枝吸引现象),有时会严重干扰进化树的构建;贝叶斯的方法则太慢。各种方法构建的系统进化树,(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯方法的准确性最高,其次是ML,然后再是MP。其实若序列有较高的相似性,各种方法都会得到不错的结果,模型间的差别也不大。
, `% F% _9 C' v$ i" p: P6 ?$ C    对于NJML两种方法,需要选择构建模型。对于核酸及蛋白质序列,两者模型的选择是不同的。蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型;而对于核酸序列,一般选择Kimura 2-parameterKimura-2参数)模型。; U7 c9 x2 r% i# N3 {% M# G
    Bootstrap选项一般都要选择,Bootstrap的值>70,一般都认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。$ `+ o! _% S" r1 L! g7 d! W
    对于进化树的构建,如果对理论的了解并不深入,则推荐使用缺省的参数,并启用Bootstrap检验。一般情况下,使用两种不同的方法构建进化树,如果得到的进化树基本一致,结果较为可靠。5 O+ `' {, h6 B: d: a

) R( d% H. F  W' y; `, G- w构建软件的选择( K+ \, @1 k& N/ k2 j! [
    构建NJ树,可以用PHYLIP或者MEGAMEGANei开发的方法并设计的图形化的软件,使用非常方便,推荐使用。虽然多序列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。
5 _8 T$ I. d+ I5 o3 k  ^    构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对科研学术免费。MEGAPHYLIP也可以用来构建MP树。5 n0 D$ R. {. o& u# L0 y
    构建ML树可以使用PHYML,速度较快。也可使用Tree-puzzle,该程序做蛋白质序列的进化树效果比较好。ML可以使用PAUPPHYLIP(或BioEdit来构建。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。- Z9 z8 Y# J% V5 P+ g
    贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。
付出总有回报,努力会有结果!

TOP



Phylip分子进化分析软件包简介及使用

Phylip分子进化分析软件包简介及使用


6 ?) }$ c  W: N
# N4 R8 g: V8 J. ~6 c% N        Phylip
是一个免费的系统发生(phylogenetics)分析软件包,由华盛顿大学遗传学系开发,1980年首次公布。Phylip有多种不同平台的版本(包括windowsMacintoshDOSLinuxUnixOpenVMX)。
( \2 r1 H* M0 }2 C) L4 S
        下载地址:http://evolution.genetics,washington.edu/phylip.html
  ?5 G/ j' S/ b
9 f  p5 o6 R4 k- lPhylip软件包的组成
5 i# {$ v% ?/ Z+ c; m3 P        Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。Phylip主要包括一下几个程序组:分子序列组、距离矩阵组、基因频率组、离散字符组、进化树绘制组。
3 ~2 e: d# V2 v1 z/ f2 l# B5 j/ Y        分子序列组:蛋白质序列:protparspromlpromlkprotdist核酸序列:dnapennydnaparsdnamovednamldnamlkdnainvardnadistdnacomp( L0 ~; f3 y% q5 w1 O
        距离矩阵组:Fitchkitschneighbor
8 q3 R' l9 m( O& A7 @$ M7 u        基因频率组:Gendistcontml( O; }  D2 W& |, _; K7 E# l$ E) L