当前位置：文档库 › 进化树分析软件MEGA的用法

进化树分析软件MEGA的用法

将clustal排好的序列转成MEGA格式

2.打开MEGA格式的文件，点PHYLOGENY，要建BOOTSTRAP检验的树，如下图。有四种建树方法，NJ， MP， ME，and UPGMA。后面以NJ为例。

3。点击NJ后如下图。点击绿色方格可以改变BOOTSTRAP中重复的次数（＞１００），GAP是pairwise 还是complete deletion（一般选ＰＡＩＲＷＩＳＥ）, 适合你数据的替换模型（有ＭＯＤＥＬＴＥＳＴ可以检验）。（一定要根据自己的数据来设这些值）

4。一切就绪后，点击COMPUTE。结果如下，红圈中的数字就是bootstrap 值，一般大于７０％的枝认为比较有意义．

5。如果有外类群，你可以直接点击你的外类群，得到有根树

6。基本过程就是这样，MEGA还有其他一些功能，希望大家继续补充。

进化树的研究

1 引言生物信息学是生物技术的核心，是在分子生物学和信息科学共同发展的基础上产生的一门交叉学科，包含对生物数据的获取、处理、存储、分发、分析、挖掘等方面的研究内容。生物信息学的研究对于最终改善人类自身生活质量，解决健康问题等也有重大的作用。随着分子生物学的不断发展，人们惊奇地发现DNA 的双螺旋结构中蕴涵着生命的密码，四种核苷酸的排列、变化包含着许多遗传、进化信息。人类基因组计划以来，有关核酸（或蛋白质）序列和结构的数据成指数增长，而面对如此复杂的数据，计算机在此方面的应用必不可少。因此，生物信息学研究的目的就在于，人们通过数学、计算机科学等各种工具，可以阐明和理解大量数据包含的生物学意义。由于深度测序和基因芯片技术的不断完善和发展，表达谱、转录组、基因组等数据不断增长。到目前为止，已被测序的昆虫基因至少有10个，被报道的转录组数据也有30多个。生物信息学在昆虫学研究中的应用价值随着昆虫学研究的不断深入和昆虫生物数据的大量积累越来越明显。大量医学昆虫、经济昆虫和农业昆虫的基因组在模式昆虫果蝇的基因组测序成功之后也相继被测序。昆虫种类繁多、进化关系复杂、个体发育系统多样对于生物的多样性组成也占有举足轻重的地位。此外，昆虫与人类的日常生活和生产亦有密切的关系。例如，家蚕、蜜蜂等经济类益虫能够为人类提供日常生产资料和生活资源，害虫能给人类带来巨大的损失。对昆虫基因组进行深入研究不仅能为传统昆虫学科的发展提供崭新的机遇，而且对深入了解昆虫的多样性及其生物学特征与本质具有重大意义。所有生物都可以追溯到共同的祖先，生物的产生和分化就像树一样的生长，分叉，因此以树的形式来表示生物间的进化关系是非常合理的。根据各类生物间的亲缘关系的远近，把生物安置在树状图表上，简明地表示生物的进化历程和亲缘关系的树状结构就是进化树。在进化树上每个叶子结点代表一个物种，每一条边都被赋予一个适当的权值的话，两个物种之间的差异程度就可以用两个叶子结点间的最短距离来表示。 2 生物信息学

介绍几个进化树分析及其相关软件

大家好：我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN （LINUX）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（To align sequences）。做ALIGNMENT的软件很多，最经常使用的有CLUSTALX和CLUSTALW，前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树（To reconstrut phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

Mega的使用以及进化树的绘制

1.MEGA构建系统进化树的步骤 2.CLUSTALX进行序列比对 1.MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致( 5’-3’)。如图： 2. 打开MEGA软件，选择"Alignment" - "Alignment Explorer/CLUSTAL"，在对话框中选择Retrieve sequences from a file, 然后点OK，找到准备好的序列文件并打开，如图：。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐，对齐过程需要一段时间，对齐完成后，最好将序列两端切齐，选择两端不齐的部分，

单击右键，选择delete即可，如图：。 4. 关闭当前窗口，关闭的时候会提示两次否保存，第一次无所谓，保存不保存都可以，第二次一定要保存，保存的文件格式是.meg。根据提示输入Title，然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开，选择Yes，如图：。 5. 回到MEGA主窗口，在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”，打开一个窗口，里面有很多参数可以设

置，如何设置这些参数请参考详细的MEGA说明书，不会设置就暂且使用默认值，不要修改，点击下面的Compute按钮，系统进化树就画出来了，如图：在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图：在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图：在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”，

进化树分析步骤

进化树分析步骤一、用CLUSTALX（1.83）排列序列（alignment）方法： 1、打开记事本，以FASTA格式粘贴序列到记事本，所有要比对的序列都这么粘贴，格式如下： >aa （序列名称） aaagggtttttcccc（序列） >bb aaagggtttttcccc >cc aaagggtttttcccc 2、用ClustalX打开记事本文件。导入第一个文件用load sequence, 后面的文件用append sequence。都在file下拉菜单里。 3、用ClustalX排序后，输出格式为*.PHY，保存。用记事本打开如下图：图中的8和50分别表示8个序列和每个序列有50个碱基。二、phylip软件进行进化树分析 1、打开软件SEQBOOT

路径输入刚才生成的*.PHY文件，并在Random number seed (must be odd) ?的下面输入一个4N+1的数字后，屏幕显示如下：图中的D、J、R、I、O、1、2代表可选择的选项，键入这些字母，程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择，分别是Bootstrap、Jackknife 和Permute。文章上面提到用Bootstraping法对进化树进行评估，所谓Bootstraping 法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最“逼真”的进化树。Jackknife 则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。Permute是另外一种取样方法，其目的与Bootstrap和Jackknife法不同。R选项让使用者输入republicate的数目。所谓republicate 就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate。当我们设置好条件后，键入Y按回车。得到一个文件outfile。（提示：在此最好把outfile更名为outfile1，因为后面步骤生成的文件都为outfile，可以一次更名为outfile1、outfile2….outfileN） Outfile用记事本打开如下：

运用mega5构建系统发生进化树.

1．准备序列文件准备fasta格式序列文件（fasta格式：大于号>后紧跟序列名，换行后是序列。举例如下）。每条序列可以单独为一个文件，也可以把所有序列放在同一文件内。核酸序列： >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列： >sequence2_name MQSPINSFKKALAEGRTQIGF 2．多序列比对打开MEGA 5，点击Align，选择Edit/Build Alignment，选择Create a new alignment，点击OK。

这时需要选择序列类型，核酸（DNA）或氨基酸（Protein）。选择之后，在弹出的窗口中直接Ctrl + V粘贴序列（如果所有序列在同一个文件中，即可全选序列，复制）。也可以：点击Edit，选择Insert Sequence From File，选择序列文件（可多选）。

序列文件加载之后，呈蓝色背景（为选中状态）。点击按钮，选择Align DNA （如果是氨基酸序列，则会出现Align Protein）。弹出的窗口中设置比对参数，一般都是采用默认参数即可。点击OK，开始多序列比对。

比对完成后，呈现以下状态。这时需要截齐两端含有---的序列：选中含有---的序列，按键Delete删除（注意：两端都需要截齐）。截齐之后，保存文件为：filename.mas

3．构建系统进化树多序列比对窗口，点击Data，选择Phylogenetic Analysis，弹出窗口询问：所用序列是否编码蛋白质，根据实际情况选择Yes或No。此时，多序列比对文件就激活了，可以返回MEGA 5主界面建树了。

分子进化树构建及数据分析的简介

【转载】分子进化树构建及数据分析的简介+oldfish的批评意见分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover1[1], klaus, oldfish, yzwpf 一、引言开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。

进化树选择

系统进化树构建及数据分析的简介 Posted on 08 六月2009 by 柳城，阅读1,278 简洁版繁體一、引言开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用ClustalX做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择首先是方法的选择。基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ（Neighbor-Joining，邻接法）等。其他的几种方法包括MP（Maximum parsimony，最

几个进化树相关软件的使用方法

几个进化树相关软件的使用方法我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN （LINUX）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤：⑴要对所分析的多序列目标进行排列（To align sequences）。做ALIGNMENT的软件很多，最经常使用的有CLUSTALX和CLUSTALW，前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树（To reconstrut phyligenetic tree）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。UPGMAM（Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

进化树软件MEGA最新6.06说明书

第一步：打开软件下面介绍菜单的使用： Data菜单： Creat a new ：创建一个新的数据比对文件，也就是说当我们比对完一组后，想接着比对另一组，那么使用它就可以不用退出直接把数据文件导入； Open ：打开先前已经比对并保存好的文件，它包含两个子菜单：retive sequence from file 和saved aligment session ； Close: 关闭当前的比对数据文件；

Save session ：保存当前比对结果，可以给比对的结果一个文件名； Export alignment ：将当前的序列比对结果输出到指定文件，有两种输入格式可供选择：MGTA 和FASTA. DNA sequence ：使用它来选择输入的数据DNA 序列，这里需要说明的是如果你输入的数据是氨基酸序列的话，比对窗口只显示一个标签，若是DNA 序列的话则显示两个标签，一个是DNA 序列的，另一个是氨基酸序列的。 Protein sequences ：选择输入的氨基酸序列，选择后，所以的位点就被当作氨基酸残基位点来对待。 Translate/untranslate ：只有比对的序列是编码蛋白的DNA序列的时候才可用。它可以根据指定的遗传密码表将DNA 序列翻译成特定的氨基酸序列。 Select genetic code table ：使用它将编码蛋白的DNA 翻译成特定的蛋白序列。 R everse complement ：将选择的一整行的DNA 序列变为与之互补配对碱基序列。Exit alignment explorer ：退出序列比对的资源管理窗口 Edit 菜单：使用这个菜单可以对我们的比对序列进行想要的一些编辑工作具体为 Undo：撤销上一步操作； Copy：复制；Cut：剪切；Paste：粘贴；这三个操作都可以只针对一个碱基或氨基酸残基也可以是一段甚至是整个序列； Delete：从比对表格中删除一段序列； Delete gaps：去掉序列中的空缺； Insert blank sequence：重新插入一空行；标签和序列都是空的； Insert sequence from file ：从已保存的文件中插入新的序列；

MEGA构建系统进化树的步骤(以MEGA7为例)

MEGA构建系统进化树的步骤（以MEGA7为例）本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化，是用它的DNA序列，还是翻译后的蛋白质序列呢？序列的选取要遵循以下原则：1）如果DNA序列的两两间的一致度≥70%，选用DNA 序列。因为，如果DNA序列都如此相似，它的蛋白质会相似到看不出区别，这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列，而不选蛋白质序列。2）如果DNA序列的两两间的一致度≤70%，DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致( 5’-3’)。想要做系统发生树先要做多序列比对，然后把多序列比对的结果提交给建树软件进行建树，所以在用MEGA建树时可以输入一个已经比对好的多序列比对，也可以输入一条原始序列，让MEGA先来做多序列比对，再建树（一般我们都是原始序列）。所以我们以后者为例。 2.打开MEGA软件，选择主窗口的”File”→“Open A File”→找到并打开fasta文件，这时会询问以何种方式打开，我们是原始序列，需要先进行多序列比对，所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对（MEGA提供了ClustalW和Muscle两种多序列比对方法，这里选择熟悉的ClustalW），弹出窗口询问“Nothing selected for alignment，Select all？”选择“OK”。 4. 之后，弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样，可以设置替换记分矩阵、不同的空位罚分（罚分填写的是正数，计算时按负数计算）等参数。MEGA的所有默认参数都是经过反复考量设置的，这保证了MEGA傻瓜机全自动档的品质，所以当你无从下手，或者没有什么特别要求的时候，直接点击“OK”，接受这些默认参数，开始多序列比对。

用MEGA构建进化树

如何用MEGＡ构建进化树ＭEGA3、１就是一个关于序列分析以及比较统计得工具包,其中包括有距离建树法与MP建树法;可自动或手动进行序列比对,推断进化树,估算分子进化率,进行进化假设测验，还能联机得Ｗeb数据库检索。下载后可直接使用,主要包括几个方面得功能软件:i)DNA与蛋白质序列数据得分析软件。ii)序列数据转变成距离数据后,对距离数据分析得软件。iii)对基因频率与连续得元素分析得软件。iv)把序列得每个碱基/氨基酸独立瞧待(碱基/氨基酸只有0与１得状态)时，对序列进行分析得软件。v）绘制与修改进化树得软件，进行网上ｂlasｔ搜索。用MEGA构建进化树有以下步骤: 1、16S rＤNA测序与参考序列选取从环境中分离到单克隆，去重复后扩增16S rDNA序列并测序,然后与数据库比对,找到相似度最高得几个序列，确定一下您分离得细菌大约属于哪个科哪个属,如果相似度达到百分之百那基本可以确定您分离得到得就就是Blast到得那个,然后找一到两个同科得,再找一到两个同目得,再找一到两个同纲得细菌，把序列全部下下来,以FSATA形式整合在TXT文档中,如 >TS１ GCＡGTCGAACGAＴGAAＧCCCAGＣTTGCＴGGGTGGA TTＡGTGGCGＡＡCGGGTＧAGTAＡCACGＴGGGTGＡTCTＧCCCTGCACTＴＣＧGＧATAAGＣＣTＧＧGAAＡＣＴＧＧGTCTＡATACCGGＡTAGGACCTCGGGA TGCAＴGＴTCＣGGGGTGGＡAAGGTTTＴCCＧＧＴGCＡGGATGGＧＣC ＞gi｜１1757２706|gb|EF0２8１2４、1| Rｈｏｄｏcoccus ｓp、Atｌ25 16S ｒibosｏmal ＲNＡgene，partｉal sｅqueｎce CGAＴTAGＡGTTTGＡTCＣTGＧCＴCＡＧGACGＡＡCＧＣTＧGCGＧCGTGCTTＡＡCACATGCAAGTCGＡACＧＡTＧＡＡGＣCCＡGＣTTGCＴGGＧTGGAＴTAGＴGＧCＧAACGGGTGＡＧTAACACGTＧGGTGA TCTGCＣCTＧCＡＣTTCGGGAＴAAGCCTGＧGAＡＡCＴGGＧTCTAAＴACCＧGＡT ＞TS2 ＴGCAAＧTＣGＡＧＣGAATGGA TTAAGAGＣTTGＣTCTＴＡＴGAAGTTAGＣGGCGGA ＣGGGTＧAＧTAAＣACGTＧGGＴＡＡCCTＧCCＣATＡＡGACTＧGGAＴAAＣTＣCGG ＧAAACCGGＧGCTAATACCGGAＴAACAＴTTTGAACTGCＡTGGＴＴCＧAAAＴTＧＡＡAGＧCGGＣTTＣGGCTＧTＣACT >gi｜5６383044|eｍb|AＪ８０9498、1｜Baｃillus ｃereus partｉaｌ16S rＲNA gene, stｒaiｎＴMW 2、３83 ＧA TGAＡCGCTGGCＧGCGTGCCＴAATACＡTGCAAＧTCGAGCGAＡTGGATTAAGＡＧCTTGCTCTTＡＴＧAＡＧＴTAGＣＧGCGGＡCGGGTＧＡGＴAACAＣGＴGGGTAACCＴGCＣCＡTAAＧACＴＧGGA TＡAＣＴCCGＧGAＡＡCCGGＧGCTAA TＡCCＧGATAＡCA TTTTGAACYGCA TＧGＴTＣ…………………………、 …………………………、参考序列选择有几个原则：a,不选非培养(ｕnclutuｒeｄ)微生物为参比;b,所选参考序列要正确,里面无错误碱基;c,在保证同属得前提下,优先选择１６S rDNA全长测序或全基因组测序得种；d,每个种属选择一个参考序列,如果自己得序列中同一属得较多,可适当选择两个参考序列。 2、序列比对

分子进化树构建及数据分析的简介

分子进化树构建及数据分析的简介开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。 6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择首先是方法的选择。基于距离的方法有UPGMA、ME（Minimum Evolution，最小进化法）和NJ（Neighbor-Joining，邻接法）等。其他的几种方法包括MP（Maximum parsimony，最大简约法）、ML（Maximum likelihood，最大似然法）以及贝叶斯（Bayesian）推断等方法。其中UPGMA法已经较少使用。一般来讲，如果模型合适，ML的效果较好。对近缘序列，有人喜欢MP，因为用的假设最

MEGA构建系统进化树的步骤(以MEGA7为例)教学文案

M E G A构建系统进化树的步骤(以M E G A7为例)

MEGA构建系统进化树的步骤（以MEGA7为例）本文是看中国慕课山东大学生物信息学课程总结出来的分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化，是用它的DNA序列，还是翻译后的蛋白质序列呢？序列的选取要遵循以下原则：1）如果DNA序列的两两间的一致度≥70%，选用DNA序列。因为，如果DNA序列都如此相似，它的蛋白质会相似到看不出区别，这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列，而不选蛋白质序列。2）如果DNA 序列的两两间的一致度≤70%，DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件，注意：所有序列的方向都要保持一致 ( 5’-3’)。想要做系统发生树先要做多序列比对，然后把多序列比对的结果提交给建树软件进行建树，所以在用MEGA建树时可以输入一个已经比对好的多序列比对，也可以输入一条原始序列，让MEGA先来做多序列比对，再建树（一般我们都是原始序列）。所以我们以后者为例。 2.打开MEGA软件，选择主窗口的”File”→“Open A File”→找到并打开fasta文件，这时会询问以何种方式打开，我们是原始序列，需要先进行多序列比对，所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对（MEGA提供了ClustalW和Muscle两种多序列比对方法，这

用MEGA作进化树[2]

用MEGA2做进化树的步骤(图示) 1、打开程序如下图所示： 2、MEGA2只能打开meg格式的文件，但是它可以把其他格式的多序列比对文件转换过来，我们在这里用aln格式（Clustal的输出文件）转换meg文件。点File:Convert to MEGA Format...打开转换文件对话框如下图所示：

3、选择文件和转换文件对话框，选择aln文件，点OK 如下图所示： 4、转换好的meg文件，点存盘保存meg文件，meg文件会和aln文件保存在同一个目录如下图所示： 5、关闭转换窗口，回到主窗口，现在点面板上的“Click me to activate a data file”打开刚才的meg 文件如下图所示：

6、选择meg文件，点“打开” 如下图所示： 7、程序会自动识别序列的类型，如果识别错误，请手工选择数据类型。然后点OK就行了如下图所示：

8、数据输入之后的样子，窗口下面有序列文件名和类型如下图所示： 9、现在终于可以开始做Bootstrap验证和进化树了，MEGA的主要功能就是做Bootstrap验证的进化树分析，Bootstrap验证是对进化树进行统计验证的一种方法，可以作为进化树可靠性的一个度量。各种算法虽然不同，但是操作方法基本一致，我们在此以UPGMA方法为例进行演示。点下图所示的菜单项。如下图所示：

10、...会弹出如下的对话框，在此你可以选择计算参数。如下图所示： 11、Distance Options标签页中的Models可以下拉，其中有若干个计算距离的方法可以选择，在此默认泊松校验(Poisson Correction)作为计算距离的方法。如下图所示：

用MEGA构建进化树

如何用MEGA构建进化树 MEGA3.1是一个关于序列分析以及比较统计的工具包，其中包括有距离建树法和MP 建树法；可自动或手动进行序列比对，推断进化树，估算分子进化率，进行进化假设测验，还能联机的Web数据库检索。下载后可直接使用，主要包括几个方面的功能软件：i)DNA 和蛋白质序列数据的分析软件。ii)序列数据转变成距离数据后，对距离数据分析的软件。iii)对基因频率和连续的元素分析的软件。iv)把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有0和1的状态）时，对序列进行分析的软件。v)绘制和修改进化树的软件，进行网上blast搜索。用MEGA构建进化树有以下步骤： 1. 16S rDNA测序和参考序列选取从环境中分离到单克隆，去重复后扩增16S rDNA序列并测序，然后与数据库https://www.wendangku.net/doc/c816164095.html,/blast/Blast.cgi比对，找到相似度最高的几个序列，确定一下你分离的细菌大约属于哪个科哪个属，如果相似度达到百分之百那基本可以确定你分离得到的就是Blast到的那个，然后找一到两个同科的，再找一到两个同目的，再找一到两个同纲的细菌，把序列全部下下来，以FSATA形式整合在TXT文档中，如 >TS1 GCAGTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAA CACGTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAATACCG GA TAGGACCTCGGGA TGCA TGTTCCGGGGTGGAAAGGTTTTCCGGTGCAGGATGGGCC >gi|117572706|gb|EF028124.1| Rhodococcus sp. Atl25 16S ribosomal RNA gene, partial sequence CGATTAGAGTTTGA TCCTGGCTCAGGACGAACGCTGGCGGCGTGCTTAACACATGCAA GTCGAACGATGAAGCCCAGCTTGCTGGGTGGA TTAGTGGCGAACGGGTGAGTAACAC GTGGGTGATCTGCCCTGCACTTCGGGATAAGCCTGGGAAACTGGGTCTAA TACCGGA T >TS2 TGCAAGTCGAGCGAATGGA TTAAGAGCTTGCTCTTA TGAAGTTAGCGGCGGACGGGTG AGTAACACGTGGGTAACCTGCCCA TAAGACTGGGATAACTCCGGGAAACCGGGGCTAA TACCGGATAACA TTTTGAACTGCATGGTTCGAAA TTGAAAGGCGGCTTCGGCTGTCACT >gi|56383044|emb|AJ809498.1| Bacillus cereus partial 16S rRNA gene, strain TMW 2.383 GA TGAACGCTGGCGGCGTGCCTAA TACATGCAAGTCGAGCGAA TGGATTAAGAGCTTG CTCTTA TGAAGTTAGCGGCGGACGGGTGAGTAACACGTGGGTAACCTGCCCATAAGAC TGGGATAACTCCGGGAAACCGGGGCTAATACCGGATAACATTTTGAACYGCATGGTTC …………………………. …………………………. 参考序列选择有几个原则：a，不选非培养(unclutured)微生物为参比；b，所选参考序列要正确，里面无错误碱基；c，在保证同属的前提下，优先选择16S rDNA全长测序或全基因组测序的种；d，每个种属选择一个参考序列，如果自己的序列中同一属的较多，可适当选择两个参考序列。

怎样使用MEGA建立进化树

怎样使用MEGAt 立进化树如何使用MEGA4.0#立进化树 1、首先是双击软件打开如下图所示 |M| ijaKMr 3 valj 141 Mrhr ArgrwricQt iVvta “qplii ：护忏冲 i 二客H - I 号筍需.廿星"L IF M ■ H 、- | II ■ DKi -Mjrsrze: H r? r-r r ^c>az^ LCS 2、现在是处于DNA 序列，而我们要做蛋白质的进化树的话，就如下操作

M4. Aligmr>&nl Explof頁 H L lQnmt*Ft ji Edit m e祁 3、接下来我们要进行序列的输入，点击左边那个红箭头，贝U出现下面的窗口

刚M4： Alfgnment Explorer 匚;日屯EJrt S?ar di Aflgmnenl Wfrb $e<)□ d | D ◎日「蹇輻酋1 41象 Protein S^quer匚弊 1 |主曲色"匕色丄 4、然后右击sequenee 1,修改名字，如改成DPV Frotejn Sequence? 5、然后从Word里复制蛋白质序列，然后在下面的位置粘贴 G 辱Copf PTCtfiT X CU, 書 f sterna 6则可出现如下图的序列了 □ Q CW1C 3 iRWfl Wq^ri[ V ^i>n irequ^Ki 幷册枷? 1話皿讥曲佰i" —喇?ct Mgeirc 惟 ■ sy

7、然后点击窗口上的保存图标保存 8、重复从3开始，直到你的序列输入完 9、序列输入元后进行最后的保存，方法如下垂邑trit 5|讨之斗和"1 of op?r * dow 亠 P TOUMT 1

分子进化树构建及数据分析的简介(精)

分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf 一、引言开始动笔写这篇短文之前，我问自己，为什么要写这样的文章？写这样的文章有实际的意义吗？我希望能够解决什么样的问题？带着这样的疑惑，我随手在丁香园（DXY）上以关键字“进化分析求助”进行了搜索，居然有289篇相关的帖子（2006年9月12日）。而以关键字“进化分析”和“进化”为关键字搜索，分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关，这里我保守的估计，大约有3,000~4,000篇帖子的内容，是关于分子进化的。粗略地归纳一下，我大致将提出的问题分为下述的几类： 1．涉及基本概念。例如，“分子进化与生物进化是不是一个概念”，“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”，等等。 2．关于构建进化树的方法的选择。例如，“用boostrap NJ得到XX图，请问该怎样理解？能否应用于文章？用boostrap test中的ME法得到的是XXX树，请问与上个树比，哪个更好”，等等。 3．关于软件的选择。例如，“想做一个进化树，不知道什么软件能更好的使用且可以说明问题，并且有没有说明如何做”，“拿到了16sr RNA数据，打算做一个系统进化树分析，可是原来没有做过这方面的工作啊，都要什么软件”，“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”，“请问有做过进化树分析的朋友，能不能提供一下，做树的时候参数的设置，以及代表的意思。还有各个分支等数值的意思，说明的问题等”，等等。 4．蛋白家族的分类问题。例如，“搜集所有的关于一个特定domain的序列，共141条，做的进化树不知具体怎么分析”，等等。 5．新基因功能的推断。例如，“根据一个新基因A氨基酸序列构建的系统发生树，这个进化树能否说明这个新基因A和B同源，属于同一基因家族”，等等。6．计算基因分化的年代。例如，“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近，具体推算出他们之间的分歧时间”，“如何估计病毒进化中变异所需时间”，等等。 7．进化树的编辑。例如生成的进化树图片，如何进行后续的编辑，比如希望在图片上标注某些特定的内容，等等。由于相关的帖子太多，作者在这里对无法阅读全部的相关内容而致以歉意。同时，作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念，作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》（Molecular Evolution and Phylogenetics）一书，以及相关的分子进化方面的最新文献。对于问题7，作者之一lylover一般使用Powerpoint进行编辑，而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。这里，作者在这里对问题2-6进行简要地解释和讨论，并希望能够初步地解答初学者的一些疑问。二、方法的选择