CLUSTALX进行序列比对
1.将下载的序列放入一个Text文本文档中,序列按一定的格式,
>pig
AGAGACGGCCGCA TCTTCTTGTGCAGTGCCAGCCTCGTCCCGTA GACAAAA TGGTGAAGGTCGGTGTGAACGGA TTTGGCCGTA TTG GGCGCCTGGTCACCAGGGCTGCCA TTTGCAGTGGCAAAGTGGA GA TTGTTGCCA TCAA的格式复制过来,放在一个文本文档里。
新建文本文档.txt
注意:CLustal 1.83分析出了全序列比对,彩色比对区上门的*越多,表示这段序列越保守
2.在File--load sequence载入序列,如图所示
3.Alignment进行全序列比对
--
4.点击align
5.
在桌面上即可生成aln格式的文本文档(用于下面Mega5.02进行进化树构建)
Mega5.02序列比对及建进化树
序列比对
1.用文本格式的序列数据进行比对
2.Align---edit alignment即新建一个数据---0k---DNA
3.
Edit--insert sequence from file ---选择文本文档
4.Alignent---Align by ciust W--ok---关闭序列比对--并保存在桌面上---Phylogeny--MAX
5.两种不同的方法最大释然和邻近法
邻近法更准确
建进化树1.File--convert file format to mega
2.
3.点击文件夹从桌面载入aln格式的文本文档
4.
5.点击OK,再命名
6.
7.
8.关闭窗口
9.点击OK
10.phylogen--text neighbor -joining tree -或者Maximum的方式进行构建--从桌面上选择刚命名的文件
11.
点击打开
12.
13.
14.点击Y es
15.
16.
17.将Test phylogery中的None改成如图
18.
19.
20.进化树就构建成功--点击横线进行细节修改
21.
22.点击左边第五个蓝色的图标
进行细节修改
23.可以双击分类后的名称,进行名称修改,如
Primer 5设计引物
1.File---New--DNA sequence
2.将序列复制过来(序列的格式必须是文本格式)--as is --OK
3.点击Primer
4.点击S--File-perferences
Length设置为20
点击OK
6.Search
7.type--both-PCR size 100-1000--primer length 25-5--OK
、
点击OK
8.选择打分高的,且退火温度在55℃左右的温度。
9.可通过手动调节上面的序列,使得二者的打分最高,如退火温度较高,则可以把序列长度降低一点,如19,点击Edit Primer --可以把引物序列复制下来
引物的基本原则
1.引物的长度18-28,不能太长。引物越长特征性高,要求的退火温度越高,但是扩张效率较低,容易形成引物二聚体。
2.G、C的含量在45-55%左右,但有时也可能比较高或者比较低,不是很重要,45-55%的范围只是最好的。G、C含量高,退火温度高。
3.3’端是最重要的,是起始阶段。最好是A、T、C、G随机均一分布,不能集中的分布;特别3‘端前段最好不要连续3个以上的G、C出现,不能很好的促发反应,只要3’端的前10个碱基结合得好就行。5‘不是很重要,可以很多不配对。实际上3‘端连续出现G/C 但是效果也比较好。
GCCTCGTCCCGTAGACAAAA T
CCAGGGGGGCTAAGCAGTT
10.
11.外套和内套的设计使得特异性更高
要没有false priming
打分不一定都要100分
退火温度在55度以上都行
内套序列必须位于外套内
设计外套228-818 sense CACGGCAAGTTCAACGGCAC Anti -Sense TTTCTCCAGGCGGCAGGTCAG
设计内套310-585
Sense CTGCCAACA TCAAGTGGGGTG
Anti -sense GTCCCTCCACGA TGCCAAAG
一般先用外套引物进行扩增,再用内套引物扩增。
12.设计交叉序列的引物(温度相差不超过5度)
注意;这两个引物必须包括整个序列的90%以上的序列。
31-944
Sensse CCGTAACTTCTGTGCTGTGCCA
Anti sense AGAAGAGTGAGTGTCGCTGTTGAAGT
226-1029
Sense GCAAGTTCAACGGCACAGTCAA
Anti -sense TGCTGTAGCCAAA TTCATTGTCGTA
13.双重PCR设计同时进行两个PCR扩增两对引物之间碱基序列相差100左右
31-247 63.5-63.5 100分
Sense CCGTAACTTCTGTGCTGTGCCA
Anti-sense TTGACTGTGCCGTTGAACTTGC
311-628 87分62.1-62.4
Sense TGCCAACA TCAAGTGGGGTG
Anti -sense ACAGTCTTCTGGGTGGCAGTGA T
14.上游引物试剂盒已知的:如规定退火温度在73.2℃,则设计下游引物序列的温度在73℃左右,最好一样,不能超过或者少于2℃,可以改变引物长度提高退火温度,但是最高不能超过26 外套位点464
Anti-sense CA TCACAAACATGGGGGCA TCGGC
内套位点101
Anti-sense GCCGAA TCCGTTCACTCCGACCTT
注意:关键不能错配,如果有错配可以看下错配的位点,如果和引物是反向不相交的,则不需考虑。
【转载】分子进化树构建及数据分析的简介 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf [1] lylover. Email: lylover_2005@https://www.wendangku.net/doc/be16854518.html, 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时,作者归纳的这七个问题也并不完全代表所有的提问。对于问题1所涉及到的基本的概念,作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的《分子进化与系统发育》(Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。对于问题7,作者之一lylover一般使用Powerpoint 进行编辑,而Photoshop、Illustrator及Windows自带的画图工具等都可以使用。
构建系统发育树需要注意的几个问题 1 相似与同源的区别:只有当序列是从一个祖先进化分歧而来时,它们才是同源的。 2 序列和片段可能会彼此相似,但是有些相似却不是因为进化关系或者生物学功能相近的缘故,序列组成特异或者含有片段重复也许是最明显的例子;再就是非特异性序列相似。 3 系统发育树法:物种间的相似性和差异性可以被用来推断进化关系。 4 自然界中的分类系统是武断的,也就是说,没有一个标准的差异衡量方法来定义种、属、科或者目。 5 枝长可以用来表示类间的真实进化距离。 6 重要的是理解系统发育分析中的计算能力的限制。任何构树的实验目的基本上就是从许多不正确的树中挑选正确的树。 7 没有一种方法能够保证一颗系统发育树一定代表了真实进化途径。然而,有些方法可以检测系统发育树检测的可靠性。第一,如果用不同方法构建树能得到同样的结果,这可以很好的证明该树是可信的;第二,数据可以被重新取样(bootstrap),来检测他们统计上的重要性。 分子进化研究的基本方法 对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。 表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(species tree)、基因树等等一些相同或含义略有差异的名称。 系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基
大家好: 我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是PHYLIP、PUZZLE、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN (LINUX)。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行排列(To align sequences)。做ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOW下的而后者是在DOS下的。⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就
1.准备序列文件 准备fasta格式序列文件(fasta格式:大于号>后紧跟序列名,换行后是序列。举例如下)。每条序列可以单独为一个文件,也可以把所有序列放在同一文件内。 核酸序列: >sequence1_name CCTGGCTCAGGATGAACGCT 氨基酸序列: >sequence2_name MQSPINSFKKALAEGRTQIGF 2.多序列比对 打开MEGA 5,点击Align,选择Edit/Build Alignment,选择Create a new alignment,点击OK。
这时需要选择序列类型,核酸(DNA)或氨基酸(Protein)。 选择之后,在弹出的窗口中直接Ctrl + V粘贴序列(如果所有序列在同一个文件中,即可全选序列,复制)。也可以:点击Edit,选择Insert Sequence From File,选择序列文件(可多选)。
序列文件加载之后,呈蓝色背景(为选中状态)。点击按钮,选择Align DNA (如果是氨基酸序列,则会出现Align Protein)。弹出的窗口中设置比对参数,一般都是采用默认参数即可。点击OK,开始多序列比对。
比对完成后,呈现以下状态。 这时需要截齐两端含有---的序列:选中含有---的序列,按键Delete删除(注意:两端都需要截齐)。截齐之后,保存文件为:filename.mas
3.构建系统进化树 多序列比对窗口,点击Data,选择Phylogenetic Analysis,弹出窗口询问:所用序列是否编码蛋白质,根据实际情况选择Yes或No。此时,多序列比对文件就激活了,可以返回MEGA 5主界面建树了。
多重序列比对及系统发生树的构建 作者:佚名来源:生物秀时间:2007-12-31 【实验目的】 1、熟悉构建分子系统发生树的基本过程,获得使用不同建树方法、建树材料和建树参数对建树结果影响的正确认识; 2、掌握使用Clustalx进行序列多重比对的操作方法; 3、掌握使用Phylip软件构建系统发生树的操作方法。 【实验原理】 在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。 对于一个完整的进化树分析需要以下几个步骤:⑴要对所分析的多序列目标进行比对(alignment)。⑵要构建一个进化树(phyligenetic tree)。构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。⑶对进化树进行评估,主要采用Bootstraping法。进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);
构建系统进化树的方法步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool的缩写,意为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序列之间相似性程度最高的片段,并作为内核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用网站,比如国内的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些网站提供的BLAST服务在界面上差不多,但所用的程序有所差异。它们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus Query: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggaaaggccctttcgggggt 60 |||||||||||||||||||||||||||||||||||||||||| ||||||||| ||||| Sbjct: 1 gacgaacgctggcggcgtgcttaacacatgcaagtcgagcggtaaggcccttc--ggggt 58 Query: 61 actcgagcggcgaacgggtgagtaacacgtgggtaacctgccttcagctctgggataagc 120 || ||||||||||||||||||||||||||||||| | |||||| ||||||||||||| Sbjct: 59 acacgagcggcgaacgggtgagtaacacgtgggtgatctgcctcgtactctgggataagc 118 Score :指的是提交的序列和搜索出的序列之间的分值,越高说明越相似;
1.MEGA构建系统进化树的步骤 2.CLUSTALX进行序列比对 1.MEGA构建系统进化树的步骤 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。如图: 2. 打开MEGA软件,选择"Alignment" - "Alignment Explorer/CLUSTAL",在对话框中选择Retrieve sequences from a file, 然后点OK,找到准备好的序列文件并打开,如图: 。 3. 在打开的窗口中选择”Alignment”-“Align by ClustalX” 进行对齐,对齐过程需要一段时间,对齐完成后,最好将序列两端切齐,选择两端不齐的部分,
单击右键,选择delete即可,如图: 。 4. 关闭当前窗口,关闭的时候会提示两次否保存,第一次无所谓,保存不保存都可以,第二次一定要保存,保存的文件格式是.meg。根据提示输入Title,然后会出现一个对话框询问是否是Protein-coding nucleotide sequence data, 根据情况选择Yes或No。最后出现一个对话框询问是否打开,选择Yes,如图: 。 5. 回到MEGA主窗口,在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” -“Neighbor-joining”,打开一个窗口,里面有很多参数可以设
置,如何设置这些参数请参考详细的MEGA说明书,不会设置就暂且使用默认值,不要修改,点击下面的Compute按钮,系统进化树就画出来了,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Minimun-evolution”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“Maximun-parsimony”,如图: 在菜单栏中选择”Phylogeny”-“Bootstrap Test of Phylogeny” –“UPGMA”,
极为详细的建树方法,新手入门推荐 生物进化树的构建 目录 前言 (2) 一、 NCBI (6) 二、 Mega (9) 三、 DNAMAN (15) 四、DNAStar (18) 五、 Bio edit (21)
前言 1.背景资料 进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。所以,进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中 的进化论、遗传学、分类学、分子生物学、生 物化学、生物物理学和生态学,又包括数学中的 概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。 归纳总结生物进化的总趋势有以下几类: ①结构上:由简单到复杂 ②生活环境上:由水生到陆生 ③进化水平上:由低等到高等 一般来说,进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同,进化树的节
点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。在同一个进化树中,分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。 进化树一般有两种:有根树和无根树。有根树有一个鲜明的特征,那就是它有一个唯一的根节点。这个根节点可以理解为所有其他节点的共同祖先。所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。 无根树 有根树
M E G A构建系统进化树的步骤(以M E G A7为 例)
MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA 序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这
在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。 显然,分析一群相关蛋白质时,很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比对(progressive alignment)的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。不同算法从不同方面解决这一问题,但是当比对的序列大大地超过两个时(双重比对),对于计算的挑战就会很令人生畏。在实际操作中,算法会在计算速度和获得最佳比对之间寻求平衡,常常会接受足够相近的比对。不管最终使用的是什么方法,使用者都必须审视结果的比对,因为再次基础上作一些手工修改是十分必要的,尤其是对保守的区域。 由于本书偏重于方法而不是原理,这里只讨论一小部分现成的程序。我们从两个多序列比对的方法开始,接下去是一系列的利用蛋白质家族中已知的模体或是式样的方法,最后讨论两个具有赠送的方法,因为绝大多数公开的算法不能达到出版物的数量。在本章结尾部分将会列出更详细的多序列比对的算法。 渐进比对方法 CLUSTAL W CLUSTAL W算法是一个最广泛使用的多序列比对程序,在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想,得到一系列序列的输入,对于每两个序列进行双重比对并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列 Bioinformatics: A Practical Guide to the Analysis of genes and Proteins Edited by A.D. Baxevanis and B.E.E. Ouellette ISBN 0-471-191965. pages 172-188. Copyright ? 1998 Wiley – Liss. Inc.
MEGA构建系统进化树的步骤(以MEGA7为例) 本文是看中国慕课山东大学生物信息学课程总结出来的 分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA 序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。 1. 将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。 2.打开MEGA软件,选择主窗口的”File”→“Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。 3.在打开的Alignment Explorer窗口中选择”Alignment”-“Align by ClustalW”进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),弹出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。 4. 之后,弹出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。
构建系统进化树的详细步骤 1. 建树前的准备工作 1.1 相似序列的获得——BLAST BLAST是目前常用的数据库搜索程序,它是Basic Local Alignment Search Tool 的缩写,意 为“基本局部相似性比对搜索工具”(Altschul et al.,1990[62];1997[63])。国际著名生物信息中心 都提供基于Web的BLAST服务器。BLAST算法的基本思路是首先找出检测序列和目标序 列之间相似性程度最高的片段,并作为核向两端延伸,以找出尽可能长的相似序列片段。 首先登录到提供BLAST服务的常用,比如国的CBI、美国的NCBI、欧洲的EBI和日本的DDBJ。这些提供的BLAST服务在界面上差不多,但所用的程序有所差异。它 们都有一个大的文本框,用于粘贴需要搜索的序列。把序列以FASTA格式(即第一行为说明 行,以“>”符号开始,后面是序列的名称、说明等,其中“>”是必需的,名称及说明等可以是 任意形式,换行之后是序列)粘贴到那个大的文本框,选择合适的BLAST程序和数据库,就 可以开始搜索了。如果是DNA序列,一般选择BLASTN搜索DNA数据库。 这里以NCBI为例。登录NCBI主页-点击BLAST-点击Nucleotide-nucleotide BLAST (blastn)-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到result of BLAST。 BLASTN结果如何分析(参数意义): >gi|28171832|gb|AY155203.1| Nocardia sp. ATCC 49872 16S ribosomal RNA gene, complete sequence Score = 2020 bits (1019), Expect = 0.0 Identities = 1382/1497 (92%), Gaps = 8/1497 (0%) Strand = Plus / Plus
所有视频内容和编号: 001-1系统进化树构建序列文件格式说明(1080P) 001-2 MEGA软件构建邻接树(NJ树) (1080P) 001-3 MEGA软件构建最大简约树(MP树) (1080P) 001-4 MEGA软件构建最大似然树(ML树) (1080P) 001-5 MEGA软件构建UPGMA树(1080P) 001-6 MEGA软件计算遗传距离和导出Excel(1080P) 001-7 MEGA软件分析序列特征-信息位点变异位点等(1080P) 001-8 MEGA软件对序列饱和性检验和作图(1080P) 001-9 MEGA软件最序列分组并计算组间和组内遗传距离(1080P) 001-10 MEGA软件对树图置根修改字体和字号等(1080P) 002-1 贝叶斯法Mrbayes构建系统进化树教程视频(1080P) 002-2 PAUP软件构建最大似然(ML)树教程 002-3 Mrbayes贝叶斯建树(MrMTgui模型计算)视频教程(1080P) 002-4 贝叶斯不收敛问题的解决办法(1080P) 002-5 PAUP软件构建最大似然(ML)树教程(1080P) 002-6 PAUP软件构建简约树(MP)树教程(1080P) 002-7 PAUP软件构建邻接树(NJ)树教程(1080P) 003-1 MAFFT多序列比对教程 003-2 Jmodeltest模型计算方法与说明 003-3 primer5引物设计 003-4 Photoshop图片排版(期刊格式) 003-4 primer5引物设计(加酶切位点)(1080P) 004-1 多基因序列快速联合(拼接)与格式转换-软件SequenceMatrix(1080P) 004-2 多基因序列快速联合(拼接)详细版-SequenceMatrix(1080P) 004-3 贝叶斯多基因片段联合分区建树(分区设定模型)(1080P) 005-1 MEGA软件美化树图置根等内容补充 005-2 如何编辑贝叶斯或PAUP(ML)树图(PDF格式)的名称、字体、分枝等并输出图片格式 005-3 MEGA软件修改树图标尺显示分枝长度自举值显示方式等设置(1080P)
分子进化树构建及数据分析的简介(入门极品 [color=black][color=black][b]这是转来的一篇文章,来自丁香园。做病毒的兄弟姐妹肯定离不开进化树的构建和序列比对,及最重要的结果分析。不同的构建方法能带来截然不同的结果。我根据使用经验加了一些标注。 [/b][/color] [/color] 分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover , klaus, oldfish, yzwpf 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑,我随手在丁香园(DXY 上以关键字“ 进化分析求助” 进行了搜索,居然有 289篇相关的帖子(2006年 9月12日。而以关键字“ 进化分析” 和“ 进化” 为关键字搜索, 分别找到 2,733和 7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计, 大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类: 1.涉及基本概念。例如, “ 分子进化与生物进化是不是一个概念” , “ 关于微卫星进化模型有没有什么新的进展” 以及“ 关于 Kruglyak 的模型有没有改进的出现” ,等等。 2.关于构建进化树的方法的选择。例如, “ 用 boostrap NJ得到 XX 图,请问该怎样理解?能否应用于文章?用 boostrap test中的 ME 法得到的是 XXX 树,请问与上个树比,哪个更好” ,等等。 3.关于软件的选择。例如, “ 想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做” , “ 拿到了 16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件” , “ 请问各位高手用
进化树 英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤: ⑴要对所分析的多序列目标进行排列(To align sequences)。做 ALIGNMENT的软件很多,最经常使用的有CLUSTALX和CLUSTALW,前者是在WINDOWS下的而后者是在DOS下的。 ⑵要构建一个进化树(To reconstrut phyligenetic tree)。构建进化 树的算法主要分为两类:独立元素法和距离依靠法 ●独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的 状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。 ●距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进 化树枝条的长度代表着进化距离。独立元素法包括最大简约性法和最大可能性法; 距离依靠法包括除权配对法(UPGMAM)和邻位加入法(Neighbor-joining)。 ⑶对进化树进行评估。主要采用Bootstraping法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评
估。不同的算法有不同的适用目标。一般来说,最大简约性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所检验的序列的碱基数目较多(大于几千个碱基);用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM (Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。但无疑这是非常难的。我想如果有人能建立这样一个算法的话,那他(她)完全可以在https://www.wendangku.net/doc/be16854518.html,A.上发一篇高质量的文章。 下面介绍几个软件的使用。首先是PHYLIP。其是多个软件的压缩包,下载后双击则自动解压。当你解压后就挥发现PHYLIP的功能极其强大,主要包括五个方面的功能软件:i,DNA和蛋白质序列数据的分析软件。ii,序列数据转变成距离数据后,对距离数据分析的软件。iii,对基因频率和连续的元素分析的软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列
分子进化树的构建方法 分子进化树的构建方法 2011-05-21 09:33:32| 分类:实验探索| 标签:|字号大中小订阅 分子进化树的构建方法 自夕岚一瞥的博客 一、引言 开始动笔写这篇短文之前,我问自己,为什么要写这样的文章?写这样的文章有实际的意义吗?我希望能够解决什么 样的问题?带着这样的疑惑,我随手在丁香园(DXY)上以关键字“进化分析求助”进行了搜索,居然有289篇相关的帖子(2006年9月12日)。而以关键字“进化分析”和“进化”为关键字搜索,分别找到2,733和7,724篇相关的帖子。考虑到有些帖子的内容与分子进化无关,这里我保守的估计,大约有3,000~4,000篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的几类:1.涉及基本概念。例如,“分子进化与生物进化是不是一个
概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用boostrap NJ 得到XX图,请问该怎样理解?能否应用于文章?用boostrap test中的ME法得到的是XXX树,请问与上个树比,哪个更好”,等等。 3.关于软件的选择。例如,“想做一个进化树,不知道什么软件能更好的使用且可以说明问题,并且有没有说明如何做”,“拿到了16sr RNA数据,打算做一个系统进化树分析,可是原来没有做过这方面的工作啊,都要什么软件”,“请问各位高手用clustalx做出来的进化树与phylip做的有什么区别”,“请问有做过进化树分析的朋友,能不能提供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定domain的序列,共141条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。例如,“根据一个新基因A氨基酸序列构建的系统发生树,这个进化树能否说明这个新基因A和B同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之间的进化年代的远近,具体推算出他
生物进化树的构建 目录 前言 (2) 一、NCBI (6) 二、Mega (8) 三、DNAMAN (12) 四、DNAStar (16) 五、Bio edit (19)
前言 1.背景资料 进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。所以,进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。 归纳总结生物进化的总趋势有以下几类: ①结构上:由简单到复杂 ②生活环境上:由水生到陆生 ③进化水平上:由低等到高等 一般来说,进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。在同一个进化树中,分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。
进化树一般有两种:有根树和无根树。有根树有一个鲜明的特征,那就是它有一个唯一的根节点。这个根节点可以理解为所有其他节点的共同祖先。所以,有根树能可以准确地反映各个物种的进化顺序,从根节点进化到任何其他节点只有能有一条惟一的路径。无根树则不能直接给出根节点,无根树只反映各个不同节点之间的进化关系的远近,没有物种如何进化的过程。但是,我们可以在无根树种指派根节点,从而找出各个物种的进化路径。 无根树 有根树