文档库 最新最全的文档下载
当前位置:文档库 › DNA序列的比对及建树步骤

DNA序列的比对及建树步骤

DNA序列的比对及建树

1.打开ClustalX软件(对序列进行比对),点击“文件”→“载入序列”;点击“比对”→

“输出格式选项”→“phylip格式”前打勾;点击“比对”→“完全比对”;比对完成后,关闭程序,并将生成的带.phy后缀的文件拷贝至phylip软件包的“exe”文件夹下。

2.打开seqboot软件,按照路径输入所拷贝的“.phy”文件,回车,得如下界面

3.输入“r”,回车→输入1000,回车→输入“y”,回车→输入“5”,回车→出现“press enter

to quit”字样时,回车,退出程序,完成seqboot(上图中的J选项代表评估方法,默认为bootstrap法进行评估,可更改选项;R选项默认多少次,输入1000表示共进行1000次的republicate)。自动生成文件“outfile”,可用记事本打开。

4.将刚刚生成的outfile文件更名为infile1,打开dnadist软件(采用邻位相连算法构建进

化树,如采用其他算法,则用其他软件),按照路径输入文件名infile1,回车,出现如

下界面

5.输入t,回车→输入20,回车→输入m,回车→输入d,回车→输入1000,回车→输入

y,回车→等待……等待……等待……时间长度视序列多寡长短及重复数多寡而不等,直到出现“press enter to quit”字样时,回车,退出程序(D选项为距离模式,默认为F84;T选项为点突变的“转换/颠换比率”,通常在15~30之间;M选项采用和原来一样的重复数;输入d,采用data sets)。自动生成文件outfile。

6.将outfile重命名为infile2,打开neighnor软件(采用邻位算法),按照路径输入infile2,

回车,得到如下界面

7.输入选项m,回车→输入1000,回车→输入奇数5,回车→输入y,回车→等待……一

定时间后出现“press enter to quit”字样时,回车,退出程序。生成两个文件outfile和outtree。Outfile是分析结果的输出报告,可用记事本打开,outtree可用treeview打开。

8.将outfile更名为outfile1,outtree文件更名为intree1,打开consense软件,按照路径输

入intree1,回车,得如下界面

9.输入y,回车→等待……一定时间后出现“press enter to quit”字样时,回车,退出程序。

生成两个新文件outfile和outtree。Outtree就是最终结果,可用treeview软件打开观看。

DNA star Seqman 使用说明 DNA序列拼接

42 SeqMan 笔记本:A电脑 创建时间:2013/12/10 8:35更新时间:2013/12/10 9:07 1.打开lasergene-dnastart-seqman 2.点击add sequences,注意文件格式为.ab1,该文件为测序峰图文件。 3.添加序列文件,本例为16_xxxx.ab1,点击打开,序列添加到Selected sequences窗口。 4.点击done,序列成功加入主程序窗口 5.选中想要拼接的序列,点击assemble,拼接开始。 6.拼接完成后出现,拼接成功提示,creating new contig1:from xxx entering xxx

7.点击窗口右上角,“-”最小化,将拼接提示最小化,回到主窗口。 8. 此时主窗口上方出现拼接好的contig1的信息,574bp,来源于两条序列。 9.双击contig1出现具体的拼接过程窗口。 10.点击16前的黑色三角符号,可以看到序列峰图(注意峰图非常重要,不同颜色代表不同碱基,峰型表示测序可信度)。 11.详细讲一下峰图: 测序反应开始时和结束时的序列是读不准的(测序的原理决定)。一个测序反应最多能测定500-800个碱基,且测序反应开始和结束的碱基读不准。

ITS45的长度在500bp左右,意味着单向测序末端会读不准。 采用双向测序,在R向峰分辨率极度降低时,F向 正好处在分辨率最高的测序区域,所以这段序列程序会以F向测序结果为准。 seqman在序列拼接的同时,让测序峰图可见,让我们可以判断测序结果的可靠性。 12.接着说拼接完成后如何拷贝拼接好的序列,其实非常简单,选中顶上的consensus中的序列,全选,ctrl+C,拼接好的序列就复制到剪切板中了,可以粘贴到txt中使用。

放射性同位素标记的DNA序列测定分析(精)

放射性同位素标记的DNA序列测定分析 测定DNA的核苷酸序列是分析基因结构与功能关系的前提。从小片段重叠法到加减法、双脱氧链终止法、化学降解法、自动测序,DNA测序技术发展很快。目前在实验室手工测序常用Sanger双脱氧链终止法。Sanger法就是使用DNA聚合酶和双脱氧链终止物测定DNA核苷酸序列的方法。它要求使用一种单链的DNA模板或经变性的双链DNA模板和一种恰当的DNA合成引物。其基本原理是DNA聚合酶利用单链的DNA模板,合成出准确互补链,在合成时,某种dNTP换成了ddNTP,这时,DNA聚合酶利用2’,3’-双脱氧核苷三磷酸作底物,使之掺入到寡核苷酸链的3’末端,导致3’末端无3'-OH,从而终止DNA链的生长,双脱氧核苷酸的种类不同,掺入的位置不同就造成了在不同的专一位置终止的长度不同的互补链。通过掺入放射性核苷酸和聚丙烯酰胺凝胶电泳,即可读出模板DNA的互补链序列。一、试剂准备 1.硅化液:四氯化碳 250ml,二氯二甲基硅烷 25ml。 2.6%变性PAGE胶的配制:丙烯酰胺 28.5g,N,N’-亚甲基双丙烯酰胺1.5g,10×TBE 50ml,尿素210g,加ddH2O至500ml搅拌溶解,0.22μm滤膜过滤,4℃贮存于棕色瓶中。使用时取50ml加入催化剂过硫酸铵(25%)50μl,TEMED 50μl,轻摇混匀,立即灌胶。 3.质粒DNA碱变性液:NaOH 2M,NaAc 3M(pH 4.8),无水乙醇,70%乙醇。 4.T7测序试剂盒。 二、操作步骤 1.测序板硅化,流水、ddH2O洗,无水乙醇洗,晾干。 2.灌胶:装好测序板,玻璃板以15-30°角度倾斜放置,用50ml注射器将凝胶灌到两块玻璃之间,将鲨鱼齿梳子的平端插入胶的上缘,深约0.5-1cm。夹好,将测序板放水平。聚合约3hr后预电泳。 3.预电泳:按照说明要求安装好电泳装置,在上槽和下槽注入1×TBE。设置温度50℃,功率100W,时间约30min。 (同时准备测序反应)

基因组序列拼接

2014年成都理工大学校内数学建模竞赛论文 二0一四年五月二十五日

摘要:本文所要研究的就是全基因组的从头测序的组装问题。 首先,本文简要介绍了测序技术及测序策略,认真分析了基因系列拼装所面临的主要挑战,比如reads数据海量、可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况,探讨了当前基因组序列拼接所采用的主要策略,即OLC(Overlap/Layout/Consensus)方法、de Bruijn图方法,且深入探讨了de Bruijn图方法。 其次,针对题中问题,以一条reads为基本单位,分为reads拼接和contig组装两个阶段,其中contig是由reads拼接生成的长序列片段。Reads的拼接阶段主要包括数据预处理、de-Bruijn 图、contig构建等,而contig的组装阶段主要包括序列的相对位置的确定以及重叠部分overlap的检测,用序列比对的方法来提高拼接的精度。 最后,进行了算法的验证与性能的评价,并且针对问题2,进行了组装分析与验证,结果表明,得到的拼接基因组序列在小范围内与原基因组序列大致吻合。 关键词:基因组系列拼接; reads;de Bruijn图;contig组装;k-mer片段;

一.问题重述 基因组组装 快速和准确地获取生物体的遗传信息对于生命科学研究具有重要的意义。对每个生物体来说,基因组包含了整个生物体的遗传信息,这些信息通常由组成基因组的DNA或RNA分子中碱基对的排列顺序所决定。获得目标生物基因组的序列信息,进而比较全面地揭示基因组的复杂性和多样性,成为生命科学领域的重要研究内容。 确定基因组碱基对序列的过程称为测序(sequencing)。测序技术始于20世纪70年代,伴随着人类基因组计划的实施而突飞猛进。从第一代到现在普遍应用的第二代,以及近年来正在兴起的第三代,测序技术正向着高通量、低成本的方向发展。尽管如此,目前能直接读取的碱基对序列长度远小于基因组序列长度,因此需要利用一定的方法将测序得到的短片段序列组装成更长的序列。通常的做法是,将基因组复制若干份,无规律地分断成短片段后进行测序,然后寻找测得的不同短片段序列之间的重合部分,并利用这些信息进行组装。例如,若有两个短片段序列分别为 ATACCTT GCTAGCGT GCTAGCGT AGGTCTGA 则有可能基因组序列中包含有ATACCTT GCTAGCGT AGGTCTGA这一段。当然,由于技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。 利用现有的测序技术,可按一定的测序策略获得长度约为50–100个碱基对的序列,称为读长(reads)。基因组复制份数约为50–100。基因组组装软件可根据得到的所有读长组装成基因组,这些软件的核心是某个组装算法。常用的组装算法主要基于OLC(Overlap/Layout/Consensus)方法、贪婪图方法、de Bruijn 图方法等。一个好的算法应具备组装效果好、时间短、内存小等特点。新一代测序技术在高通量、低成本的同时也带来了错误率略有增加、读长较短等缺点,现有算法的性能还有较大的改善空间。 问题一:试建立数学模型,设计算法并编制程序,将读长序列组装成基因组。你的算法和程序应能较好地解决测序中可能出现的个别碱基对识别错误、基因组中存在重复片段等复杂情况。 问题二:现有一个全长约为120,000个碱基对的细菌人工染色体(BAC),采用Hiseq2000测序仪进行测序,测序策略以及数据格式的简要说明见附录一和附录二,测得的读长数据见附录三,测序深度(sequencing depth)约为70×,即基因组每个位置平均被测到约70次。试利用你的算法和程序进行组装,并使之具有良好的组装效果。 附录一:测序策略 测序策略如下图所示。DNA分子由两条单链组成,在图中表现为两条平行直

(整理)DNA序列测定

第四节DNA序列测定 目前应用的两种快速序列测定技术是Sanger等(1977)提出的酶法(双脱氧链终止法)和Maxam(1977)提出的化学降解法。虽然其原理大相径庭,但这两种方法都同样生成相互独立的若干组带放射性标记的寡核苷酸,每组核苷酸都有共同的起点,却随机终止于一种(或多种)特定的残基,形成一系列以某一特定核苷酸为末端的长度各不相同的寡核苷酸混合物,这些寡核苷酸的长度由这个特定碱基在待测DNA片段上的位置所决定。然后通过高分辨率的变性聚丙烯酰胺凝胶电泳,经放射自显影后,从放射自显影胶片上直接读出待测DNA上的核苷酸顺序。 高分辨率变性聚丙烯酰胺凝胶电泳亦是DNA序列测定技术的重要基础,可分离仅差一个核苷酸、长度达300~500个核苷酸的单链DNA分子。DNA序列测定的简便方法为详细分析大量基因组的结构和功能奠定了基础,时至今日,绝大多数蛋白质氨基酸序列都是根据基因或cDNA的核苷酸序列推导出来的。 除传统的双脱氧链终止法和化学降解法外,自动化测序实际上已成为当今DNA序列分析的主流。此外,新的测序方法亦在不断出现,如上世纪90年代提出的杂交测序法(sequencing by hybridization,SBH)等。 一、双脱氧末端终止法测序 ㈠原理 双脱氧末端终止法是Sanger等在加减法测序的基础上发展而来的。 1980年他又因设计出一种测定DNA(脱氧核糖核酸)内核苷酸排列顺序的方法而与W·吉尔伯特、P·伯格共获1980年诺贝尔化学奖。桑格是第四位两次获此殊荣的科学家。 其原理是:利用大肠杆菌DNA聚合酶Ⅰ,以单链DNA为模板,并以与模板事先结合的寡聚核苷酸为引物,根据碱基配对原则将脱氧核苷三磷酸(dNTP)底物的5′-磷酸基团与引物的3′-OH末端生成3′,5′-磷酸二酯键。通过这种磷酸二酯键的不断形成,新的互补DNA得以从5′→3′延伸。Sanger引入了双脱氧核苷三磷酸(ddTNP)作为链终止剂。ddTNP比普通的dNTP在3′位置缺

第九章 DNA序列分析

第9章 DNA序列分析
o o o o Maxam—Gilbert化学降解法 Sanger双脱氧链终止法 DNA片段序列测定的策略※ 核苷酸序列的生物信息分析※
9.1 Maxam—Gilbert化学降解法
9.1.1 基本原理
o 1977年,A.M.Maxam和W.Gilbert首先建立了DNA片段 序列的测定方法 o 原理:将待测DNA片段的5‘端磷酸基团作放射性标记, 再分别采用不同的化学方法对特定碱基进行化学修饰并 在该位置打断核酸链,从而产生一系列长度不一且分别 以不同碱基结尾的DNA片段,这些以特定碱基结尾的片 段群通过并列点样(lane-by-lane)的方式用凝胶电泳 进行分离,再经放射自显影,即可读出目的DNA的碱基 序列。 o 核心原理:特定化学试剂可对不同碱基进行特异性修饰 并在被修饰的碱基处(5′或3′)打断磷酸二酯键,从 而达到识别不同碱基种类的目的。
1

9.1.2 化学降解测序法的基本步骤
o 化学降解测序法的基本步骤包括: (1)对待测DNA片段的5′端磷酸基团作放射性标记; (2)用化学修饰剂修饰特定碱基; (3)凝胶电泳分离和放射自显影显示出各片段的长度 (4)读序,由于在同一反应体系中,各DNA片段的标 记端相同、起始位点相同,所以,根据断裂部位至 标记端起始部位之间的距离(片段长度),即可得 出碱基顺序。
9.1.3 化学修饰试剂
碱基体系 G A+G C+T C A>C 化学修饰试剂 硫酸二甲酯 哌啶甲酸 肼 肼+NaCl 化学反应 甲基化 脱嘌呤 打开嘧啶环 打开胞嘧啶环
断裂部位 G G和A C和T C
90℃, 断裂反应 A和C NaOH(1.2mol/L) 哌啶(90℃,1mol/L)在修饰位点两端使DNA的糖-磷酸链断裂
2

DNA序列分析技术

DNA 序列分析技术 物种的遗传多样性在本质上是DNA 一级序列的多样性。近年来,随着DNA 测序技术的迅速发展和日益普及,DNA 测序在遗传多样性的研究中正在起着越来越大的作用。本章将介绍目前在遗传多样性研究中常用的一种手动和一种全自动双链DNA 测序方法。 1 DNA 模板的制备 在遗传多样性的研究中,由于样本量一般都较庞大,因而DNA 测序的速度就成了很关键的因素。因此,这类研究中常常直接测定纯化的PCR 双链产物而不大采用克隆技术。本节介绍本实验室常用的从PCR 产物制备测序模板的方法,即低熔点胶回收法。 (1)制备1.5%~2.0%的琼脂糖凝胶,待其充分凝固后,在离点样线5cm 左右处切下宽约1cm 的胶条,在切出的槽中倒入预先煮沸的低熔点琼脂糖胶。 (2)低熔点胶凝固后,将待纯化的PCR 反应液全部点样,恒压100V 左右进行电泳,直至扩增片段进入到低熔点胶中部。在360nm 紫外光下,将已进入低熔点胶的条带切下,放入1.5ml离心管中。 (3)离心,将胶块压缩到管底,然后补加TE 至500μl。于68℃水浴,将低熔点胶熔化,再迅速加入等体积的水饱和酚并混匀。 (4)室温下振荡抽提10 分钟,再12 000r/min 离心10 分钟。取上清液再用氯仿-异戊醇(24:1)抽提5 分钟。 (5)12 000r/min 离心10 分钟,取上清液,在其中加入1/10 体积的10 mol/ dm3NH4Ac和2 倍体积的无水乙醇,置—70℃下沉淀半小时以上。 (6)再12 000r/min 离心10 分钟,沉淀用70%的冷乙醇洗涤;再次短暂离心后小心地倒去乙醇液。沉淀干燥后,加入20~50μlTE 缓冲液或无菌去离子水中溶解,即为制好的DNA模板。 目前还有一些非常有效的商售试剂盒可用于纯化PCR 产物,如Oiagen PCR 产物纯化试剂盒等,但成本较高。 2 手动DNA 序列分析技术 2.1 测序胶的制备 按以下配方制备测序电泳胶: 6%胶工作液70ml

DNAstar与Vector NTI序列拼接功能

2012-2-8序列拼接软件使用总结: 1. 目前,个人使用DNAstar 较Vector NTI 更顺手。 可能因为vector 中某些设置没有调整,assemble 后的序列中存在许多 N,需人为删除。 且在DNAstar 中可随意将碱基编辑为Y,R,S 等兼并碱基,而在Vector 中无法进行同样操作,键盘输入兼并碱基时只能显示出N。 更重要的一点是,在contig 中选中某一位碱基想细看时,标记不明显,上下几排碱基只有 两条细细的白边来标示,要仔细分辨才能保证不会看错位。 白边在旁边这两条红 线内侧,万分仔细看才 能看见-__-b

对比一下,DNAstar 中的界面多醒目啊: 1 2 BTW: icon 1 can be used to amplify chromatogram. Icon 2 can be used to show/hide chromatogram. 2.使用DNAstar时偶尔会出现无法拼接成一条序列的情况,比如本来有5个片断,导入所有片 断后assemble,却分成了2个contig:1-3为一个contig,4和5拼成另一个contig。此时可先将3和4的序列进行assemble,然后再选择Sequence〉Add…将其他序列加入,再拼接,就会生成一条contig了。 3.Vector亦有其特色,例如: (1)可以在同一窗口中直接看到某一拼接序列位于整个序列的什么位置:

(2)可以将鼠标停留在峰图上某一碱基处,查看每个测序峰的每种碱基信号强度----可据此分辨杂合峰具体是由什么碱基组成,而在DNAstar中只能通过看峰图颜色判断-_-b。 4.Vector有时拼接出的结果有误,如下图,有些序列被错误的拼接在一起,共3个台阶(不对, 一共是5对PCR引物,应该有5个台阶):

全基因组序列拼接研究进展_曾培龙

收稿日期:2012-06-11 作者简介:曾培龙(1987-),男,河南商丘人,硕士研究生,主要研究方向:生物信息学; 王亚东(1964-),男,辽宁锦州人,硕士,教授,博士生导师,主要研究方向:人工智能、机器学习、知识工程等。 0引言 新一代测序技术正在引领生命科学研究进入一个崭新阶段。人类基因组计划完成之后,获得个体基因组的全部序列对于生物学研究、探索与认识生命的本质具有十分重要的科学意义[1,2]。 新一代测序技术作为目前生命科学研究的基础手段,随着应用领域的迅速扩增与不断深入,对生物信息学提出了必须正视的基础研究课题。而全基因组序列拼接作为生物信息学的核心问题,面临的主要挑战有: (1)海量的数据(覆盖深度一般为40-200倍,数据量达20-200GB ), 迫切需要海量数据的拼接组装算法;(2)测序数据中的错误,容易导致错拼; (3)基因组中重复片段大量存在, 由于读取片段reads 长度过短,一般只有几十个碱基,这使得重复序列的处理变得困难。 针对新一代测序数据reads 长度较短、数据海量的特点,全基因组测序方面的数据分析软件的研发,已成为生物信息学领域最迫切、最重要的研究课题。虽然目前已开发有一些全基因组拼接软件,但是基本都局限在大型计算平台上完成数据分析过程,难以满足一般的研究需求,而且数据处理速度仍然远远落后于数据产生速度,已经成为整个基因组图谱绘制工作的瓶颈,并且其拼接结果在准确性方面还有待提高。 1全基因组序列拼接的含义 基因组序列拼接的核心思想是利用序列之间的交叠关 系,通过类似于“搭积木”的方式重建目标基因组序列。其 基本方法是将序列之间的交叠关系转换成计算机可以识别的结构,通过不断迭代扩展的方式延长目标序列,然后利用配对数据,确定各个目标序列的相对方向和位置关系,最终还原目标基因组序列。 基于新一代测序数据的基因组序列拼接,通常分为如下三个阶段: (1)数据的预处理阶段。该阶段通过特定的方法,移除测序数据中的错误碱基; (2)基因组连续片段(contigs )生成阶段。该阶段将reads 拼接成contigs ; (3)超长序列片段(scaffoldings )组装阶段。该阶段使用配对数据,确定contigs 之间的方向和位置关系,生成scaffoldings 。 2全基因组序列拼接的发展动态 新一代测序技术的出现为生命科学重大问题研究提供 新的手段的同时,其海量数据及其长度短、精度相对较低等特点,为生物信息学设置了前所未有的时代挑战。海量reads 数据的处理能力远远落后于测序数据的爆炸性增长速度,测试数据的快速、准确分析已经成为生命科学研究的短板[3]。如图1所示,从2006~2010年积累的新一代短片段数据量远远超过了过去10年所获得的基因组测序数据的总和。 符合SRA 标准的新一代测序数据从2005~2010年的增长情况如图2所示。与图1相比可以看出,数据分析速度远远落后于数据产生速度,尤其是2010年数据的增长更是属于 “爆炸式的”,而这些还只占目前产生的新一代测序数全基因组序列拼接研究进展 (哈尔滨工业大学计算机科学与技术学院,哈尔滨150001) 摘要:全基因组序列拼接是生物信息学研究领域的核心问题。针对新一代测序数据读取片段reads 长度短、 数据海量、精确度低等特点带来的严峻挑战,能够满足实际应用的序列拼接软件的研发,已成为生物信息学领域最为迫切的研究课题。深入探讨全基因组序列拼接的发展动态、所采用的主要策略等方面,总结序列拼接相关理论,并为未来新算法的研发提出具体的改进建议。 关键词:中图分类号:TP391 文献标识码:A 文章编号:2095-2163(2012)04-0004-05 Research Progress of Whole Genome Assembly ZENG Peilong,WANG Yadong Abstract :Whole genome assembly is the core issue of bioinformatics.On conditions that next generation sequencing brings bioinfor- matics an unprecedented challenge due to its data of mass,short length and relatively low precision,development of sequence assembly soft-ware that could meet practical application has become the most important research topic.This paper analyses the development progress and main strategies of whole genome assembly deeply,sums up the relevant theory and provide specific suggestions for future algorithms. Key words:全基因组序列拼接;生物信息学;新一代测序 Whole Genome Assembly ;Bioinformatics ;Next-Generation Sequencing (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China ) 曾培龙,王亚东 智能计算机与应用 INTELLIGENT COMPUTER AND APPLICATIONS Vol.2No.4第2卷第4期2012年8月 Aug.2012

基因组序列拼接

硕士学位论文 基于reads引导的基因组序列拼接GENOME ASSEMBLY GUIDED BY READS 曾培龙 哈尔滨工业大学 2012年6月

国内图书分类号:TP391 学校代码:10213 国际图书分类号:621.3 密级:公开 工学硕士学位论文 基于reads引导的基因组序列拼接 硕士研究生:曾培龙 导师:王亚东教授 申请学位:工学硕士 学科:计算机科学与技术 所在单位:计算机科学与技术学院 答辩日期:2012年6月 授予学位单位:哈尔滨工业大学

Classified Index: TP391 U.D.C: 621.3 Dissertation for the Master Degree GENOME ASSEMBLY GUIDED BY READS Candidate:Zeng Peilong Supervisor:Prof. Wang Yadong Academic Degree Applied for:Master of Engineering Speciality:Computer Science and Technology Affiliation:School of Computer Science and Technology Date of Defence:June, 2012 Degree-Conferring-Institution:Harbin Institute of Technology

哈尔滨工业大学硕士学位论文 摘要 基因组序列拼接是生物信息学领域的核心问题,测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。新一代测序技术的快速发展,为生命科学重大问题的研究提供巨大帮助的同时,其数据海量、读取片段reads长度短、精确度低等特点也为全基因组序列拼接提出了相当严峻的挑战,而传统的序列拼接算法已不再适用。针对新一代测序的数据特点,研发能满足实际应用需要的基因组序列拼接软件,已显得极为迫切。 本文首先简要介绍了新一代测序技术的产生背景、测序策略及技术特点等,认真分析了基因组序列拼接所面临的主要挑战,比如大量重复片段的存在,reads数据海量、长度短及含有测序错误等,深入探讨了当前基因组序列拼接所采用的主要策略,即贪心策略,交叠-排序-生成共有序列(OLC)策略和De Bruijn图策略等,总结了不同算法的优势及不足,并提出了序列拼接算法的改进方向。 接着,本文提出了基于reads引导的基因组序列拼接算法,以整条reads为拼接的基本单位,并率先在拼接算法中提出了基于信息累计和数据特征相结合的评分方法。该算法分为reads拼接和contigs组装两个阶段,contigs是由reads拼接生成的长序列片段。reads拼接阶段主要包括数据预处理、De Bruijn图的建立、contigs构建等,而contigs组装阶段则主要有contigs相对位置的确定、交叠overlap检测、contigs连接及空隙gaps填充等过程,其中在确定contigs的相对位置时首次提出了配对数目数组PEN的概念,并用序列比对的方法消除或纠正contigs末端的碱基错误,提高了拼接精度。 最后,进行了算法验证和性能评价。选取若干组数据对该算法软件进行测试,并用评测软件Mauve Assembly Metrics将拼接结果与主流的拼接软件进行比较,分析评测结果,得出了该算法在序列拼接时无论是拼接的长度还是拼接的准确度都表现不错的结论。 关键词: 生物信息学;新一代测序技术;基因组序列拼接;reads;De Bruijn图

DNA序列测定(精)

DNA序列测定 DNA序列测定是在高分辨率变性聚丙烯酰胺凝胶电泳技术的基础上建立起来的。可分离相差仅1个碱基的300~500bp的核酸分子。 常用测序方法: 1. 双脱氧末端终止法 1.1.1 测序原理 四个反应管中,在DNA聚合酶催化下,以单链DNA为模板,加入单引物、四种dNTP,以及每管中加入双脱氧核糖核苷酸ddA、ddT、ddG、ddC。双脱氧核苷酸(ddNTP)的5`端-OH 是正常的,而其3`端-OH则没有,因此能与引物延伸链的3`端连接,而不能连接其后继核苷酸,于是引物链的延伸至此结束,经过变性聚丙烯酰胺凝胶电泳后,根据电泳图谱即可拼出所测DNA序列。 1.1.2 测序步骤 A 测序DNA模板制备 测序可分为单链测序与双链测序,对于未知序列可采用单链测序,而对于已知DNA序列可采用双链测序。但不管单链测序还是双链测序,其测序反应都一样。其中单链模板可通过将待测DNA片段克隆到噬菌体M13中或通过不对称PCR制备;双链模板可通过将待测DNA片段克隆到质粒DNA中或通过PCR扩增制备。所得模板DNA应通过纯化处理才能用于后继测序反应。 B 测序引物的设计 测序所用引物一般采用通用引物,也可根据已有序列设计引物,引物一般有15~30个碱基,应遵循一般引物设计原则 a、G+C含量为45~55%。 b、3端最好以A或C结尾,不要以T结尾。 c、引物长度以15~30bp为宜。 d、引物本身不能形成二级结构。 C 四种测序反应液的制备 测序反应液组成:反应缓冲液、DNA聚合酶、Mgcl2、引物、纯水、四种dNTP,分别在四个反应管中加入一种相应ddNTP。 标记物:测序反应的标记物有核素和荧光染料。标记载体有引物、dNTP、ddNTP。 现在应用较多的是将荧光染料标记于引物或ddNTP上,因核素对环境的污染而逐渐应用得比较少。但也可以不进行标记而采用银染系统检测。 D 延伸反应 引物在DNA聚合酶的催化下,按碱基互补原则逐步在引物的3’端加上四种脱氧核糖核苷酸,四个反应管中的ddNTP随机地与dNTP竟争结合位点,于是引物延伸链随机终止在各个可能位点,在电泳图谱上形成一系列相差一个核苷酸的单链DNA梯带。 E 电泳与读序 反应产物与甲酰胺混和,并高温加热变性后,于变性聚丙烯酰胺凝胶电泳。 注:对于没有标记的测序反应,电泳完成后可用银染将DNA标记、拍照、读序。 对于用核素标记的测序反应,按核素操作规程拍照。 对于用荧光染料标记的测序反应,现有一些商业生物技术公司开发的测序仪可在电泳过程中进行检测。 1.1.3 末端终止法图示

DNA自动序列测定

DNA自动序列测定试验 [实验原理] DNA 测序(DNA sequencing)是对DNA 分子的一级结构的分析。其基本原理是DNA 的复制反应体系中需要存在DNA 聚合酶、DNA 模板、寡核苷酸引物和dNTP,引物和模板退火形成双链后,DNA 聚合酶在引物的引导下在模板链上沿3’→5’的方向移动,dNTP 按照碱基配对原则,逐个连接在引物的3’-OH 末端。然而,如果在DNA 合成体系中加入双脱氧核苷三磷酸(2’,3’-ddNTP),后者与dNTP 的区别在于脱氧核糖的C3 位置缺少-OH,这样,一旦2’,3’-ddNTP 掺入到DNA 链中,由于没有3’-OH,不能同后续的dNTP 形成磷酸二酯键,从而使正在延伸的引物链在此终止。 DNA 自动测序技术也采用了这一基本原理。即在反应体系中除了加入正常反应所必需的4 种dNTP 外,还加入了一定比例的4 种荧光染料基团标记的2’,3’-ddNTP,链合成过程中,dNTP 和荧光染料基团标记的2’,3’-ddNTP 处于一种竞争状态,结果DNA 合成反应的产物是一系列长度不等的具有荧光信号的多核苷酸片段,借助计算机自动数据处理最终得到DNA 碱基的排列顺序。 [试剂与仪器]

试剂:1. BigDye Terminator v3.1 Cycle Sequencing Kit: ⑴Ready Reaction Mix; ⑵阳性对照模板和引物; ⑶BigDye Terminator v3.1Sequencing Buffer (5×)。 2. 目的基因测序引物。 3. 100%乙醇;125mM 的EDTA;3M 醋酸钠(pH 5.2);70%乙醇。 4. Hi-Di 甲酰胺 仪器:1. MicroAmp? 96-Well Reaction Plate; 2. PCR 扩增仪(GeneAmp PCR System 9700); 3. 低温高速离心机; 4. DNA 序列分析仪(ABI 公司3130 基因分析仪)。 [操作方法] 1. 模板的准备(PCR 扩增产物) ⑴目的基因的扩增与纯化: 一般来说,任何可以去除dNTPs 和引物的方法都是可行的。这里推荐使用Microcon-PCR单个样品PCR 产物纯化柱(Millipore, #1045062)。 ⑵确定PCR 扩增并纯化后的目的基因的质量:

DNA序列测定技术

DNA序列测定技术 序列测定的技术和策略 Sanger双脱氧链终止法 Maxam-Gilbert DNA化学降解法 测序策略 目前应用的两种快速序列测定技术是Sanger等(1977)提出的酶法及Ma xam和Gilbert(1977)提出的化学降解法。虽然其原理大相径庭,但这两种方法都是同样生成互相独立的若干组带放射性标记的寡核苷酸,每组寡核苷酸都有固定的起点,但却随机终止于特定的一种或者多种残基上。由于DNA上的每一个碱基出现在可变终止端的机会均等,因些上述每一组产物都是一些寡核苷酸混合物,这些寡核苷酸的长度由某一种特定碱基在原DNA全片段上的位置所决定。然后在可以区分长度仅差一个核苷酸的不同DNA分子的条件下,对各组寡核苷酸进行电泳分析,只要把几组寡核苷酸加样于测序凝胶中若干个相邻的泳道这上,即可从凝胶的放射自影片上直接读出DNA上的核苷酸顺序。 一Sanger双脱氧链终止法 Sanger法DNA测序的试剂 引物 模板 DNA聚合酶 放射性标记的dNTP dNTP类似物 现行的逻终止法人加减法序列测定技术(Sacger和Coulson,1975)发展而来的。加减法首次引入了使用特异引物在DNA聚合酶作用下进行延伸反应、碱基特异性的链终止,以及采用聚丙烯酰胺凝胶区分长度差一个核苷酸的单链D AN等3种方法。尽管有了这些进展,但加减法仍然太不精确,也太不得法,因此难以广为接受。直至引入双氧核苷三磷酸(ddTBP)作为链终止剂(Sanger 等,1977),酶法DNA序列测定技术才得到广泛应用。2',3'ddNTP与普通d NTP不同之处在同它们在脱氧核糖的3'位置缺少一个羟基。它们可以在DNA 聚合酶作用下通过其5'三磷酸基团掺入到正在增长的DNA链中,但由于没有3 '羟基,它们不能同后续的dNTP形成磷酸二酯链,因此,正在增长的DNA链不可能继续延伸。这样,在DNA合成反应混合物的4种普通dNTP中加入少量的

第六章 DNA序列分析

第六章DNA序列分析 [本章摘要] DNA 的序列分析有两种基本方法, Maxam-Gilbert 化学降解法和 Sanger 氏酶学法。因为测序每个反应读取的序列是有限的,做长片段 DNA 或基因组测序时,需要选用一定的策略。测序的策略有 primer walking ,随机测序,定向测序等。现在全自动测序仍然沿用 Sanger 氏酶学法,但是在标记上作了改进。 DNA 测序结果通过生物信息学分析,获取需要的信息。 第一节Maxam-Gilbert 化学降解法 1977年, A.M. Maxam 和 W. Gilbert 首先建立了 DNA 片段序列的测定方法,其原理为:将一个 DNA 片段的 5' 端磷酸基作放射性标记,再分别采用不同的化学方法修饰和裂解特定碱基(表 6-1),从而产生一系列长度不一而 5' 端被标记的 DNA 片段,这些以特定碱基结尾的片段群通过凝胶电泳分离,再经放射线自显影,确定各片段末端碱基,从而得出目的 DNA 的碱基序列。 Maxam-Gilbert 化学降解法测序原理如图 6-1 :

表6-1:Maxam-Gilbert化学降解法测序的常用化学试剂: 碱基体 系 化学修饰试剂化学反应断裂部位 G A + G C + T C A > C dimethyl sulphate(硫酸二甲酯) Piperidine formate(哌啶甲酸), pH2.0 hydrazine(肼,联氨NH2.NH2) hydrazine + NaCl(1.5M) 90 C, NaOH(1.2M) 甲基化 脱嘌呤 打开嘧啶环 打开胞嘧啶 环 断裂反应 G G和A C和T C A和C 硫酸二甲酯[dimethyl sulphate ,DMS ,(CH3O)2SO2]是一种碱性化学试剂,可以使 DNA 链上的腺嘌呤 A 的 N2和鸟嘌呤 G 的 N7甲基化,但是鸟嘌呤 G 的 N7甲基化速度比腺嘌呤 A 的 N2甲基化速度要快 4-10 倍,并且在中性 pH 环境中, DMS 主要作用于鸟嘌呤 G ,使之甲基化,导致糖苷键断裂。 哌啶甲酸可以使 DNA 链上的嘌呤在酸的作用下发生糖苷水解,导致 DNA 链在脱嘌呤位点(G 和A)发生断裂。 肼,又称联氨 NH2.NH2,在碱性环境中作用于胞嘧啶 C 和胸腺嘧啶 T 的 C4和 C6位置,导致糖苷键断裂。如果加入高浓度的盐(1.2M NaOH),肼则主要作用于胞嘧啶 C ,使之断裂。 作为标记用的放射性同位素主要有γ-32P([γ-32P]ATP,[γ-32P]GTP. [γ-32P]TTP ,或[γ-32P]CTP),或γ-33NTP , S-35NTP 。 Maxam-Gilbert 化学降解测序法不需要进行酶催化反应,因此不会产生由于酶催化反应而带来的误差;对未经克隆的 DNA 片段可以直接测序;化学降解测序法特别适用于测定含有如 5-甲基腺嘌呤 A 或者 G , C 含量较高的 DNA 片段,以及短链的寡核苷酸片段的序列。 化学降解测序法既可以标记 5'-末端,也可以标记 3'-末端。如果从两端分别测定同一条DNA 链的核苷酸序列,相互参照测定结果,可以得到准确的 DNA 链序列。

基于质谱的DNA序列测定进展

基于质谱的DNA序列测定进展 许崇峰杨芃原岳贵花卞利萍 摘要对质谱DNA序列测定的各种技术的原理、进展、面临的困难以及发展的前景作了评述。 关键词质谱DNA序列测定评述 Abstract This article gives a review on DNA sequencing by mass spectrometry,including the principles of MS techniques,and their progress, difficulties and perspective. Key words Mass spectrometry;DNA sequencing;Review 1引言 DNA序列分析在生物基因学以及遗传病和病毒性疾病的诊断和治疗上具有重要的作用。用质谱化学方法进行DNA序列分析是一种新兴的技术。Sanger 双脱氧链终止序列测定方法[1]是常规的DNA序列分析方法,Sanger产物需要通过凝胶分离和显色来得到DNA的序列信息。而当采用质谱(MS)时,Sanger 产物可不需分离而直接测定,因而质谱方法具有快速性的优点。80年代中后期相继出现的质谱离子化新技术电喷雾(ESI)和基体辅助激光解析电离(MALDI)使得用质谱进行DNA序列测定成为可能。但是由于技术尚不成熟,目前使用质谱方法仅能测定含几十个碱基的寡聚核苷酸。要使质谱在人类基因工程(HGP)和临床分析中得到广泛的应用,质谱技术和质谱方法必须得到显著改善。 2 生物质谱方法 生物质谱,有别于传统质谱,测定的对象是分子量可高达几万至几十万的生物分子,这使得传统的电子轰击(EI)、化学电离(CI)等电离技术的应用受到了极大的限制。随着快原子轰击(FAB)、MALDI、ESI、离喷雾(IS)、大气压下碰撞电离(APCI)等电离技术的出现,大大提高了质谱的测定范围。特别是ESI-MS和M ALDI-MS显示了在生物大分子分析(如蛋白质和核酸)上的巨大潜力。 2.1ESI-MS 电喷雾是一种软电离方法。通常认为电喷雾可以用两种机制来解释:1)离子蒸发机制,在喷针针头与施加电压的电极之间形成了强电场,该电场使液体带电,带电的溶液在电场的作用下向带相反电荷的电极运动,并形成带电的液珠(液滴)。由于小雾滴的分散,比表面增大,在电场中迅速蒸发,结果使带电雾滴表面单位面积的场强高达108V/cm2,从而产生液滴的“爆裂”。重复此过程,最终产生分子离子;2)带电残基(分子)机制,首先也是电场使溶液形成带电雾滴,带电雾滴在电场作用下运动并迅速溶去,溶液中分子所带电荷在去溶时被保留在分子上,结果形成离子化的分子。一般来讲,电喷雾方法适合使溶液中的分子带电而离子化。离子蒸发机制是主要的电喷雾过程,但对质量数大的分子化合物,带电残基的机制也会起相当重要的作用。 电喷雾所形成的离子是多电荷离子,由于质谱测定的是质荷比,这就拓宽了它所能测定的质量范围,使得它适合于生物大分子的测定。 2.2MALDI-MS MALDI也是一种软电离方法,它利用激光束照射分散于基体(又称基质、底物)中的样品,由于样品被包裹在基体中,因而大部分激光能量被基体所吸收,

相关文档