文档库 最新最全的文档下载
当前位置:文档库 › 拟南芥全长cDNA研究进展

拟南芥全长cDNA研究进展

拟南芥全长cDNA研究进展
拟南芥全长cDNA研究进展

拟南芥全长cDNA研究进展

【摘要】全长cDNAs是基因组序列注释和基因及其产物功能分析的基础。目前共分离了155,144个RIKEN拟南芥全长(RAF)cDNA克隆。将得到的155,144个RAFL cDNAs进行了3’端表达序列标签聚类成14,668个非冗余cDNA类,其中60%预测到基因。同时已从14,034个非冗余cDNA类中获得了5’ESTs,并构建成启动子文库。RAFL cDNAs序列数据库的建立有助于启动子分析、预测出转录本单元的正确注释和基因产物的注释。而且,全长cDNAs 还为表达谱分析、功能分析和植物蛋白结构分析提供了宝贵的资源。

【关键词】拟南芥;cDNA

拟南芥因其具有个体小,世代周期短和转化率高等特点,因此在植物研究中被广泛的作为一种模式生物。为了将拟南芥的小基因组测序,日本、欧洲和美国的科学家共同合作完成了拟南芥基因组测序工程。拟南芥5条染色体中的2条(2号和4号染色体,不包括核仁组织区和着丝点区)在1991年进行了测序,其余3条染色体在2000年进行了测序。

2001年5月,大约127,000个拟南芥表达序列标签(ESTs)被提交到EST 数据库(dbEST)。其中的序列来自法国,美国和日本共同合作的大范围EST工程。这些工程已从不同的组织、器官、种子和发育阶段的拟南芥中获得EST数据。然而,这些基于cDNA文库的EST工程中的大部分的插入片段都不是全长的。ESTs有助于为表达基因提供标签,大圣无法进行基因功能的进一步研究。因此,全基因组范围的获得表达基因的全长cDNA,对于在功能基因组学领域中分析基因及其产物的表达标签和功能是十分重要的。

1.拟南芥全长cDNA文库的构建

目前已应用biotinylated CAP trapper法建立了拟南芥的全长cDNA文库。最近,研究人员有将trehalose-ther-moactivated反转录酶应用到CAP trapper法中,构建了不同处理的拟南芥全长cDNA文库。在文库构建中使用了λZAP和λFLC载体。λFLC载体适合较大长度范围的cDNAs,并且有利于较长cDNA片段的高效率克隆。λFLC载体也可通过Cre-lox-based系统被大量检测,而不受质粒文库的片段大小的限制。在RIKEN拟南芥全长文库(RAFL)12、13、14、15、16、17、18、19和21的构建中,应用单链连接方法用DNA连接酶将双链(ds)cDNA接头连接到单链全长(ss)cDNA上。

通过将5’端单向测序数据定位到基因组序列,研究人员将155,144个RAFL cDNA克隆聚合成14,668个cDNA类。去除掉GC尾巴以便随后的测序和将全长cDNA翻译成蛋白。在构建全长cDNA文库(RAFL11、12、13、14、17、18、19和21)中,进行了均一化和消减处理,以减少高表达的mRNAs的富集和去除在单向测序中已分类的cDNAs。这种方法建立在全长cDNA的第一条链与若干RNA驱赶子杂交的基础上,包括将起始mRNA作为标准化的驱赶子,将来

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

全长cDNA酶切和连接体系

用测序时所构建的各片段重组质粒作模板,用新合成的加有连接酶切位点的引物扩增出需要连接的各片段。LF1在扩增时,由于片段比较长,故分为两步进行扩增,第一步扩增后,连接到pMD-18T载体上,再用此作模板进行第二次扩增。得到所需的加有酶切位点和启动子序列的目的片段,再将其克隆到pMD-18T载体上。使用时每次从载体上切取目的片段进行连接。 F5、F6和F7片段的连接,F5(Not I/ Fsp I)、F6(Fsp I/Csp45 I)、F7(Csp45 I/Sal I)分别进行酶切,将载体pGEM5zf同时进行Not I/Sal I双酶切,分别将各酶切产物进行纯化回收。由于F5片段和载体pMD18-T大小相近,故无法回收酶切后的目的片段,所以F5片段直接采用 酶切buffer F5用buffer D、F6用buffer B、F7用buffer D F21和F22的连接,将F21和F22 PCR测序片段分别用Nhe I酶切后,回收目的条带,将二者用T4 DNA酶连接后,克隆到T-easy载体上。即为连接全长所用的F2片段。连接时,直接用设计时的两端酶切位点。 LF3和LF4同样用Acc III酶切后,用T4 DNA连接酶连接,再克隆到pMD-18T载体上,用于5’半长的连接。 F21、F22连接酶切体系: Nhe I 1μl;10×M buffer 2μl;DNA 17μl; F3、F4连接酶切体系: Acc III 1μl;10×F buffer 2μl;BSA 0.2μl;DNA 16.8μl。 37℃3h酶切。纯化回收时,注意各种限制性酶的灭活(65℃,10min)。 连接体系: T4 DNA连接酶buffer 2μl;T-easy(F2) or pMD-18T(F34) 2μl;回收DNA片段15μl;T4 DNA连接酶1μl。16℃6h,再4℃过夜。转化感受态JM109。

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建 高芳銮(Raindy) 同源模建(homology modeling) ,也叫比较模建(Compatative modeling),其前提是一个或多个同源蛋白质的结构已知,当两个蛋白质的序列同源性高于35%,一般情况下认为它们的三维结构基本相同;序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法, SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器,创建于1993年,面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式:首选模式(First Approach mode)和 项目模式(Project mode)。 本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。 图1 SWISS-MODEL 的主界面 操作流程如下: 1.选择模式 单击左侧的“MENU ”菜单下方的“First Approach mode ”,右侧窗口自动SWISS-MODEL 工作窗口,在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列,SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号,如图2所示。 《生物信息学分析实践》样 稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置 当前版本只有一个选项可设置,如果用户需要使用指定的模板,可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码,其格式为“PDBCODE+ChainID ”,如“1uf2P ”。本例不使用指定模板,默认留空。完毕,点击“Submit Modeling Request ”提交模建请求,服务器返回提交成功的提示,如图3所示: 图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新,直至模建完成,如图4所示,同时模建结果也会发送到指定的邮箱。 3结果解读 点击下图右上方的“Print/Save this page as ”后的图标,可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息:模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。 《生物信息学分析实践》样稿

cDNA文库

cDNA文库 以mRNA为模板,经反转录酶催化,在体外反转录成cDNA,与适当的载体(常用噬菌体或质粒载体)连接后转化受体菌,则每个细菌含有一段cDNA,并能繁殖扩增,这样包含着细胞全部mRNA信息的cDNA克隆集合称为该组织细胞的c DNA文库。基因组含有的基因在特定的组织细胞中只有一部分表达,而且处在不同环境条件、不同分化时期的细胞其基因表达的种类和强度也不尽相同,所以cDNA文库具有组织细胞特异性。cDNA文库显然比基因组DNA文库小得多,能够比较容易从中筛选克隆得到细胞特异表达的基因。但对真核细胞来说,从基因组DNA文库获得的基因与从cDNA文库获得的不同,基因组DNA文库所含的是带有内含子和外显子的基因组基因,而从cDNA文库中获得的是已经过剪接、去除了内含子的cDNA。 [编辑本段] cDNA文库 真核生物基因组DNA十分庞大,其复杂程度是蛋白质和mRNA的100倍左右,而且含有大量的重复序列. 采用电泳分离和杂交的方法,都难以直接分离到目的基因.这是从染色体DNA为出发材料直接克隆目的基因的一个主要困难. 高等生物一般具有105种左右不同的基因,但在一定时间阶段的单个细胞或个体中,都尽有15%左右的基因得以表达,产生约15000种不同的mRNA分子.可见,由mR NA出发的cDNA克隆,其复杂程度要比直接从基因组克隆简单得多. 定义: (cDNA Library) 某种生物基因组转录的全部mRNA经反转录产生的cDNA片段分别与克隆载体重组,储存于某种受体菌中,该群体就称该生物基因组的cDNA文库. 原理 :将带poly(A)的mRNA经酶促反应转变为双链DNA,再与原核载体连接. 一,制备用于克隆cDNA的mRNA 1,mRNA的制备 动物细胞mRNA的制备 植物细胞mRNA的制备 2,mRNA的来源 选用mRNA含量高的组织材料,或通过药物等方法提高mRNA的含量 3,mRNA完整性的检测 1)mRNA在无细胞翻译体系指导合成高分子量蛋白质的能力。无细胞翻译系统(C ell-free translation system),又叫体外转录-翻译的偶联系统,因为该系统需要制备无细胞提取物,还有人称之为"溶胞粗制品翻译系统". 无细胞提取物的制备: 用机械的,超声波的,渗透压或用适当的去污剂等方法,将细胞溶破,再高速离心出去其质膜与细胞核等.该提取液中含有RNA聚合酶,核糖体,tRNA和能量发生系统.

【高中生物】功能基因的克隆及生物信息学分析

(生物科技行业)功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structuralgenomics)转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等)也通过图位克隆法获得。 1.2同源序列克隆目的基因 首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法 结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

构建全长cDNA文库

构建全长cDNA文库分为噬菌体文库和质粒文库,二者大同小异。无论怎样,应当注意如下几个方面: 一、保证获得数量足够的高质量的起始RNA。构建cDNA文库要求的RNA量比做RACE和Northern blot的要多,在材料允许的情况下一般的试剂盒均推荐采用纯化总mRNA 后进行反转录,这比直接采用总RNA进行反转录而构建的cDNA文库好,虽然后者也并不是不能做。老版本CLONTECH的SMART 4的中级柱子要求纯化后的总mRNA量最好在0.05-0.5微克左右,这就要求起始总RNA量较多。虽然有的试剂盒声称少至几十个纳克的总RNA也可以构建cDNA文库,但这是针对材料极为稀缺者而言,但起始RNA太少还是会或多或少影响文库构建成功的风险和文库的代表性。至于RNA的质量,如果采用纯化总mRNA后反转录,则对总RNA的杂质方面要求稍松,但对RNA的完整性则一丝不苟,要求未降解。如果直接采用总RNA进行反转录,则对总RNA的质量要求非常高,不仅要求RNA 相当完整而无降解,而且要求多酚、多糖、蛋白、盐、异硫氰酸胍等杂质少,最好是试剂盒抽提的。 二、反转录成功与否及反转录效率是关键中的关键。这是构建cDNA文库中最贵的一步,也是核酸质变的一步,它将易降解的RNA变成了不易降解的cDNA。反转录不成功,说明一次文库方案的夭折。反转录效率不高表现在一是部分mRNA被反转录了,但还有相当一部分本该反转录的mRNA未被反转;二是只有少部分mRNA被反转录通了即达到帽子结构最近处,而很大一部分mRNA没有反转录完全,总的全长cDNA太少,这就难以构建好的全长cDNA文库。少量程度的mRNA降解或反转录不完全在SMART 4等试剂盒及手工方法构建中对文库的滴度影响不大,但对文库的全长性则有很大影响。Invitrogen公司基于去磷酸化、去帽、RNA接头连接后再反转录的新技术(可参考其GeneRacer说明书)从原理上是保证最终获得全长cDNA的最好方法,但对mRNA的完整性要求非常高,理论上讲必须是带有帽子结构和Poly A结构的全长mRNA且反转录完全,才能进入文库中。反转录完成后点样检测cDNA的浓度及分子量分布是很重要的。 三、反转录后至包装到噬菌体外壳蛋白之前的诸多步骤的操作相对容易,但其中的层析柱cDNA分级很关键。这一步稍不注意会影响成功性或影响获得的cDNA的片段分布特点。这一步的操作要小心,尤其要在加入cDNA之前通过反复悬浮和试滴保证柱子能正常工作,cDNA的加入和收集要精力集中。获得的每一级的cDNA量很少,检测时带型很暗,所以要用新鲜做的透明薄胶检测,根据检测结果一定要舍弃太短的cDNA(一般400bp以下就不要了,因为短片段太多会严重影响后面的连接转化效果及文库质量)。 四、噬菌体文库或质粒文库均对载体与cDNA的连接效率要求很高,也对连接产物转染或转化大肠杆菌的效率要求很高。连接效率高低直接关系到文库构建是否成功,更要注意的是文库连接与一般的片段克隆的连接不一样。一般的片段克隆连接是固定长度的载体与固定长度的目的DNA连接,而文库连接是固定长度的载体与非固定长度的目的DNA连接,目的基因cDNA长的有10kb以上,短的只有500bp或更短。一系列长度不等的cDNA与载体在一起连接的结果,不同长度cDNA的连接效率就不一样。有的专家的经验是,根据分级结果,有意识地将长度不同的cDNA群分别与载体连接,再分别转化或转染大肠杆菌,分别完成滴度检测,最后将不同长度级别的文库混合在一起供杂交筛选。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

cDNA文库构建原理以及技术路线

CDNA文库 1. CDNA文库中重组DNA片断得原始供体来源与细胞中表达出得mRNA,将某一特定类型细胞表达得mrna经反转录酶催化形成与之互补得CDNA,重组克隆后得到得CDNA文库有各自不同得适合范围。CDNA文库在研究具体某类特定细胞中基因组得表达状态以及表达基因得功能鉴定方面具有特殊得优势,从而使它在个体发育,细胞分化,细胞周期调控 2. CDNA文库得质量 (1)文库的代表性 CDNA文库的代表性是指文库中包含得重组CDNA分子是否能完整地反映出来原细胞中表达地全部信息(即mrna种类),它是体现文库质量地最重要标本。文库地库容量,它是指构建建出地原始CDNA文库中包含地独立地重组子克隆数。具备完全好代表性地CDNA文库需要满足地库容量取决与来源细胞中表达出地基因序列地总复杂程度。具体来就是来源细胞中表达出地mrna种类和每种MRNA序列地拷贝数 N=ln(1-p)/ln(1-n/t),P为文库中包含细胞中任何一种mrna序列信息地概率,通常设为99%,N为文库中P概率出现细胞中任何一种mrna序列理论上应具有地最少重组克隆数,n为细胞中最稀少地mrna序列地拷贝数,t为细胞中表达出地所有mrna地总拷贝数,以人类细胞为列,人类基因组携带地遗传基因总数约为100000种,具体到某一特定类型地细胞中,表达出地基因种类仅为基因组全部基因地15%。因此对于巨大部分地人类细胞,每个细胞内具体表达地mrna种类约为15000种,全体mrna序列地总拷贝约为500000个,而细胞中稀少地mrna种类地拷贝数平均为8个。因此,用人类细胞来构建CDNA文库时候,要以99%概率保证文库中包含有细胞表达地任何一种mrna地序列信息,构建出地原始CDNA文库理论上应具有地最少独立克隆数为 N=ln(1_99%)/ln(1-8/500000)=2.9*10(5) 一个具有完好代表性地CDNA文库至少具有10(6)以上的库容量 3.MRNA是由5‘端非编码区,中间地编码序列和3’端非翻译区。非翻译区地序列特征对基因地表达具有重要地调控作用,其中编码产生地蛋白质产物都具有在结构上相对独立地结构域,存在与同一分子上地结构域对体现出蛋白产物在细胞中所行使地生物学功能。因此要从CDNA文库中分离获得目的基因完整地序列信息和功能信息,要求文库中地重组CDNA片断应尽可能完整获得目的基因结构 4.构建文库的载体系统 (1)入噬菌体载体系统是在CDNA文库构建中最早使用地载体系统,在载体本身地设计方面已经相当成熟,其主要优点是插入片断地装载容量大,适合与全长CDNA地克隆。重组子经专门地体外包装系统包装成有感染力地噬菌体颗粒,对宿主大肠杆菌地转染效率高,通常1ugCNDA构建出地CDNA文库,转染宿主菌后,都可以得到10(6)-10(7)以上地原始库容量,同时对重组克隆是否含有CDNA文库地插入片断地实际情况,有较好地质量控制指标,因此用这类载体地系统构建地CDNA文库质量高,代表性好,此外这类载体系统构建出地CDNA文库以重组噬菌体颗粒形式存在,这些重组噬菌体颗粒地感染活性在4度环境比较稳定,非常适合长期保存,但是可以采用地文库筛选方法很有限,文库中地CDNA 片断在宿主细胞无法功能性表达。 (2)质粒载体系统 可以功能性筛选:利用基因在体内体现其生物学活性所依据地生化基础,从文库中分离鉴定

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO? (3) GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3) GO注释的意义? (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息? (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4) 什么是差异蛋白的功能富集分析&WHY? (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程? (7) KEGG通路注释的意义? (7) 为什么有些蛋白没有KEGG通路注释信息? (8) 什么是差异蛋白的通路富集分析&WHY? (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析(Clustering) (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路? (12) 蛋白质相互作用网络分析结果文件解析 (12)

简述cDNA文库构建的方法

简述cDNA文库构建的方法 1.1 mRNA纯化 构建一个cDNA文库的第一步是分离在某一给定的组织或细胞类型表达的mRNA。mRNA仅占细胞总RNA的1%~5%,因而需要另外的纯化技术来富集mRNA。从细胞总RNA中分离mRNA是根据实际上所有真核细胞mRNA 3’端有一长的伸展的腺嘌呤核苷,这个序列被称为poly(A)尾巴,是mRNA分子特有的而其他主要RNA 没有,poly(A)尾通常有足够的长度因而能与人工合成的互补的寡脱氧胸苷酸(oligo(dT))杂交。正是这种特性使得mRNA从RNA分子的混合物中分离出来。 方法有三种: ·寡脱氧胸苷酸亲和层析:即分离mRNA的标准方法,将一个寡脱氧胸苷酸(12~18碱基)连接到纤维素的亲和层析柱法,总RNA混合物上样后,mRNA与寡脱氧胸苷酸退火。非poly(A)RNA不结合并很容易从柱子洗去。用低盐缓冲液洗柱,己结合的mRNA很快洗脱出来。 ·溶液杂交:本方案也用寡脱氧胸苷酸-纤维素,但不用层析柱,而是将基质直接加到总RNA溶液中。退火和洗涤步骤通过离心含有RNA沉淀的基质在溶液中完成。 ·生物素标记寡脱氧胸苷酸和链霉亲和素包被磁性球珠:本方案中,一个生物素标记的寡脱氧胸苷酸酸引物在溶液中与总RNA退火,然后加入以链霉亲和素包被的磁性球珠,用磁分离器从大量溶液中分离球珠-mRNA复全体。移去磁分离器,加入洗脱缓冲液,并重复磁性分离步骤。在无盐的状态下,寡脱氧胸苷酸引物从mRNA上解离。 1.2cDNA的合成与克隆 1.2.1 cDNA第一条链的合成 所有合成cDNA第一条链的方法都要用依赖于RNA的DNA聚合酶(反转录酶)来催化反应,有两个关键的因素,一个是mRNA模板,另一个反转录酶。 目前商业化的反转录酶主要有两种:一种是禽源反转录酶(reverse transcriptase),另一种是鼠源反转录酶。两种酶都无3’-5’外切酶活性,但禽源反转录酶有很强的RNAase H酶活性,鼠源的具有相对较弱的RNAaseH酶活性。RNAase H酶活性在反应中起负作用,可降解mRNA分子末端的poly(A)序列和cDNA-RNA杂交分子中的RNA。因此一般反转录过程都是采用鼠源反转录酶。GIBCO-BRL公司出品一种鼠源反转录酶,称为SUPERSCRIPT反转录酶,缺少C-末端180个氨基酸,完全去除了其 RNAase H酶活性,保持完整的DNA聚合酶活性。 1.2.2 cDNA第二条链的合成 合成cDNA第二条链的传统方法是“自身引导法”,即将第一条链合成过种中形成的cDNA/RNA杂交分子变性,降解RNA,则单链cDNA分子的3’末端自身环化,形成发卡结构。以此为引物,在DNA聚合酶作用下合成第二条链。所得到的产物是双链cDNA,在其相当于mRNA5’端的地方有一发卡闭环结构。然后用单链特异性的SI核酸酶消化该环,得到可供克隆的双链cDNA分子。由于SI酶的消化反应难以控制,不可避免地导致对应于mRNA5’的序列出现缺失和重排,并造成克隆效率偏低,故该法基本上己被一些改进的方法所代替。主要的改进之处是在合成第一条链的反应体系中加入4mmol/L的焦磷酸钠,以抑制发卡结构的形成,这样便避免了使用SI 核酸酶。然后再用其他方法合成第二条链的引物。 1.2.3 cDNA的克隆 dscDNA(双链cDNA)合成后,将此DNA与载体(质粒或噬菌体)组成重组分子,然后转化到受体菌中进行扩增。cDNA文库可用质粒载体或噬菌体载体构建。质粒文库

cDNA文库的筛选

CDNA文库筛选 2007-12-23 01:15:00| 分类:分子生物学方法| 标签:|字号大中小订阅 (一)λgt11 cDNA文库铺平板 宿主细菌制备 1.用一个E.coli宿主菌株单菌落分别接种2×5ml LB培养基(Y1088用于噬菌斑杂交,Y1090用于免疫筛选),于37℃振荡培养过夜。 2.将过夜培养物以3000×g离心5min。 3.分别用2ml λ-dil(10 mmol/L tris-Cl,pH7.5; 10 mmol/L MgSO4; 高压灭菌)重 悬细胞沉淀。 4.细胞悬液可用于4℃贮存至一周。 预制噬菌体悬液铺平板 以已知滴度(如,已知每ml噬菌体颗粒数)的cDNA文库或其他噬菌体悬液开始,用λ-dil稀释以达到所需每平板噬菌体数。每个90mm直径平皿5×103个噬菌体/100μl 开始筛选。 铺平板 1.将所需数量的LB平板置42℃温箱预热。 2.LB顶层琼脂(每平板最少2.5ml)用微波炉熔化,然后置49℃水浴中。 3.为温箱内的每一个平板准备一个12ml带螺旋盖试管,于室温,放在合适的架 子上。 4.用移液器每管加100μlλ-dil稀释的宿主细胞悬液。 5.每管加100μl稀释的噬菌体悬液与细菌于漩涡器上简短混合。 6.含细菌和噬菌体(感染混合物)的试管于37℃温育25min,然后室温放置。 7.用一支消毒的10ml 玻璃移液管在本生灯火焰上稍稍预热,取2.5ml保存在49℃的熔化顶层琼脂加到 一支含感染混合物的试管内。 8.立即在手掌之间滚动混合管内混合物,然后均匀地倒入一个预热的LB平板上。 9.倒好的平板于室温置水平面上直至顶层琼脂凝固(至少5min)。 10.重复步骤7至9,直至所有的细菌和噬菌体混合物都铺平板。 11.平板置42℃温箱(对λgt11)直至噬菌斑长出。

生物信息学分析

生物信息学分析 生物信息学难吗? 经常有人向我问这个问题,这有什么疑问吗?如果不难学,根本就不用问我这个问题。也无需投入那么多时间精力就能掌握,更无需花费三四千元参加线下的培训班,也不会月薪过万。所以,答案很肯定,道理很简单:生物信息比较难学。 为什么难学? 我总结里几点原因。首先,这是一个交叉学科,要求你既要有生物学的基础,又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类,有很多东西需要去学习,还需要学习计算机知识。很多人一门内容还没学明白,现在还得在加一门,这就属于祸不单行,雪上加霜,屋漏偏逢连夜雨。因此,这种既懂生物学,又懂计算机的复合型人才就比较短缺。而且,生物信息本质上属于数据挖掘,除了生物,计算机,到后面还需要极强的统计学知识才能做好数据分析,所以,还得加上统计学,也就是生物信息学=生物学+计算机科学+统计学三门学科的知识,这也就是为什么生物信息学比较难学。 第二个原因,生物信息本身就包括很多内容,比如DNA的分析,RNA的分析,甲基化的分析,蛋白质的分析等方面,每一

门类又完全不同,从物种方面来分,动物,植物,微生物,医学等有差别很大,很难有一劳永逸,放之四海而皆准的分析方法。 第三个原因就是生物信息是一门快速发展的学习,会出现很多新的测序方法,比如sanger测序,illumina,BGIseq,PacBio,IonTorrent,Nanopore等,每一个平台技术原理完全不同,因此数据特点也完全不同,这就需要针对每一个平台的数据做专门的学习,而且每个平台又在不断的推陈出现,可能今天你刚开发好的方法,产品升级了,都得推倒重来。还有很多新的技术,例如现在比较火的单细胞测序,Hi-C测序,Bionano测序等等内容,以后还出现更多新技术新方法,足够让你活到老,学到老。当然,你先要能活到老,吾生也有涯,而知也无涯。以有涯随无涯,殆已! 高风险才有高收益 当然啦,虽然你已经看到学习生物信息肯定是不容易了,门槛很高,但是呢,门槛高也有很多好处,就是挡住了一部分人,当你学会了,迈过门槛,你的身价就提高了。如果人人都很容易掌握了,那么也就不值钱了。所以,生物信息,前途是光明的,道路是曲折的。

全长cDNA文库的构建—SMART技术

【共享】全长cDNA文库的构建—SMART技术 全长cDNA文库的构建—SMART技术 真核细胞的mRNA在加工过程中有一个比喻为“穿鞋戴帽”的过程,因此mRNA 的末端都带有一段Poly A,这是利用逆转录酶制备cDNA文库的基础。但是由于cDNA的5'端的序列各不相同,如何获得全长的cDNA,如何扩增由微量的mRNA逆转录得到的cDNA文库、如何利用已知片断序列得到全长的cDNA(即RACE),曾经是一个令人困扰的问题。 常见的做法是在合成cDNA的双链后在两端连上接头,利用已知的接头序列再进行扩增,或者是利用末端转移酶在双链cDNA的3'末端加上一连串的G或者C(或者A/T),再通过补齐粘末端,利用已知的两头序列进行扩增。但是这些方法不同程度的存在一些问题,比如接头的连接效率非常有限,会导致部分信息的丢失,再加上这些方法需要多次用不同的酶处理有限的样品,需要经过反复的纯化,会损失很多有用的信息,特别是少量样品中的低丰度信息,很大程度上会影响结果的准确性。另外由于mRNA容易部分降解,很难确定得到的cDNA是否就是全长的cDNA,还是cDNA的片断。 SMART技术的出现是一个新的里程碑。这个称作Switching Mechanism At 5' end of the RNA Transcript(SMART),原理实际上非常简单:在合成cDNA的反应中事先加入的3'末端带Oligo(dG)的SMART引物,由于逆转录酶以mRNA为模板合成cDNA,在到达mRNA的5'末端时碰到真核mRNA特有的“帽子结构”,即甲基化的G时会连续在合成的cDNA末端加上几个(dC),SMART引物的Oligo(dG)与合成cDNA末端突出的几个C配对后形成cDNA的延伸模板,逆转录酶会自动转换模板,以SMART引物作为延伸模板继续延伸cDNA单链直到引物的末端,这样得到的所有cDNA 单链的一端有含Oligo(dT)的起始引物序列,另一端有已知的SMART引物序列,合成第二链后可以利用通用引物进行扩增。由于有5'帽子结构的mRNA才能利用这个反应得到能扩增的cDNA,因此扩增得到的cDNA就是全长cDNA。 这个专利的方法是利用逆转录酶内源的末端转移酶活性,只要单管,一步即可完成,不需要额外的cDNA抽提纯化或者沉淀,或者额外的酶反应,只需要少至25ng的mRNA或者50ng的Total RNA就可以得到高质量、高产量的cDNA 库,更重要的是得到的cDNA能够代表原有样品中的mRNA的丰度,可以应用于直接扩增基因、构建cDNA文库、已知序列钓全长cDNA(RACE),和用于芯片检测的cDNA探针的扩增等。 我们在这里分别介绍几个采用SMART技术的产品: 一、SMART PCR cDNA Synthesis Kit 这个试剂盒是采用SMART技术将少至25ng的mRNA或者50ng的Total

全长CDNA克隆方法

全长CDNA克隆方法 以MITF基因为例,简述全长CDNA克隆的方法. 方法分三步: 1.克隆中间片段 2.克隆3’片段 3. 克隆5’片段,然后再将3者重复序列删除,拼接起来. 1.中间序列克隆 提取锦鲤的皮肤组织的mRNA,然后跑胶检测。如果有2根带,则显示mRNA 提取成功. 然后反转录成CDNA,检测B-actin。 首先在NCBI上查找mitf基因,获取该基因的序列,CDS区,基因编号.并且保存,以备以后比对序列用.选取斑马鱼的mitf a 为模板. 引物合成:用Primer 5设计 a.引物长度:长度一般在18-30个碱基。一般都是18-24个左右。 b.GC含量:一般引物GC含量为40%-60%,一对引物的GC含量和TM值要协调。 如果引物存在严重的GC或者AT倾向,可以在引物最后加适当A.T.C.G尾巴c.退火温度:退火温度需要比解链温度低5度。适当提高引物退火温度可以使 PCR的特异性增加。一般设计一对引物的TM值应该要比较接近,一般在0-4度以内,不会影响PCR的产率。温度在55-75度之间。 d.避免扩增模板的二级结构区域,一对引物之间不应该存在4个连续碱基的同 源性或者互补性。选取时尽量选取分高的组合。 设计引物时,尽量增加克隆的中间片段长度,为避免5‘和3’克隆出现长片段。 引物设计好以后,根据引物的TM值,首先设计温度,做梯度PCR. 比如TM为65度,设计梯度时可以设计63,64,65,66. 4个梯度。然后根据跑胶结果确定大体系的TM值,如有目的带,直接胶回收。然后进行链接,转化。送公司测序。 测序结果出来后,用Chmas软件打开,并将其转化为TXT格式的碱基序列。 用Jellyfish里面,找特异性的正向,反向引物。找完正向后,将序列反过来再找反向引物。只有都能找到2个引物的序列才能算测序成功。将特异性引物两端的序列全部删除,(那是对应载体的序列)。保存克隆的中间序列,然后跟斑马鱼的序列对比,一般重复性在90%以上。若有几组序列满足要求,用着几组进行对比突变的地方按照重复多的碱基最为标准。尽量选2组以上序列。 2. 3‘克隆 克隆3‘的时候要重新用mRNA做反转录,在做反转录的时候要加上3‘接头。(接头由自己合成)。 设计引物:正向的外侧引物和内侧引物 反向的UPM和NUP 一般设计特异性引物的TM值为接近60度,最后60度以上。 首先用外侧引物和UPM做10ul体系的下体系。然后用其PCR产物模板稀释10-40倍。用作内侧引物+NUP的PCR反应模板。做大系统检测最适合TM值。找到以后直接进行胶回收,链接转化,测序。 第一轮的TM值需要摸索,第一轮以后通常是弥散的条带。如果多次尝试还是不

cDNA文库的构建方法与原理

c D N A文库的构建方法与原理 蛋白质是细胞的功能分子:它们构成结构和调控分子,动力和泵蛋白,酶和受体。然而,如果仅用传统的生化方法确定某一特异蛋白的全序列,或制备足够量的蛋白进行操作和鉴定都是使人厌烦且昂贵的步骤。基因克隆和遗传工程对生化领域有很大贡献。如果只限于将基因组DNA作为材料来源,由于其中仅2%被认为可能编码蛋白质,那么确定蛋白质序列仍然是令人生畏的工作。其他部分包括结构和调节因子、内含子、非编译外显子和重复及功能未知的非编码序列。如果分析仅局限在编码序列,那么确定基因产物序列所需的努力就会大大的降低。因此分子生物学主要原则之一是mRNA作为蛋白质合成的模板,所以mRNA是确定蛋白质序列的理想底物。不幸的是,现有通用的克隆载体没有一个能容纳mRNA分子作为插入片段。因此,产生表达序列文库的一个基本步骤是将mRNA分子转变成双链DNA。来自mRNA分子的DNA拷贝称cDNA,由来自细胞或组织mRNA种类的DNA拷贝组成的文库称为cDNA文库。 1.基本原理 cDNA(Complementary DNA)是以mRNA为模板,在反转录酶作用下合成的互补DNA,它的顺序可代表mRNA序列。cDNA文库的构建是指将cDNA与克隆载体DNA体外重组,然后去转化克隆载体DNA 的宿主细胞,从而得到一群含重组DNA的细菌或噬菌体克隆的过程。这些序列来自并代表一定组织或细胞类型特定发育或分化阶段的整个mRNA群体。其过程可概括为:(1)通过反转录酶将各种mRNA转变在cDNA;(2)cDNA与合适的载体重组并导入到宿主中。 cDNA基因文库具有许多优点和特殊用途: 首先,cDNA克隆以mRNA为起始材料,这对于有些RNA病毒来说非常适用,因为它们的增殖并不经过DNA中间体,研究这样的生物有机体,cDNA克隆是唯一可行的方法。 第二,cDNA基因文库的筛选简单易行,恰当选择mRNA的来源,使所构建的cDNA基因文库中,某一特定序列的克隆达到很高的比例,简化了筛选特定基因序列克隆的工作量。 第三,每一个cDNA克隆都含有一种mRNA序列,在选择中出现假阳性几率比较低,从阳性杂交信号选择出来的阳性克隆一般含有目的基因序列。 第四,cDNA克隆的另一用途是用于基因序列的测定,读码框(ORF)的界定,只有通过对mRNA5’核苷酸序列才能获得。 2.基本方法 2.1 mRNA纯化 构建一个cDNA文库的第一步是分离在某一给定的组织或细胞类型表达的mRNA。mRNA仅占细胞总RNA的1%~5%,因而需要另外的纯化技术来富集mRNA。从细胞总RNA中分离mRNA是根据实际上所有真核细胞mRNA 3’端有一长的伸展的腺嘌呤核苷,这个序列被称为poly(A)尾巴,是mRNA分子特有的而其他主要RNA没有,poly(A)尾通常有足够的长度因而能与人工合成的互补的寡脱氧胸苷酸(oligo(dT))杂交。正是这种特性使得mRNA从RNA分子的混合物中分离出来。方法有三种: ·寡脱氧胸苷酸亲和层析:即分离mRNA的标准方法,将一个寡脱氧胸苷酸(12~18碱基)连接到纤维素的亲和层析柱法,总RNA混合物上样后,mRNA与寡脱氧胸苷酸退火。非poly(A)RNA不结合并很容易从柱子洗去。用低盐缓冲液洗柱,己结合的mRNA很快洗脱出来。 ·溶液杂交:本方案也用寡脱氧胸苷酸-纤维素,但不用层析柱,而是将基质直接加到总RNA溶液中。退火和洗涤步骤通过离心含有RNA沉淀的基质在溶液中完成。 ·生物素标记寡脱氧胸苷酸和链霉亲和素包被磁性球珠:本方案中,一个生物素标记的寡脱氧胸苷酸酸引物在溶液中与总RNA退火,然后加入以链霉亲和素包被的磁性球珠,用磁分离器从大量溶液中分离球珠-mRNA复全体。移去磁分离器,加入洗脱缓冲液,并重复磁性分离步骤。在无盐的状态下,寡脱氧胸苷酸引物从mRNA上解离。 2.2 cDNA的合成与克隆

全长cDNA主要构建方法的比较

全长cDNA主要构建方法的比较 摘要全长cDNA文库的构建是进行功能基因组研究的一种经济、快速、有效的途径,克服了传统cDNA 文库的缺点,本文主要介绍了两种较为实用的方法,分别是SMART法和Cap trapper法。 关键词:全长cDNA构建SMART法Cap trapper法 随着测序技术和计算机科学的不断发展,大部分生物和人类的基因组全序列测定高速完成。cDNA作为基因克隆的一种重要工具,在帮助人们更好的发现新基因和研究基因功能上发挥了巨大的作用。但是,由于传统的cDNA由于反转录能力差,cDNA酶切位点保护不彻底和非cDNA片段插入导致克隆片段短、无效克隆多和全长率低等缺点,因而无法满足大规模、高通量、高效的功能基因组研究需要。而全长cDNA序列大多数拥有5’和3’端非编码区序列,因而弥补了传统cDNA文库构建方法的缺陷,成为目前基因克隆的一种重要方法。 目前主要有CAPture法,Oligo capping法,SMART法,Cap jumping法以及Cap trapper 法。本文主要介绍优点突出的两个方法,SMART法和Cap trapper法。

SMART 方法 SMART 方法是Chenchik 等1996 年提出的[3],该方法利用PowerscriptTMRT 反转录酶的反转录、末端转移活性和内切酶sfiⅠ的特性,快速、简单地构建全长cDNA 文库。PowerscriptTMRT 反转录酶是M-MLVR点突变而来的,丧失了RnaseH 的活性,但保留着野生型聚合酶转移酶的活性,能够长距离的反转录,又可识别mR-NA5’帽子结构。原始一链合成中,转移酶的活性低,延伸效率低。用于反转录的5’端poly(A)引物和延伸模板分别含有sfiI(A)、sfiI(B)识别位点的寡聚核苷酸序列。而截短的一链cDNA,反转录酶没有识别到mRNA5’帽子结构,一链cDNA3/ 端不能被延伸、合成和扩增二链。两端含有sfiI 识别位点的全长cDNA,经两种类型(A、B)内切酶sfiI 酶切,使两端产生不同的粘性末端,而全长cDNA 内部由于sfiI 识别位点在基因组中很少见而得以保护,这样就实现了目的全长基因的高效定向克隆。与其他方法相比,此方法有其独特的优点(1)所需起始材料少,一般0.5~1μg mRNA(2)mRNA 在合成cDNA 前无需任何酶反应或化学反应处理,不会导致处理过程中mRNA 的降解和损耗。(3)实验过程快速、简单,整个过程没有对mRNA 和中间产物的复杂处理。(4)全长比例较高[13]。SMART 方法也有其自身明显的缺点(:1)PCR 扩增具有选择性,不利于长片段序列的扩增,使一些长片段的全长基因丢失,不易得到大于3kb 片段和低峰度 全长基因[13]2)dG 加尾效率低,导致文库中基因信息丢失,文库缺乏代表性。在实际应用中,该方法快速、简单的优点使之广受青睐[14~17],尤其是在医学领域中应用较广[18~20]。 4 CAP- trapper 方法

相关文档