文档库 最新最全的文档下载
当前位置:文档库 › APOBEC3A 核酸及表达蛋白水平基于生物信息学的简略分析

APOBEC3A 核酸及表达蛋白水平基于生物信息学的简略分析

APOBEC3A 核酸及表达蛋白水平基于生物信息学的简略分析
APOBEC3A 核酸及表达蛋白水平基于生物信息学的简略分析

APOBEC3A 核酸及表达蛋白水平基于生物信

息学的简略分析

万科星 2016120059 儿院医学检验诊断学 wwwalies@163.co m

摘要

APBEC3A(载脂蛋白 B mRNA 调控酶,催化样多肽 3A)属于 APOBEC3 家族,是多种正常组织中突变的来源.近期研究发现。APOBEC3A 在多种肿瘤组织的基因组当中也具有强烈的突变倾向。APOBEC3 家族是一类胞嘧啶脱氨酶,是固有免疫反应的一部分,具有抵抗细胞内逆转录因子、逆转录病毒及 DNA 病毒的活性,而APOBEC3A 具有与家族成员不同的一些性质:抗病毒活性不同,可激活 DNA 损伤应答,导致细胞周期终止等。APOBEC 脱氨酶家族可使管家基因脱氨基化,同时也可以引起核酸序列中C→T 碱基突变,从而成为正常组织中广泛的突变来源,并在病毒感染或过表达时诱导肿瘤组织的产生,从而使得 APOBEC3 家族成为潜在的治疗靶点。本文使用 NCBI 数据库下载获得 APOBEC3A 的核酸及蛋白序列,对其启动子作一初步分析,并进行了同源建模,以期为后续的实验提供理论基础。

关键词:APOBEC3A,启动子分析,同源建模

Abstract

APOBEC3A (apolipoprotein B mRNA editing enzyme, catalytic polypeptide-like 3A), a member of cytidine deaminase APOBEC3 family,which is a source of mutations in many normal is sues.Recent study showed that APOBEC3A also had a strongly tend of mutation in the genomes of many human cancers. APOBEC3 family is a family of cytidine deaminase,normally,this family members function as part of the innate immune system that protects against retrovirus and retrotransposon propagation.AlthoughAPOBEC3A performed some different features:this member of APOBEC3 family showed respective anti-virus activity,and could induce responds of DNA impairment ,leads to the end of cell cycle and soon.The APOBEC3 family also deaminate cytosines in the host genome and generate C→Tmutations,which could induce many human cancers wh en injected virus or over expression, brings APOBEC3A an posibility of cancer therapeutic target.To indentify the homology of APOBEC3A of APOBEC3 family and build a pre preparation of subsequent research, we download the nucleotide and protein sequence from

NCBI,analysised the promoter of APOBEC3A and made homology modeling . Keyword:APOBEC3A,promoter analysis, homology modeling

研究背景

APOBEC3A(apolipoprotein B mRNA editing enzyme, catalytic polypeptide‐like 3A,载脂蛋白 B mRNA 调控酶,催化样多肽 3A)属于APOBEC 家族,是肠、肺、肝、脾、心脏、卵巢、睾丸等组织中常见的突变来源;Harris,R.S.等在 Nature Reviews Immunology 上发表研究称,APOBEC3A 在多种人类肿瘤中具有显著增强的突变倾向[1],Chiu,Y.L.等也证明了这一点[2]。APOBEC 家族是一种广泛分布于各个组织中的胞嘧啶脱氨酶家族,属于固有免疫系统的一部分,具有抵抗细胞间内皮逆转录因子、逆转录病毒及 DNA 病毒的复制和转录的活性;而 Hui Chen.等研究表明,APOBEC3A 表现出和其他 APOBEC 家族成员不同的抗病毒活性:其未直接表现出对逆转录病毒的抑制活性,而表现为催化剂作用下对细小腺相关病毒的复制抑制活性[3]。同时,Berger G.等证明 APOBEC3A 是早期 HIV 感染髓系细胞的特异性抑制剂[4],S

Landry.等研究发现 APOBEC3A 可激活 DNA 损伤应答,导致细胞周期终止[5]。其他研究结果也证明 APOBEC3A 具有多种作用,并可成为靶向治疗的靶点

[6][7];APOBEC 脱氨酶家族可使管家基因脱氨基化,同时也可以引起核酸序列中C→T 碱基突变[8][9] .子宫颈、膀胱、肺、头、颈部以及乳腺癌中的C→T 转化被认为是由 APOBEC3A 的直接突变标志活化及过表达引起[1],[2]。APOBEC3A 作为一种胞嘧啶脱氨酶,可使核酸序列脱氨产生尿嘧啶残基;使用尿嘧啶糖苷酶切除尿嘧啶残基后产生一个无碱基区域,在此区域相对的核苷酸序列处插入腺嘌呤可导致C→T 转换[10]。同时,DNA 聚合酶可反复穿过尿嘧啶残基,插入腺嘌呤,同样导致C→T 转换[10]。APOBEC3A 导致的其他致癌突变机理目前暂时未知,目前可以确定的部分是,导致碱基替换的众多变化中都使用了相邻序列的核苷酸。APOBEC3A 更倾向于对序列的5’端或3’端附近胸腺嘧啶或腺嘌呤进行脱氨基[3][9][11]。近期研究发现,只有发生于 TCA 或 TCT 短序列中的碱基替换才与 APOBEC3A 所引起的突变相关 [1][2],然而,在这两种短序列中发生的其他碱基突变并不能排除与 APOBEC3A 的相关性。其他研究同样也证明了跨损伤聚合酶同样与 TCA 及 TCT 序列模体中C→G 及C→A 突变有关[1][2],其他的 APOBEC 酶可同样发挥突变催化作用,对另外两种脱氨酶过表达同样在转基因小鼠中表现出了致癌作用:过表达 APOBEC1 可导致肝癌[12],过表达活化诱导的脱氨酶可导致 T 细胞淋巴瘤[13].过表达APOBEC3A 在动物模型中表现出了肿瘤类型特异性,说明 APOBEC3 家族成员在肿瘤中的过表达可以揭示病毒感染和免疫反应与致癌基因的相关性。幽门螺杆菌感染可诱导胃正常上皮同时表达活化诱导脱氨酶及突变基因[14]。有趣的是,近期的实验[1][2]及 Lawrence.等的研究[1]分别证明了 APOBEC3A 突变信号域在宫颈癌,头颈部及膝盖相关癌症中表达增强;其主要危险因素是人乳头瘤病毒感染。APOBEC3A 突变基因是否被病毒感染所诱导,是否因为感染和免疫区域的变化而可以揭示 APOBEC3A 与肿瘤在某些组织中相关,而其他组织中不一定相关。基于这些实验,假定抑制 APOBEC3A 可以预防某些特定人类肿瘤中的突变是合理的。另一方面,假定 APOBEC 介导的病毒 DNA 突变可导致病毒突变负载的增强,最终导致超过病毒生存可负载的突变上限[10][11],类似地,存在高突变负载的 APOBEC 家族成员可能同样增加肿瘤组织中突变数量,以至于超过肿瘤生存可负载的突变数量[15]。这种理论的成立与否还有待更多的实验验证,因此,需要先对 APOBEC3A 进行核酸及蛋白序列分析,同时进行同源建模,以为后续的验证实验打下理论基础。

基因表达是指基因在生物体内转录、剪切、翻译及转变为具有生物活性的蛋白质分子之前的所有加工过程。人类基因组大约有两万多个基因,但在单个细胞中,同时表达的基因往往只有几千甚至几百个,而且很多基因只在特定组织或发育阶段表达。从一套基本不变的基因组中产生出多元化的细胞类型,是由调控基因活性的各种信号途径所控制。作为基因表达的第一步,转录是调控机制的中心。转录调控因子(transcription factors,TF),也称为反式作用因子(trans-acting factor),有序地结合在目标基因启动子(promoter)序列中的特殊位点,启动基因的转录和控制基因的转录效率。这些位点被称为转录因子结合位点,(transcriptionfactor binding sites,TFBS),又称之为顺式调控元件,其长度从几十个到十几个碱基不等。每个转录因子的集合位点通常都有特定的模式,被称为模体(motif)。找到这些特定的序列片段对研究基因的转录调控有着重要意义。大量的实验证明,TFBS 的长度一般在 6-

12bp 之间。然而,Chip-chip 技术的分辨率在 200-800bp 左右,远大于 TFBS 的长度,所以需要通过使用计算的方法来确定 TFBS 的确切位置。与之相比,Chip-seq 技术的分辨率可以达到 100bp,甚至更高。因此,随着基因芯片和深度测序等高通量数据的出现,计算方法在 TFBS 的分析中得到了广泛的应用。对 TFBS 的计算研究可分为两类问题:第一类问题是根据若干已知的 TFBS的

模体,在所研究的某个基因启动子区域内,搜索相应的转录因子可能的结合位点,称之为转录因子结合位点的定位(location of transcription factor bingding site).第二类问题是通过收集多个基因启动子序列,在其中寻找具有统计显著性的短片段,作为同一转录因子可能的结合位点,称之为转录因子结合位点的识别(identification of transcription factorbinding site)[16].本文采用确定转录因子后,搜索相应的转录因子可能的结合位点的方法,来对启动子序列进行分析。

同一个家族的蛋白质成员往往具有类似的结构和功能,如丝氨酸蛋白酶家族、血红蛋白家族等。通过对已经测定的蛋白质空间结构进行比对,人们发现,蛋白质的三级结构比一级结构更为保守。通常情况下,可以将序列相似性超过 30%的蛋白质分子归属为一个家族,同一蛋白质家族的成员由同一个“祖先”进化而来,他们之间具有保守的三维结构。当一个蛋白质家族中某一个成员测定了三围结构之后,就可以用这个结构作为模板,来预测该家族的其他蛋白成员的三围结构。实际证明,一个蛋白质如果先利用已知的同源蛋白的结构作为模板进行初步预测,然后在利用理论计算方法对模型进行优化,就可以得到可靠性较高的预测结构[17] 。

SWISS-MODEL(https://www.wendangku.net/doc/0614501139.html,)是一个用于比较不同蛋白并进行 3D 建模的自动化在线分析网站,它于 1993 年开创了在线同源 3D 建模的先河,并逐步成为世界上最广泛使用的在线蛋白结构 3D 建模服务系统,仅 2002 年就为 12 万用户提供了在线 3D 建模服务。SWISS-MODEL 提供了一个在线的,蛋白质 3D 建模用户交流和获取信息的平台,只需提供核苷酸序列,就可以根据数据库中已有的数据获得关于核苷酸的 3D 模型、同源蛋白建模及其他所需信息,模板选择,校准和模型构建完全由服务器自动完成,并有多种建模方式可供选择,用户可根据自身的需求设计和修改模板,以达到更高的精度[18]。本文使用 SWISS-MODEL 在线建模工具对 APOBEC3A 进行同源建模,以图找到与之结构相似的已知蛋白,以便进行以后的实验分析。

材料与方法:

一.序列获得

(一).核酸检索

(1)从 NCBI 网站上获取 APOBEC3A 的 DNA 序列打开 NCBI 主页,选择 DNA 检索界面,如图所示:

检索结果如下图:

选择人类(human),选择 FASTA 方式,获得结果如下图:

此即 APOBEC3A 的 DNA 序列。

(2)APOBEC3A 的核酸序列检索

打开 NCBI 主页,选择核酸检索界面,如图所示:

在检索框中输入“APOBEC3A” ,选择人类(human),得到结果如图(https://www.wendangku.net/doc/0614501139.html,/nuccore/KM266646.1):

选择 FASTA,得到 APOBEC3A 的 mRNA 序列,如图所示:

可以看出, APOBEC3A 的 mRNA 是一段 600bp 大小的核酸序列,在 NCBI 库中的 ID 为 KM266646.1,使用 sanger 法测序获得。

二.蛋白质检索

进入 NCBI 蛋白数据库(https://www.wendangku.net/doc/0614501139.html,/guide/proteins/)选择 protein,输入“APOBEC3A” ,如图所示:

Search 后,选择“home sapiens” ,如图所示:

选择 FASTA,得到序列结果如图:

二.转录调控分析

(1)确定启动子序列

进入 NCBI 数据库(https://www.wendangku.net/doc/0614501139.html,/gene/),如图:

搜索 APOBEC3A,选择人种,结果如下图:

使用 map view 中的 dl 分析,如图所示:

得到结果如图:

表明 APOBEC3A 位于 22 号染色体上 3895722 至 38963183 这一段位置。

通常选取-2000 至+200 作为启动子序列,因此,需要选出-2000 至+200 这一段区域的核苷酸序列。

获得核酸序列如下图所示:

(2)转录因子结合位点分析

进入 JASPARdatabase 首页(https://www.wendangku.net/doc/0614501139.html,/)

1)使用 c-myc 进行搜索,结果如图所示:

2)在搜索框中放入 APOBEC3A 的启动子序列进行搜索后,结果如图所示:

其中,strand 值为-1 的没有意义,其他的 strand 值越高,代表其符合程度越高,红框中圈出的即为 APOBEC3A 中与 c-myc 的 TFBS 符合度≥80%的区域。

2)用同样的方法,对抗病毒相关的转录因子 NF-KB 的 TFBS 进行检索,结果如下图:

3)对干扰素调控因子(IRF3)的 TFBS 进行检索,结果如下图:

三.蛋白质同源建模

进入 SWISS-MODEL,选择“start modeling” ,如下图所示:

输入 APOBEC3A 的蛋白质序列,点击“Build Medel”,结果如下图:

可以看出,一共使用了三个相似度≥0.9 的模板,其中模板 1 相似度最高,达到了 0.99

模板 1 的详细结果如下图所示:

建模系统对所使用的所有模板进行了一个概要分析,如下图所示:

可以看出,APOBEC3A 与其他 APOBEC 家族成员蛋白质三级结构相似度都在 0.6 以上,同时,也存在着许多与其三级结构相似度≥30%的蛋白,可能为 APOBEC 家族所属的超家族成员,具有部分相似的结构和功能。

讨论

POBEC3A 属于 APOBEC 家族,是一种脱氨酶,能够引起基因核苷酸残基脱氨基化,具有抗病毒和引起免疫反馈的效应,并可诱导C→T 转变,是许多癌症组织中突变的来源蛋白之一。APOBEC3 家族由七个成员组成,分别为:APOBEC3A, APOBEC3B, APOBEC3C,APOBEC3DE, APOBEC3F, APOBEC3G 及APOBEC3H,它们具有相似的功能。基因分析表明,APOBEC3 家族在共进化过程中维持了一个强选择性的压力,在啮齿动物中,一个复制的基因可扩增为七个同源的基因[19][20],这七个同源基因具有一个或两个各自的脱氨基结构域

[1][2],当逆转录病毒在细胞中增殖时, APOBEC3 蛋白可以选择性地整合进入病毒的结构域,在下次逆转录病毒感染后逆转录翻译时可编辑病毒的前病毒蛋白,诱导大量的还原性胞嘧啶突变为还原性尿嘧啶核苷酸。事实上, APOBEC3 家族最开始被发现为外生逆转录病毒的抑制因子,特别是 APOBEC3G,对 HIV 病毒感染

具有拮抗作用,相对地,HIV 感染因子也反作用于 APOBEC3G 的病毒抑制效果。

通过对 APOBEC3A 核酸及蛋白序列的分析,我初步掌握了核酸及蛋白序列查找的一般方法及 NCBI 数据库的初步使用技巧,以及对启动子序列的查找和一般分析,同源建模的简单方法,然而,同时也存在着许多问题,比如当我获得一段未知的核酸序列并以-2000 至+200 作为启动子序列后,如何能够在浩如烟海的转录因子中查询到我的序列中存在与之结合的 TFBS?是否可以通过分割核苷酸片段,将其划分为常见的转录因子 TFBS 区域,以期进行一个快速的筛查?然而假如这样分析,所带来的问题即为,倘若与这段核苷酸序列结合的转录因子不属于常见的转录因子,存在其 TFBS 区域,然而被错误地切割开来,不再能够被转录因子识别。

参考文献

[1]Harris,R.S. and Liddament,M.T. (2004) Retroviral restriction by APOBEC proteins. Nat. Rev. Immunol., 4,868–877

[2]Chiu,Y.L. and Greene,W.C. (2008) The APOBEC3 cytidine deaminases: an innate defensive networkopposing exogenous retroviruses and endogenous retroelements. Annu. Rev. Immunol., 26, 317–353.

[3] Chen H, Lilley C E, Yu Q, et al. APOBEC3A is a potent inhibitor of adeno-associated virus andretrotransposons[J]. Current biology, 2006, 16(5): 480-485.

[4] Berger G, Durand S, Fargier G, et al. APOBEC3A is a specific inhibitor of the early phases of HIV-1 infectionin myeloid cells[J]. 2011.

[5]Landry S, Narvaiza I, Linfesty D C, et al. APOBEC3A can activate the DNA damage response and cause cell‐cycle arrest[J]. EMBO reports, 2011, 12(5): 444-450.

[6]Bogerd H P, Wiegand H L, Doehle B P, et al. APOBEC3A and APOBEC3B are potent inhibitors of LTR-retrotransposon function in human cells[J]. Nucleic acids research, 2006, 34(1): 89-95.

[7] Narvaiza I, Linfesty D C, Greener B N, et al. Deaminase-independent inhibition of parvoviruses by theAPOBEC3A cytidine deaminase[J]. PLoS Pathog, 2009, 5(5): e1000439-e1000439.

[8]Duggal,N.K. and Emerman,M. (2012) Evolutionary conflicts between viruses and restriction factors shapeimmunity. Nat. Rev.Immunol., 12, 687–695.

[9]Bransteitter,R., Prochnow,C. and Chen,X.S. (2009) The current structural and functional understanding of APOBEC deaminases. Cell. Mol. Life Sci., 66, 3137–3147.

[10] Malim,M.H. (2009) APOBEC proteins and intrinsic resistance to HIV-1 infection. Philos. Trans. R. Soc.Lond. B Biol. Sci., 364,675–687

[11] Duggal,N.K. and Emerman,M. (2012) Evolutionary conflicts between viruses and restriction factors shapeimmunity. Nat. Rev.Immunol., 12, 687–695.

[12] Aguiar,R.S., Lovsin,N., Tanuri,A. and Peterlin,B.M. (2008) Vpr.A3A chimera inhibits HIV replication. J.Biol. Chem., 283,2518–2525

[13] Stenglein,M.D., Burns,M.B., Li,M., Lengyel,J. and Harris,R.S.(2010) APOBEC3 proteins mediate the clearance of foreign DNA from human cells. Nat. Struct. Mol. Biol., 17, 222–229.

[14] Bulliard,Y., Narvaiza,I., Bertero,A., Peddi,S., Ro ¨ hrig,U.F.,Ortiz,M., Zoete,V., Castro-Diaz,N.Turelli,P., Telenti,A. et al.(2011) Structure-function analyses point to a polynucleotide accommodating groove essential for APOBEC3A restriction activities. J. Virol., 85, 1765–1776.

[15] Love,R.P., Xu,H. and Chelico,L. (2012) Biochemical analysis of hypermutation by the deoxycytidine deaminase APOBEC3A. J.Biol. Chem., 287, 30812–30822.

[16] 生物信息学[M]. 人民卫生出版社, 2010.

[17] 蛋白质结构预测实验指南[M]. 化学工业出版社, 2010.

[18] Schwede T, Kopp J, Guex N, et al. SWISS-MODEL: an automated protein homology-modeling server[J]. Nucleic acids research, 2003, 31(13): 3381-3385.

[19] 14. Bulliard,Y., Narvaiza,I., Bertero,A., Peddi,S., Ro ¨ hrig,U.F.,Ortiz,M., Zoete,V., Castro-Diaz,N., Turelli,P., Telenti,A. et al.(2011) Structure-function analyses point to a polynucleotide accommodating

groove essential for APOBEC3A restriction activities. J. Virol., 85, 1765–1776.

[20] Byeon,I.-J., Ahn,J., Mitra,M., Byeon,C.-H., Herc?′ k,K., Hritz,J.,Charlton,L.M., Levin,J.G. and Gronenborn,A.M. (2013) NMR structure of human restriction factor APOBEC3A reveals substrate binding and enzyme specificity. Nat. Commun., 4, 1890.

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

生物信息学软件及使用概述

生物信息学软件及使 刘吉平 liujiping@https://www.wendangku.net/doc/0614501139.html, 用概述 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念: 科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。 生 物秀-专心做生物! w w w .b b i o o .c o m

分析和处理实验数据和公共数据,生物信息学软件主要功能 1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点) 生 物秀-专心做生物! w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间 ?核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接; ?蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等; ?本地序列与公共序列的联接,成果扩大。 生 物秀-专心做生物! w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系 生 物秀-专心做生物! w w w .b b i o o .c o m

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建 高芳銮(Raindy) 同源模建(homology modeling) ,也叫比较模建(Compatative modeling),其前提是一个或多个同源蛋白质的结构已知,当两个蛋白质的序列同源性高于35%,一般情况下认为它们的三维结构基本相同;序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法, SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器,创建于1993年,面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式:首选模式(First Approach mode)和 项目模式(Project mode)。 本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。 图1 SWISS-MODEL 的主界面 操作流程如下: 1.选择模式 单击左侧的“MENU ”菜单下方的“First Approach mode ”,右侧窗口自动SWISS-MODEL 工作窗口,在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列,SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号,如图2所示。 《生物信息学分析实践》样 稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置 当前版本只有一个选项可设置,如果用户需要使用指定的模板,可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码,其格式为“PDBCODE+ChainID ”,如“1uf2P ”。本例不使用指定模板,默认留空。完毕,点击“Submit Modeling Request ”提交模建请求,服务器返回提交成功的提示,如图3所示: 图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新,直至模建完成,如图4所示,同时模建结果也会发送到指定的邮箱。 3结果解读 点击下图右上方的“Print/Save this page as ”后的图标,可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息:模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。 《生物信息学分析实践》样稿

【高中生物】功能基因的克隆及生物信息学分析

(生物科技行业)功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structuralgenomics)转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等)也通过图位克隆法获得。 1.2同源序列克隆目的基因 首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法 结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学概论

2013/5/23
生物信息学概论
2013-5
提纲
1. 发展简史 2. 主要研究领域 3. 软件和工具
1. 发展简史
1946年 1946 年
美国生产出第一台全自动电子数字计算机“埃尼阿克”
1

2013/5/23
1. 发展简史
1955年 1955 年
Frederick Sanger determined the complete amino acid sequence of insulin in 1955 and earned him his first Nobel prize in Chemistry in 1958.
1. 发展简史
1965年 1965 年
The first Atlas of Protein Sequence and Structure contained sequence information on 65 proteins.
Dr. Margaret Oakley Dayhoff (1925-1983) was a pioneer in the use of computers in chemistry and biology, beginning with her PhD thesis project in 1948. Her work was multi-disciplinary, and used her knowledge of chemistry, mathematics, biology and computer science to develop an entirely new field. She is credited today as a founder of the field of Bioinformatics.
1. 发展简史
1965年 1965 年
First use of molecular sequences for evolutionary studies
One of the founding fathers of the field of molecular evolution
Zuckerkandl, E. and Pauling, L. (1965). "Molecules as documents of evolutionary history." Journal of theoretical biology 8(2): 357.
2

生物信息学简介范文

1、简介 生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。 具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。 生物信息学是一门利用计算机技术研究生物系统之规律的学科。 目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。 1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的? 生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。 生物信息学的主要研究方向:基因组学- 蛋白质组学- 系统生物学- 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。 姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初组阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。 原始的生物信息资源挖掘出来后,生命科学工作者面临着严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。 2、发展简介 生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO? (3) GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3) GO注释的意义? (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息? (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4) 什么是差异蛋白的功能富集分析&WHY? (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程? (7) KEGG通路注释的意义? (7) 为什么有些蛋白没有KEGG通路注释信息? (8) 什么是差异蛋白的通路富集分析&WHY? (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析(Clustering) (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路? (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学分析

生物信息学分析 生物信息学难吗? 经常有人向我问这个问题,这有什么疑问吗?如果不难学,根本就不用问我这个问题。也无需投入那么多时间精力就能掌握,更无需花费三四千元参加线下的培训班,也不会月薪过万。所以,答案很肯定,道理很简单:生物信息比较难学。 为什么难学? 我总结里几点原因。首先,这是一个交叉学科,要求你既要有生物学的基础,又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类,有很多东西需要去学习,还需要学习计算机知识。很多人一门内容还没学明白,现在还得在加一门,这就属于祸不单行,雪上加霜,屋漏偏逢连夜雨。因此,这种既懂生物学,又懂计算机的复合型人才就比较短缺。而且,生物信息本质上属于数据挖掘,除了生物,计算机,到后面还需要极强的统计学知识才能做好数据分析,所以,还得加上统计学,也就是生物信息学=生物学+计算机科学+统计学三门学科的知识,这也就是为什么生物信息学比较难学。 第二个原因,生物信息本身就包括很多内容,比如DNA的分析,RNA的分析,甲基化的分析,蛋白质的分析等方面,每一

门类又完全不同,从物种方面来分,动物,植物,微生物,医学等有差别很大,很难有一劳永逸,放之四海而皆准的分析方法。 第三个原因就是生物信息是一门快速发展的学习,会出现很多新的测序方法,比如sanger测序,illumina,BGIseq,PacBio,IonTorrent,Nanopore等,每一个平台技术原理完全不同,因此数据特点也完全不同,这就需要针对每一个平台的数据做专门的学习,而且每个平台又在不断的推陈出现,可能今天你刚开发好的方法,产品升级了,都得推倒重来。还有很多新的技术,例如现在比较火的单细胞测序,Hi-C测序,Bionano测序等等内容,以后还出现更多新技术新方法,足够让你活到老,学到老。当然,你先要能活到老,吾生也有涯,而知也无涯。以有涯随无涯,殆已! 高风险才有高收益 当然啦,虽然你已经看到学习生物信息肯定是不容易了,门槛很高,但是呢,门槛高也有很多好处,就是挡住了一部分人,当你学会了,迈过门槛,你的身价就提高了。如果人人都很容易掌握了,那么也就不值钱了。所以,生物信息,前途是光明的,道路是曲折的。

生物信息学中的序列比对算法

生物信息学中的序列比对算法 张永1,王瑞2 (1.南昌航空大学计算机学院,江西南昌330063;2.江西大宇职业技术学院,江西南昌330038) 摘要:生物信息学是以计算机为工具对生物信息进行储存、检索和分析的科学。序列比对是生物信息学中的一个基本问题,设计快速而有效的序列比对算法是生物信息学研究的一个重要内容,通过序列比较可以发现生物序列中的功能、结构和进化的信息,序列比较的基本操作是比对。本文介绍了序列比对算法的发展现状,描述了常用的各类序列比对算法,并分析了它们的优劣。 关键词:生物信息学;双序列比对;多序列比对 中图分类号:TP301文献标识码:A文章编号:1009-3044(2008)03-10181-04 SequenceAlignmentAlgorithmsinBioinformatics ZHANGYong1,WANGRui2 (1.SchoolofComputing,NanchangHangkongUniversity,Nanchang330063,China;2.JiangxiDayuVocationalInstitute,Nanchang330038,China) Abstract:Bioinformaticsisthesubjectofusingcomputertostore,retrieveandanalyzebiologicalinformation.Sequencealignmentisaba-sicprobleminBioinformatics,anditsmainresearchworkistodeveloprapidandeffectivesequencealignmentalgorithms.Wemaydiscov-erfunctional,structuralandevolutionaryinformationinbiologicalsequencesbysequencecomparing.Thispaperintroducesthedevelop-mentactualityofsequencealignmentalgorithms,describesvarietyofsequencealignmentalgorithmandanalysestheadvantagesanddisad-vantagesofthem. Keywords:Bioinformatics;PairwiseSequenceAlignment;MultipleSequenceAlignment 1引言 生物信息学是80年代末随着人类基因组计划的启动而兴起的一门新的交叉学科,最初常被称为基因组信息学。生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学和蛋白组学两方面,具体说,是从核酸和蛋白质序列出发,分析序列中表达结构与功能的生物信息。 生物信息学的研究重点主要体现在基因组学和蛋白质学两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达结构和功能的生物信息。生物信息学的基本任务是对各种生物分析序列进行分析,也就是研究新的计算机方法,从大量的序列信息中获取基因结构、功能和进化等知识。在从事分子生物学研究的几乎所有实验室中,对所获得的生物序列进行生物信息学分析已经成为下一步实验之前的一个标准操作。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,从序列的片段测定,拼接,基因的表达分析,到RNA和蛋白质的结构功能预测,物种亲缘树的构建都需要进行生物分子序列的相似性比较。例如,有关病毒癌基因与细胞癌基因关系的研究,免疫分子相互识别与作用机制的研究,就大量采用了这类比较分析方法。这种相似性比较分析方法就称为系列比对(SequenceAlignment)。目前,国际互联网上提供了众多的序列比对分析软件。然而,不同的分析软件会得到不同的结果,同时所使用的参数在很大程度上影响到分析的结果。有时常常会由于采用了不合适的参数而丢失了弱的但却具有统计学显著性意义的主要信息,导致随后的实验研究走弯路。因此,生物信息学中的序列比对算法的研究具有非常重要的理论与实践意义。 序列比对问题根据同时进行比对的序列数目分为双序列比对和多序列比对。双序列比对有比较成熟的动态规划算法,而多序列比对目前还没有快速而又十分有效的方法。一般来说,评价生物序列比对算法的标准有两个:一为算法的运算速度,二为获得最佳比对结果的敏感性或准确性。人们虽已提出众多的多序列比对算法,但由于问题自身的计算复杂性,它还尚未得到彻底解决,是 收稿日期:2007-11-25 基金资助:南昌航空大学校自选(EC200706086) 作者简介:张永(1977-),男,硕士,辽宁铁岭人,南昌航空大学计算机学院讲师,研究方向:生物信息学、信息处理;王瑞(1977-),男,江西大宇职业技术学院外语系助教。

生物信息学名词解释

1.计算生物信息学(Computational Bioinformatics)是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科,以生物数据作为研究对象,研究理论模型和计算方法,开发分析工具,进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术:在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。代表测序方法:solid 测序。 4.焦磷酸测序法:焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如:454测序仪 :用蛋白质序列查找核苷酸序列。 :STS是序列标记位点(sequence-tagged site)的缩写,是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断,一般长200bp -500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时,当各个实验室发表其DNA测序数据或构建成的物理图时,可用STS来加以鉴定和验证,并确定这些测序的DNA片段在染色体上的位置;还有利于汇集分析各实验室发表的数据和资料,保证作图和测序的准确性。 :表达序列标签技术(EST,Expressed Sequence Tags)EST技术直接起源于人类基因组计划。 :生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框(ORF,open reading frame )是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验:只有分子钟的,没听过分子钟检验。一种关于分子进化的假说,认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

生物信息学及其主要数学算法

生物信息学及其主要数学算法 吴春艳,王靖飞* (中国农业科学院哈尔滨兽医研究所动物疫病诊断与流行病学中心,哈尔滨黑龙江 150001) 摘要简要介绍了生物信息学( Bioinformatics )及其发展历程,讨论了生物信息学与其它学科之间的联系,其研究的主要内容和数学方法。 关键词:生物信息学;数学算法 Bioinformatics and Its Mathematical Arithmetics WU Chun-Yan, W ANG Jing-Fei*, LI Jing, JI Zeng-Tao, YANG Yan-Tao ( Center for Diagnosis and Epidemiology of Animal Infectious Diseases, Harbin Veterinary Research Institute, CAAS, Harbin, Heilongjiang Province, 150001 ) Abstract The bioinformatics and its history were briefly introduced at the beginning of the paper. And then, we discussed the relationship between Bioinformatics and other subjects. Both the main research directions and mathematical arithmetics were also described in the later parts of the paper. Key words Bioinformatics; mathematical arithmetics 1前言 生物信息学是一门多学科交叉科学,综合运用生物学、信息学、统计学、数学、物理学、化学、计算机及网络科学等为主要工具和手段,发展各种软件,对逐日大量增长的DNA序列、蛋白质的序列和结构进行收集、处理、存储、管理、分配、加工、分析和解释等,来阐明和理解大量数据,使之成为具有明确生物意义的生物信息。通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等。生物信息学的发展经历了如下几次主要历程。 1954 年Crick 提出了遗传信息传递的规律,DNA 是合成RNA 的模板,RNA 又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生 物学和生物信息学的发展都起到了极其重要的指导作用。 1956 年美国田纳西州盖特林堡召开的“生物学中的信息理论研讨会”,首次产生了生物信息学的概念。 1963 年Nirenberg 和Matthai通过实验研究,编码20 氨基酸的遗传密码得到了破译。 限制性内切酶的发现和重组DNA 的克隆(clone)奠定了基因工程的技术基础。 正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的 出现也就成了一种必然。 20世纪80年代末随着人类基因组计划的启动而兴起一门新兴学科——基因组信息学,后改为生物信息学。1987 年林华安博士正是称这一领域为“生物信息学 (Bioinformatics)”。近年来,计算机和因特网的快速发展更是为生物信息的传递 提供了硬件基础和便利条件。(生物信息学的实质就是运用计算机科学及网络技术 来解决生物学问题。) 2001 年2 月,人类基因组工程测序的完成,使生物信息学走向一个高潮。 作者简介:吴春艳,女(1975-),满族,硕士,主要从事生物信息学研究。 *通讯作者Tel:(0451)85935090,E-mail:jingfei_wang@https://www.wendangku.net/doc/0614501139.html,。

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.wendangku.net/doc/0614501139.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.wendangku.net/doc/0614501139.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.wendangku.net/doc/0614501139.html,/fasta33/)和BLAST (https://www.wendangku.net/doc/0614501139.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

生物信息学分析

4、生物信息学分析 通过核苷酸序列数据库和基因序列同源性在线分析途径初步对Rv2029c基因进行分类整理。由于结核分枝杆菌耐利福平野生株与核苷酸序列数据库KEGG GENES中的结核分枝杆菌标准株H37Rv的匹配率为100%,以下对基因的分析按照结核分枝杆菌标准株H37Rv的数据库信息进行,即完全匹配的1020bp长度序列(本次提取基因中包含上下游引物等序列,较长,1346bp)。 4.1基本信息 表1 基因基本信息 4.2基因组信息 表2 基因组信息

5、PLN02341(PfkB型碳水化合物激酶家族蛋白),位点208-294 6、PTZ0029(核糖激酶),位点205-301 药物靶点1、同源基因没有药物靶点 2、非同源但序列相似基因没有药物靶点 图3 蛋白结构域 4.3蛋白表达 4.3.1 二级结构分析 预测结果显示,PfkB蛋白的二级结构中β转角占46.61%,α螺旋占33.63%,β折叠占19.76%。转角结构和螺旋结构构成了结核分枝杆菌PfkB蛋白二级结构的骨架。

图4 蛋白二级结构 4.3.2 跨膜区分析 Tuberculist跨膜蛋白预测结果表明:蛋白长度339aa,预测跨膜蛋白数0。 图5 蛋白跨膜区分析 4.3.3 信号肽预测 Predict Protein分析表明PfkB蛋白氨基酸残基没有信号肽,由此推断此蛋白不包含信号肽,不是分泌型蛋白质。

图6 蛋白信号肽预测 4.3.4 疏水性分析 分析结果显示,蛋白最大疏水指数为2.411,最小疏水指数为-2.372。

图7 蛋白疏水性分析 4.3.5 DNA同源性分析 表3 基因同源性分析 菌株序列覆盖 率 E值一致性 Mycobacterium tuberculosis strain Beijing-like, complete genome 100% 0.0 100% Mycobacterium bovis subsp. bovis AF2122/97 complete genome 100% 0.0 100% Mycobacterium tuberculosis 18b genome 100% 0.0 100% Mycobacterium tuberculosis H37RvSiena, complete genome 100% 0.0 100% Mycobacterium tuberculosis str. Kurono DNA, complete genome 100% 0.0 100% Mycobacterium tuberculosis 49-02 complete 100% 0.0 100%

相关文档
相关文档 最新文档