文档库 最新最全的文档下载
当前位置:文档库 › DNA序列的统计分析

DNA序列的统计分析

DNA序列的统计分析
DNA序列的统计分析

DNA序列的统计分析

【摘要】模型一统计了20个已知类别的DNA序列碱基的含量的概率分布,根据已知的类别就A,T,C,G的含量作为四个指标,采用判别分析对未知类别的序列给出了较满意的分类。模型二首先统计了已知类别的DNA序列的位置上各碱基出现的概率,发现A,B两类序列结构的不同,体现在密码子各位上的碱基概率分布有明显的差异,以嘌呤和嘧啶碱基为区别构造一个一维随机徘徊函数,从而给出A,B的分类法;接着,再从三个角度来划分碱基,对于每一种分类都构造一个一维随机徘徊函数,根据此函数得出拟和直线,用三条拟和直线的斜率作为分析的指标进行多元判别分析,由此给出A,B的分类法,较模型一分类的正确率明显提高。

一、问题简述与分析

人类基因组计划中DNA全序列图是由四个碱基A,T,G,C按照一定的顺序排成的长约30亿的序列,研究DNA全序列具有什么结构,探讨由这四个字符排成的看似随机的序列中到底隐藏着什么规律,是当代生物信息学最重要的课题之一。

DNA分子中唯一可变的部分是碱基(胸腺嘧啶T,鸟嘌呤G,胞嘧啶C,和腺嘌呤A)序列,人类发现在全序列中有一些是用于编码蛋白质的序列片段,即由这四个字符组成的64种不同的3字符串,其中大多数是用于编码构成蛋白质的20种氨基酸,研究表明,分析DNA序列的结构以及序列的某些片段之间具有的相关性对于理解DNA全序列有十分重要的意义,现提出给以下序列集合进行分类的问题:

1)由20个已知类别的序列中(序号1—10为A类,11—20为B类)提取特征,构造分类方法,并用这些已知类别的序列来衡量你的方法的好坏,然后对另外的20个未知类别的序列(标号21—40)进行分类。

2)对给出的182个DNA序列,用你的分类方法对他们进行分类,并给出分类结果。

研究表明,遗传密码所必要的碱基个数为3个,即密码子是由三个碱基组成,一串前后相依的密码子构成了氨基酸的排列次序,从而形成了具体的蛋白质,显然密码子使用的频率和数量,进一步,碱基出现的频率和数量,特别是排在一起的结构和序列片段的相关性都与研究DNA序列有十分紧密的联系,我们就是要挖掘这些统计特征,寻找出隐藏在这些序列中的规律。

首先,通过分析,我们可以看出给出的A,B两类的20 个样本数据中,四个碱基a, c, g, t 的含量有较明显的区别,因此我们可以通过其在含量方面的区别,以四种碱基的含量为四个指标利用SAS统计软件进行多元判别分析,以此来确定A,B的分类,并进而对其他的序列进行分类。(模型一)

其次,我们进一步判断,发现对a, c, g, t的含量完全相同的两个DNA序列来说,决定其分类的标准就不能再用碱基含量了,此时我们考虑用碱基的结构排列,即a, c, g, t出现在DNA序列中的每一位的顺序:我们先以嘌呤碱基与嘧啶碱基作为分类的标准,并构造一个一维随机徘徊函数,然后用据此得到的拟和直线的斜率来进行判断,但是我们进而发现仅从这一个角度来考虑是不完善的,因此经过研究我们从三个角度来分别构造一维随机徘徊函数,得到三条拟和直线,以这三条直线的斜率为指标再次用SAS统计软件进行多元判别分析,以此来判断A,B的分类。(模型二)

二模型假设与符号设定

1. 假定所给的DNA序列数据为起始密码子之后的第一个数据字符;

2. 每个碱基出现是随机的;

3. ha——一个序列中a的含量,hc——一个序列中c的含量;

4. hg——一个序列中g的含量,ht——一个序列中t的含量;

5. K1——按嘌呤与嘧啶碱基分类拟和的直线的斜率;

6. K2——按氨基与酮基碱基分类拟和的直线的斜率;

7. K3——按强氢键与弱氢键分类拟和的直线的斜率;

8. 其他的符号将在文中另外给出。

三模型一的建立和求解

一) 样本的统计分析

从含量的角度考虑,对于给出的20个已知类别的样本数据,我们利用MATLAB绘制出a, c, g, t 的分布图如下:(其中实线表示A类,虚线表示B类)

这里采用MATLAB的图形函数plot做图求解,其做图格式为:plot(x,a1,x,a2,'--')。其中X是横坐标,取1到10,a1与a2分别为A类与B类中的碱基含量,'--'代表线型是虚线。

a 的分布 c 的分布

g 的分布 t 的分布

图1 A 与B 两类a, c, g, t 的分布图

由上图可以看出,a, c, g , t 的含量明显不同,特别是g , t 的含量差别很大,因此我们可以根据a, c, g , t 的含量来区分A ,B 两类。于是我们将已知的20种序列和未知的20种序列的a, c, g , t 的含量计算出来并列表如下:

表1 A ,B 两类a ,c ,g ,t 的含量表

表2 未知分类的20 种序列a, c, g , t 的含量表

在这里,衡量分类的标准有四个指标:ha , hc , hg , ht。这四种指标分别表示一个序列中的四种碱基a, c, g , t的含量。

接着我们用判别分析来进行处理。判别分析是多元统计分析中判别样品所属类型的一种重要方法,是根据多种因素(指标)对事物的影响,进行判别分类的统计方法,又称为鉴别分析。其具体的方法是:已知了研究对象分成若干个类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上总结出分类的规律性或判别信息,再根据某些准则建立判别式,然后对未知类型的样品进行判别分类。此处,我们正好已知了20个样本的类别,而需要对另外的20个样本进行分类,刚好符合判别分析的原理,因此我们采用判别分析来进

行处理。此处,我们用专门的统计软件SAS 来实现判别分析的过程。

二) 具体的程序操作

SAS 的具体操作程序见附录一。 程序运行结果如下:

以上是一些基本情况

上表为各组的基本情况,并列出了各组的先验概率值。因为指定了Prior Probability ,所以各组的先验概率按实际数据中各组比例计算。

上面为各组均值间广义距离平方的公式,即)()()(12j i j i i j X X S X X X D -'-=-(其

中S 为合并协方差阵)。

上面即线性判别函数的公式,给出了到第j类的线性评判别函数的常数项和自变量的系数向量的公式。下面具体给出了各类的线性判别函数的各常数项与系数值:

下面为判别分析对训练数据集(Calibration Data)用线性判别函数进行回判的概况,先给出了广义平方距离函数的公式和每个已知类别的样本属于各类的后验概率的公式,然后

下面是对训练数据集进行交叉核实回判的情况。交叉核实的想法是:为了判断观测样本i 的判别正确与否,用删除第i 个观测样本后的训练数据集算出判别函数,然后用此判别函数来判别第i 观测样本。对每一个观测样本都进行这样的判别。在结果中,先给出了广义平方距离函数和后验概率公式,所以公式中用了j X X )(表示除了 X 所在观测样本后的第j 组的均值,用)(X COV 表示除了 X 所在观测样本后得到的合并协方差阵估计。

以下是用根据训练数据集得出的判别函数对检验数据集(Test Data)进行判别的结果。

三) 主要统计结果分析:

由表Linear Discriminant Function for type可以看出,线性判别函数为:

F1= -2398664+4797930X1+4789763X2+4805558X3+4797035X4;(A类)

F2= -2397786+4797053X1+4788916X2+4804612X3+4796190X4;(B类)

判别函数用于将未知的20种序列分类,即将未知的序列的四个指标值带入两个判别函数,哪一个判别函数的值最大,就估计属于哪一类。

由表Classification Results using Linear Discriminant Function Posterior Probability of Membership in type的结果可以看出对未知的20 种序列的分类如下:

A类:22 23 25 27 28 29 34 35 36 37;

B类:21 24 26 30 31 32 33 38 39 40;

由用线性判别函数进行回判的结果中的 Number of Observations and Percent Classified into type 表可以看出,其中有一种属于A类的序列被错判为B类,因此回代的符合率=19/20=95%,这个比率是比较高的,说明回代的效果比较理想;由交叉核实回判结果中的 Function Posterior Probability of Membership in type 表可以看出:第4序列由A类错判为B类,而第17序列由B类错判为A类,从而总的错判率=2/20=10% ,该错判率总的来看是比较低的,也说明利用此方法判断得出的结果是比较好的。但是我们认为仅仅如此分类是不完善的,因为就分类的标准而言,我们就可以看出仅从“不同的序列中碱基含量不同”这个角度来考虑,以碱基的含量作为判断的唯一标准太过于片面,因此我们有必要寻求更合理的分类方法来完善对于序列的分类以得到更准确的结果。

四模型二的建立和求解

一)碱基的概率统计分析

在模型一中,采用碱基A,C,G,T在DNA序列中的含量作为序列的特征来进行分类,这固然有一定的生物意义,并且也在DNA序列的分类中获得了较满意的结果,但是仅仅使用该特征作为分类的唯一标准并没有充分地体现碱基排列的信息量,仅仅只是考虑了碱基的含量并没有考虑到碱基在序列中的排列情况。例如,序列(AGCT)与序列(GCAT)有着相同的碱基含量,但我们不能就此认为他们是没有区别的。因此,直接从序列本身的碱基排列顺序来考察

序列就成为一种更合适的提取特征的方式。由生物学的知识可知,DNA链上开始密码子的后几十位和终止密码子的前几十位中,每一位出现碱基a ,c ,g ,t的概率呈现明显的特征。因此,我们有必要就a ,c ,g ,t对A,B两类的样本数据求出密码子各位点上的碱基出现的概率分布。对已知的20 种序列各位上的碱基出现频率,再次利用MATLAB的图形函数plot绘图如下(其中,实线表示A类,虚线表示B类):

a

c

g

t

图2 各点碱基出现概率分布

二)构造 A,B 的分类法

(1)构造一维随机徘徊函数

DNA序列是由a,g,c,t这四个字母组成的序列。1992年Peng等的工作已经揭示了DNA序列中存在长程相关性。由图2的分析可知,A,B两类每一位出现a,g,c,t的概率有明显的差异,正因为如此,我们可以再从“不同序列中碱基位置不同”这个角度来考虑。而A,G 同为嘌呤碱基,C,T 同为嘧啶碱基,我们可以利用序列先后出现嘌呤或嘧啶碱基概率的不同将DNA 序列转换表示为一个一维的随机徘徊函数。

方法:从第一个碱基(即第一个字母)算起,若是嘌呤碱基(即A或G)则负走一步,若是嘧啶碱基(即C或T)则正走一步。记n步后的净位移为f n,(n=1,2,3,…,L)L为序列的长度。在长度L的窗口里计算净位移f n。

下图是从前20 个样本数据中抽出序列号为3、7(A类),15、18(B类)的四个样本数据利用MATLAB的图形函数plot 绘图进行的定性的分析。

A 3 A 7

B 15 B 18

图3

由图3可以看出,经过一维随机徘徊函数转换以后,A类与B类存在明显的差异,A类序列呈下降趋势,而B类序列呈上升的趋势,经过定性分析,我们可以利用这L个离散点作出其拟和直线,把直线的斜率K作为衡量A,B两类的标准。

我们记n=0,f0 =0,把(0,0)作为基准点。则:

0, n=0;

f

= f n-1–1,序列的第n位为a或g;

n

f

+1,序列的第n位为 c或t;

n-1

(2)由直线回归结果进行分类

我们在XOY坐标系中以n 值作为x向量坐标,f n 值作为y向量坐标,设直线y i= Kx i+b 为序列号为i 的序列的拟和直线。在此,我们用SAS中的回归分析来拟和直线,进而得到斜率K值。以A类第3序列为例,在SAS 中做回归分析,结果如下:

由以上的结果可知,第3序列的拟和直线为:y = -0.4432x + 2.05825,即斜率K = -0.4432。同理,可求出已知类别的20种序列中其他的序列的拟和直线的斜率以及未知类别的20种序列的拟和直线的斜率。经过运算,各序列拟和直线的斜率如下表所示:(精度:0.00001)

表3

由上表可知,对需要判断的DNA序列样本,我们的步骤是:通过一维随机徘徊函数转换,采用线性回归分析方法计算出拟和直线的斜率K值,然后根据A,B两类的明显的K值特征来进行判断,即K值小于-0.11469的一定属于A类,而K值大于-0.01669的则一定属于B类。因此根据此方法我们可以判断出,分类结果如下:

A类:27 29 34 ; B类:21 24 26 28 30 31 32 33 36 38 39 40 ;

(3)对无法判断的序列进行分类

但是我们可以看到,对K值界于 -0.11469和 -0.01669之间的样本,我们就没有办法判断到底属于哪一类,此处就有22,23,25,35,37五个样本无法判断。于是我们利用系统聚类法将剩余的样本数据聚类成两大类,再利用该两大类的K值来判断A、B类。由于K值是一维随机的,因此可以利用最短距离法将界于 -0.11469和 -0.01669之间的样本聚类成两类。

最短聚类法的聚类步骤如下:

(1)选取聚类统计量。在这里我们选取了绝对距离。

(2)计算每个样本之间的两两距离,并记在分类距离表中,记为D(0),这是第0步的表,每

个样本为一类,D pq表示每两个类之间的距离(p、q为类号)。

(3)选择D(0)中的最短距离,设为D pq,则将p、q两类合并成一个新类,记为r类, r={p、q},

表示由p类和q类所组成。

(4)计算新类D r与其他类之间的距离,定义D rk = min{D pk, D qk}, (1)

(5)作D(1)表,将D(0)中的第p、q行p、q列删去,加上第r行、r列。第r行、r列与其他类的

距离按(1)式判断后记上,这样得到一个经过一次聚类后的新的分类距离对称表。需要注意的是D r类是由哪两类聚类得到的,应该在D(1)表下给予说明。

(6)对D(1)按(3)、(4)、(5)步重复类似D(0)的聚类工作,可以得到D(2),这是经过二步聚类

得到的一个新的分类距离对称表。

(7)重复以上的步骤,直到最后只剩下两类为止

这样我们就可以对剩下的三类按最短距离法判别是属于A类还是属于B类。此处,我们判别的结果是:23,25,35,37属于A类,22属于B类。

三)进一步的改善法

上面我们是利用一维随机徘徊函数来计算K值,只是从按嘌呤和嘧啶碱基分类这一个角度来考虑的,很显然这是不全面的。因此,为了更好的对序列进行分类,我们应该从更多的方面来充分的考虑。实际上,从纯化学的角度,我们就可以从两个角度来对碱基进行两类的划分:(1)如上的分类,按双环或单环结构,可分为:嘌呤碱基(A或G)与嘧啶碱基(C 或T);(2)按环中对应位置上是否存在氨基或酮基。可分为:氨基碱基(A或C)与酮基碱基(G或T):然后,从生物学的角度,在双螺旋结构中,按碱基对形成氢键的数目或强弱,碱基又可分为:强氢键碱基(G或C)与弱氢键碱基(A或T)。这样,我们就把化学和生物的信息都考虑进去了,对第二种和第三种分类方法如第一种分类方法一样,分别构造一个随机徘徊函数进行分析,我们发现,在每一种分类方法中,都存在一种线性关系,因此,我们考虑,对每一个序列分别按三种方法构造一维随机徘徊函数,从而得到三条拟和直线,以这三条直线的斜率K1,K2,K3作为三个指标再进行多元判别分析,以此得到未知序列的分类。(具体的程序过程见附录二。)

(1)程序运行结果:

注:程序运行结果中各表格所代表的具体含义在模型一中已有较详细的说明,此处就不再重复解释了。只将其列出如下:

Pooled Covariance Matrix Information Natural Log of the Covariance Determinant of the Matrix Rank Covariance Matrix

3 -11.10919

(2)主要结果分析:

由Linear Discriminant Function for type 表可以知道,判别函数如下:

F1= -3.80071 –20.00952K1+14.39466K2 – 2.86845K3;(A类)

F2= -5.01463 + 5.79269K1 + 2.66024K2 + 13.58387K3;(B类)

判别函数用于将未知的20种序列分类,即将未知的序列的三个K值分别带入两个判别函数,哪一个判别函数的值最大,就估计其属于哪一类。

由表 Classification Results using Linear Discriminant Function Posterior Probability of Membership in type的结果可以看出对未知的20 种序列的分类如下:

A类:22 23 25 27 29 34 35 36 37;

B类:21 24 26 28 30 31 32 33 38 39 40;

在SAS软件中,用判别分析进行数据处理时,一般只要正确率达到 85% 以上就说明判别的效果很好了。在此模型中,与模型一相同,正确率都已经在 85% 以上,达到了95%,由此可知判别效果已经很好了。而由交叉核实回判结果中的Posterior Probability of Membership in type表可以看出与模型一相比较,误判率又有了下降,而且由对未知类别的序列用线性判别函数进行分类的表 Posterior Probability of Membership in type 中也可以看出对于各种序列的判别分类,其后验概率也比模型一要好,这些都说明了分类的效果有了明显的提高。

四)对182个序列的分类结果

由上可知,用以上的方法对DNA序列进行分类,效果比较理想,于是我们以此作为判断分类的方法,对给出的另外182个序列进行分类,(具体程序见附录三),结果如下:

表4

五模型的优缺点

模型一简单明了,能把多维问题转化为一维问题,降低了问题的复杂度,并且用SAS的判别分析来进行处理,其实就是用各类指标的线性组合来区分A、B两类,这抓住了主要指标,但并没有忽略次要指标,实际上就是给各类指标加了合适的权,而且操作起来简单方便。模型一的主要缺点是对于分类标准相同的序列则不能很好的判断,而且考虑的分类标准不太完善,需要进一步分析与判断。

模型二采用一维随机徘徊函数对序列进行分析,进一步从序列碱基的排列顺序方面来考虑,并从多角度着手,分类的标准得到完善,因而分类的正确率明显提高。

参考文献

[1] 张新生. 生命信息遗传中的若干数学问题. 中国科学出版社,北京,2000

[2] 卢欣、李衍达. 细菌DNA序列中的长程相关性. 清华大学出版社,北京,1999

[3] 龚剑朱亮. MATLAB5.x入门与提高. 清华大学出版社,北京,2000

[4] 于秀林、任雪松多元统计分析. 中国统计出版社,北京,1999

[5] 洪楠、侯军 SAS for Windows统计分析教程. 电子工业出版社,北京,2001

[6] 李东风. 统计软件教程. 北京大学数学科学学院,北京,2002

附录一:

data DNA1;

input No x1 x2 x3 x4 type;

label x1='a的含量'

x2='c的含量'

x3='g的含量'

x4='t的含量';

cards;

1 0.297 0.171 0.396 0.135 1

核酸和蛋白质序列分析

核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG 岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站 (https://www.wendangku.net/doc/ea2349114.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件 (http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST

基因序列分析word版

南开大学数学院“学而思”杯数学建模比赛 编号专用页 赛区评阅编号(由赛区组委会评阅前进行编号): 全国统一编号(由赛区组委会送交全国前编号): 全国评阅编号(由全国组委会评阅前进行编号):

A 题:基因序列分析 摘要 本文通过对比HIV病毒基因序列,找出不同阶段的DNA基因序列的异同,进而分析基因位点的相关性,从而对比找出HIV病毒基因序列中较为重要的位点,为HIV病毒研究提供更多的研究方法与思路。 针对问题一:我们利用点矩阵分析及统计各碱基含量的百分比的方法,对比两文件中具有相同序列名的基因序列及具有不同序列名的基因序列,找出两者的异同,得出结论。两者的相似性表现在:同名序列具有子序列关系,不同名序列具有相当的相似性,各种碱基的含量具有稳定性。两者的不同点表现在:基因规模有很大差异,不同名序列出现了具有突变特点的基因序列差异。 针对问题二:我们首先利用DNAwalk法对HIV病毒基因序列位点进行分析,在分析的过程中发现由于基因和基因组序列中存在着高度的不均一性,即不同位置的碱基密度存在着很大的差异,因而DNAwalk法不太适合基因序列的分析,转而使用DFA模型对HIV 基因的相关性进行分析和度量,得出了与DNAwalk模型相同的结论。 针对问题三:在前两问的分析基础上,结合前两问的分析结果及HIV病毒高度变异性的特点,我们得出重要的基因位点应满足下列条件:1、该基因位点位于Ⅱ基因序列,2、该基因位点所在序列的序列名应不同于Ⅰ中的序列名,3、该基因位点在问题二的分析中具有较高的相关性。 关键字:矩阵分析 DNAwalk DFA模型

问题重述 人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV),简称艾滋病病毒,会造成人类免疫系统的缺陷, 导致艾滋病(AIDS). HIV基因组翻译成蛋白的过程相对复杂, 它会重复交叉使用某些基因片段。病毒序列在进化和传播的过程中主要是envelope 基因变化很快。详细描述可见HIV的生活史。由于现有的抗艾滋病病毒药对HIV无法根治,因此就将“责任”归咎高变异性. 目前, 很多的HIV序列已经被测定出来, 附件给出了一些HIV的序列. 我们试图通过对HIV序列的分析来断定这些序列上哪些位置比较重要, 从而给艾滋病的研究一些帮助. 例如, 某些位置上的突变可能会影响到HIV的传播机制, 如果我们瞄准这些位置设计药物, 可能会对艾滋病的传播起到抑制作用. HIV基因组序列大约长10k,HIV1_GENOME_DNA.fasta包含了1400余条基因组的序列,因为在序列突变的过程中,有一些核酸会消失,这些消失的核酸在文件中使用”-“来表示。表示此处发生了一次删除突变。也就是说, 文件中所有序列都是”对齐”的. 这样, 我们可以知道这些序列中某一个特定位点上核酸的分布情况. 另外,HIV基因组中包含了若干个编码蛋白质的基因,编码后的蛋白质可以行使病毒传播,致病等功能。HIV1_ENV_DNA.fasta是其中一个编码蛋白质基因的序列,HIV1_ENV_PRO.fasta是编码后的蛋白序列。它们同样是已经比对好的。基于以上说明,我们来分析如下问题: (1)对于HIV1_ENV和HIV_GENOME的DNA序列,构造数学方法对序列的位点进行分析, 指出这两者之间的异同。 (2)HIV序列位点之间或者某些位点之间是否存在相关性?如果存在,那么如何去度 量这种相关性? (3)对这些序列进行进一步的分析,找到你认为的HIV中较为重要的位点,并说明这 些位点为什么重要。 知识背景 本文通过对HIV病毒的基因信息进行分析,从而得出HIV病毒基因中比较重要的位点,由于本问题专业性较强,所以我们将先对其中相关知识做出阐述: 1、名词解释: 基因组:Genome,生物所携带的遗传信息的总和,即单倍体细胞中包括编码序列和非编码序列在内的全部DNA分子。 基因位点:基因在染色体上占有的特定位置。 染色体:由脱氧核糖核苷酸、蛋白质和少量核糖核酸组成的线状或棒状物,是生物主要遗传物质的载体。因是细胞中可被碱性染料着色的物质而得名。 核糖体:结合着辅助蛋白质因子的多个核糖体RNA(rRNA)亚基组成的细胞器。 碱基:指嘌呤和嘧啶的衍生物,是核酸、核苷、核苷酸的成分。 2、一般细胞遗传信息传递相关原理 DNA转录成RNA,RNA再被翻译成蛋白质执行相应的功能。DNA碱基的序列决定了蛋白质的结构,但DNA并非直接翻译成蛋白质,基因组DNA先通过转录生成信使RNA(mRNA),单链的mRNA随后将离开细胞核,指导蛋白质的合成。这一过程称为翻译,由核糖体负责完成。构成蛋白质的20种氨基酸通过转运RNA(tRNA)的作用到达核糖体,在核糖体的作用下,mRNA分子的核苷酸序列被翻译成相应的氨基酸,形成肽键。

基因序列分析的步骤和方法

基因序列分析的步骤和方法 拖鞋兰,大陆也有叫“鞋兰”的,指的是兰科植物中,它的下花瓣变形成奇特袋状花器一族的总称,中文名称的由来是源自于英文对这一族群的俗称”Lady Slipper Orchids”,当年订定这一花种中文名字的植物学者就将其直译为「拖鞋兰」,说真格的,这名称有点失之粗鄙,实在很难从字义上去意会这一群具观赏价值,又饶富趣味的兰属是甚么样子;做为商品的推广,近年来有不少有心人呼吁为其另立新词,吾人宁愿称其为「仙履兰」,即表达其传奇、趣味,又隐含高贵气质之意,同时也符合其中一属的学名。属于兰科,杓兰亚科,有四种遗产基因:凤仙花、Phragmipedium、Selenipedium和Mexipedium Google图片搜索:Google Image Search 为了访问在美国欧洲的基因数据库肯能要使用twisted,是python2.7的标准库。- 序列分析的步骤: 首先查看科学论文数据库例如,PubMed 从基因数据库例如GenBank中下载序列文件 https://www.wendangku.net/doc/ea2349114.html,/DIST/docs/tutorial/examples/ls_orchid.fasta https://www.wendangku.net/doc/ea2349114.html,/DIST/docs/tutorial/examples/ls_orchid.gbk 把序列信息转换成python可用的数据结构; 分析阶段:翻译、转录、权计算、k最近邻居、朴素贝叶斯算法等等 >>> from Bio import SeqIO >>> for seq_record in SeqIO.parse("ls_orchid.fasta", "fasta"): ... print seq_record.id ... print repr(seq_record.seq) ... print len(seq_record) ...... Found 94 records The last record Z78439.1 Seq('CATTGTTGAGATCACATAATAATTGATCGAGTTAATCTGGAGGATC

基因序列分析软件DNAStar简介

生物信息 基因序列分析软件DNAStar简介 郑伟文,林营志,刘波,曹宜,苏明星,朱育菁,蓝江林,车建美,郑斯平,陈坚 (福建省农科院生物技术中心) 1.设计公司 Sequence Analysis Software for Macintosh and Windows,GETTING STARTED,Introductory Tour of the LASERGENE System,MAY 2001,L A S E R G E N E f o r W i n d o w s & M a c i n t o s h,DNASTAR, Inc.,1228 South Park Street,Madison, Wisconsin 53715,(608) 258-7420,Copyright . 2001 by DNASTAR, Inc.,All rights reserved. Reproduction, adaptation, or translation without prior written permission is,prohibited,except as allowed under the copyright laws or with the permission of DNASTAR, Inc.,Sixth Edition, May 2001,Printed in Madison, Wisconsin, USA,Trademark Information。 2.应用程序 在安装Lasergene网络系统之前要熟悉以下术语:应用程序:指EditSeq, GeneMan, GeneQuest, MapDraw,MegAlign, PrimerSelect, Protean, and SeqMan II。应用程序服务器:是指存储应用程序的电脑,通常与dongle 服务,器是同一个服务器,但也可以不同,当在局部硬盘上安装网络程序,时,也可以在同一个网络系统中同时存在多个不同的应用程序服务,器,而且应用程序服务器不一定是苹果机,储存应用程序的机器也不一定必须能够运行该程序,仅仅是储存而已。 3.安装方式 3.1通过英特网升级 如果您以前已经安装了Lasergene 而且目前有升级和服务联系,您就可以通过英特网来升级您现有的版本,各种模块(module)都是以自解压形式存储的,你可以选择性的下载安装。 必备条件您的用户名和会员号是必需的,可以在安装盘上找到。 3.2程序升级 备份您已有的Lasergene,找到您要升级的执行程序,并把它转移到备份的文件夹中。连接到DNAstar 网站的主页(https://www.wendangku.net/doc/ea2349114.html,),从菜单中的Customers中点击Lasergene Updates点,安提示输入密码和用户名(与会员名相同),这样就会打开下载页面。找到windows软件(Windows 95/98/NT Software.),就可以下载您想要的模块了。模块下载完毕以后,双击文件将其解压缩完毕。 看到“Application name”has been updated.说明升级完毕。 3.3软件安装 从CD在PC机(Windows)上安装Lasergene。注意安装是尽量关闭所有其它程序以保证安装顺利进行。必备条件,一张个人的Lasergene安装盘;一张Lasergene软件光碟;足够的硬盘空间和内存:至少30Mb的硬盘,32Mb的RAM。从光盘安装Lasergene,插入安装盘和安装光盘,双击安装图标,则出现下面的窗口,点击继续,则出现安装窗口。随后一次出现下面窗口,请按照提示做出选择然后点击Next,直至完成安装(图1)。

Gene 序列分析

Gene 序列分析 原文https://www.wendangku.net/doc/ea2349114.html,/vionit/blog/item/98edb0dc706167a2cc116651.html 核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.wendangku.net/doc/ea2349114.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.wendangku.net/doc/ea2349114.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.wendangku.net/doc/ea2349114.html,/fasta33/)和BLAST(https://www.wendangku.net/doc/ea2349114.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。 BLAST根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN 在搜索相似序列进行新基因预测时特别有用。 使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。 (2)Needle和Pairwise BLAST:其中Needle适用于蛋白质和DNA序列,而Pairwise BLAST仅适用于DNA序列(3)相似性和同源性:必须指出,相似性(similarity)和同源性( homology)是两个完全不同的概念。同源序列是指从某一共同祖先经过趋异进化而形成的不同序列。相似性是指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的

DNAMAN 是一种常用的核酸序列分析软件

DNAMAN 是一种常用的核酸序列分析软件。由于它功能强大,使用方便,已成为一种普遍使用的DNA 序列分析工具。本文以DNAMAN 5.2.9 Demo version 为例,简单介绍其使用方法。打开DNAMAN,可以看到如下界面: 第一栏为主菜单栏。除了帮助菜单外,有十个常用主菜单,第二栏为工具栏: 第三栏为浏览器栏: 在浏览器栏下方的工作区左侧,可见Channel 工具条,DNAMAN 提供20 个Channel,(如左所示:)点击Channel 工具条上相应的数字,即可击活相应的Channel。每个Channel 可以装入一个序列。将要分析的序列(DNA 序列或氨基酸序列)放入Channel 中可以节约存取序列时间,加快分析速度。此版本DNAMAN 提供自动载入功能,用户只需激活某个Channel,然后打开一个序列文件,则打开的序列自动载入被激活的Channel 中。 本文以具体使用DNAMAN 的过程为例来说明如何使用DNAMAN 分析序列。 1.将待分析序列装入Channel (1)通过File Open 命令打开待分析序列文件,则打开的序列自动装入默认Channel。(初始为channel1)可以通过激活不同的channel (例如:channel5)来改变序列装入的Channel。(2)通过Sequence/Load Sequence 菜单的子菜单打开文件或将选定的部分序列装入Channel 。通过Sequence/Current Sequence/Analysis Defination 命令打开一个对话框,通过此对话框可以设定序列的性质(DNA 或蛋白质),名称,要分析的片段等参数。 2.以不同形式显示序列 通过Sequence//Display Sequence 命令打开对话框,如下图所示:根据不同的需要,可以选择显示不同的序列转换形式。对话框选项说明如下:Sequence &Composition 显示序列和成分 Reverse Complement Sequence 显示待分析序列的反向互补序列 Reverse Sequence 显示待分析序列的反向序列 Complement Sequence 显示待分析序列的互补序列 Double Stranded Sequence 显示待分析序列的双链序列 RNA Sequence 显示待分析序列的对应RNA 序列 3.DNA 序列的限制性酶切位点分析 将待分析的序列装入Channel,点击要分析的Channel,然后通过Restriction/Analysis 命令打开对 话框,如下所示: 参数说明如下: Results 分析结果显示 其中包括: Show summary(显示概要) Show sites on sequence(在结果中显示酶切位点) Draw restriction map(显示限制性酶切图)Draw restriction pattern(显示限制性酶切模式图) Ignore enzymes with more than(忽略大于某设定值的酶切位点) Ignore enzymes with less than(忽略小于某设定值的酶切位点) Target DNA (目标DNA 特性) circular(环型DNA),dam/dcm methylation(dam/dcm 甲基化) all DNA in Sequence Channel(选择此项,在Sequence Channel 中的所有序列将被分析,如果 选择了Draw restriction pattern,那么当所有的channel 中共有两条DNA 时,则只能选择两个酶

DNA序列分析技术

DNA 序列分析技术 物种的遗传多样性在本质上是DNA 一级序列的多样性。近年来,随着DNA 测序技术的迅速发展和日益普及,DNA 测序在遗传多样性的研究中正在起着越来越大的作用。本章将介绍目前在遗传多样性研究中常用的一种手动和一种全自动双链DNA 测序方法。 1 DNA 模板的制备 在遗传多样性的研究中,由于样本量一般都较庞大,因而DNA 测序的速度就成了很关键的因素。因此,这类研究中常常直接测定纯化的PCR 双链产物而不大采用克隆技术。本节介绍本实验室常用的从PCR 产物制备测序模板的方法,即低熔点胶回收法。 (1)制备1.5%~2.0%的琼脂糖凝胶,待其充分凝固后,在离点样线5cm 左右处切下宽约1cm 的胶条,在切出的槽中倒入预先煮沸的低熔点琼脂糖胶。 (2)低熔点胶凝固后,将待纯化的PCR 反应液全部点样,恒压100V 左右进行电泳,直至扩增片段进入到低熔点胶中部。在360nm 紫外光下,将已进入低熔点胶的条带切下,放入1.5ml离心管中。 (3)离心,将胶块压缩到管底,然后补加TE 至500μl。于68℃水浴,将低熔点胶熔化,再迅速加入等体积的水饱和酚并混匀。 (4)室温下振荡抽提10 分钟,再12 000r/min 离心10 分钟。取上清液再用氯仿-异戊醇(24:1)抽提5 分钟。 (5)12 000r/min 离心10 分钟,取上清液,在其中加入1/10 体积的10 mol/ dm3NH4Ac和2 倍体积的无水乙醇,置—70℃下沉淀半小时以上。 (6)再12 000r/min 离心10 分钟,沉淀用70%的冷乙醇洗涤;再次短暂离心后小心地倒去乙醇液。沉淀干燥后,加入20~50μlTE 缓冲液或无菌去离子水中溶解,即为制好的DNA模板。 目前还有一些非常有效的商售试剂盒可用于纯化PCR 产物,如Oiagen PCR 产物纯化试剂盒等,但成本较高。 2 手动DNA 序列分析技术 2.1 测序胶的制备 按以下配方制备测序电泳胶: 6%胶工作液70ml

基因序列分析

基因序列分析 核酸和蛋白质序列分析 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.wendangku.net/doc/ea2349114.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment)双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.wendangku.net/doc/ea2349114.html,/BLAST/)。 以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.wendangku.net/doc/ea2349114.html,/fasta33/)和BLAST(https://www.wendangku.net/doc/ea2349114.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法,选择计分矩阵对序列计分,通过分值的大小和统计学显著性分析确定有意义的局部比对。使用FASTA 和BLAST,进行数据库搜索,找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST 根据搜索序列和数据库的不同类型分为5种(表2),另外PSI-BLAST通过迭代搜索,可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用,TBLASTN在搜索相似序列进行新基因预测时特别有用。使用BLAST时,先选择需要使用的BLAST程序,然后提供相应的查询序列,选择所比对的数据库即可。

核酸序列分析总结

核酸序列分析 1、核酸序列检索 可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。 2、核酸序列的基本分析 (1)分子质量、碱基组成、碱基分布 分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如: BioEdit(https://www.wendangku.net/doc/ea2349114.html,/BioEdit/bioedit.html), DNAMAN(https://www.wendangku.net/doc/ea2349114.html,)。 (2)序列变换 进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。 (3)限制性酶切分析 该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(https://www.wendangku.net/doc/ea2349114.html,,https://www.wendangku.net/doc/ea2349114.html,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有: WebGene:https://www.wendangku.net/doc/ea2349114.html,/~tjyin/WebGene/RE.html, https://www.wendangku.net/doc/ea2349114.html,/personal/tyin.html WebCutter2:http://www/https://www.wendangku.net/doc/ea2349114.html,/firstmarkert/firstmarket/cutter/cut2.html 同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。 在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。 (4)克隆测序分析 得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。 a. 测序峰图的查看 最简单的程序是澳大利亚的Conor McCarthy(https://www.wendangku.net/doc/ea2349114.html,.au./~conor/)开发的Chromas.exe 程序,但该程序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMAN也具有此功能。 b. 载体序列的去除 许多数据库中收集了常用的测序载体序列,如: vector-ig: ftp://https://www.wendangku.net/doc/ea2349114.html,/repository/vector-ig ftp://https://www.wendangku.net/doc/ea2349114.html,/repository/vector UniVec数据库: https://www.wendangku.net/doc/ea2349114.html,/VecScreen/VecScreen.html https://www.wendangku.net/doc/ea2349114.html,/blast/db/vector.Z VectorDB: https://www.wendangku.net/doc/ea2349114.html,/vectordb/ 如果用户面对的是大批量序列的分析任务,则需要将这些载体数据库下载后进行分析。使用Blast程序

相关文档