biocLite("edgeR")数据导入?由于edgeR对测序结果的下游分析是" />
文档库 最新最全的文档下载
当前位置:文档库 › edgeR-DESeq2分析RNA-seq差异表达

edgeR-DESeq2分析RNA-seq差异表达

edgeR-DESeq2分析RNA-seq差异表达
edgeR-DESeq2分析RNA-seq差异表达

edgeR 包的安装

?edgeR 包是基于Bioconductor平台发布的,所以安装不能直接用install.packages()命令从 CRAN 上来下载

?安装:

# try http:// if https:// URLs are not supported

>source("https://https://www.wendangku.net/doc/8511614491.html,/biocLite.R")

>biocLite("edgeR")

数据导入

?由于 edgeR 对测序结果的下游分析是依赖 count 计数来进行基因差异表达分析的,在这里使用的是featureCounts来进行统计`.bam`

文件中 Map 的结果

?count 结果如下:

>library(edgeR)

>mydata<-read.table("counts.txt",header=TRUE,quote='\t',skip=1)

>sampleNames<-c("CA_1","CA_2","CA_3","CC_1","CC_2","CC_3")

>names(mydata)[7:12]<-sampleNames

>head(mydata)

GeneidChrStartEndStrandLengthCA_1CA_2CA_3CC_1CC_2CC_3

1gene1314NW_139421.112571745+489000000

2gene1315NW_139421.121153452+1338000000

3gene1316NW_139421.138564680+825000000

4gene1317NW_139421.148665435-570000000

5gene1318NW_139421.160666836-771000000

6gene1319NW_139421.172949483+2190000000

?在这里我们只是需要 Geneid 和后 6 列的样本的 count 信息来组成矩阵,所以要处理下

>countMatrix<-as.matrix(mydata[7:12])

>rownames(countMatrix)<-mydata$Geneid

>head(countMatrix)

CA_1CA_2CA_3CC_1CC_2CC_3

gene1314000000

gene1315000000

gene1316000000

gene1317000000

gene1318000000

gene1319000000

*要导入的矩阵由3v3样本组成(三组生物学重复) 创建 DEGlist

>group<-factor(c("CA","CA","CA","CC","CC","CC")) >y<-DGEList(counts=countMatrix,group=group)

>y

Anobjectofclass"DGEList"

$counts

CA_1CA_2CA_3CC_1CC_2CC_3

gene1314000000

gene1315000000

gene1316000000

gene1317000000

gene1318000000

14212morerows...

$samples

grouplib.sizenorm.factors

CA_1CA_117885371

CA_2CA_218255461

CA_3CA_319030171

CC_1CC_118260421

CC_2CC_221244681

CC_3CC_320250631

过滤

?过滤掉那些 count 结果都为0的数据,这些没有表达的基因对结果的分析没有用,过滤又两点好处:

1 可以减少内存的压力

2 可以减少计算的压力

>keep<-rowSums(cpm(y)>1)>=2

>y<-y[keep,,keep.lib.sizes=FALSE]

>y

Anobjectofclass"DGEList"

$counts

CA_1CA_2CA_3CC_1CC_2CC_3

gene1321161138129218194220

gene1322231133

gene1323202733475146

gene132460877986100132

gene1325322921587556

3877morerows...

$samples

grouplib.sizenorm.factors

CA_1CA_117883621

CA_2CA_218253081

CA_3CA_319027961

CC_1CC_118258891

CC_2CC_221241551

CC_3CC_320247861

标准化处理

?edgeR采用的是 TMM 方法进行标准化处理,只有标准化处理后的数据才又可比性

>y<-calcNormFactors(y)

>y

Anobjectofclass"DGEList"

$counts

CA_1CA_2CA_3CC_1CC_2CC_3

gene1321161138129218194220

gene1322231133

gene1323202733475146

gene132460877986100132

gene1325322921587556

3877morerows...

$samples

grouplib.sizenorm.factors

CA_1CA_117883620.9553769

CA_2CA_218253080.9052539

CA_3CA_319027960.9686232

CC_1CC_118258890.9923455

CC_2CC_221241551.1275178

CC_3CC_320247861.0668754

设计矩阵

为什么要一个设计矩阵呢,道理很简单,有了一个设计矩阵才能够更好的分组分析

>subGroup<-factor(substring(colnames(countMatrix),4,4))

>design<-model.matrix(~subGroup+group)

>rownames(design)<-colnames(y)

>design

(Intercept)subGroup2subGroup3groupCC

CA_11000

CA_21100

CA_31010

CC_11001

CC_21101

CC_31011

attr(,"assign")

[1]0112

attr(,"contrasts")

attr(,"contrasts")$subGroup

[1]"contr.treatment"

attr(,"contrasts")$group

[1]"contr.treatment"

评估离散度

>y<-estimateDisp(y,design,robust=TRUE)

>y$common.dispersion

[1]0.02683622

#plot

>plotBCV(y)

差异表达基因

>fit<-glmQLFit(y,design,robust=TRUE)

>qlf<-glmQLFTest(fit)

>topTags(qlf)

Coefficient:groupCC

logFClogCPM F PValueFDR

gene7024-5.5156489.612809594.92326.431484e-442.496702e-40 gene66125.1302828.451143468.20601.557517e-393.023140e-36

gene27434.3774925.586773208.02683.488383e-264.513967e-23

gene120324.7343835.098148192.93784.359649e-254.231040e-22

gene491-2.73391010.412673190.98396.104188e-254.739291e-22

gene89412.9971856.839106177.76146.332836e-244.097345e-21

gene2611-2.8469247.216173174.73321.099339e-236.096619e-21

gene62422.5291259.897771169.26583.022914e-231.466869e-20

gene72523.7323156.137670188.20943.890569e-231.678132e-20

gene61252.8754236.569935160.31891.656083e-226.428914e-20

查看差异表达基因原始的 CMP

>top<-rownames(topTags(qlf))

>cpm(y)[top,]

CA_1CA_2CA_3CC_1CC_2CC_3

gene70241711.3830021405.8618991480.12111533.1141837.1604029.62696 gene661217.55864912.10384826.585753403.99298582.457961044.35046 gene27434.6823061.8155775.96823062.9169487.26431114.34156

gene120321.7558652.4207702.71283265.6764647.5987275.45617

gene4912811.1397272059.4696692222.351938444.83381385.38258253.68087 gene894123.99682024.81288824.415488131.35291244.67410225.90560

gene2611245.821088310.463691225.16505243.0484326.3045539.81123

gene6242231.188880299.570228298.4115151348.298991343.619882191.93237 gene72529.36461313.3142325.42566492.71970108.55847181.92807

gene612523.41153214.52461729.841152145.70239160.75005185.16852

查看上调和下调基因的数目

>summary(dt<-decideTestsDGE(qlf))

[,1]

-1536

02793

1553

挑选出差异表达基因的名字

>isDE<-as.logical(dt)

>DEnames<-rownames(y)[isDE]

>head(DEnames)

[1]"gene1325""gene1326""gene1327""gene1331""gene1340""gene1343"差异表达基因画图

>plotSmear(qlf,de.tags=DEnames)

>abline(h=c(-1,1),col="blue")

DESeq2 包的安装

安装:

## try http:// if https:// URLs are not supported

>source("https://https://www.wendangku.net/doc/8511614491.html,/biocLite.R")

>biocLite("DESeq2")

数据导入

?导入count 矩阵,导入数据的方式很多这里直接导入 count 矩阵

?count 结果如下:

library(DESeq2)

sampleNames<-c("CA_1","CA_2","CA_3","CC_1","CC_2","CC_3")

mydata<-read.table("counts.txt",header=TRUE,quote='\t',skip=1)

names(mydata)[7:12]<-sampleNames

countMatrix<-as.matrix(mydata[7:12])

rownames(countMatrix)<-mydata$Geneid

table2<-data.frame(name=c("CA_1","CA_2","CA_3","CC_1","CC_2","CC_3"),condit ion=("CA","CA","CA","CC","CC","CC"))

rownames(table2)<-sampleNames

head(countMatrix)

CA_1CA_2CA_3CC_1CC_2CC_3

gene1314000000

gene1315000000

gene1316000000

gene1317000000

gene1318000000

gene1319000000

?把 count 矩阵转化为 DESeq2 的数据格式

>dds<-DESeqDataSetFromMatrix(countMatrix,colData=table2,design=~condition)

>dds

class:DESeqDataSet

dim:142176

metadata(0):

assays(1):counts

rownames(14217):gene1314gene1315...gene6710gene6709 rowRangesmetadatacolumn names(0):

colnames(6):CA_1CA_https://www.wendangku.net/doc/8511614491.html,_2CC_3

colData names(2):namecondition

过滤

过滤掉那些 count 结果都为 0 的数据,这些没有表达的基因对结果的分析没有用

dds<-dds[rowSums(counts(dds))>1,]

dds

class:DESeqDataSet

dim:41906

metadata(0):

assays(1):counts

rownames(4190):gene1321gene1322...gene6712gene6710 rowRangesmetadatacolumn names(0):

colnames(6):CA_1CA_https://www.wendangku.net/doc/8511614491.html,_2CC_3

colData names(2):namecondition

PCA分析

rld<-rlog(dds)

plotPCA(rld,intgroup=c("name","condition"))

?当然也可以使用 ggplot2 来画PCA 图

library(ggplot2)

rld <- rlog(dds)

data <- plotPCA(rld, intgroup=c("condition", "name"), returnData=TRUE) percentVar <- round(100 * attr(data, "percentVar"))

p<- ggplot(data, aes(PC1, PC2, color=condition, shape=name)) +

geom_point(size=3) +

xlab(paste0("PC1: ",percentVar[1],"% variance")) +

ylab(paste0("PC2: ",percentVar[2],"% variance"))

p

?注意在进行 PCA 分析前不要library(DESeq)否则无法进行 PCA 分析

差异表达基因分析

分析结果输出

library(DESeq)

dds<-DESeq(dds)

res<-results(dds)

write.table(res,"result.csv",sep=",",https://www.wendangku.net/doc/8511614491.html,s=TRUE)

head(res)

log2foldchange(MAP):conditionCCvsCA

Waldtestp-value:conditionCCvsCA

DataFramewith6rowsand6columns

baseMeanlog2FoldChangelfcSEstatpvalue

gene1321173.2886810.262679590.20499831.28137422.000623e-01

gene13222.118367-0.052379520.4989589-0.10497769.163936e-01

gene132335.9737010.500545800.30380961.64756419.944215e-02

gene132488.4216610.176776050.24027270.73573094.618945e-01

gene132543.0018280.811431040.29193962.77944865.445127e-03

gene1326662.136259-1.053561050.1752230-6.01268801.824720e-09

padj

gene13213.790396e-01

gene13229.559679e-01

gene13232.337858e-01

gene13246.565731e-01

gene13252.447141e-02

gene13264.520861e-08

?注: (1)rownames: 基因 ID (2)baseMean:所有样本矫正后的平均 reads 数 (3)log2FoldChange:取 log2 后的表达量差异 (4)pvalue:统计学差

异显著性检验指标 (5)padj:校正后的 pvalue, padj 越小,表示基因表

达差异越显著

?summary查看整体分析结果

summary(res)

out of 4190 with nonzero total read count

adjusted p-value < 0.1

LFC > 0 (up) : 595, 14%

LFC < 0 (down) : 644, 15%

outliers [1] : 0, 0%

low counts [2] : 325, 7.8%

(mean count < 1)

[1] see 'cooksCutoff' argument of ?results

[2] see 'independentFiltering' argument of ?results

MA 图

library(geneplotter)

plotMA(res,main="DESeq2",ylim=c(-2,2))

Heatmap 图

sum(res$padj<0.1,na.rm=TRUE)

library("pheatmap")

select<-order(rowMeans(counts(dds,normalized=TRUE)),decreasing=TRUE)[1:1000 ]

nt<-normTransform(dds)# defaults to log2(x+1)

log2.norm.counts<-assay(nt)[select,]

df<-as.data.frame(colData(dds)[,c("name","condition")])

pdf('heatmap1000.pdf',width=6,height=7)

pheatmap(log2.norm.counts,cluster_rows=TRUE,show_rownames=FALSE,

cluster_cols=TRUE,annotation_col=df)

dev.off()

基因表达的分析技术

第二篇细胞的遗传物质 第三章基因表达的分析技术 生物性状的表现均是通过基因表达调控实现的。对基因结构与基因表达调控进行研究,是揭示生命本质的必经之路。在基因组研究的过程中,逐步建立起一系列行之有效的技术。针对不同的研究内容,可建立不同的研究路线。 第一节PCR技术 聚合酶链反应(polymerase chain reaction,PCR)技术是一种体外核酸扩增技术,具有特异、敏感、产率高、快速、简便等突出优点。。PCR技术日斟完善,成为分子生物学和分子遗传学研究的最重要的技术。应用PCR技术可以使特定的基因或DNA片段在很短的时间内体外扩增数十万至百万倍。扩增的片段可以直接通过电泳观察,并作进一步的分析。 一、实验原理 PCR是根据DNA变性复性的原理,通过特异性引物,完成特异片段扩增。第一,按照欲检测的DNA的5'和3'端的碱基顺序各合成一段长约18~24个碱基的寡核苷酸序列作为引物(primer)。引物设计需要根据以下原则:①引物的长度保持在18~24bp之间,引物过短将影响产物的特异性,而引物过长将影响产物的合成效率;②GC含量应保持在45~60%之间;③5'和3'端的引物间不能形成互补。第二,将待检测的DNA变性后,加入四种单核苷酸(dNTP)、引物和耐热DNA聚合酶以及缓冲液。通过95℃变性,在进入较低的温度使引物与待扩增的DNA链复性结合,然后在聚合酶的作用下,体系中的脱氧核苷酸与模板DNA链互补配对,不断延伸合成新互补链,最终使一条DNA双链合成为两条双链。通过变性(92~95℃)→复性(40~60℃)→引物延伸(65~72℃)的顺序循环20至40个周期,就可以得到大量的DNA片段。理论上循环20周期可使DNA扩增100余万倍。

基因差异表达的研究方法

基因差异表达的研究方法 摘要寻找差异表达基因成为目前基因研究的一个非常重要的手段。寻找差异表达基因的方法有消减杂交法、mRNA 差异显示、代表性差异分析法、基因表达的序列分析、抑制消减杂交、表达序列标签、cDNA微阵列、半定量PCR、定量PCR。特综述以上各种方法的原理、方法过程、优缺点及其应用,随着科学技术的发展对差异表达基因的研究会更加完善。 关键词基因;差异表达;消减杂交;差异显示;研究方法 在真核生物的生命现象中,从个体的发育、生长、衰老、死亡,到组织、细胞的分化、凋亡或肿瘤的恶化以及细胞对各种生物、理化因子的应答,本质上都涉及基因在时间上或空间上的选择性表达,即基因的差异表达。基因的差异表达与组织、细胞的生物学性状和功能密切相关,成为生命科学的重要研究课题(潘美辉等,1997)。比较不同细胞或不同基因型在基因表达上的差异,不仅是研究生命过程分子机制的基础,亦是分离克隆目的基因的前提(胡昌华,2001)。寻找差异表达基因成为目前基因研究的一个非常重要的内容。差异表达的基因通常用稳定状态下mRNA的丰度高低有无来比较。差异表达基因有2个含义,即表达基因的种类改变和基因表达量的变化。通过它能找到疾病不同阶段、不同状态下表达不同丰度的基因,从而为进一步研究打下基础。分离和鉴定差异表达基因是了解各项生命活动和疾病分子调控机制的重要手段(梁自文,2001)。笔者拟对目前现有的寻找差异基因的方法作一综述。 1消减杂交法(subtractive hybridization) 消减杂交在1984年由Palmer和Lamer(Lamar EE et at.,1984)提出,其目的是分离出两类同源分子间差异表达的基因,关键是利用分子杂交原理去除共同序列,保留差异序列,通过PCR多次循环扩增而分离,从而能进一步研究其差异表达基因。 具体做法:首先以oligo-dT为引物,从tester中制备放射性标记的单链cDNA 文库。然后将这些cDNA探针与过量的来自driver的mRNA(其poly-A尾已与生物素耦联)杂交,大部分单链cDNA探针和driver中的mRNA形成异源双链,并通过羟基磷灰石柱层除去cDNA×mRNA杂交体,以此富增tester中特异的cDNA。消减杂交法的最大优点是它适用于未被克隆的基因组片段;其次它特别适于寻找那些由于缺失造成突变的基因。但这一方法需要大量的driver mRNA才能使消减杂交充分进行,所回收的cDNA量也很低,而且操作步骤复杂、耗资

基因表达谱芯片的数据分析

基因表达谱芯片的数据分析(2012-03-13 15:25:58)转载▼ 标签:杂谈分类:生物信息 摘要 基因芯片数据分析的目的就是从看似杂乱无序的数据中找出它固有的规律, 本文根据数据分析的目的, 从差异基因表达分析、聚类分析、判别分析以及其它分析等角度对芯片数据分析进行综述, 并对每一种方法的优缺点进行评述, 为正确选用基因芯片数据分析方法提供参考. 关键词: 基因芯片; 数据分析; 差异基因表达; 聚类分析; 判别分析 吴斌, 沈自尹. 基因表达谱芯片的数据分析. 世界华人消化杂志2006;14(1):68-74 https://www.wendangku.net/doc/8511614491.html,/1009-3079/14/68.asp 0 引言 基因芯片数据分析就是对从基因芯片高密度杂交点阵图中提取的杂交点荧光强度信号进行的定量分析, 通过有效数据的筛选和相关基因表达谱的聚类, 最终整合杂交点的生物学信息, 发现基因的表达谱与功能可能存在的联系. 然而每次实验都产生海量数据, 如何解读芯片上成千上万个基因点的杂交信息, 将无机的信息数据与有机的生命活动联系起来, 阐释生命特征和规律以及基因的功能, 是生物信息学研究的重要课题[1]. 基因芯片的数据分析方法从机器学习的角度可分为监督分析和非监督分析, 假如分类还没有形成, 非监督分析和聚类方法是恰当的分析方法; 假如分类已经存在, 则监督分析和判别方法就比非监督分析和聚类方法更有效率。根据研究目的的不同[2,3], 我们对基因芯片数据分析方法分类如下: (1)差异基因表达分析: 基因芯片可用于监测基因在不同组织样品中的表达差异, 例如在正常细胞和肿瘤细胞中; (2)聚类分析: 分析基因或样本之间的相互关系, 使用的统计方法主要是聚类分析; (3)判别分析: 以某些在不同样品中表达差异显著的基因作为模版, 通过判别分析就可建立有效的疾病诊断方法. 1 差异基因表达分析(difference expression, DE) 对于使用参照实验设计进行的重复实验, 可以对2样本的基因表达数据进行差异基因表达分

第七讲 语言表达答题技巧完美版

语言表达答题技巧 北京四中连中国 一、分析与预测 1.分值。分值一般在9-18分之间。 2.题量、题型。近年来,该考点一般设2至4个题目不等。 扩展语句:将一组词语扩展为一段话;规定话题扩展;给出开头续写;限定意象扩写。 压缩语段:提取关键词;概括大意或事件主要内容;总结、评点新闻或故事;揭示寓意;编写人物简介,评价人物;拟写标题;概括版 面主旨。 选用、仿用、变换句式:按要求重组或拟写句子;长短句、整散句等句式的转换;语气比较;命题式(给内容、给例句)仿写,嵌入式(给 出上下文)仿写,话题式(只给话题)仿写;补写对话;续写脚本。准确、鲜明、生动:词语(包括成语)的留、删、增、调、换;解说新词; 介绍地理位置;介绍文化观光景点;扩展一句话;拟邀请函。语言简明、连贯、得体:拟写主题口号、广告语、栏目标题、话题、标语; 理解潜台词;排句序,填关联词,写串联词;修改便条、开场 白等;推断提问语;补全开场白、欢迎辞。 二、备考策略 1.扩展语句 ?一要看清题目要求,如扩展重点、字数等; ?二要“添枝加叶”,给句子主干增加修饰性或限制性词语,使之形象生动; ?三要运用修辞手法,增加意蕴; ?四要注意虚实结合,写出丰富内涵。 [例1] 请根据王维的诗句“竹喧归浣女”写一个场景。 要求:①想象合理;②语言生动;③不超过50字。(4分) 答案: 浣完衣服的少女拎着水桶,踏着月色,从婆娑的竹林间穿过,伴着银铃般的笑声,叽叽喳喳地打闹着归来。 月光在竹林中洒下斑斑光点,四周一片寂静。一阵风吹来,传来洗衣归来的少女的喧哗。话音如玉盘落珠般清脆,笑声如银铃摇动般响亮,是这般地无忧无虑。 2.压缩语段 A.从步骤上讲 首先,审清题干要求,定向筛选; 其次,整体把握语段的内容,分点概括; 第三,尽可能寻找中心句,筛选关键词,合并归纳语意。要求筛选的关键

RNA-seq数据差异表达分析方法的比较

RNA-seq数据差异表达分析方法的比较 BMC Bioinformatics 2013, 14:91 doi:10.1186/1471-2105-14-91 A comparison of methods for differential expression analysis of RNA-seq data Charlotte Soneson (Charlotte.Soneson@isb-sib.ch) Mauro Delorenzi (Mauro.Delorenzi@unil.ch) 摘要说的背景是: “发现条件间差异表达的基因是理解表型变异的分子基础的一个有机部分。过去几十年中,DNA微阵列被广泛用于定量不同基因的mRNA丰度,更近期的RNA-seq作为一个强有力的竞争者冒了出来。随着测序成本持续下降,可以想象使用RNA-seq做差异表达分析会迅速增加。为了探索可能性和解决这种相对新型的数据提出的挑战,大量软件包特别为RNA-seq数据的差异表达分析开发出来了。” 而本文的结果是: “我们广泛比较了RNA-seq数据的差异表达分析的7种方法。所有方法都可以在R框架下免费获得,并以一个计数矩阵作为输入,计数即每个样品中映射到每个感兴趣的基因组特征上的reads数目。我们基于模拟数据和实际RNA-seq数据评价了这些方法。” 结论就是: “极小样本量仍是RNA-seq实验的普遍状况,对所有评价方法造成了困难;而任何在这样的条件下获得的结果都应该谨慎解释。对于更大的样本量,组合稳定方差变换和limma方法来进行差异表达分析会在很多不同的条件下表现良好,正如非参数的SAMseq方法一样。” 到2013年还说这种话,这些结论实在有点鸡肋啊~ 貌似为SAMseq摇旗呐喊来的……不过: 比较了11种软件包,这还是前所未有的:DESeq、edgeR、NBPSeq、TSPM、baySeq、EBSeq、NOISeq、SAMseq、ShrinkSeq这9种可直接处理计数数据,另两种分别是voom(+limma)和vst(+limma),转换数据后用limma做差异表达分析。 正如很多文章已经提到的那些,RNA-seq比起微阵列有三大优点: 1、更大的动态范围 2、更低的背景噪音

基因差异表达技术

基因差异表达技术 真核生物中,从个体的生长、发育、衰老、死亡,到组织的得化、调亡以及细胞对各种生物、理化因子的应答,本质上都涉及基因的选择性表达。高等生物大约有30000个不同的基因,但在生物体内任意8细胞中只有10%的基因的以表达,而这些基因的表达按特定的时间和空间顺序有序地进行着,这种表达的方式即为基因的差异表达。其包括新出现的基因的表达与表达量有差异的基因的表达。生物体表现出的各种特性,主要是由于基因的差异表达引起的。 由于基因的差异表达的变化是调控细胞生命活动过程的核心机制,通过比较同一类细胞在不同生理条件下或在不同生长发育阶段的基因表达差异,可为分析生命活动过程提供重要信息。研究基因差异表达的主要技术有差别杂交(differential hybridization)、扣除(消减)杂交(subtractive hybridization of cDNA,SHD)、mRNA差异显示(mRNA differential display,DD)、抑制消减杂交法(suppression subtractive hybridization,SSH)、代表性差异分析(represential display analysis,RDA)、交互扣除RNA差别显示技术(reciprocal subtraction differential RNA display)、基因表达系列分析(serial analysis of gene expression,SAGE)、电子消减(electronic subtraction)和DNA微列阵分析(DNA microarray)等。 一、差别杂交与扣除杂交 差别杂交(differential hybridization)又叫差别筛选(differential screening),适用于分离经特殊处理而被诱发表达的mRNA的cDNA克隆。为了增加这种方法的有效性,后来又发展出了扣除杂交(subtractive hybridization)或扣除cDNA克隆(subtractive cDNA cloning),它是通过构建扣除文库(subtractive library)得以实现的。 (一)差别杂交 从本质上讲,差别杂交也是属于核酸杂交的范畴。它特别适用于分离在特定组织中表达

寻找差异表达的基因

基因表达谱数据 基因表达谱可以用一个矩阵来表示,每一行代表一个基因,每一列代表一个样本(如图1)。所有基因的表达谱数据在“gene_exp.txt ”文件中存储,第一列为基因的entrez geneid ,第2~61列是疾病样本的表达,第62~76列是正常样本的表达。 图1 基因表达谱的矩阵表示 寻找差异表达的基因: 原理介绍: 差异表达分析是目前比较常用的识别疾病相关miRNA 以及基因的方法,目前也有很多差异表达分析的方法,但比较简单也比较常用的是Fold change 方法。它的优点是计算简单直观,缺点是没有考虑到差异表达的统计显著性;通常以2倍差异为阈值,判断基因是否差异表达。Fold change 的计算公式如下: normal Disease x x c Fold = _ 即用疾病样本的表达均值除以正常样本的表达均值。 差异表达分析的目的:识别两个条件下表达差异显著的基因,即一个基因在两个条件中的表达水平,在排除各种偏差后,其差异具有统计学意义。我们利用一种比较常见的T 检验(T-test )方法来寻找差异表达的miRNA 。T 检验的主要原理为:对每一个miRNA 计算一个T 统计量来衡量疾病与正常情况下miRNA 表达的差异,然后根据t 分布计算显著性p 值来衡量这种差异的显著性,T 统计量计算公式如下: n s n s x x t normal Disease normal Disease miRNA //22+-= 对于得到的显著性p 值,我们需要进行多重检验校正(FDR ),比较常用的是BH 方法(Benjamini and Hochberg, 1995)。

相对定量方法PCR技术通过2 -△△CT 方法分析相对基因表达差异

利用实时定量 PCR 技术通过2 -△△CT 方法分析相 对基因表达差异 Kenneth J. Livak and Thomas D. Schmittgen Department of Pharmaceutical Sciences, College of Pharmacy. Washington State University, Washington 99164-6534 现在最常用的两种分析实时定量 PCR 实验数据的方法是绝对定量和相对定量。绝对定量通过标准曲线计算起始模板的拷贝数;相对定量方法则是比较经过处理的样品和未经处理的样品目标转录本之间的表达差异。 2 - △△ CT 方法是实时定量 PCR 实验中分析基因表达相对变化的一种简便方法。本文介绍了该方法的推导,假设及其应用。另外,在本文中我们还介绍了两种 2 - △△ CT 衍生方法的推导和应用,它们在实时定量 PCR 数据分析中可能会被用到。 关键词:反转录 PCR 定量PCR 相对定量 实时PCR Taqman 反转录 PCR ( RT-PCR )是基因表达定量非常有用的一种方法( 1 - 3 )。实时 PCR 技术和 RT-PCR 的结合产生了反转录定量 PCR 技术( 4 , 5 )。实时定量 PCR 的数据分析方法有两种:绝对定量和相对定量。绝对定量一般通过定量标准曲线来确定我们所感兴趣的转录本的拷贝数;相对定量方法则是用来确定经过不同处理的样品目标转录本之间的表达差异或是目标转录本在不同时相的表达差异。 绝对定量通常在需要确定转录本绝对拷贝数的条件下使用。通过实时 PCR 进行绝对定量已有多篇报道( 6 - 9 ),包括已发表的两篇研究论文( 10 , 11 )。在有些情况下,并不需要对转录本进行绝对定量,只需要给出相对基因表达差异即可。显然,我们说 X 基因在经过某种处理后表达量增加 2.5 倍比说该基因的表达从 1000 拷贝 / 细胞增加到 2500 拷贝 / 细胞更加直观。 用实时 PCR 对基因表达进行相对定量分析需要特殊的公式、假设以及对这些假设的验证。 2 - △△ CT 方法可用于定量 PCR 实验来计算基因表达的相对变化: 2 - △△ CT 公式的推导 , 以及实验设计,有效性评估在 Applied Biosystems User Bulletin No.2(P/N4303859) 中有介绍。用 2 - △△ CT 方法分析基因表达数据在文献中也有报道 (5, 6) 。本文介绍了该方法的推导、假设以 生 物秀-专心做生物 w w w .b b i o o .c o m

基因表达分析

基因表达分析 1、EST(Expressed Sequence Tag)表达序列标签(EST)分析 1、EST基本介绍 1、定义: EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。 EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。 2、技术路线: 首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。

3、EST数据的优点和缺点: (1)相对于大规模基因组测序而言,EST测序更加快速和廉价。 (2)EST数据单向测序,质量比较低,经常出现相位的偏差。 (3)EST只是基因的一部分,而且序列里有载体序列。 (4)EST数据具有冗余性。 (5)EST数据具有组织和不同时期特异性。 4、EST数据的应用 EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。具体说,EST的作用表现在:

基因表达差异分析方法进展

高等真核生物的基因组一般具有80 000~100 000个基因,而每一个细胞大约只表达其中的15%[1]。基因在不同细胞间及不同生长阶段的选择性表达决定了生命活动的多样性,如发育与分化、衰老与死亡、内环境稳定、细胞周期调控等。比较细胞间基因表达的差异为我们揭示生命活动的规律提供了依据。 由于真核细胞mRNA 3′端一般含有Poly(A)尾,因此现有的方法基本上都是利用共同引物将不同的mRNA反转录成cDNA,以cDNA为对象研究基因表达的差异。1992年Liang等[2]建立了一种差异显示反转录PCR法(differential display reverse transcription PCR,DDRT-PCR),为检测成批基因表达的差异开辟了新天地。迄今为止已出现了大量应用该技术的研究报道[3,4]。然而,尽管应用DDRT-PCR方法已经取得了不少成果,而且该方法还在不断改进之中,但它仍然存在几个难以解决的问题:(1) 重复率低,至少有20%的差异条带不能被准确重复[5];(2) 假阳性率可以高达90%[6];(3) 获得的差异表达序列极少包含编码信息。近年来,针对DDRT-PCR方法的不足,又有几种新的检测差异表达基因的方法出现,现仅就这方面的进展做一简要介绍。 1.基因表达指纹(gene expression fingerprinting,GEF):GEF技术使用生物素标记的引物Bio-T13合成cDNA第一链,用dGTP对其进行末端加尾,再以富含C的引物引发合成cDNA第二链。用限制性内切酶消化双链cDNA,以交联有抗生物素蛋白的微球捕获cDNA3′端,以T4DNA连接酶连接同前述内切酶相对应的适配子,并以Bio-T13及适配子中的序列作为新的引物进行特异的PCR 扩增,得到大量的特异cDNA片段。适配子末端被32P-dATP标记后,固定于微球上的cDNA片段经过一系列酶切,产生的酶切片段从微球表面释放出来,其中那些含有标记末端的片段经凝胶电泳后构成mRNA指纹图谱。通过分析不同细胞间的指纹图谱就能得到差异表达的序列[7]。GEF技术所需的工作量较DDRT-PCR明显减少,由于用酶切反应替代了条件不严格的PCR反应,其重复性也较好,假阳性率低,并且所获得的片段中包含有一定的编码信息。GEF技术最大的缺点在于电泳技术的局限。由于它的指纹图谱要显示在同一块电泳胶上,经过几轮酶切之后常会得到1 000~2 000条电泳带,而现有的PAGE电泳很少能分辨超过400条带,故只有15%~30%的mRNA能够被辨认出来,因此得

基因表达系列分析(Serial Analysis of Gene Expression,SAGE)技术

SAGE 技术 MRNA 结合到微珠子上(Microscopic Bead and mRNA) mRNA 转录成DNA(mRNA binds to bait and is copied into DNA)

用酶切开DNA的一小段(An enzyme cuts the DNA) 另一个酶定在DNA末端以便切下一小段(An enzyme locks onto the DNA and cuts off a short tag),这一小段就被视为这个基因的标签 两个标签连在一起(Two tags are linked together)

在末端的定位分子被切掉(Enzymes cut off the "Docking Molecules") 都连成一条线(Di-Tags are combined into large concatemers)

DNA上所携带的遗传信息,需要通过RNA为中介体,合成出组织和正常生理功能所需要的蛋白质,这个过程被称为基因的表达。在生物体中不同的组织和器官所表达的基因群是不一样的,我们把基因群的表达状况称为基因表达谱。目前,高通量地研究基因表达谱的方法主要有两种,即生物芯片和基因表达串联分析(serial analysis of gene expression, SAGE)。基因芯片所能检测的基因必须是已知的基因,放在芯片上几种基因的探针就只能检测这几种基因的表达谱;相比之下,SAGE能以远高于DNA芯片的精确度和重复性来检测在病理条件下基因表达谱的改变,而不必考虑所检测的基因是已知的还是未知的。因此在检测疾病相关的新基因,特别是无法用基因芯片进行检测的低表达量致病基因时,SAGE是目前的最佳手段,无可取代。 SAGE技术为Genzyme公司所拥有的专利技术。其技术简介如下: SAGE技术得以建立的理论基础 首先,一段来自于任一转录本特定区域的"标签"(Tag),即长度仅9-14bp的短核苷酸序列,就已包含足够的信息以特异性地确定该转录本。例如:一个9碱基的序列能有49=262144种不同的排列组合,而人类基因组据估计仅编码80000种转录本,因此在理论上每一个9碱基标签就能够代表一种转录本的特征序列。 第二,如果将短片段标签相互连接、集中形成长的DNA分子,则对该克隆进行

基因表达及分析技术

基因表达及其分析技术 生命现象的奥秘隐藏在基因组中,对基因组的解码一直是现代生命科学的主流。基因组学研究可以说是当今生命科学领域炙手可热的方向。从DNA 测序到SNP、拷贝数变异(copy number variation , CNV)等DNA多态性分析,到DNA 甲基化修饰等表观遗传学研究,生命过程的遗传基础不断被解读。 基因组研究的重要性自然不言而喻。应该说,DNA 测序技术在基因组研究 中功不可没,从San ger测序技术到目前盛行的新一代测序技术(Next Gen eration Seque ncing NGS)到即将走到前台的单分子测序技术,测序技术是基因组解读最重要的主流技术。而基因组测序、基因组多态性分析、DNA 甲基化修饰等表观遗传分析等在基因组研究中是最前沿的课题。但是基因组研究终究类似“基因算命”,再清晰的序列信息也无法真正说明一个基因的功能,基因功能的最后鉴定还得依赖转录组学和蛋白组学,而转录作为基因发挥功能的第一步,对基因功能解读就变得至关重要。声称特定基因、特定SNP、特定CNV、特定DNA修饰等与某种表型有关,最终需要转基因、基因敲除、突变、 RNAi 、中和抗体等技术验证,并必不可少要结合基因转录、翻译和蛋白修饰等数据。 基因实现功能的第一步就是转录为mRNA或非编码RNA,转录组学主要研究基因转录为RNA 的过程。在转录研究中,下面几点是必须考虑的: 1,基因是否转录(基因是否表达)及基因表达水平高低(基因是低丰度表达还是中、高丰度表达)。特定基因有时候在一个细胞中只有一个拷贝的表达,而表达量会随细胞类型不同或发育、生长阶段不同或生理、病理状态不同而改变。因此任何基

基因表达数据分析

第8章基因表达数据分析 基因芯片或DNA微阵列等高通量检测技术的发展,可以从全基因组水平定量或定性检测基因转录产物mRNA,获取基因表达的信息。由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。基因表达数据中蕴含着基因调控的规律,可以反映细胞当前的生理状态,例如(??)是否恶化、(??)是否对药物有效等。对基因表达数据的分析是生物信息学的重大挑战之一,也是DNA微阵列能够推广应用的关键环节之一。 基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。通过对数据矩阵的分析,回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者调控哪些其它的基因?哪些基因的表达是条件特异性的,根据它们的行为可以判断细胞的状态(正常或癌变)????等等。对这些问题的回答,结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学(Systems Biology,在附录中增加解释条目!)研究的核心内容。目前,对基因表达数据的分析主要是在三个逐渐复杂的层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,该基因表达水平的变化,来判断它的功能,例如可以确定肿瘤类型特异基因。采用的分析方法可以是统计学中的假设检验等。2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。多采用聚类分析等方法。3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达谱。多采用反工程的方法。 本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方法,即表达差异分析和聚类分析;最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。 8.1 基因表达数据的获取 基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平(转录??),这些数据可以用于分析哪些基因的表达发生了改变,它们有何相关性,在不同条件下基因是如何受影响的。它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析(Serial analysis of gene expression,SAGE)、RT-PCR、EST测序等。目前,最主要的表达数据来自于基因芯片或cDNA微阵列,它们的原理是相同的,利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单链形成双链,这个过程被称为杂交。基本技术是:在一个约1cm2大小的玻璃片上,将称为探针的核苷酸片段固定在上面,这个过程称为芯片制备;从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析细胞中的mRNA的相对水平。

基因表达分析

荧光定量PCR 在基因表达分析中的应用 所谓基因表达就是指在特定的时刻某种我们感兴趣的基因在组织或细胞中的mRNA 的表达数量。众所周知,很多的疾病(如肿瘤)的发生发展、很多药物的作用机理、很多生物的代谢调控作用等都和基因表达的变化有关,因此对基因表达进行精确定量是十分重要的。过去为了对mRNA 进行定量有了各种各样的方法,如Southern 杂交、Northern 杂交、原位杂交、传统PCR 等,但是我们也都知道这些技术灵敏性较差,重复性不好,操作比较烦琐,已经无法满足现在科研和检测的需要,于是荧光定量PCR 技术也就应运而生了。荧光定量PCR 技术能对核酸进行精确定量,因此大大提高了在基因表达的准确性和灵敏度,深受用户的青睐,广泛的应用于肿瘤研究、药物筛选、功能基因组研究等各个领域,目前已经成了很多科研文章发表的重要实验内容。 基因表达分析中常见到的重要问题 1、要检测的基因 基因表达分析的目的就是检测某种我们感兴趣的基因在不同组织或细胞中的表达差异。荧光定量PCR 技术可以对核酸物质的含量进行精确的定量,也就成了研究基因表达差异的一把利器。 在基因表达分析实验中要检测两个基因,一个是目的基因和另一个是看家基因。之所以要引入看家基因是由于不能确定要比较的样品所用的组织起始量相同。就是说比如有的老师提取正常样品的基因时用了100个细胞,而提取病变样品时只用了10个细胞,这时候的基因表达差异可能是由于提取时候的样品细胞数不同引起的,为了纠正这种误差,我们选用认为在两个样本中表达量不变的基因作为内参照,来去除这带来的干扰。例如,要研究某个基因在肿瘤样品和正常样品中的基因表达差异。我们在实验中发现我们选择研究的正常样品中的看家基因的表达量是肿瘤样品中的10倍,就认为正常样品的细胞数就是肿瘤样品细胞数的10倍,那么在肿瘤样品中目的基因的基因表达量应该乘以10倍,才能和正常样品进行比较。 2、计算基因表达差异 基因表达差异的计算是通过所得到的Ct 值来计算的,要计算两个样品(待测样品和对照样品)的目的基因的表达差异必须检测得到4个Ct 值:待测样品和对照样品中目的基因和看家基因的Ct 值。 那么基因表达差异应该计算为 基因表达差异=2(△Ct1-△Ct2) 目的基因 看家基因 待测样品 对照样品 △Ct1 △Ct2

中西文化差异表现及其原因分析

中西文化差异表现及其原因 2011-11-17 嘉陵山水 一、中西文化差异表现 1、思维模式的异同 中国人喜欢站在生命的更高处思考问题,跳出现实,重视对生命的思考,在对人和人之间,人和自然界之间,人的精神和 肉体之间的关系都有深刻的思考。西方人偏重于逻辑思维或者理性思维;中国人属于抽象思维或者感性思维。而西方人更注重于从物质世界入手,去探索和求证问题的本源。 2、对待个人利益与集体利益、国家利益的异同 中国人更看重集体利益,包括家族利益、国家利益,主张 控制自己的欲望,反对极端个人主义和英雄主义,往往把个人利益和集体利益,国家利益联系在一起,富于爱国和献身精神。而 西方人更重视个体利益,追求人权,崇尚自由,认为如果连个体 利益都无法保障,更谈何集体利益,正是这样的思想认识,最终 推动了西方民主政治的发展; 3、民主观念的异同 中国人注重精神的自由,把自由、民主看成是君主权贵的赏赐。所以我们的人民总在渴望青天,希望能有好官的出现为民谋利。而西方的民主政治认为,政出于民,一切的政权只是人民 授予,让政府来行使的一种公权力。

4、科学观的异同 中国人更相信先人的经验和权威,相信古人甚至超过相信今人,迷信权威,缺乏创新和探索精神。而西方人重视实践和 理论,富于探险精神,倡导理性思维。通过正规的学院式教育对 科学成果进行普及和推广,极大的促进了科学的发展,也最终建立了完整的科学体系; 5、中西方的道德观是迥然不同的 西方强调个体本位,而中国人提倡群体本位。中西方道德观的不同,使中西方的伦理体系和道德规范具有了不同的特点: 西方重契约,中国重人伦;西方重理智,中国重人情;西方伦理 重于竞争,中国则偏重于中庸、和谐;西方的伦理道德是以人性 恶为出发点,强调个体的道德教育,中国儒家是从人性善的观点出发,强调个体的道德修养。 6、法制观念的异同 中国人主张用礼、道德来约束,通过先贤的教诲和学习提高自己的修养,讲究克己复礼,导致了人格的缺陷,丧失了独 立的人格;而西方人认为人的原欲是不应该被压制的,对于社会和个人的规范,主张用“法制”,通过制度,如三权分立的组织、政治机构来约束制约,道德则处于从属的地位。 7、在为人处世方面的异同 中国人内敛、自省,喜欢“每日三省吾身”,为的是合于 先王之道,把修养身心看的很重,推崇中庸思想,导致思想的保

【R高级教程】专题二:差异表达基因的分析

【R高级教程】专题二:差异表达基因的分析 应学生及个别博友的要求,尽管专业博文点击率和反应均很差,但在去San Diego参加PAG会议之前,还是抽时间给出【R高级教程】的第二专题。专题一给出了聚类分析的示例,本专题主要谈在表达谱芯片分析中如何利用Bioconductor鉴定差异表达基因。 鉴定差异表达基因是表达谱芯片分析pipeline中必须的分析步骤。差异表达基因分析是根据表型协变量(分类变量)鉴定组间差异表达,它属于监督性分类的一种。在鉴定差异表达基因以前,一般需要对表达值实施非特异性过滤(在机器学习框架下属于非监督性分类),因为适当的非特异性过滤可以提高差异表达基因的检出率、甚至是功效。R分析差异表达基因的library有很多,但目前运用最广泛的Bioconductor包是limma。 本专题示例依然来自GEO数据库中检索号为GSE11787 的Affymetrix芯片的数据,数据介绍参阅专题一。 >library(limma) >design <- model.matrix(~ -1+factor(c(1,1,1, 2,2,2))) 这个是根据芯片试验设计,对表型协变量的水平进行design,比如本例中共有6张芯片,前3张为control对照组,后3张芯片为实验处理组,用1表示对照组,用2表示处理组。其他试验设计同理,比如2*2的因子设计试验,如果每个水平技术重复3次,那么可以表示为:design <- model.matrix(~ -1+factor(c(1,1,1, 2,2,2, 3,3,3, 4,4,4)))。接上面的程序语句继续:

>colnames(design) <- c("control", "LPS") >fit <- lmFit(eset2, design) >contrast.matrix <- makeContrasts(control-LPS, levels=design) >fit <- eBayes(fit) >fit2 <- contrasts.fit(fit, contrast.matrix) >fit2 <- eBayes(fit2) >results<-decideTests(fit2, method="global", adjust.method="BH", p.value=0.01, lfc=1.5) >summary(results) >vennCounts(results) >vennDiagram(results) 比较遗憾的是,目前limma自带的venn作图函数不能做超过3维的高维venn图,只能画出3个圆圈的venn图,即只能同时对三个

基因表达谱分析技术

基因表达谱分析技术 1、微阵列技术(microarray) 这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”(cDNA、ESTs或基因特异的寡核苷酸),并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因,甚至整个基因组的基因表达进行对比分析。包括cDNA芯片(cDNA microarray)和DNA 芯片(DNA chips)。 cDNA芯片使用的载体可以是尼龙膜,也可以是玻片。当使用尼龙膜时,目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据,只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式,而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物,标记探针使用32PdATP。如果使用玻片为载体,点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品,然后将两份样品混合起来与一张芯片杂

交。洗去未杂交的探针以后,能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言,所发出的两种不同荧光的强度的比值,就代表它在不同样品中的丰度。一般来讲,显示出来的图像中,黄色的点表示在不同的样品中丰度的差异不大,红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低,因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异,只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高,而且可以使用2种探针同时与芯片杂交,从而降低了因为杂交操作带来的差异;缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等(2004)将包含104个重组子的cDNA文库点在芯片上,用于检测拟南芥叶片衰老时的基因表达模式,得到大约6200差异表达的ESTs,对应2491个非重复基因。其中有134个基因编码转录因子,182个基因预测参与信号传导,如MAPK级联传导路径。Li等(2006)设计高密度的寡核苷酸tiling microarray方法,检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针,基于籼稻全基因组shot-gun测序的序列合成,大约81.9%(35,970)的基因发生转录事件。Hu等(2006)用含有60,000寡核苷酸探针(代表水稻全部预测表达基因)的芯片检测抗旱转基因植株(过量表达SNAC1水稻)中基因的表达情况,揭示大量的逆境相关基因都是上升表达的。 2、基因表达系列分析(Serial analysis of gene expression, SAGE)

基因表达谱分析技术

基因表达谱分析技术 1微阵列技术(microarray) 这是近年来发展起来的可用于大规模快速检测基因差别表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因的一项新的基因功能研究技术。其原理基本是利用光导化学合成、照相平板印刷以及固相表面化学合成等技术,在固相表面合成成千上万个寡核苷酸“探针”(cDNA、ESTs或基因特异的寡核苷酸),并与放射性同位素或荧光物标记的来自不同细胞、组织或整个器官的DNA或mRNA反转录生成的第一链cDNA进行杂交,然后用特殊的检测系统对每个杂交点进行定量分析。其优点是可以同时对大量基因,甚至整个基因组的基因表达进行对比分析。包括cDNA芯片(cDNA microarray)和DNA芯片(DNA chips)。 cDNA芯片使用的载体可以是尼龙膜,也可以是玻片。当使用尼龙膜时,目前的技术水平可以将20000份材料点在一张12cm×18cm的膜上。尼龙膜上所点的一般是编好顺序的变性了的双链cDNA片段。要得到基因表达情况的数据,只需要将未知的样品与其杂交即可。杂交的结果表示这一样品中基因的表达模式,而比较两份不同样品的杂交结果就可以得到在不同样品中表达模式存在差异的基因。杂交使用的探针一般为mRNA的反转录产物,标记探针使用32PdATP。如果使用玻片为载体,点阵的密度要高于尼龙膜。杂交时使用两种不同颜色的荧光标记不同的两份样品,然后将两份样品混合起来与一张芯片杂交。洗去未杂交的探针以后,能够结合标记cDNA的点受到激发后会发出荧光。通过扫描装置可以检测各个点发出荧光的强度。对每一个点而言,所发出的两种不同荧光的强度的比值,就代表它在不同样品中的丰度。一般来讲,显示出来的图像中,黄色的点表示在不同的样品中丰度的差异不大,红色和绿色的点代表在不同样品中其丰度各不相同。使用尼龙膜为载体制作cDNA芯片进行研究的费用要比玻片低,因为尼龙膜可以重复杂交。检测两种不同的组织或相同组织在不同条件下基因表达的差异,只需要使用少量的尼龙膜。但是利用玻片制作的cDNA芯片灵敏度更高,而且可以使用2种探针同时与芯片杂交,从而降低了因为杂交操作带来的差异;缺点是无法重复使用还必须使用更为复杂的仪器。 Guo等(2004)将包含104个重组子的cDNA文库点在芯片上,用于检测拟南芥叶片衰老时的基因表达模式,得到大约6200差异表达的ESTs,对应2491个非重复基因。其中有134个基因编码转录因子,182个基因预测参与信号传导,如MAPK级联传导路径。Li等(2006)设计高密度的寡核苷酸tiling microarray方法,检测籼稻全基因组转录表达情况。芯片上包含13,078,888个36-mer寡核苷酸探针,基于籼稻全基因组shot-gun测序的序列合成,大约81.9%(35,970)的基因发生转录事件。Hu等(2006)用含有60,000寡核苷酸探针(代表水稻全部预测表达基因)的芯片检测抗旱转基因植株(过量表达SNAC1水稻)中基因的表达情况,揭示大量的逆境相关基因都是上升表达的。 2基因表达系列分析(Serial analysis of gene expression,SAGE) 基因表达系列分析(SAGE)是一种转录物水平上研究细胞或组织基因表达模式的快速、有效的技术,也是一种高通量的功能基因组研究方法,它可以同时将不同基因的表达情况进行量化研究(Velculescu et al.,1995)。SAGE的基本原理是:每一条mRNA序列都可以用它包含的9bp的小片段(TAG)代替,因此考查这些TAGs出现的频率就能知道每一种mRNA 的丰度。首先利用生物素标记的oligo(dT)引物将mRNA反转录成双链cDNA,然后利用NlaIII 酶切双链cDNA。NlaIII酶的识别位点只有4bp,因此cDNA都被切成几十bp的小片段。带有生物素标记的小片段cDNA被分离出来,平均分成2份。这2份cDNA分别跟2个接头连接,2个接头中均有一个FokI酶切位点。FokI是一种II S型核酸内切酶,其识别位点不对称,切割位点位于识别位点下游9bp且不依赖于特异的DNA序列。FokI酶切分成2份的cDNA之

相关文档
相关文档 最新文档