文档库 最新最全的文档下载
当前位置:文档库 › Robust Multivariate Methods in Geostatistics

Robust Multivariate Methods in Geostatistics

Robust Multivariate Methods in Geostatistics
Robust Multivariate Methods in Geostatistics

Robust Multivariate Methods in Geostatistics

Peter Filzmoser1,Clemens Reimann2

1Department of Statistics,Probability Theory,and Actuarial Mathematics, Vienna University of Technology,A-1040Vienna,Austria

2Geological Survey of Norway,N-7491Trondheim,Norway Abstract:Two robust approaches to principal component analysis and factor analysis are presented.The di?erent methods are compared,and properties are discussed.As an application we use a large geochemical data set which was analyzed in detail by univariate(geo-)statistical methods.We explain the advantages of applying robust multivariate methods.

1Introduction

In regional geochemistry an advantage could be that instead of present-ing maps for50(or more)chemical elements only a few maps of the principal components or factors may have to be presented,containing a high percentage of the information of the single element maps.Addi-tionally,it might be possible to?nd e?ects which are not visible in the single element maps.Especially factor analysis is used in di?erent kinds of applications to detect hidden structures in the data.

Geochemical data sets usually include outliers which are caused by a multitude of di?erent processes.It is well known that outliers can heavily in?uence classical statistical methods,including multivariate statistical methods.Even one single(huge)outlier can completely determine the result of principal component analysis.For that reason it is advisable to use robust multivariate methods for detecting the multivariate structure. Section2treats two methods of robust principal component analysis. Two di?erent versions of robust factor analysis which have recently been proposed,are considered in Sections3and4.Section5gives an example with a real geochemical data set.

2Robust Principal Component Analysis

Let x be a p-dimensional random vector with E(x)=μand Cov(x)=Σ.The covariance matrix can be decomposed asΣ=ΓAΓ ,where the columns ofΓ=(γ.1,...,γ.p)are the eigenvectors ofΣand A is a diagonal matrix with the corresponding eigenvalues(arranged in de-scending order)ofΣ.The principal components of x are de?ned by z=Γ (x?μ).Classically,μis estimated by the sample meanˉx,and

2

Σby the sample covariance matrix S,which is decomposed into eigen-vectors and-values.ˉx as well as S are highly sensitive with respect to outlying observations.Hence,for seriously analyzing geochemical data,a robust version of principal component analysis(PCA)has to be applied.

PCA can easily be robusti?ed by estimating the covariance matrixΣin a robust way,e.g.by taking the Minimum Covariance Determinant(MCD) estimator of Rousseeuw(1985).The robustly estimated covariance ma-trix is not in?uenced by outliers,and hence the eigenvector/eigenvalue decomposition is also robust.Since the MCD additionally gives a robust estimation ofμ,the whole PCA procedure is robust.We will discuss the usage of the MCD estimator in more detail in the context of factor analysis(Section3).

Another way for robustifying PCA was introduced by Li and Chen (1985).The method is based on the projection pursuit technique.PCA can be seen as a special case of projection pursuit,where the variance of the projected data points is to be maximized.Let X=(x 1.,...,x n.) be a data matrix with observation vectors x i.∈I R p(i=1,...,n).Now, let us assume that the?rst(k?1)projection directions γ.1,..., γ.(k?1) are already known.We de?ne a projection matrix

P1=I p,P k=I p?k?1

j=1

γ.j γ .j.(1)

P k corresponds to a projection onto the space spanned by the?rst(k?1) projection directions.We are interested in?nding a projection direction a which maximizes the function

a?→S(XP k a)(2) under the restrictions a a=1and P k a=a(orthogonality to pre-viously found projection directions).De?ning S in(2)as the classical sample standard deviation would result in classical PCA.The method can easily be robusti?ed by taking a robust measure of spread,e.g.the median absolute deviation(MAD)

MAD(y)=med

i |y i?med

j

(y j)|.(3)

Since the number of possible projection directions is in?nite,an approx-imative solution for maximizing(2)is as follows.The k-th projection direction is only searched in the set

A n,k=

P k(x1.? μn)

P k(x1.? μn)

,...,

P k(x n.? μn)

P k(x n.? μn)

(4)

3 where μn denotes a robust estimation of the mean,like the L1-median or the component-wise median.

The algorithm outlined above was suggested by Croux and Ruiz-Gazen (1996).It is easy to implement and fast to compute which makes the method quite attractive to use in practice.Furthermore,this robust PCA method has a big advantage for high-dimensional data(large p) because it allows to stop at a desired number k

p.

3Robust Factor Analysis using the MCD

The aim of factor analysis(FA)is to summarize the correlation structure of observed variables x1,...,x p.For this purpose one constructs k

x j=λj1f1+λj2f2+...+λjk f k+εj,(5) for each1≤j≤p.The error variablesε1,...,εp are supposed to be in-dependent,but they have speci?c variancesψ1,...,ψp.The coe?cients λjl are called the factor loadings,and they are collected into the matrix of loadingsΛ.

Using the vector notations x=(x1,...,x p) ,f=(f1,...,f k) ,and ε=(ε1,...,εp) ,the usual conditions on factors and error terms can be written as E(f)=E(ε)=0,Cov(f)=I k,and Cov(ε)=Ψ,with Ψa diagonal matrix containing on its diagonal the speci?c variances. Furthermore,εand f are assumed to be independent.

From the above conditions it follows that the covariance matrix of x can be expressed by

Σ=ΛΛ +Ψ.(6) In classical FA the matrixΣis estimated by the sample covariance matrix.Afterwards,decomposition(6)is used to obtain the estimators forΛandΨ.Many methods have been proposed for this decomposition, of which maximum likelihood(ML)and the principal factor analysis (PFA)method are the most frequently used.

Similar to the previous section,the parameter estimates can heavily be in?uenced when using a classical estimation of the scatter matrix.The problem can be avoided whenΣis estimated by the MCD estimator, which looks for the subset of h out of all n observations having the smallest determinant of its covariance matrix.Typically,h≈3n/4.

4

Pison et al.(1999)used the MCD for robustifying FA.They have shown that PFA based on MCD results in a resistant FA method with bounded in?uence function.It has better robustness properties than the ML-based counterpart.The empirical in?uence function can be used as a data-analytic tool.The method is also attractive for computational reasons since a fast algorithm for the MCD estimator has recently been developed(Rousseeuw and Van Driessen(1999)).

4F A using Robust Alternating Regressions

A limitation of the MCD-based approach is that the sample size n needs to be bigger than the number of variables p.For samples with n≤p(which occur quite frequently in the practice of FA),a robust FA technique based on alternating regressions,originating from Croux et al.(1999),can be used.

For this we consider the sample version of model(5):

x ij=

k

l=1

λjl f il+εij(7)

for i=1,...,n and j=1,...,p.Suppose that preliminary estimates for the factor scores f il are known,and consider them as constants for a moment.The loadingsλjl can now be estimated by linear regressions of the x j’s on the factors.Moreover,by applying a robust scale estimator on the computed residuals,estimates?ψj forψj can easily be obtained (for example by computing the MAD of the residuals).

On the other hand,if preliminary estimates of the loadings are available, linear regression estimators can again be used for estimating the factor scores.Indeed,if we take i?xed in(7)and suppose that theλjl are ?xed,a regression of x ij on the loadingsλjl yields updated estimates for the factor scores.Since there is heteroscedasticity,weights proportional to(?ψj)?1/2should be included.

Using robust principal components(Section2)as appropriate starting values for the factor scores,an iterative process(called alternating or interlocking regressions)can be carried out to estimate the unknown parameters of the factor model.To ensure robustness of the procedure we use a weighted L1-regression estimator since it is fast to compute and very robust.More details about the method and the choice of the weights can be found in Croux et al.(1999).Note that in contrast to the method described in Section3,the factor scores are estimated directly.

5

5Example

We consider a data set described and analyzed by univariate methods in Reimann et al.(1998).From1992-1998the Geological Surveys of Finland(GTK),and Norway(NGU)and the Central Kola Expedition (CKE),Russia,carried out a large multi-element geochemical mapping project,covering an area of188,000km2between24?and35.5?E up to the Barents Sea coast.One of the sample media was the C-horizon of podzol pro?les,developed on glacial drift.C-horizon samples were taken at605sites,and the contents of more than50chemical elements was measured for all samples.Although the project was mainly designed to reveal the environmental conditions in the area,the C-horizon was sampled to re?ect the geogenic background.

In the following we will apply the alternating regression-based FA ap-proach(Section4).Robust PCA and MCD-based FA was used in Filz-moser(1999)for the upper layer,humus,of the complete data set.

For the investigation of the C-horizon data we only considered the ele-ments Ag,Al,As,Ba,Bi,Ca,Cd,Co,Cr,Cu,Fe,K,Mg,Mn,Na,Ni, P,Pb,S,Si,Sr,Th,V and Zn.These variables have been transformed to a logarithmic scale to give a better approximation to the normal distribution.In order to put everything to a common scale we?rst standardized(robustly)the variables to mean zero and variance one. We want to analyze the data by using non-robust least squares(LS)re-gression and robust weighted L1-regression in the alternating regression scheme.We decided to extract6factors which results in a proportion of total variance of75%for both cases.The loadings of factors F1to F6 are shown in Figure1.We just printed the elements with an absolute value of the loadings larger than0.3to avoid confusion.The percentage of explained variance is printed at the top of the plots.Figure1shows that for the?rst factor F1there is just a slight di?erence between the non-robust(a)and the robust(b)method.However,for the subsequent factors this di?erence grows.Especially the loadings of factors F4and F6are strongly changing.

It is also interesting to inspect the factor scores which are directly esti-mated by our method.Because of space limitations we only show the scores of the second factor F2(Figure2),which is interesting because it nicely re?ects the distribution of alkaline intrusions in the survey area. Figure2shows the whole region under consideration.The dark lines are the borders of the countries Russia(east),Norway(north-west),and Finland(south-west).The gray lines show rivers and the coast.

At a?rst glance the two results presented in Figure2,the non-robust (a)and the robust(b)scores of factor F2seem to be very similar.But already the ranges of the estimated scores are di?erent([?3.08,4.98]for the non-robust and[?3.82,5.13]for the robust method(in the maps we

6

used the same scaling).The smaller range is typical for LS-based meth-ods because all data points,including the outliers,are tried to be?tted. Robust methods?t the majority of“good”data points which leads to a reliable estimation.As a consequence,the regions with high and low outliers are presented more reliable by the robust method.In the map the two uppermost classes(crosses)mark areas which are underlain by alkaline bedrocks.The anomalies in the factor maps are much more prominent than the intrusions themselves in a geological map.The rea-son is that the emplacement of the intrusions was accompanied by the movement of large amounts of hydrothermal?uids.These changed the chemical composition of the intruded bedrocks.The map thus re?ects the alteration haloes of these intrusions and demonstrates the impor-tance of the geological process for a very large region. References

CROUX,C.,FILZMOSER,P.,PISON,G.,and ROUSSEEUW,P.J. (1999):Fitting Factor Models by Robust Interlocking Regression.Pre-print,Vienna University of Technology.

CROUX,C.and RUIZ-GAZEN,A.(1996):A Fast Algorithm for Ro-bust Principal Components based on Projection Pursuit,in Prat(Ed.): Proceedings in Computational Statistics,Physika-Verlag,Heidelberg. FILZMOSER,P.(1999):Robust Principal Component and Factor Anal-ysis in the Geostatistical Treatment of Environmental Data.Environ-metrics,10,363-375.

LI,G.and CHEN,Z.(1985):Projection-Pursuit Approach to Robust Dispersion Matrices and Principal Components:Primary Theory and Monte Carlo.J.Amer.Statist.Assoc.,80,759-766.

PISON,G.,ROUSSEEUW,P.J.,FILZMOSER,P.,and CROUX,C. (1999):Robust Factor Analysis.Preprint,Vienna University of Tech-nology.

REIMANN, C.,¨AYR¨AS,M.,CHEKUSHIN,V.,BOGATYREV,I., BOYD,R.,CARITAT,P.DE,DUTTER,R.,FINNE,T.E.,HALLER-AKER,J.H.,J?GER,?.,KASHULINA,G.,LEHTO,O.,NISKAVAA-RA,H.,PAVLOV,V.,R¨AIS¨ANEN,M.L.,STRAND,T.,and VOLDEN, T.(1998):Environmental Geochemical Atlas of the Central Barents Re-gion.Geological Survey of Norway(NGU),Geological Survey of Fin-land(GTK),and Central Kola Expedition(CKE),Special Publication, Trondheim,Espoo,Monchegorsk.

ROUSSEEUW,P.J.(1985):Multivariate Estimation with High Break-down Point,in Grossmann et al.(Eds.):Mathematical Statistics and Applications,Vol.B,Akad′e miai Kiad′o,Budapest.

7 ROUSSEEUW,P.J.and VAN DRIESSEN,K.(1999):A Fast Algorithm for the Minimum Covariance Determinant Estimator.Technometrics, 41,212-223.

8

(a)

0%

38%Ag Al

As

Ba

Bi Cd Co Cr Cu Fe K Mg Mn Ni Pb S

Sr

Th V Zn F150%As

Ba Bi Ca Na P Pb Sr F259%Ag Co Cr Cu Mg Ni Pb Sr

Th V F365%Ca P Si F470%Ba Bi K Si

F575%Ag

P S F6

-1

-0.50

+0.5+1(b)

0%

36%Ag Al As Ba Bi Cd Co Cr Cu Fe K Mg Mn Ni Pb S Sr Th V Zn F150%Ba Ca K Mn

Na P Sr F258%Co Cr Cu Fe Mg Ni Pb V F364%Bi

S Si F470%Ba K F575%Ag Th F6

-1

-0.50

+0.5+1

Figure 1:Loadings of the alternating regression based FA method using (a)LS-regression and (b)weighted L 1-regression.

9

(a)

(b)

Figure2:Scores of the second factor of the alternating regression based FA method using(a)LS-regression and(b)weighted L1-regression.

表观遗传学

表观遗传学 大家晚上好!很高兴有机会和大家交流,我最近看了一些这方面的材料,借这个机会和大家交流一下,讲的不一定对,就是自己的理解,有问题的地方大家可以讨论。我想从以下几个方面进行介绍: 1、表观遗传学概念 2、表观遗传学的研究内容 一、表观遗传学概念 经典遗传学认为遗传的分子基础是核酸, 生命的遗传信息储存在核酸的碱基序列上,碱基序列的改变会引起生物体表现型的改变,而这种改变可以从上一代传递到下一代。然而,随着遗传学的发展,人们发现,,DNA、组蛋白、染色质水平的修饰也会造成基因表达模式的变化,并且这种改变是可以遗传的。这种基因结构没有变化,只是其表达发生改变的遗传变化叫表观遗传改变。表观遗传学是一门研究生命有机体发育与分化过程中,导致基因发生表观遗传改变的新兴学科。 1939年,生物学家Waddington CH 首先在《现代遗传学导论》中提出了epihenetics这一术语,并于1942年定义表观遗传学为他把表观遗传学描述为一个控制从基因型到表现型的机制。 1975年,Hollidy R 对表观遗传学进行了较为准确的描述。他认为表观遗传学不仅在发育过程,而且应在成体阶段研究可遗传的基因表达改变,这些信息能经过有丝分裂和减数分裂在细胞和个体世代间传递,而不借助于DNA序列的改变,也就是说表观遗传是非DNA序列差异的核遗传。 Allis等的一本书中可以找到两种定义,一种定义是表观遗传是与DNA突变无关的可遗传的表型变化;另一种定义是染色质调节的基因转录水平的变化,这种变化不涉及DNA序列的改变。 二、表观遗传学研究内容 从现在的研究情况来看,表观遗传学变化主要集中在三大方面:DNA甲基化修饰、组蛋白修饰、非编码RNA的调控作用。这三个方面各自影响特有的表观遗传学现象,而且它们还相互作用,共同决定复杂的生物学过程。因此,表观遗传学也可理解为环境和遗传相互作用的一门学科。 DNA甲基化 组蛋白共价修饰 染色质重塑 基因组中非编码RNA 微小RNA(miRNA) 反义RNA 内含子、核糖开关等 基因印记 1、DNA甲基化(DNA methylation)是研究得最清楚、也是最重要的表观遗传修饰形式,主要 是基因组DNA上的胞嘧啶第5位碳原子和甲基间的共价结合,胞嘧啶由此被修饰为5甲基胞嘧啶(5-methylcytosine,5mC)。

表观遗传学

表观遗传学:营养之间的新桥梁与健康 摘要:营养成分能逆转或改变表观遗传现象,如DNA甲基化和组蛋白修饰,从而改变表达与生理和病理过程,包括胚胎发育,衰老,和致癌作用有关的关键基因。它出现营养成分和生物活性食物成分能影响表观遗传现象,无论是催化DNA直接抑制酶甲基化或组蛋白修饰,或通过改变所必需的那些酶反应底物的可用性。在这方面,营养表观遗传学一直被看作是一个有吸引力的工具,以预防儿科发育疾病和癌症以及延迟衰老相关的过程。在最近几年,表观遗传学已成为广泛的疾病,例如2型糖尿病的新出现的问题糖尿病,肥胖,炎症,和神经认知障碍等。虽然开发治疗或预防发现的可能性这些疾病的措施是令人兴奋的,在营养表观遗传学当前的知识是有限的,还需要进一步的研究来扩大可利用的资源,更好地了解使用营养素或生物活性食品成分对保持我们的健康和预防疾病经过修改的表观遗传机制。 介绍: 表观遗传学可以被定义为基因的体细胞遗传状态,从不改变染色质结构产生的表达改变的DNA序列中,包括DNA甲基化,组蛋白修饰和染色质重塑。在过去的几十年里,表观遗传学的研究主要都集中在胚胎发育,衰老和癌症。目前,表观遗传学在许多其它领域,如炎症,肥胖,胰岛素突出抵抗,2型糖尿病,心血管疾病,神经变性疾病和免疫疾病。由于后生修饰可以通过外部或内部环境的改变因素和必须改变基因表达的能力,表观遗传学是现在被认为是在不明病因的重要机制的许多疾病。这种诱导表观遗传变化可以继承在细胞分裂,造成永久的保养所获得的表型。因此,表观遗传学可以提供一个新的框架为寻求病因在环境相关疾病,以及胚胎发育和衰老,这也是已知受许多环境因素的影响。 在营养领域,表观遗传学是格外重要的,因为营养物质和生物活性食物成分可以修改后生现象和改变的基因的表达在转录水平。叶酸,维生素B-12,甲硫氨酸,胆碱,和甜菜碱可以影响通过改变DNA甲基化和组蛋白甲基化1 - 碳代谢。两个代谢物的1-碳代谢可以影响DNA 和组蛋白的甲基化:S-腺苷甲硫氨酸(的AdoMet)5,这是一个甲基供体为甲基化反应,并S-腺苷高半胱氨酸(的AdoHcy),这是一种产物抑制剂的甲基化。因此,理论上,任何营养素,生物活性组件或条件可影响的AdoMet或的AdoHcy水平在组织中可以改变DNA和组蛋白的甲基化。其他水溶性维生素B像生物素,烟酸和泛酸也发挥组蛋白修饰重要的作用。生物素是组蛋白生物素化的底物。烟酸参与组蛋白ADPribosylation如聚(ADP-核糖)的基板聚合酶作为以及组蛋白乙酰为底物Sirt1的,其功能作为组蛋白乙酰化酶(HDAC)(1)。泛酸是的一部分辅酶A以形成乙酰CoA,这是乙酰基的中组蛋白乙酰化的源。生物活性食物成分直接影响酶参与表观遗传机制。例如,染料木黄酮和茶儿茶素会影响DNA甲基(转移酶)。白藜芦醇,丁酸盐,萝卜硫素,和二烯丙基硫化物抑制HDAC和姜黄素抑制组蛋白乙酰转移酶(HAT)。改变酶activit这些化合物可能我们的有生之年通过改变基因表达过程中影响到生理和病理过程。 在这次审查中,我们更新了关于最新知识营养表观遗传学,这将是一个有助于理解如何营养素有助于我们的健康。 知识的现状 DNA甲基化 DNA甲基化,它修改在CpG二残基与甲基的胞嘧啶碱基,通过转移酶催化和通过改变染色质结构调节基因表达模式。目前,5个不同的转移酶被称为:DNMT1,DNMT2转移酶3A,DNMT3B和DnmtL。DNMT1是一个维护转移酶和转移酶图3a,3b和L分别从头转移酶。DNMT2的功能尚不明确。通过在我们的一生,营养成分影响这些转移酶和生物活性食物成分可以改变全球DNA甲基化,这是与染色体完整性以及genespecific启动子DNA甲基化,

表观遗传学

表观遗传学 比较通俗的讲表观遗传学是研究在没有细胞核DNA序列改变的情况时,基因功能的可逆的、可遗传的改变。也指生物发育过程中包含的程序的研究。在这两种情况下,研究的对象都包括在DNA序列中未包含的基因调控信息如何传递到(细胞或生物体的)下一代这个问题。表观遗传学是与遗传学(genetic)相对应的概念。遗传学是指基于基因序列改变所致基因表达水平变化,如基因突变、基因杂合丢失和微卫星不稳定等;而表观遗传学则是指基于非基因序列改变所致基因表达水平变化,如DNA甲基化和染色质构象变化等;表观基因组学(epigenomics)则是在基因组水平上对表观遗传学改变的研究。所谓DNA甲基化是指在DNA 甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。 几十年来,DNA一直被认为是决定生命遗传信息的核心物质,但是近些年新的研究表明,生命遗传信息从来就不是基因所能完全决定的,比如科学家们发现,可以在不影响DNA序列的情况下改变基因组的修饰,这种改变不仅可以影响个体的发育,而且还可以遗传下去。这种在基因组的水平上研究表观遗传修饰的领域被称为“表观基因组学(epigenomics)”。表观基因组学使人们对基因组的认识又增加了一个新视点:对基因组而言,不仅仅是序列包含遗传信息,而且其修饰也可以记载遗传信息。 摘要表观遗传学是研究没有DNA 序列变化的可遗传的基因表达的改变。遗传学和表观遗传学系统既相区别、彼此影响,又相辅相成,共同确保细胞的正常功能。表观遗传学信息的改变,可导致基因转录抑制、基因组印记、细胞凋亡、染色体灭活以及肿瘤发生等。 关键词表观遗传学;甲基化;组蛋白修饰;染色质重塑;非编码RNA 调控;副突变 表观遗传学( epigenetics) 是研究没有DNA序列变化的可遗传的基因表达的改变。它最早是在1939 年由Waddington在《现代遗传学导论》一书中提出,当时认为表观遗传学是研究基因型产生表型的过程。1996 年,国内学术界开始介绍epigenetics 研究,其中译名有表遗传学、表观遗传学、表型遗传修饰等10 余种,其中,表观遗传学、表遗传学在科技文献中出现的频率较高。 1 表观遗传学调控的分子机制 基因表达正确与否,既受控于DNA 序列,又受制于表观遗传学信息。表观遗传学主要通过DNA 的甲基化、组蛋白修饰、染色质重塑和非编码RNA 调控等方式控制基因表达。近年发现,副突变也包含有表观遗传性质的变化。 1.1 DNA 甲基化DNA 甲基化是由酶介导的一种化学修饰,即将甲基选择性地添加到蛋白质、DNA 或RNA上,虽未改变核苷酸顺序及组成,但基因表达却受影响。其修饰有多种方式,即被修饰位点的碱基可以是腺嘌呤N!6 位、胞嘧啶的N!4 位、鸟嘌呤的N!7 位和胞嘧啶的C!5 位,分别由不同的DNA 甲基化酶催化。在真核生物DNA 中,5- 甲基胞嘧啶是唯一存在的化学性修饰碱基,CG 二核苷酸是最主要的甲基化位点。DNA 甲基化时,胞嘧啶从DNA 双螺旋突出,进入能与酶结合的裂隙中,在胞嘧啶甲基转移酶催化下,有活性的甲基从S- 腺苷甲硫氨酸转移至胞嘧啶5' 位上,形成5- 甲基胞嘧啶( 5mC)。DNA 甲基化不仅可影响细胞基因的表达,

表观遗传学(总结)资料

1.表观遗传学概念 表观遗传是与DNA 突变无关的可遗传的表型变化,且是染色质调节的基因转录水平的变化,这种变化不涉及DNA 序列的改变。表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传学内容包括DNA 甲基化、组蛋白修饰、染色质重塑、遗传印记、随机染色体失活及非编码RNA 等调节。研究表明,这些表观遗传学因素是对环境各种刺激因素变化的反映,且均为维持机体内环境稳定所必需。它们通过相互作用以调节基因表达,调控细胞分化和表型,有助于机体正常生理功能的发挥,然而表观遗传学异常也是诸多疾病发生的诱因。因此,进一步了解表观遗传学机 制及其生理病理意义,是目前生物医学研究的关键切入点。 别名:实验胚胎学、拟遗传学、、外遗传学以及后遗传学 表观遗传学是与遗传学(genetic)相对应的概念。遗传学是指基于基因序列改变所致基因表达水平变化,如基因突变、基因杂合丢失和微卫星不稳定等;而表观遗传学则是指基于非基因序列改变所致基因表达水平变化,如和染色质构象变化等;表观基因组学(epigenomics)则是在基因组水平上对表观遗传学改变的研究。 2.表观遗传学现象 (1)DNA甲基化 是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分每1 Mb就有5—15个CpG岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲基化所致抑癌基因转录失活问题,DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。 (2)基因组印记 基因组印记是指来自父方和母方的等位基因在通过精子和传递给子代时发生了修饰,使带有亲代印记的等位基因具有不同的表达特性,这种修饰常为DNA甲基化修饰,也包括组蛋白乙酰化、甲基化等修饰。在形成早期,来自父方和母方的印记将全部被消除,父方等位基因在精母细胞形成精子时产生新的甲基化模式,但在受精时这种甲基化模式还将发生改变;母方等位基因甲基化模式在卵子发生时形成,因此在受精前来自父方和母方的等位基因具有不同的甲基化模式。目前发现的大约80%成簇,这些成簇的基因被位于同一条链上的所调控,该位点被称做印记中心(imprinting center, IC)。印记基因的存在反映了性别的竞争,从目前发现的印记基因来看,父方对的贡献是加速其发育,而母方则是限制胚胎发育速度,亲代通过印记基因来影响其下一代,使它们具有性别行为特异性以保证本方基因在中的优势。印记基因的异常表达引发伴有复杂突变和表型缺陷的多种人类疾病。研究发现许多印记基因对胚胎和胎

表观遗传学

表观遗传学 摘要: 表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNA methylation),基因组印记(genomic impriting),母体效应(maternal effects),基因沉默(gene silencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。 表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达了可遗传的变化的一门遗传学分支学科。表观遗传的现象很多,已知的有DNA甲基化(DNA methylation),基因组印记(genomic impriting),母体效应(maternal effects),基因沉默(gene silencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。 目录 [隐藏] 1 简介 2 染色质重塑 3 基因组印记 4 染色体失活 5 非编码RNA 表观遗传学简介 表观遗传学 表观遗传学是与遗传学(genetic) 相对应的概念。遗传学是指基于基因序列改变所致基因表达水平变化,如基因突变、基因杂合丢失和微卫星不稳定等;而表观遗传学则是指基于非基因序列改变所致基因表达水平变化,如DNA甲基化和染色质构象变化等;表观基因组学(epigenomics)则是在基因组水平上对表观遗传学改变的研究。 所谓DNA甲基化是指在DNA甲基化转移酶的作用下,在基因组CpG二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。正常情况下,人类基因组“垃圾”序列的CpG二核苷酸相对稀少,并且总是处于甲基化状态,与之相反,人类基因组中大小为100—1000 bp左右且富含CpG二核苷酸的CpG岛则总是处于未甲基化状态,并且与56%的人类基因组编码基因相关。人类基因组序列草图分析结果表明,人类基因组CpG岛约为28890个,大部分染色体每1 Mb就有5—15个CpG 岛,平均值为每Mb含10.5个CpG岛,CpG岛的数目与基因密度有良好的对应关系[9]。由于DNA甲基化与人类发育和肿瘤疾病的密切关系,特别是CpG岛甲

表观遗传学涉及的几种机制

表观遗传学涉及的几种机制 摘要表观遗传学是指以研究没有DNA序列变化,但是可以遗传的生命现象为主要内容的学科。它通过DNA的甲基化、组蛋白修饰、染色质重塑和非编码RNA调控4种方式来控制表观遗传的沉默。从表观遗传学所涉及的这四种机制进行描述。 关键词表观遗传学;DNA的甲基化;组蛋白修饰;染色质重塑;非编码RNA调控 随着生命科学的发展,几十年来,人们一直认为基因决定着生命过程中所需要的各种蛋白质,决定着生命体的表型。但随着研究的深入,越来越多无法解释的生命现象一一出现:具有完全相同的基因组的同卵双生,即使在同样的环境中长大,他们的性格、健康等方面也会有较大的差异;有些特征只是由一个亲本的基因来决定,而源自另一亲本的基因却保持“沉默”;马、驴正反交的后代差别较大等。人们无法用经典的遗传学理论解释这些现象。现在,遗传学中的一个前沿领域:表观遗传学(Epigenetics),为人们提供了解答这类问题的新思路。表观遗传学(Epigenetics)是1957年由Waddington CH提出的,是研究表观遗传变异的遗传学分支学科。表观遗传变异(Epigenetic variation)是指在基因的DNA序列没有发生改变的情况下,基因功能发生了可遗传的变化,并最终导致了表型的变化。它是不符合孟德尔遗传规律的核内遗传,由此可以认为,基因组含有2类遗传信息,一类是传统意义上的遗传信息,即DNA序列所提供的遗传信息,另一类是表观遗传学信息,它提供了何时、何地、以何种方式去应用遗传信息的指令。本文就表观遗传改变涉及DNA的甲基化、组蛋白修饰、染色质重塑、非编码RNA调控等机制进行论述。 1DNA甲基化 DNA甲基化是基因组DNA表观遗传修饰的一种主要形式,是调节基因组功能的重要手段。它是由DNA甲基转移酶催化S-腺苷甲硫氨酸作为甲基供体,将胞嘧啶转变为5-甲基胞嘧啶(mC)的反应。在真核生物DNA中,5-甲基胞嘧啶是唯一存在的化学性修饰碱基。在哺乳动物细胞的基因组DNA中,3%~5%的胞嘧啶是以5-甲基胞嘧啶形式存在的。同时70%的5-甲基胞嘧啶参与了CpG序列的形成。而非甲基化的CpG序列则与管家基因以及组织特异性表达基因有关,这提示CpG 的甲基化与否在基因的表达中起重要作用。 体内甲基化状态有3种:持续的低甲基化状态,如持家基因;诱导的去甲基化状态,如发育阶段中的一些基因;高度甲基化状态,如女性的一条缢缩的X染色体。DNA甲基化影响到基因的表达,与肿瘤的发生密切相关。把癌基因组学与表观遗传学的研究结合起来,是癌症研究的发展趋势。人类的一些癌症常出现整个基因组DNA的低甲基化,但人们并不清楚这种表观遗传变化是肿瘤产生的诱因还是结果。研究者构建了携带低表达水平Dnmtl基因的小鼠,对它的研究结果显示,DNA低甲基化可能通过提高染色体的不稳定性来促进肿瘤的形成。

[遗传学的名词解释] 表观遗传学名词解释

竭诚为您提供优质的服务,优质的文档,谢谢阅读/双击去除 [遗传学的名词解释] 表观遗传学名词 解释 遗传学的意思是什么呢?怎么用遗传学来造句?下面是 小编为你整理遗传学的意思,欣赏和精选造句,供大家阅览! 遗传学的意思 遗传学(genetics)是一门学科,研究生物起源、进化与发育的基因和基因组结构、功能与演变及其规律等,是生物学的一个重要分支,经历了孟德尔经典遗传学、分子遗传学和如今系统遗传学的研究时期。在史前人们就已经利用生物体的遗传特性通过选择育种来提高谷物和牲畜的产量,虽然

遗传学在决定生物体外形和行为的过程中扮演着重要的角色,但此过程是遗传学和生物体所经历的环境共同作用的结果。遗传学中的亲子概念不限于父母子女或一个家族,还可以延伸到包括许多家族的群体,这是群体遗传学的研究对象。遗传学中的亲子概念还可以以细胞为单位,离体培养的细胞可以保持个体的一些遗传特性。1992年10月1日,伦敦发 表第一张染色体图被认为是遗传学上的一个里程碑。 遗传学的研究范围包括遗传物质的本质、遗传物质的传递和遗传信息的实现三个方面。遗传物质的传递包括遗传物质的复制、染色体的行为、遗传规律和基因在群体中的数量变迁等。 遗传学造句欣赏 1.父母不能骂自己的孩子是小兔崽子,因为这在遗传学上是对父母不利的。 2.我们以斑马鱼为模式动物,利用发育遗传学、生物信

息学和分子化学的方法研究心脏和血管的分化形成以及环 境对心血管发育的影响。 3.这是真菌进化遗传学的网页。 4.利用模式动物探索哺乳动物发育遗传学研究新方法,并研究发育和疾病机理。 5.提供固体的历史背景,序篇检查过去概念的行为遗传学流。 6.目的研究河南汉族人群的指纹纹型特点,为人类学、遗传学和医学肤纹学等研究领域提供基础皮纹学参数。 7.行为遗传学告诉我们即使在个人的范围上很多生活 中的结果都似乎是路径依赖性的,或者仅仅是无法预测的,即使是同卵双生的人。

表观遗传学

Brian Dias 去年10 月晋升为父亲,和许多新父母一样,孩子出生前他就开始考虑要承担各种责任。但Dias 考虑的问题更多,他已经考虑自己的父母或祖父母是否也会对孩子产生影响。 祖先生活环境,受教育程度,都可能通过遗传对后代产生影响。是否祖先的生活习惯或遭遇,例如吸烟、饥荒或战争经历也会对后代的健康产生影响? Dias 是艾默理大学(Emory University)克里莱斯勒实验室的博士后。在儿子出生前2 年,他的研究就是和上述问题有关的。他观察暴露在恶劣气味环境动物后代大脑产生的影响。乙酰苯是一种有甜杏仁味的化合物,Dias 将雄性小鼠暴露在乙酰苯环境下,然后对他们每天5 次中度电足刺激,连续3 天。这些动物会对这些刺激恐惧,一旦有乙酰苯味道就会僵住。 10 天后,Dias 让这些动物和正常雌性小鼠动物交配。这些动物后代成年后,大部分对乙酰苯敏感,当暴露在这种气味下,有意外声音就会惊慌失措。动物的下一代(孙辈)仍会对乙酰苯敏感。研究发现,三代动物M71 肾小球结构增大,其中乙酰苯敏感神经元增加。最近这一研究发表在《自然-神经科学》杂志上,Dias 等认为,环境信息可通过表观遗传机制传递给后代。 表观遗传学是在DNA碱基序列不变前提下引起基因表达或细胞表型变化的一种遗传。生物学家最早是在植物中发现表观遗传现象。开始发现西红柿存在表观遗传现象,随后证明在动物和人类也普遍存在这种现象。表观遗传学仍存在争议,尤其是会让人回想起来19世纪法国博物学家拉马克的失败理论。他提出,生物能将获得性状遗传给后代。麻省大学医学院分子生物学家Oliver Rando,研究证明了动物的表观遗传现象,对许多现代生物学家来说,

表观遗传学考试复习

、名词解释表观遗传 DNA 序列不发生改变但基因表达却发生了变化的一种有别于传统遗传学的遗传方式,主要原因包括:(1)基因选择性转录表达的调控,包括DNA 甲基化,基因印记,组蛋白共价修饰,染色质重塑;(2)基因转录后的调控,包含基因组中非编码的RNA,如miRNA,siRNA等。 剂量补偿效应 在生物的性别决定机制中,性连锁基因在两种性别中有相等或近乎相等的有效剂量的遗传效应,即在雌性和雄性细胞里,由X 染色体基因编码产生的酶或其他蛋白质产物在数 量上相等或近乎相等。 染色质重塑 基因表达调控过程中所出现的一系列染色质结构变化和位置改变的总称,研究内容包括基因表达的复制和重组等过程中,染色质的包装状态,核小体中的组蛋白以及对应的DNA 分子发生改变的分子机理。 RNA 干扰 生物体内通过双链RNA 分子在mRNA水平上诱导具有特异性序列的转录后基因沉默的过程(如miRNA,siRNA 等),是表观遗传学中的一种重要现象。 CpG 岛 基因组中富含CpG的区域,长度500~ 1000bp ,GC含量超过55%,常分布在持家基因和一些组织表达特异性基因的启动子区域,其中70% 的 C 是甲基化的,但总的来说G+C 丰富的CpG 岛是非甲基化的。CpG岛区域序列可以被HpaII 酶(CCGG)切成小片段,因此也叫HTF 岛。 CpG 岛在基因转录调控过程中有重要作用,例如启动子区CpG 被甲基化时转录是受抑制的。Histone Crosstalk 组蛋白的不同化学修饰之间相互作用,不仅表现为同种组蛋白不同残基的一种修饰能加速或抑制另一修饰的发生,并且在影响其他组蛋白残基的同时,也受到另外组蛋白残基修饰的调节。 泛素化修饰 组蛋白赖氨酸残基与泛素分子羧基末端的甘氨酸相互结合,可能会改变底物的结构,参与内吞作用、组蛋白的活性、DNA 修复等过程等。组蛋白的泛素化修饰则会招募核小体到染色体、参与X 染色体失活、影响组蛋白甲基化和基因的转录。 SUMO 修饰 小泛素相关修饰物(small ubiquitin related modifier, SUMO ),是一种ATP依赖的小蛋白的共价修饰,通常发生在赖氨酸(K)上,其生物学功能包括:转录沉默、抑制组蛋白的乙酰化。

相关文档