文档库 最新最全的文档下载
当前位置:文档库 › 全基因组关联分析在畜禽上的应用题库

全基因组关联分析在畜禽上的应用题库

全基因组关联分析在畜禽上的应用题库
全基因组关联分析在畜禽上的应用题库

全基因组关联分析在畜禽上的应用

摘要:随着数量遗传学、分子生物学以及计算机水平的高速发展,出现了数量遗传学与分子遗传学的结合,动物育种中也不断出现新的方法,全基因组关联分析(GWAS)以及全基因组选择(GS)。本文主要介绍了GWAS及其在几种畜禽上的应用和问题。

关键字:GWAS,牛,猪,鸡,应用

对畜禽实施标记辅助选择可提高遗传进展,但是我们首先需要找到影响畜禽重要性状的主效基因。候选基因分析和标记QTL连锁分析策略使我们对一些基因的功能和作用方式有所了解,也找到了一些主效基因。但是生物基因组中有庞大的基因数目,很多控制畜禽经济性状的基因还无法分离和鉴定,这就需要一种全新的研究手段,最好能无偏地覆盖所有基因,并能高通量检测和适应不断更新的物种基因组序列。20世纪80年代后期90年代初期,随着数量遗传学理论研究的不断深入、分子生物学的飞跃发展、计算机水平的日新月异,开始出现数量遗传学与分子遗传学结合研究的热潮,发展为现在的分子数量遗传学。动物育种中也在传统育种方法的基础上不断提出新的方法:全基因组关联分析(Genome-Wide Association Studies,GWAS)以及全基因组选择。

GWAS就可以解决以上问题,GWAS是一种对全基因组范围内的常见遗传变异:单核苷酸多态性(Single nucleotide polymorphism,SNP)和拷贝数变异(Copy number variation,CNV)进行总体关联分析的方法,其核心思想是利用全基因组范围的连锁不平衡来确定影响复杂性状或数量性状的基因[1]。

GWAS目前主要是应用在人类的复杂疾病上,2005年,自从《Science》杂志上首次报道了Klein等利用Affymetrix100K的基因芯片对年龄相关性视网膜黄斑变性进行GWAS的结果之后,一大批有关复杂疾病的GWAS报道不断出现。已经陆续报导和公布了视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病全基因组关联研究的结果[2]。

在中国农业大学图书馆SCI数据中输入GWAS的相关词,并分析其检索结果。如表1。虽然这个数据并不是很全面,但是也反映了GWAS的迅速发展。

是什么原因导致GWAS发展这么快速呢?主要原因可以归结于以下3个方面:首先是基础研究的支撑,基因组计划的完成和SNP数据库的建立为GWAS 的开展奠定了基础;第二是技术上的成熟,如高通量SNP芯片检测的发展;第三是统计方法的发展,GWAS因样本量大、数据庞杂,同时还需克服群体混杂、选择偏倚、多重比较等带来的假阳性问题,需要有正确严谨的统计分析方法解决[1]。

表1中国农业大学SCI数据库中每年发表的关于GWAS的数目

除了对人类复杂疾病和人类数量性状方面应用GWAS。随着不同基因组测序的相继完成以及高通量测序技术平台的搭建,GWAS也开始在畜禽疾病性状和数量性状方面发挥重要的作用。

GWAS在畜禽中的应用起步较晚,并主要集中在对重要经济性状的研究中。与人类不同,当前的畜禽品种在长期的人工选择驯化过程中,其有效群体含量较人类小,群体的连锁不平衡水平较高,往往造成单体型块的出现。因此,在畜禽中开展GWAS所需标记数量适中,目前商业化的动物SNP芯片密度一般在50K-60K左右,如果在品种内进行GWAS研究,50K的芯片基因就能满足定位要求,品种间的分析可能需要更高密度的SNP[3]。

1.在畜禽上的应用现状

自从GWAS在畜禽上应用以来,研究人员一直致力于影响复杂性状的标记及主效基因的挖掘。目前已有多个具有较强统计显著性的SNPs及区域被发现。下面介绍一下GWAS在牛,猪和鸡上的应用。

1.1在牛上的应用

GWAS在畜禽上应用的较多的是在奶牛上。包括奶牛的健康性状、产奶性状、繁殖性状、生产寿命性状、体型性状、功能性状等都有报道。

对于奶牛的产奶性状上,Bastiaansen等使用Bovine SNP50芯片。对荷兰、苏格兰、瑞典和爱尔兰等国家共计1 933头荷斯坦牛进行了产奶量和脂蛋比性状GWAS研究,共发现了36个影响产奶量的SNP标记[1]。Jiang[4]等基于来自14个父系半同胞家系的2093头中国荷斯坦母牛女儿设计试验群体进行了5个产奶

性状的GWAS,采用Bovine SNP50芯片,传递不平衡检验方法(Transmission disequilibrium test,TDT)和基于回归分析的混合模型方法(Mixed model based regression analysis,MMRA),共检测到105个显著SNP标记与某个或多个产奶性状显著相关。齐超等基于中国荷斯坦牛女儿设计资源群体,采用Illumina公司Bovine 50K微珠芯片对产奶性状进行了全基因组关联分析(GWAS),利用传递不平衡(L1-TDT)和回归分析2种统计分析方法共同检测到35个显著SNPs位点。后来齐超[5]等旨在基于该GWAS结果进一步对产奶性状基因进行鉴定及功能注释。基于牛基因组序列草图,采用生物信息学和比较基因组学方法进行显著SNPs 位置候选基因筛查和功能预测。分析发现。12个SNPs位点位于基因内部,23个位于基因侧翼.最终鉴定到28个位置候选基因,并确定了其物理位置、基因类型及潜在功能。基因功能可归纳为6种类型:调节机体营养成分代谢和平衡、细胞骨架或基质成分、调节细胞增殖和周期及凋亡、参与细胞信号转导和盐离子通道构成、具有激酶活性、参与mRNA转录调控或翻译调控。该研究为进一步鉴定中国荷斯坦牛产奶性状主效基因及功能验证打下了基础。

1.2在家禽上的应用

在家禽上应用相比在猪和牛上的还比较少。Liu[6]等利用Illumina 60k鸡SNP 芯片对385只白来航和361只矮小型褐壳蛋鸡纯系分别进行蛋品质和产蛋性状的GWAS研究,利用Fisher合并P值法对两个群体的关联分析结果进行整合分析,发现8个显著关联SNP。Xie[7]等以杏花鸡×隐性白羽洛克鸡全同胞资源群3代共554个个体样本为实验材料,采用Illumina 60K鸡SNP芯片进行基因分型,对鸡肉质、屠体及生长性状进行了GWAS研究,发现1号染色体 1.5 Mb KPNA3-FOXO1A的区间内有5个SNP对鸡22-42天和生长有最高的显著效应。Gu[8]等以法国明星肉鸡和丝羽乌骨鸡为亲本建立的F2资源群体为材料,对体重性状进行了全基因组关联分析研究,发现26个显著关联位点,其中1个位于18号染色体,2个位于1号染色体,23个位于4号染色体,共涉及10个不同的SNP,并发现影响后期体重效应最大的SNP位于LDB2基因内含子中。张磊[3]研究利用60K SNP基因分型芯片对来自50个公鸡家系的728只北京油鸡纯系公鸡个体进行了基因型检测,采用全基因组关联分析方法,对影响部分免疫性状的染色体片段或基因进行定位研究,采用单标记的线性回归模型,对9个免疫性状进行了全基因组关联分析,共检测到33个达5%基因组水平显著关联的SNP。在显著位点中,8个SNP与胸腺重、16个与脾脏重达到基因组水平显著关联,并在这些位点附近找到JAK1、QK I、PDLIM7等候选基因,部分SNP位于已报道QTL 内;9个与血清IgG水平达到基因组水平显著关联,并在附近找到CD1b、B-G、IL4I1、GNB2L1、BMA1等候选基因,其中5个集中分布在16号染色体260kb

区间内,而已知16号染色体上存在大量与免疫相关的基因,因此,此区域可能是影响该性状的重要候选区域。Noorai[9]等采用GWAS和单倍型方法,对Araucana (阿劳肯鸡)无尾性状和耳毛性状进行分析,确定了控制这两个的基因分别位于2号和15号染色体上。

1.3在猪上的应用

程笃学[10]等以大白猪×民猪F2设计资源群体为研究对象,采用11lumina公司猪SNP60K分型芯片技术,开展胴体瘦肉量(LMW)GWAS研究,寻找与瘦肉量相关的遗传变异。所有F2代个体在达到(240±7)d日龄时进行屠宰测定。对分型后的355头F2个体,采用基于混合模型及回归的快速全基因组关联及基因组控制法进行GWAS分析,结果获得14个在染色体水平与瘦肉量性状显著关联的SNP位点。其中2个SNP位点ALGA 0 010 777和ALGA 0 010 788分别位于1号染色体上285 030 256和285 276 856 bp处;10个SNP位点都位于猪2号染色体末端,可能与已发现的瘦肉量基因突变位点IGF2-intron3-G3072A紧密连锁;2个SNP位点ASGA0 065 444和ASGA0 065 455位于14号染色体上99 627 980和100 078 535 bp处。这次研究为猪的瘦肉量性状提供了显著关联SNP位点,预测了新的候选基因。

李杰[11]研究以白色杜洛克×二花脸资源群体F2代母猪为研究对象,在母猪初情期QTL初步定位的基础上,利用Illumina猪60KSNP芯片对316头有初情期表型记录的F2母猪及其亲本进行全基因组关联分析(GWAS),并通过增加标记密度对初步定位的QTL进行精细定位,在此基础上分析L1N28B和TMEM38B 两个位置候选基因与母猪初情期的关联性。基于60K SNP基因型数据的连锁和连锁不平衡分析结果显示,在SSCl、SSC2、SSC6、SSC7和SSCl3存在多个与母猪初情期显著关联的单倍型。其中SSC7上的单倍型与初情期关联性最强。

Ren[12]等利用猪60KSNP芯片通过全基因组关联分析和IBD定位分析,鉴别了控制藏猪、大河猪和可乐猪等中国地方猪中宗褐毛色形成的TYRPl基因因果突变位点。

2.存在问题及解决办法

目前GWAS多采用两阶段设计的方法:首先采用覆盖整个基因组的高通量SNP分型芯片对一批样本进行扫描,其次筛选出最显著的SNP(如P<0.05)供第二阶段扩大样本验证。GWAS两阶段研究设计减少了基因分型的工作量和花费[3]。但是GWAS也在在一些问题①多SNP检测的关联研究容易得出假阳性结果,因此,GWAS的关联性P值必须符合严格的、基因组水平上的统计学标准。另外,GWAS的关联性结果需要验证性研究(replication study)的证实;②GWAS中的大多数SNP的关联度较弱OR(odd sratio)值在1.2—1.4之间,需要大样本量的研究

进一步发现真正的相关位点;③GWAS发现的许多位点并不在蛋白编码基因或其附近,也不在既往认为与性状相关的基因的附近,因此致使较难解释其生物学功能;④GWAS发现的有些位点与几种不同的疾病发生关联,提示该基因可能存在多效性;⑤对于GWAS发现的SNP或基因,目前仍很少有令人信服的研究来阐明它们的生物学功能或不良作用[13]。

因此,GWAS只提示某些基因与目的性状具有关联性,为目的性状机制的研究提供启示,至于确定性状易感基因的功能以及在性状发生发展中的作用仍然需要进行精细定位研究,在寻找性状相关变异、易感基因的功能和结构及转录调节等方面需进一步研究[1]。

虽然GWAS现在面临这些问题,但作为一种趋势,随着表观遗传图谱,蛋白表达谱以及生理学等学科综合推进,作为一种综合性的分析方法,GWAS必将迎来一个更广阔的发展空间。

参考文献

[1] 李聪, 孙东晓, 姜力,奶牛重要经济性状全基因组关联分析研究进展. 遗传, 2012, (1)

[2] 全基因组关联分析(GWAS). 世界科学, 2011, (9): 28

[3] 张磊. 鸡部分免疫性状全基因组关联分析研究: [硕士学位论文]. 中国农业科学院, 2012

[4] Jiang L, Liu J, Sun D, et al. Genome Wide Association Studies for Milk Production Traits in Chinese Holstein Population. PLOS ONE, 2010, 5(e1366110)

[5] 齐超, 谢岩, 吴晓平,基于全基因组信息鉴定中国荷斯坦牛产奶性状基因及功能注释. 畜牧兽医学报, 2012, (6): 872~877

[6] Liu W B, Li D F, Liu J F, et al. A Genome-Wide SNP Scan Reveals Novel Loci for Egg Production and Quality Traits in White Leghorn and Brown-Egg Dwarf Layers. PLOS ONE, 2011, 6(e2860012)

[7] Xie L, Luo C L, Zhang C G, et al. Genome-Wide Association Study Identified a Narrow Chromosome 1 Region Associated with Chicken Growth Traits. PLOS ONE, 2012, 7(e309102)

[8] Gu X, Feng C, Ma L, et al. Genome-Wide Association Study of Body Weight in Chicken F2 Resource Population. PLOS ONE, 2011, 6(e218727)

[9] Noorai R E, Freese N H, Wright L M, et al. Genome-Wide Association Mapping and Identification of Candidate Genes for the Rumpless and Ear-tufted Traits of the Araucana Chicken. PLOS ONE, 2012, 7(e409747)

[10] 程笃学, 罗维真, 张龙超, 利用大白猪×民猪F_2资源群体开展瘦肉量全基因组关联研究. 农业生物技术学报, 2012, (8)

[11] 李杰. 母猪初情期全基因组关联分析和位置候选基因研究: [硕士学位论文]. 江西农业大学, 2011

[12] Ren J, Mao H, Zhang Z, et al. A 6-bp deletion in the TYRP1 gene causes the brown colouration phenotype in Chinese indigenous pigs. HEREDITY, 2011, 106(5): 862~868

[13] 顾明亮. 全基因组关联研究的策略及面临的挑战. 国际遗传学杂志, 2012, 35(2): 70~81

全基因组关联分析的原理和方法

全基因组关联分析(Genome-wide association study;GWAS)是应用基因组中 数以百万计的单核苷酸多态性(single nucleotide ploymorphism ,SNP)为分子 遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。 随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS方法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。 全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。 人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SNP位点有439 个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年, Science 杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动, 此后一系列GWAS陆续展开。2006 年, 波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究样本关于肥胖的GWAS结果(Herbert 等. 2006);2007 年, Saxena 等多个研究组联合报道了与2 型糖尿病( T2D ) 关联的多个位点, Samani 等则发表了冠心病GWAS结果( Samani 等. 2007); 2008 年, Barrett 等通过GWAS发现了30 个与克罗恩病( Crohns ' disrease) 相关的易感位点; 2009 年, W e is s 等通过GWAS发现了与具有高度遗传性的神经发育疾病——自闭症关联的染色体区域。我国学者则通过对12 000 多名汉族系统性红斑狼疮患者以及健康对照者的GWAS发现了5 个红斑狼疮易感基因, 并确定了4 个新的易感位点( Han 等. 2009) 。截至2009 年10 月, 已经陆续报道了关于人类身高、体重、 血压等主要性状, 以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分 裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果, 累计发表了近万篇 论文, 确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。) 标记基因的选择: 1)Hap Map是展示人类常见遗传变异的一个图谱, 第1 阶段完成后提供了 4 个人类种族[ Yoruban ,Northern and Western European , and Asian ( Chinese and Japanese) ] 共269 个个体基因组, 超过100 万个SNP( 约1

全基因组关联分析(GWAS)解决方案

全基因组关联分析(GWAS)解决方案 ※ 概述 全基因组关联研究(Genome-wide association study,GWAS)是用来检测全基因组范围的遗传变异与 可观测的性状之间的遗传关联的一种策略。2005年,Science杂志报道了第一篇GWAS研究——年龄相关性黄 斑变性,之后陆续出现了有关冠心病、肥胖、2型糖尿病、甘油三酯、精神分裂症等的研究报道。截至2010年 底,单是在人类上就有1212篇GWAS文章被发表,涉及210个性状。GWAS主要基于共变法的思想,该方法是 人类进行科学思维和实践的最重要工具之一;统计学研究也表明,GWAS很长时期内都将处于蓬勃发展期(如 下图所示)。 基因型数据和表型数据的获得,随着诸多新技术的发展变得日益海量、廉价、快捷、准确和全面:如 Affymetrix和Illumina公司的SNP基因分型芯片已经可以达到2M的标记密度;便携式电子器械将产生海量的表型 数据;新一代测序技术的迅猛发展,将催生更高通量、更多类别的基因型,以及不同类别的高通量表型。基于 此,我们推出GWAS的完整解决方案,协助您一起探索生物奥秘。 ※ 实验技术流程 ※ 基于芯片的GWAS Affymetrix公司针对人类全基因组SNP检测推出多个版本检测芯片,2007年5月份,Affymetrix公司发布了 人全基因组SNP 6.0芯片,包含90多万个用于单核苷酸多态性(SNP)检测探针和更多数量的用于拷贝数变化(CNV)检测的非多态性探针。因此这种芯片可检测超过180万个位点基因组序列变异,即可用于全基因组 SNP分析,又可用于CNV分析,真正实现了一种芯片两种用途,方便研究者挖掘基因组序列变异信息。 Illumina激光共聚焦微珠芯片平台为全世界的科研用户提供了最为先进的SNP(单核苷酸多态性)研究平 台。Illumina的SNP芯片有两类,一类是基于infinium技术的全基因组SNP检测芯片(Infinium? Whole Genome Genotyping),适用于全基因组SNP分型研究及基因拷贝数变化研究,一张芯片检测几十万标签SNP位点,提 供大规模疾病基因扫描(Hap660,1M)。另一类是基于GoldenGate?特定SNP位点检测芯片,根据研究需要挑选SNP位点制作成芯片(48-1536位点),是复杂疾病基因定位的最佳工具。 罗氏NimbleGen根据人类基因组序列信息设计的2.1M超高密度CGH芯片,可以在1.1Kb分辨率下完成全基 因组检测,可有效检测人基因组中低至约5kb大小的拷贝数变异。

全基因组关联分析

全基因组关联分析(Genome-wide association study,GWAS) 是一种对全基因组范围内的常见遗传变异: 单核苷酸多态性(Single nucleotide polymorphism , SNP) 进行总体关联分析的方法, 即在全基因组范围内选择遗传变异进行基因分型, 比较病例和对照间每个变异频率的异差, 计算变异与疾病的关联强度, 选出最相关的变异进行验证并最终确认与疾病相关。 单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是由单个核苷酸—A,T,C或G的改变而引起的DNA序列的改变,造成包括人类在内的物种之间染色体基因组的多样性。 在后GWAS时代,利用已有的GWAS数据在多个人群间进行meta分析已经成为一种常用的分析手 段,这不仅可以进一步扩大样本量,更重要的是提高了统计效能。GWAS meta分 析已经成功应该用在多种复杂疾病的遗传学研究,发现一批新的易感基因。 全基因组关联水平(P_meta < 5.0×10-8)罕见等位基因(MAF < 5%), 基因型填补(imputation):依据已分型位点的基因型对数据缺失位点或未分型位点进行基因型预测的方法。可用于精细定位(fine-mapping),填补已确认的关联位点附近的位点,以便评价相邻SNP位点的关联证据。加快复杂性疾病易感基因的定位。 连锁与连锁不平衡(linkage disequilibrium,LD): 连锁:如果同一条染色体上2个位点的位置比较近,则这2个位点上的等位基因倾向于一起传递给下一代。 连锁不平衡:又称等位基因关联,是指同一条染色体上,两个等位基因间的非随机相关。即当位于同一条染色体上的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时,就称这两个位点处于LD状态。所谓的连锁不平衡是一种遗传标记的非随机性组合。比如,一个基因有两个位点,一个位点有两种基因型,那么子代应该有2的2次方,即4种基因型。但是发现子代的基因型往往会少于4种,这就是连锁不平衡现象。这是由于两个位点距离较近引起的两个位点上的等位基因经常同时出现在同一染色体上。

基于全基因组关联分析的基因(环境)交互作用统计学方法进展

万方数据

万方数据

708 图lMDR基本步骤示意图 划分为不同的分类,也就是图中的单元格。单元格中左侧直方图表示病例,右侧直方图表示对照。 第4步:在n维的每个多因子分类(单元格)中,计算病例数和对照数的比值,若病例数与对照数之比达到或超过某个阈值(例如≥1),则标为高危,反之则为低危。这样就把n维的结构降低到一维两水平。 第5步:多因子分类的集合中包含了MDR模型中各因子的组合。在所有的两因子组合中,选择错分最小的那个MDR模型,该两位点模型在所有模型中将具有最小的预测误差。 第6步:通过十重交叉验证评估模型的预测误差,一以及单元格分配时的相对误差。也就是说,模型拟合9/10的数据(训练样本),其预测误差将通过剩下1/10的数据(检验样本)来衡量。选择预测误差最小的模型作为最终的模型,取lO次检验的预测误差平均值,作为模型相对预测误差的无偏估计。由于数据分组的方式对交叉验证的结果影响较大,因此,十重交叉验证过程将重复进行10次,对n个因子可能的集合将重复进行10×10次的交叉验证。 通过十重交叉验证,在一定程度上可以避免因数据转换的偶然性,使I类错误增大而产生假阳性结果的影响。预测误差是衡量MDR模型在独立检验的亚组中预测危险状态的指标,通过十重交叉验证的亚组中每一个的预测误差的平均值来计算。根据交叉验证的预测误差的平均值,选择最佳的Tl因子模型,并根据不同的因子数重复以上过程。最终筛选出最有可能存在交互作用的基因。 MDR的优势在于不需要考虑疾病的遗传模型,它利用计算机运算速度快的优势,对多个基因进行随机组合,按照上述方法找出存在交互作用的基因位点。但当主效应存在时,用MDR方法很难得到最终模型,且同样受遗传异质性的影响;它只是一种数据挖掘方法,不是严格意义上的统计方法,还无法判断它的I类错误和检验功效。 MDR分析软件包可在http://www.epistasis.org/mdr.html免费下载。 4基于复合LD的交互作用分析法 吴学森等Ⅲ’提出基于复合LD的交互作用的分析法。该方法以病例一对照试验设计为基础,基于LD计算方法,构建完全有别于以上方法的一种新型基因间交互作用的统计分析方法:(1)用两个位点(基因)单倍型的外显率(只。)与等位基因的边际外显率的乘积(Pa?P。)的偏差(6.口=PA。一只?P8),分别定义病例组和对照组两个位点交互作用的度量.进而综合两组交互作用度量构造检验交互作用的统计量;(2)对于基因一环境交互作用模型的构建,则将环境(分类型变量)变量视为“虚拟位点”(例如E=l表示环境暴露。E=0表示即非暴露),则同样依据上述方法构建其模型。4.1基因型数据的联合概率分布及其表达对于基因之间、基因与环境之间的交互作用统计量的构建,无论是二阶或高阶情形,均至少涉及两个变量。在本研究中,均以病例一对照试验设计为基础,个体的基因数据一律用其基因型表示。无论是病例组还是对照组,均设两个位点的等位基因分别为A,a;B,b,则它们的联合基因型分布可表述为表3的形式: 则.配子的LD系数为:6.。=%一PAP。;非配子的LD系数为:乳口=九日一只-匕,其中,P.e=尸竺+PAB舳+碟+P竺;JD∥。=P竺+P竺+P::+形:。但是,当计算病例组或对照组的6.。时,需要知道双杂合子的概率P苫、P::。然而。当它们的相未知时,则无法确定其值,只能进行单倍型推断。由于单倍型推断总是存在误差,这给后面构造的检验交互作 用的统计量带来很多不确  万方数据

GWAS原理剖析资料

全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数以万计的单核苷酸多态性(SNPs)以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析,GW AS就是标记辅助选择在全基因组范围上的应用,在全基因组层面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联研究,从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法,因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究,且不受与疾病有关的先验性假设的限制,GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步,而且随着高通量测序成本的降低,GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。 GW AS的优势除了可以一次性检测到数以万计的SNPs信息,从而提高试验效率以及检验功效以外,其还有其他两个显著的优势,主要表现在:(1)对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索,而GW AS是对全基因组的范围内的所有位点进行关联分析,因此其拥有更广泛的关联信息,相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。(2)对于GWAS在研究不同的复杂性状之前,不需要像以往的研究一样“盲目地”预设一些假定条件,而是通过在病理和对照组中,有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验(TDT,Transmission disequilibrium test),从而找出与复杂性状显著相关的序列变异。到目前为止,利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域,在这些被新鉴定出的位点和区域中,只有小部分结果位于以前对这些性状研究的区域之中或者附近,绝大多数位于以前从未被研究过的区域,GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分

玉米穗行数全基因组关联分析

作物学报 ACTA AGRONOMICA SINICA 2014, 40(1): 1?6 https://www.wendangku.net/doc/155746782.html,/ ISSN 0496-3490; CODEN TSHPA9 E-mail: xbzw@https://www.wendangku.net/doc/155746782.html, 本研究由国家自然科学基金项目(31201219)和国家重点基础研究发展计划(973计划)项目(2011CB100106)资助。 * 通讯作者(Corresponding authors): 翁建峰, E-mail: jfweng@https://www.wendangku.net/doc/155746782.html,; 李新海, E-mail: lixinhai@https://www.wendangku.net/doc/155746782.html, 第一作者联系方式: E-mail: zhanghuanxin150@https://www.wendangku.net/doc/155746782.html, Received(收稿日期): 2013-06-19; Accepted(接受日期): 2013-09-16; Published online(网络出版日期): 2013-10-22. URL: https://www.wendangku.net/doc/155746782.html,/kcms/detail/11.1809.S.20131022.1730.016.html DOI: 10.3724/SP.J.1006.2014.00001 玉米穗行数全基因组关联分析 张焕欣 翁建峰* 张晓聪 刘昌林 雍洪军 郝转芳 李新海* 中国农业科学院作物科学研究所 / 作物分子育种国家工程实验室, 北京100081 摘 要: 穗行数是玉米产量的重要组成性状, 其遗传解析对高产育种具有指导意义。本文以203份主要玉米自交系为材料, 2007年在新疆乌鲁木齐、吉林公主岭和海南三亚进行穗行数测定; 采用分布于玉米基因组的41 101个单核苷酸多态性(SNP)标记对穗行数进行关联分析。共鉴定出9个与穗行数显著关联(P < 0.0001)的SNP, 分别位于染色体框1.02、1.10、7.03、8.02、9.06和10.03。8个SNP 位于已定位的数量性状座位(QTL)区间内。在显著SNP 位点LD 区域内发掘出4个候选基因, 分别编码含F-box 结构域的生长素受体蛋白、玉米kn1蛋白、AP2结构域蛋白和富亮氨酸重复的跨膜蛋白激酶。采用全基因组关联分析策略发掘穗行数基因位点及候选基因, 将为克隆控制玉米产量性状基因奠定基础。 关键词: 玉米; 穗行数; 全基因组关联分析; 候选基因 Genome-wide Association Analysis of Kernel Row Number in Maize ZHANG Huan-Xin, WENG Jian-Feng *, ZHANG Xiao-Cong, LIU Chang-Lin, YONG Hong-Jun, HAO Zhuan-Fang, and LI Xin-Hai * Institute of Crop Science, Chinese Academy of Agricultural Sciences / National Engineer Laboratory of Crop Molecular Breeding, Beijing 100081, China Abstract: Kernel row number (KRN) is one of grain yield components in maize (Zea mays L.). Investigation of its genetic archi-tecture will help develop high-yield varieties in maize. In this study, the KRN in a panel of 203 maize inbred lines was detected in Urumqi of Xinjiang, Gongzhuling of Jilin, and Sanya of Hainan in 2007, and used to perform the genome-wide analysis for KRN using MaizeSNP50 BeadChip. A total of nine SNPs were found to be significantly associated with KRN at a threshold of P < 0.0001, which were on chromosome Bins 1.02, 1.10, 7.03, 8.02, 9.06, and 10.03, respectively. Eight of these SNPs were located in the QTL intervals reported previously. Meanwhile, four candidate genes were scanned, encoding auxin signaling F-box containing protein, kn1 protein, AP2 domain containing protein and leucine-rich repeat transmembrane protein kinase respectively. In sum-mary, these identified genes and SNPs will offer essential information for cloning yield-related genes in maize. Keywords: Maize; Kernel row number; Genome-wide association analysis; Candidate gene 玉米穗行数(kernel row number, KRN)形成于小穗分化期, 由小穗成对分生组织数目决定[1]。穗行数是决定玉米产量的主要构成因素, 属于数量性状, 广义遗传力较高[2], 其遗传解析对玉米高产育种具有指导意义。分子标记的发展使得QTL 作图成为解析穗行数遗传结构的有效方法[3]。目前, 关于穗行数定位研究报道较多, 影响穗行数的QTL 在玉米10条染色体上均有分布。Ma 等[4]利用综3×87-1构建 的294份重组自交系(recombinant inbred line, RIL)群体检测出13个穗行数QTL, 分别位于第1、第3、第4、第5、第8、第9和第10染色体。Lu 等[5]利用掖478×丹340的150个F 2:3家系共定位到13个控制穗行数的QTL, 位于染色体框7.03位点来自丹340的穗行数主效QTL qkrn7可解释平均表型变异17.86%。Guo 等[6]用郑58×昌7-2的231个F 2:3家系在两种播种密度下进行穗行数QTL 定位, 分别检测

相关文档
相关文档 最新文档