文档库 最新最全的文档下载
当前位置:文档库 › 大肠癌转移相关基因表达调控的生物信息学分析

大肠癌转移相关基因表达调控的生物信息学分析

大肠癌转移相关基因表达调控的生物信息学分析
大肠癌转移相关基因表达调控的生物信息学分析

基因组学与应用生物学,2013年,第32卷,第1期,第83-90页

Genomics and Applied Biology,2013,Vol.32,No.1,83-90

研究报告

Research Report

大肠癌转移相关基因表达调控的生物信息学分析

齐鲁1丁彦青1,2*

1南方医科大学基础医学院病理学系,广州,510515;2南方医科大学南方医院病理科,广州,510515

*通讯作者,dyq@https://www.wendangku.net/doc/2815350232.html,

摘要大肠癌是常见的消化道恶性肿瘤,在中国呈逐年上升的趋势。对大肠癌发生发展转移的研究能够指导临床治疗,对研发新药也有着重要意义。本文通过对表达谱数据进行分析,通过表达谱差异数据进行功能富集,研究了大肠癌转移前的早期原发肿瘤的转录调控特点以及远隔器官转移后的大肠癌的转录调控特点,筛选出了部分能够受到多重调控并在转移后肿瘤组织中高表达的关键基因,通过对这些基因相互作用关系研究,构建出转移后关键基因相互作用调控网络,为大肠癌的治疗提供更多潜在靶点。

关键词大肠癌,调控网络,miRNA,转录因子

Bioinformatics Analysis of Gene Expression Regulation Associated with Colorectal Cancer Metastasis

Qi Lu1Ding Yanqing1,2*

1Department of Pathology Southern Medical University,Guangzhou,510515;2Department of Pathology Southern hospital,Guangzhou,510515

*Corresponding author,dyq@https://www.wendangku.net/doc/2815350232.html,

DOI:10.3969/gab.032.000083

Abstract Colorectal cancer is a common gastrointestinal malignancy cancer that shows an increasing trend in China these years.Study of colorectal cancer occurrence and metastasis can guide clinical treatment,which is also of great significance in research and development of new drugs.In this article,collecting gene expression data,as well as functional enrichment of differential data of gene expression profile were analyzed to figure out the tran-scriptional regulation characteristics of the early primary tumors before the colorectal cancer metastasis,a part of key genes have been screened that can be multiple regulated and of high expression in the transferred tumor tissue. From researches of interactions between these genes,we can build an interactional regulation network among key genes and find more potential targets for therapy of colorectal cancer.

Keywords Colorectal cancer,Regulatory network,miRNA,Transcription factor

蛋白质是基因功能的执行者,基因的转录与翻译对蛋白质的形成有着至关重要的作用,而转录与翻译又受到多种因素的调控和影响。其中转录因子与DNA相结合能够调控基因的表达情况,而miRNA能够通过结合RNA的3'UTR区域降解或者抑制RNA 阻止RNA翻译为蛋白质。因此转录水平的调控和翻译水平的调控均能够影响蛋白质最终的形成及产量的多少。

大肠癌是大肠粘膜上皮来源的恶性肿瘤,是消化道恶性肿瘤中的常见类型。因其恶性程度高,易经淋巴道、血道转移,肿瘤晚期常发生远隔器官转移,危及患者生命。转移是大肠癌患者的主要死因。因此研究与大肠癌转移相关重要基因的调控机制,能够为我们提供更多新的药物治疗靶点,以期更好的研究大肠癌的治疗方法。

现有的相关研究主要集中在与大肠癌转移相关的单个基因或miRNA的研究上面,或只从差异基因的上下调程度筛选大肠癌转移相关基因,因此忽略了大肠癌转移中各个差异基因的受调控情况。基因受到的转录因子及miRNA作用越多,其所受调控越精细,越能说明此基因的重要性。而在细胞信号的传递过程中,蛋白需与其它蛋白相互作用才能发挥其效能,因此多个重要蛋白构成的相互作用网络,成为细胞信号转导的关键部分。

基因组学与应用生物学

Genomics and Applied Biology

本文主要通过对大肠癌转移相关差异表达基因的调控情况进行分析和筛选,进而从差异基因中筛选出受调控最多的基因并构建由这些差异基因所构成的调控网络,这些基因在大肠癌转移相关的细胞信号传递中起着关键作用,因此能够成为抑制或者治疗大肠癌转移的重要治疗靶点。

1结果与分析

1.1miRNA对大肠癌转移相关差异表达基因的调控

大肠癌T1、T2期的基因表达情况与M1期有明显的差异,为了更好地挖掘出差异表达基因所包含的信息,通过GSEA(Damian and Gorfine,2004)工具对差异表达基因进行不同功能集的基因富集。用GSEA 通过miRNA基因集对此表达谱数据中具有相同miRNA靶点的高表达基因进行富集,基因集版本为V3.0。数据库中的221个miRNA基因集中有202个可用,并且有192个基因集在M1表型的表达谱数据中表达上调,只有10个基因集在T1T2表型的表达谱数据中上调,且假阳性率较高,因此,本文只研究在M1表型中上调的基因集。M1表型的基因集结果通过标准化富集分数进行排序,并且权衡了P值及错误发现率(FDR),筛选得到几个在转移后M1期的大肠癌高表达相关基因中具有的共同miRNA作用靶序列。这些靶序列分别为MIR-369-3P、MIR-105、MIR-484、MIR-518B、MIR-518C、MIR-518D、MIR-18A、MIR-18B、MIR-200B、MIR-200C、MIR-429、MIR-520G、MIR-520H、MIR-126、MIR-143、MIR-29A、MIR-29B、MIR-29C、MIR-19A、MIR-19B能够结合的3'UTR 的靶序列。每种miRNA的靶序列都对应着许多与M1期转移相关高表达基因,每种高表达基因的3' UTR区域都含有相应上述miRNA作用靶序列。虽然每个miRNA作用位点集内包含着许多基因,但

只有部分在M1中的高表达的基因对此功能集起富集作用(图1)。由于同样的调控序列可能对应着不同的miRNA,因此上述筛选出的miRNA作用位点有11类。将上述11类功能集当中起富集作用的基因挑选出来,计算出现频率,研究共调控机制。结果KLF12基因的3'UTR区域存在上述11类中的6类miRNA 作用位点,说明这六类miRNA能够同时调控高表达的KLF12基因。同理,具有五类miRNA作用位点的基因为PCDHA9、PCDHA3、PCDHA10、PCDHA5、QKI、PRICKLE2、ATXN1。具有四类的为RFX4、OGT、CRE

B5、IGF1、TRIM33。对上述13种蛋白运用Visant(Hu et al.,2008)工具构建蛋白质相互作用网络图(图2),可以看出,AXIN1可以将其中的7个蛋白连接起来,AXIN1为Wnt信号通路中的轴蛋白(Biechele et al.,2012),因此,AXIN1在大肠癌转移相关基因的调控上起着重要作用。

为了更好的分析筛选出的13个关键蛋白在大肠癌转移后分子网络中的关系,将上述13种蛋白的相互作用蛋白每个节点进一步展开,得到一个更复杂的蛋白相互作用网络图,然后计算能把上述蛋白都关联起来的中间节点的蛋白数量共364个。上述13种蛋白可能在大肠癌转移起着重要作用,但每种蛋白并不图1GSEA富集图

注:A:富集图:GTATTAT,MIR-369-3P;B:富集图:GTAT-TAT, MIR-200B,MIR-200C,MIR-429

Figure1Enrichment plot of GSEA

Note:A:Enrichment plot:GTATTAT,MIR-369-3P;B:Enrich-ment plot:GTATTAT,MIR-200B,MIR-200C,MIR-

429

84

是单独能够完成相应的功能,而是通过与它相互作用的蛋白构成多级网络,将生物信号进行级联传递的。

所以364个蛋白作为桥梁,

把这13种蛋白联系起来,构成一个复杂的网络,而这网络,可能为大肠癌转移

发生发展相关的信号传递网络的一部分。因此对这些蛋白进行Gene Set Analysis Toolkit V2工具中的Wikipathways (Kelder et al.,2012)通路分析(表1)可以发现,雄激素受体信号通路,TGF -茁信号通路,EGFR1信号通路等均有许多中间节点蛋白参与,因此,雄激素受体信号等通路与大肠癌的转移可能有着密切联系,因此也可以认为激素水平的变化对大肠癌的转移可能有着重要影响。对这364个蛋白共同转录因子通过Gene Set Analysis Toolkit V2工具进行富集分析,结果364个基因当中有102个基因上游调控区域有SP1转录因子结合位点,有86个基因有MAZ 结合位点,有61个基因有PAX4结合位点,有69个基因有LEF1结合位点,有72个基因有E12结合位点,有65个基因有FOXO4结合位点,有57个基因有AP4结合位点,有57个基因有NFAT 结合位点,有39个基因有MYOD 结合位点,这些转录因子结合位点调控着这364个基因构成的网络,可能与大肠癌转移密切相关。

1.2转录因子对大肠癌转移相关差异表达基因的调控

用GSEA 工具通过转录因子结合位点基因集对

前面已归为T1T2,M1两类的大肠癌表达谱数据进行

共同转录因子结合位点富集。在615个转录因子基因

集中,有576个可用,其中有486个基因集在M1表型中表达上调,只有90个基因集在T1T2表型中表达上调,可见转移后的肿瘤高表达基因需要较多的转

录因子进行精密调控。在M1表型表达上调的486个转录因子结合位点基因集中,通过标准化富集分数,权衡P 值及错误发现率,经筛选得到前几个转录因子结合位点分别是:EVI1、OCT1、FOXO4、SMAD3、AML 、PAX2、TAL1ALPHAE47、FREAC2、PAX4、AM-EF2、RREB1、CEBPA 、TEF 、SRY 、GATA1、FXR 等的转录因子的结合位点,说明在转移后的大肠癌组织中,表达升高的基因均含有上述转录因子结合位点,这些对应的转录因子对大肠癌转移起着重要作用。而部分基因的转录调控区域同时含有这些转录因子结合位点,构成了组合调控,调控机制越复杂,转录因子越多,说明这些基因表达调控越精细,这部分基因在转移后的大肠癌组织中发挥的功能越重要。在此16个转录因子结合位点基因集中,提取对相应基因集起着富集作用的基因,计算得出同时含有4个以上此转录因子结合

图213个蛋白与蛋白间相互作用网络Figure 213protein-protein interaction

network

大肠癌转移相关基因表达调控的生物信息学分析

Bioinformatics Analysis of Gene Expression Regulation Associated with Colorectal Cancer Metastasis

85

基因组学与应用生物学Genomics and Applied Biology

位点的基因共有41个,其中有HOXC4,PURA基因同时含有9个此转录因子结合位点。因此,这些基因在转移后相关转录因子中,受到多个相关转录因子组合调控,能够对大肠癌转移的发生发展起到关键作用。对这41个有着大于4个相关转录因子结合位点的基因进行GO分析,得出其中有22个基因能够与核酸结合,其中有19个具有转录活性,为转录因子(图3),说明这些转录因子同时也调控着其他基因。对这41个基因对应的蛋白构建相互作用网络,将每个与这41个蛋白相连的蛋白进一步展开,然后计算与这41个蛋白相连的中间节点蛋白,共有1100个,也就是说有1100个蛋白把这41个蛋白连接起来构成复杂的相互作用网络,对这1100个蛋白进行Gene Set Analysis Toolkit V2工具中的Wikipathways通路分析(表2)。可以发现,TGF-β通路,雄激素受体信号通路等与这个网络相关,且与之前miRNA调控基因所构成的网络一致,因此进一步说明了大肠癌的转移与这几个信号通路相关。雄激素为固醇类激素,可直接通过细胞膜与细胞核内转录因子结合,调控转录。因此,雄激素调控转录因子,转录因子又通过相互作用网络将信号进一步传递,调控基因的表达。对这1100个蛋白通过Gene Set Analysis Toolkit V2进行共同转录因子进行分析,结果有277个基因有SP1结合位点,有240个基因有MAZ结合位点,有185个基因有LEF1结合位点,有175个基因有FOXO4结合位点,有167个基因有NFAT结合位点,有186个基因有E12结合位点,有138个基因有PAX4结合位点,有119个基因有NFY结合位点,有101个基因有FRAC2结合位点。可以发现,大部分转录因子与前面miRNA所调控基因构成网络的共同转录因子重叠。说明这些转录因子在大肠癌转移相关信号调控网络中起着重要作用。

综合前面转移后大肠癌中miRNA所调控的基因以及转录因子所调控的基因,可以发现基因KLF12以及CREB5不仅在转录调控区域有很多相关转录因子结合位点,而且在转录后的3'UTR区域有着很多相关miRNA结合位点,因此认为这两个基因能够同时被这些转录因子以及miRNA所调控(图4)。因为KLF12与CREB5本身为转录因子,因此也可以调控其他基因转录,形成级联反应,构建KLF12与CREB5相互作用调控网络图并将与他们相互作用蛋白进行展开,计算能够将KLF12与CREB5关联起来的若干个蛋白,并构成新的网络如(图5)。可以看出在KLF12与CREB5之间有28个与这两个转录因子直接或间接相互作用的

信号通路

Signaling pathways

Androgen receptor signaling pathway TGF-βreceptor signaling pathway EGFR1signaling pathway

IL-6signaling pathway

B cell receptor signaling pathway MAPK signaling pathway

δ-notch signaling pathway

IL-3signaling pathway

Estrogen signalling

α6-β4integrin signaling pathway 数目No. 39

38

35

29 29 29 22 23 21 20

表1维基通路富集分析

Table1Wikipedia pathway enrichment analysis

Entrez基因身份

Entrez gene IDs

2033961232767157259427329671433031387372559254193251659018204

138659701049966677050259720784092274672231619563304102734088

82021025306536786488612099408923132

559920332308409271577046102670487341372513875925460913864091

10211117166677050430333125295647504088742164987514408732051874

3673065864810172099408931728945

5599230867772594285021671437257409466646446098503666770504893

53592076654469092195295956419565595105140882885408713981445

67722185306584626776

55992033230820647409372513875925646455213320207430366545295

958559592611051288525341025677236730652932218586484137

55992308740937255925646459701386102120746906654529547734772

9564100145595926128852534139811184305914456772293221851017

55997186715770467048556633033725460913864893207316433124914

2316195655953304926128851398111841647672235640856034137

203396127157259423725485659708819207529519565595408830652932

9611351640867528101740893066

5599230867775566671474094666464262413862623207665452955595

92612885253413986772293275346776

203369082594255666714372513872959666720766548841672100142885

975930659611688020993066

2064102675316714256464850320752957525195640888660366728852534

408736775343691

86

大肠癌转移相关基因表达调控的生物信息学分析Bioinformatics Analysis of Gene Expression Regulation Associated with Colorectal Cancer Metastasis

蛋白,这些蛋白将其联系在一起。在此对这28个蛋白进行GO分析,28个蛋白里面具有转录调控活性的蛋白有26个,因此可以说明,这两个蛋白是通过这26个转录因子连接起来的,而转录因子相互结合成复合体可调控其他基因表达,因此这些基因与大肠癌转移密切相关。

在前面的GSEA分析中,有90个基因集在T1T2表型中表达上调。说明部分基因在转移前的原发肿瘤早期起着重要作用,通过标准化富集分数,权衡P值及错误发现率。筛选得到最相关的几个转录因子结合位点基因集为E2F_Q6、E2F1_Q3、E2F1_Q6_01、E2F_ Q4、E2F1_Q6、E2F_03、E2F1DP2_01、E2F_02、E2F1DP1 _01、E2F1DP2_01、E2F4DP2_01、E2F4DP1_01。可以发现,全部转录因子结合位点均为E2F家族,或者E2F与DP家族的二聚体,其中主要为E2F1。可见在转移前的原发肿瘤早期,E2F家族转录因子对肿瘤的发生发展起着极为关键的作用,提取对相应基因集起着富集作用的基因,经计算有18个基因均含有上述12种转录因子结合位点,有62个基因同时含有8个以上的上述转录因子结合位点,说明这些基因在原发肿瘤早期起着关键作用。因此将这62个基因进行Gene Set Analysis Toolkit V2工具中的Wikipathways 通路分析(表3),结果可以看出,在转移前原发肿瘤早期,E2F家族主要转录调控的高表达基因主要参与了细胞代谢例如DNA复制,核苷酸合成,染色体重组等生物进程,因此,说明在原发肿瘤早期主要以细胞增殖,代谢增强为主要表现。

2讨论

大肠癌的发生发展转移是由多因素多步骤共同作用的结果,发生远隔器官转移的大肠癌与未发生转移的原位大肠癌基因表达有着明显差异,对这些差异表达基因的研究,能够使我们更好的了解大肠癌转移的分子机制。本研究不仅限于对大肠癌T1T2期与M1期差异度高的基因进行分析,而是通过对差异度高的基因的调控区域的miRNA作用位点和转录因子结合位点进行功能富集,筛选出差异基因共有的miRNA作用位点和转录因子结合位点,并将含有这

图3分子功能与细胞组分条形图

注:图A:A:所有;B:核酸束缚;C:蛋白质束缚;D:转录调控活动;E:离子束缚;F:分子交换活动;G:核苷酸束缚;H:核染色质束缚;I:转移酶活动;J:酶调解活动;K:结构分子活动;L:电子载体活动;M:碳水化合物束缚;N:水解酶活动;O:运输活动;P:未分类;图B:A:所有;B:细胞核;C:膜;D:大分子络合物;E:膜包围的内腔;F:染色体;G:细胞骨架;H:细胞蛋白; I:囊泡;J:细胞外基质;K:细胞外空隙;L:细胞液;M:线粒体; N:包膜;O:未分类

Figure3Barchartaboutmolecularfunctionandcellularcomponent Note:Figure A:A:All;B:Nucleic acid binding;C:Protein bind-ing;D:Transcription regulator activity;E:Ion binding;F:Trans-ferase activity;G:Nucleotide binding;H:Chromatin binding;I: Molecular transducer activity;J:Enzyme regulator activity;K: Structural molecule activity;L:Electron carrier activity;M:Car-bohydrate binding;N:Hydrolase activity;O:Transporter activity; P:Unclassified;Figure B:A:All;B:Nucleus;C:Membrane;D: Macromolecular complex;E:Membrane-enclosed lumen;F: Chromosome;G:Cytoskeleton;H:Cell proiection;I:Vesicle;J: Extracellular matrix;K:Extracellular space;L:Cytosol;M:Mito-chondrion;N:Envelope;O:Unclassified 图5KLF12和CREB5蛋白与蛋白相互作用网络

Figure5Interaction network constructed with the KLF12and

CREB5

87

基因组学与应用生物学Genomics and Applied Biology

些相关的作用位点较多的差异基因进行筛选,因此筛选出的基因受到众多相关的miRNA和转录因子的调控,功能越重要的基因受到的调控越精细,因此这些基因对大肠癌的转移有着重要作用。对这些基因构建相互作用网络,再将网络中的节点蛋白共有的转录因子结合位点进行富集,可以筛选出对此蛋白网络起着重要作用的转录因子。因此,本研究筛选出2个含有这些作用位点最多的差异表达基因KLF12和CRE B5。这两个基因本身为转录因子,连接他们的相互作用网络中大部分也为转录因子,因此这些转录因子群相互连接,组合调控其他基因的表达,显示出其对大肠癌转移相关基因表达调控的影响力。KLF12基因已被证实在胃癌中表达升高,并且高表达KLF12能够增强胃癌的侵袭和转移,证明其在低分化胃癌中能够促进肿瘤的发生发展(Nakamura et al.,2009)。CREB5为CRE依赖的转录因子,它是唯一一个能够连接cAMP信号通路和TPA信号通路的关键蛋白(Zu et al., 1993),其与大肠癌发生发展转移的关系有待于进一步研究。本文构建了蛋白质相互作用网络,并且发现调控网络中蛋白质所对应基因的上游调控区域转录

表2维基通路富集分析

Table2Wikipedia pathway enrichment analysis

信号通路

Signaling pathways

TGF-βreceptor signaling pathway Androgen receptor signaling pathway

TNF-α/NF-kB signaling pathway

Cell cycle

EGFR1signaling pathway

IL-6signaling pathway

B eell receptor signaling pathway

MAPK signaling pathway

IL-3signaling pathway

Estrogen signalling

Entrez基因身份

Entrez gene IDs

203371578454552010755102614329372649737272022716113875958554 70491499529616369357321138610211117199781019331255914857983 4088742164984087511765933557916163205187483121098730658648409 3172408998397323514338604092106647046420570425934211370487341 372522938592586684609667837265580688540913837666770409937050 5295647502353914610131947027906348027322367101791332099

20338365894715725898259427329330313875958554419314995901841 13865970298432597207902111435451672231610228579831040140883065 86485594408957370415158896123146860327667142962372559257337 57286047296582048346774104996667705029082359822742100100481956 1027382028401025906336731489604209910114

71898369431457845465971460114710013732975318290138735514790835 597129698415970660542152073326109715780523168577532104011654 5515851765991029367723065293238386198228930667323718685184176 6714734162054174100105781332020911459612857471039966017133840 47925371732275346124

203371571026100138915111419389099910271021534790210199911871 9831001475324088975959331874890082433065293211200408941723066 11114176255925417489689470409935591884165027027186991331017

589461955879105055782594214328290372761966464998529685034215 20746908373784285786766222362440885335408713985579844067723065 218555943856741019156714199937254609578113856774666750587050 5931665492192060529553392002235319561051288516066336197

20338366605894587955162064552040671432551910201387619664645518 5296479020784295855155335253416166772306529322185619886485594 37255925558057813320688567746654529557472353105128851025367

58946195114740671432890149964645911529635516194296959701386 10212072931469010198421022867100145335851725341398557967722932 2185619855947410372559258965580578189413856885677451703876654 529557472002288584047921017

718983641494763589458797157143233033727998355147908358411386 2072249842330933122316851713985579161640955948397186231627046 70427048372546095601506255806885834505870403164200223531956355 288584035640842176197

66058948835625665135879557840671432646499852964790138666882623 59142072931109718675515253413985579677229325594431811116714 5601578113856774505866545295103995747713328857534

20332071114710013259421432257595951387355147909022076721022 1001485179759306555943066690867143725560129652068295913856667数目

No.

89

71

66

47

60

47

54

54

43

39

88

图4KLF12和CREB5的miRNA 和转录因子相互作用网络

Figure 4Interaction network constructed with the miRNA and transcription factor of KLF12and CREB5因子结合位点较为一致,因此筛选出对此蛋白网络起着重要作用的转录因子包括SP1、MAZ 、LEF1、FOXO4、NFAT 、E12、PAX4等。其中SP1能够调控多种肿瘤相关基因的表达,参与了肿瘤的增值,分化和凋亡,并能够调控雄激素受体以及TGF -β(Sankpal et al.,2011),这与前面通路富集的结果一致。对关键基因相互作用网络的中间蛋白进行通路富集分析,可以看出TGF -β通路,雄激素受体信号通路等与网络中的蛋白密切相关,说明与大肠癌转移相关的蛋白相互作用网络中这些信号通路参与了重要作用,TGF -β通路与肿瘤的EMT 相关,而雄激素受体信号通路与体内激素水平密切相关。E2F1转录因子结合位点在T1T2期的大肠癌高表达基因转录调控区域中都存在并富集,说明E2F1基因在早期大肠癌对肿瘤的生长起着重要作用。E2F1在细胞周期中参与了DNA 的合成、修复,细胞的G 1期到S 期的调定点,以及有丝分裂和

表3维基通路富集分析

Table 3Wikipedia pathway enrichment analysis 信号通路Signaling pathways DNA replication G1to S cell cycle control Cell cycle

Nucleotide metabolism mRNA processing DNA damage response Homologous recombination

p38MAPK signaling pathway (BioCarta)TGF -βreceptor signaling pathway TNF -α/NF-kB signaling pathway

数目No.10993432233

Entrez 基因身份Entrez gene IDs

5105341734175542799041714176542410714417241739934175542759334609417141764172417399341755933990908841714176417262415424563166328484464326426993460921775424107144609925299359334609217792524176

凋亡等功能(Zacharatos et al.,2004),这与前面通路富集结果一致。高表达E2F1能够促进肿瘤的生长

(Zacharatos et al.,2004),因此,在大肠癌转移前,E2F1能够对肿瘤的增殖起重要作用。大肠癌的发生发展转移是一个由多组基因,多条信号通路共同作用,相互调控的结果,其涉及的基因众多,调控关系复杂,在此通过生物信息学的方法,能够很好的找到表达调控的关键节点,对指导实验研究有着重要意义。本文寻找到了多个基因表达调控的关键节点,对这些关键节点上进行干预,或许能够减缓甚至抑制大肠癌的发生发展转移,为临床的有效治疗提供更好的治疗靶点。

3材料与方法

3.1数据来源

本文选取的是来自NCBI 网站的GEO 数据库中

大肠癌转移相关基因表达调控的生物信息学分析

Bioinformatics Analysis of Gene Expression Regulation Associated with Colorectal Cancer

Metastasis

89

基因组学与应用生物学Genomics and Applied Biology

芯片数据GSE2109系列的大肠癌数据进行分析,此系列本身包含2158个各类肿瘤的数据并包含各种临床信息。由于本研究主要集中于大肠癌,因此在这2158例表达谱数据中挑选大肠癌数据并同时包含TNM分期数据的表达谱数据进行分析,可挑选出343例大肠癌数据,为了更好的分析未发生转移的肿瘤与已发生远隔器官转移肿瘤的基因表达差异情况,从343例大肠癌表达谱数据中挑选出归类于T1、T2和M1分期的大肠癌表达谱数据共121例进行分析,将TNM分期中属于T1、T2的归为一类,M1的归为一类。

3.2分析方法

本文主要的实验方法是通过GSEA筛选出与大肠癌转移相关的miRNA和转录因子功能集,由于每个功能集包含很多差异表达基因,因此对筛选出的不同功能集中的多个差异表达基因取交集,取交集后的差异表达基因通过Gene Set Analysis Toolkit V2工具进行GO分析,归类,分析其功能类。然后对这些差异表达基因所对应的蛋白通过visant工具构建蛋白质相互作用网络,提取出除了差异基因对应蛋白以外的相互作用蛋白,再对这些作用蛋白通过Gene Set Analysis Toolkit V2工具进行Wikipathways通路富集和转录因子富集。

作者贡献

第一作者齐鲁对本论文进行设计、数据搜集、分析以及论文撰写;通讯作者丁彦青教授对本论文进行指导及审阅。

致谢

感谢评审专家对论文的评审和修改建议。参考文献

Biechele T.L.,Kulikauskas R.M.,Toroni R.A.,Lucero O.M.,Swift R.

D.,James R.G.,Robin N.C.,Dawson D.W.,Moon R.T.,and

Chien A.J.,2012,Wnt/beta-catenin signaling and AXIN1regu-late apoptosis triggered by inhibition of the mutant kinase BRAFV600E in human melanoma,Sci.Signal.,5(206):ra3 Damian D.,and Gorfine M.,2004,Statistical concerns about the GSEA procedure,Nat.Genet.,36(7):663

Hu Z.,Snitkin E.S.,and DeLisi C.,2008,VisANT:An integra-tive framework for networks in systems biology,Brief Bioinform,9(4):317-325

Kelder T.,van Iersel M.P.,Hanspers K.,Kutmon1M.,Conklin

B.R.,Chris T.,Evelo

C.T.,and Pico A.R.,2012,WikiPath-

ways:Building research communities on biological path-ways,Nucleic Acids Res.,40(D1):1301-1307

Nakamura Y.,Migita T.,Hosoda F.,Okada N.,Gotoh M.,Arai Y.,Fukushima M.,Ohki M.,Miyata S.,Takeuchi K.,Imoto

I.,Katai H.,Yamaguchi T.,Inazawa J.,Hirohashi S.,

Ishikawa Y.,and Shibata T.,2009,Kr俟ppel-like factor12 plays a significant role in poorly differentiated gastric cancer progression,Int.J.Cancer,125(8):1859-1867

Sankpal U.T.,Goodison S.,Abdelrahim M.,and Basha R.,2011, Targeting sp1transcription factors in prostate cancer thera-py,Med.Chem.,7(5):518-525

Zacharatos P.,Kotsinas A.,Evangelou K.,Karakaidos P.,Vassil-iou L.V.,Rezaei N.,Kyroudi A.,Kittas C.,Patsouris E.,Pa-pavassiliou A.G.,and Gorgoulis V.G.,2004,Distinct ex-pression patterns of the transcription factor E2F-1in rela-tion to tumour growth parameters in common human carci-nomas,J.Pathol.,203(3):744-753

Zu Y.L.,Maekawa T.,Nomura N.,Nakata T.,and Ishii S.,1993,Reg-ulation of trans-activating capacity of CRE-BPa byphorbol es-ter tumor promoter TPA,Oncogene,8(10):2749-2758

90

【高中生物】功能基因的克隆及生物信息学分析

(生物科技行业)功能基因的克隆及生物信息学分析

功能基因的克隆及其生物信息学分析 摘要:随着多种生物全基因组序列的获得,基因组研究正从结构基因组学(structuralgenomics)转向功能基因组学(functionalgenomics)的整体研究。功能基因组学利用结构基因组学研究获得的大量数据与信息评价基因功能(包括生化功能、细胞功能、发育功能、适应功能等),其主要手段结合了高通量的大规模的实验方法、统计和计算机分析技术[1],它代表了基因分析的新阶段,已成为21世纪国际生命科学研究的前沿。功能基因组学是利用基因组测序获得的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使生物学研究从对单一基因或蛋白的研究转向多个基因或蛋白同时进行系统的研究,是在基因组静态的组成序列基础上转入对基因组动态的生物学功能学研究[2]。如何研究功能基因,也成为我们面临的一个课题,本文就克隆和生物信息学分析在研究功能基因方面的应用做一个简要的阐述。 关键词:功能基因、克隆、生物信息学分析。 1.功能基因的克隆 1.1图位克隆方法 图位克隆又称定位克隆,它是根据目标基因在染色体上确切位置,寻找与其紧密连锁的分子标记,筛选BCA克隆,通过染色体步移法逐步逼近目的基因区域,根据测序结果或用BAC、YAC克隆筛选cDNA表达文库寻找候选基因,得到候选基因后再确定目标基因。优点是无需掌握基因产物的任何信息,从突变体开始,逐步找到基因,最后证实该基因就是造成突变的原因。通过图位克隆许多

控制质量性状的单基因得以克隆,最近也有报道某些控制数量性状的主效基因(控制蕃茄果实大小的基因克隆[3]、控制水稻成熟后稻谷脱落基因克隆[4]以及小麦VRN2基因克隆[5]等)也通过图位克隆法获得。 1.2同源序列克隆目的基因 首先根据已知的基因序列设计PCR引物,在已知材料中扩增到该片段,并经克隆测序验证,利用放射性同位素标记或其他非同位素标记该PCR片段作为探针,与待研究材料的cDNA文库杂交,就可以获得该基因cDNA克隆,利用克隆进一步筛选基因组文库,挑选阳性克隆,亚克隆并测序,从中就可以筛选到该基因的完整序列。 1.3结合连锁和连锁不平衡的分析方法 结合连锁和连锁不平衡的分析方法是未知基因克隆研究领域发展的新方向[6]。(Linkagedisequilibrium,LD)。与连锁分析不同,连锁不平衡分析可以利用自然群体中历史发生的重组事件。历史上发生的重组使连锁的标记渐渐分布到不同的同源染色体上,这样就只有相隔很近的标记才能不被重组掉,从而形成大小不同的单倍型片段(Haplotypeblock)。这样经过很多世代的重组,只有相隔很近的基因,才能仍处在相同的原始单倍型片段上,基因间的连锁不平衡才能依然存在。所以基于连锁不平衡分析,可以实现目的基因的精细定位。林木大多为自由授粉的异交物种,所以连锁不平衡程度很低,林木基因组中的LD可能会仅局限于非常小的区域,这就为目的基因的精细定位提供了可能,结合SNP检测技术,科学家甚至可以将效应位点直接与单个的核苷酸突变关联起来,进行数量性状寡核苷酸

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识 ㈠De Novo测序也叫从头测序,是首次对一个物种的基因组进行测序,用生物信息学的分析方法对测序所得序列进行组装,从而获得该物种的基因组序列图谱。 目前国际上通用的基因组De Novo测序方法有三种: 1. 用Illumina Solexa GA IIx 测序仪直接测序; 2. 用Roche GS FLX Titanium直接完成全基因组测序; 3. 用ABI 3730 或Roche GS FLX Titanium测序,搭建骨架,再用Illumina Solexa GA IIx 进行深度测序,完成基因组拼接。 采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件,并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究,为后续的相关研究奠定基础。 实验流程: 公司服务内容 1.基本服务:DNA样品检测;测序文库构建;高通量测序;数据基本分析(Base calling,去接头, 去污染);序列组装达到精细图标准 2.定制服务:基因组注释及功能注释;比较基因组及分子进化分析,数据库搭建;基因组信息展 示平台搭建 1.基因组De Novo测序对DNA样品有什么要求?

(1) 对于细菌真菌,样品来源一定要单一菌落无污染,否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上), OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;每次样品制备需要10 μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 μg。 (2) 对于植物,样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品,最好为纯合或单倍体。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (3) 对于动物,样品来源应选用肌肉,血等脂肪含量少的部位,同一个体取样,最好为纯合。基因组完整无降解(23 kb以上),OD值在1.8~2.0 之间;样品浓度大于30 ng/μl;样品总量不小于500 μg,详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证,用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式 目前3种测序技术 Roche 454,Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中,Roche 454的单端测序读长可以达到400 bp,经常用于基因组骨架的组装,而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例,对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。 单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。 图1 Single-read文库构建方法图2 Paired-end文库构建方法

JMJD2B基因的生物信息学分析

JMJD2B基因的生物信息学分析 2006级本硕一班谢泽飞 指导老师:吴炳礼,许丽艳,李恩民 一对该基因的初步认识 JMJD2B基因是JMJB2基因家族中的一员,而说到该基因的来龙去脉还得从它的家族谈起。JMJD2家族是通过体外克隆的方式从一个编号为KIAA0867的人脑分粒cDNA文库中获得的,而且通过与JMJD1C基因的比较,更加明确了该基因家族的结构特点。该基因家族主要含有一个JmjN,JmjC,JD2H功能域,两个TUDOR功能域。有趣的是在该基因家族的C端末尾的第二个TUDOR功能域上有一个双向的出核入核定位信号,而这似乎提示了某些问题。现在我们对这整个家族有了一个初步的认识,再来看JMJD2B这个基因: 定位:19p13.3 全长:1096 AA 分子量:121896 Da 等电点:6.79 含有2个锌指结构,均为PHD型: 731-789 MCFTSGGENT EPLPANSYIG DDGTSPLIAC GKCCLQVHAS CYGIRPELVN EGWTCSRCA 851-907 KCVYCRKRMK KVSGACIQCS YEHCSTSFHV TCAHAAGVLM EPDDWPYVVS ITCLKHK 在15-57 处含有JmjN功能域,146-309含有JmjC功能域. 二该基因的主要生物学功能 第一点,通过进化树的分析,显示该基因在马这一动物中高度保守。

通过分析该基因的序列,在数据库中查找其同源序列,进而选取不同物种的代表基因进行进化树分析,我们可以看到,马这个物种的被归到了低等的昆虫中去了,按照进化的理论,应该不会出现这种情况的,于是,我们推断,该基因在马这个物种中特别保守,所以进化中的变异非常的小。再进一步想,该基因对马这个物种可能是很重要的,那么为什么这个基因会如此重要呢?通过查找文献,我得出下面的另一个结论,就是该基因的生物学功能:该基因具有去甲基化作用。当然,由于实验不是在马身上做的,我们也就只能得出一般性的结论。 第二点,参与组蛋白去甲基的作用,主动且有普遍特异性。 很显然,越来越多的研究表明,在真核细胞中组蛋白的甲基化修饰水平是该细胞的表观遗传的活跃程度的一个很重要指标。而JMJD2B的这个功能的意义是重大的,其能够使染色体核周异染色体的核周组蛋白去甲基化,进而对细胞的遗传进行表观遗传的调控。研究人员利用间接荧光免疫法进行追踪发现,在两组对照的雌鼠JMJD2B-GFP底物系统中,JMJD2B基因过度表达的一组,H3K9me3水平明显低于另外正常的那一组,都转变为H3K9me1的构型,这说明了JMJD2B 的特异去甲基作用,而且这一过程是主动的,都发生在细胞染色体复制前的一瞬间,速度非常快。但是,在巨大组蛋白中,该基因有表现出可以同时参与H3K9me3和H3K9me2的去甲基作用。

生物信息学分析实践

水稻瘤矮病毒(RGDV)外层衣壳蛋白 P8的同源模建 高芳銮(Raindy) 同源模建(homology modeling) ,也叫比较模建(Compatative modeling),其前提是一个或多个同源蛋白质的结构已知,当两个蛋白质的序列同源性高于35%,一般情况下认为它们的三维结构基本相同;序列同源性低于30%的蛋白质难以得到理想的结构模型。同源模建是目前最为成功且实用的蛋白质结构预测方法, SWISS-MODEL 是由SwissProt 提供的目前最著名的蛋白质三级结构预测服务器,创建于1993年,面向全世界的生物化学与分子生物学研究工作者提供免费的自动模建服务。SWISS-MODEL 服务器提供的同源模建有两种工作模式:首选模式(First Approach mode)和 项目模式(Project mode)。 本实例以RGDV P8蛋白为研究对象采用首选模式进行同源模建。 图1 SWISS-MODEL 的主界面 操作流程如下: 1.选择模式 单击左侧的“MENU ”菜单下方的“First Approach mode ”,右侧窗口自动SWISS-MODEL 工作窗口,在相应文本框中分别输入的E-mail 、项目标题、待模建的蛋白质序列,SWISS-MODEL 支持以FASTA 格式直接输入或提交UniProt 的登录号,如图2所示。 《生物信息学分析实践》样 稿

图2 SWISS-MODEL 的序列提交页面 2.参数设置 当前版本只有一个选项可设置,如果用户需要使用指定的模板,可在“Use a specific template ”后的输入框填入ExPDB 晶体图像数据库中的模板代码,其格式为“PDBCODE+ChainID ”,如“1uf2P ”。本例不使用指定模板,默认留空。完毕,点击“Submit Modeling Request ”提交模建请求,服务器返回提交成功的提示,如图3所示: 图3 成功提交 SWISS-MODEL WORKSPACEW 页面会自动刷新,直至模建完成,如图4所示,同时模建结果也会发送到指定的邮箱。 3结果解读 点击下图右上方的“Print/Save this page as ”后的图标,可以将整个结果以PDF 文档格式保存到本地计算机中。模建结果给出了五个部分的信息:模建详情(Model Details)、比对信息(Alignment)、模建评价 (Anolea/Gromos/Verify3D)、模建日志(Modelling log)、模板选择日志(Template Selection Log)。 《生物信息学分析实践》样稿

大基因组大数据与生物信息学英文及翻译

Big Genomic Data in Bioinformatics Cloud Abstract The achievement of Human Genome project has led to the proliferation of genomic sequencing data. This along with the next generation sequencing has helped to reduce the cost of sequencing, which has further increased the demand of analysis of this large genomic data. This data set and its processing has aided medical researches. Thus, we require expertise to deal with biological big data. The concept of cloud computing and big data technologies such as the Apache Hadoop project, are hereby needed to store, handle and analyse this data. Because, these technologies provide distributed and parallelized data processing and are efficient to analyse even petabyte (PB) scale data sets. However, there are some demerits too which may include need of larger time to transfer data and lesser network bandwidth, majorly. 人类基因组计划的实现导致基因组测序数据的增殖。这与下一代测序一起有助于降低测序的成本,这进一步增加了对这种大基因组数据的分析的需求。该数据集及其处理有助于医学研究。 因此,我们需要专门知识来处理生物大数据。因此,需要云计算和大数据技术(例如Apache Hadoop项目)的概念来存储,处理和分析这些数据。因为,这些技术提供分布式和并行化的数据处理,并且能够有效地分析甚至PB级的数据集。然而,也有一些缺点,可能包括需要更大的时间来传输数据和更小的网络带宽,主要。 Introduction The introduction of next generation sequencing has given unrivalled levels of sequence data. So, the modern biology is incurring challenges in the field of data management and analysis. A single human's DNA comprises around 3 billion base pairs (bp) representing approximately 100 gigabytes (GB) of data. Bioinformatics is encountering difficulty in storage and analysis of such data. Moore's Law infers that computers double in speed and half in size every 18 months. And reports say that the biological data will accumulate at even faster pace [1]. Sequencing a human genome has decreased in cost from $1 million in 2007 to $1 thousand in 2012. With this falling cost of sequencing and after the completion of the Human Genome project in 2003, inundate of biological sequence data was generated. Sequencing and cataloguing genetic information has increased many folds (as can be observed from the GenBank database of NCBI). Various medical research institutes like the National Cancer Institute are continuously targeting on sequencing of a million genomes for the understanding of biological pathways and genomic variations to predict the cause of the disease. Given, the whole genome of a tumour and a matching normal tissue sample consumes 0.1 T B of compressed data, then one million genomes will require 0.1 million TB, i.e. 103 PB (petabyte) [2]. The explosion of Biology's data (the scale of the data exceeds a single machine) has made it more expensive to store, process and analyse compared to its generation. This has stimulated the use of cloud to avoid large capital infrastructure and maintenance costs. In fact, it needs deviation from the common structured data (row-column organisation) to a semi-structured or unstructured data. And there is a need to develop applications that execute in parallel on distributed data sets. With the effective use of big data in the healthcare sector, a

生物信息学考试试卷修订稿

生物信息学考试试卷 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

一、名词解释(每小题4分,共20分) 1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞、组织、器官的生理、病理、药理过程的中各种生物信息。 狭义:生物分子信息的获取、存贮、分析和利用。 2、人类基因组计划 人类基因组计划准备用15年时间,投入30亿美元,完成人类全部24条染色体的3×109脱氧核苷酸对(bp)的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转录图谱的绘制)、测序和基因识别。其中还包括模式生物(如大肠杆菌、酵母、线虫、小鼠等)基因组的作图和测序,以及信息系统的建立。作图和测序是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相关的遗传信息。 3、蛋白质的一级结构 蛋白质的一级结构是指多肽链中氨基酸的序列 4、基因 基因--有遗传效应的DNA片断,是控制生物性状的基本遗传单位。 5、中心法则 是指遗传信息从传递给,再从RNA传递给,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。 6 、DNA序列比较 序列比较的根本任务是:(1)发现序列之间的相似性;(2)辨别序列之间的差异 目的: 相似序列相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 7、一级数据库 数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 8、基因识别 基因识别,是生物信息学的一个重要分支,使用生物学实验或计算机等手段识别DNA序列上的具有生物学特征的片段。基因识别的对象主要是蛋白质编码基因,也包括其他具有一定生物学功能的因子,如RNA基因和调控因子。 9、系统发生学 系统发生学(phylogenetics)——研究物种之间的进化关系。 10、基因芯片 基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。

最新生物信息学考试复习

——古A.名词解释 1. 生物信息学:广义是指从事对基因组研究相关的生物信息的获取,加工,储存,分配,分析和解释。狭义是指综合应用信息科学,数学理论,方法和技术,管理、分析和利用生物分子数据的科学。 2. 基因芯片:将大量已知或未知序列的DNA片段点在固相载体上,通过物理吸附达到固定化(cDNA芯片),也可以在固相表面直接化学合成,得到寡聚核苷酸芯片。再将待研究的样品与芯片杂交,经过计算机扫描和数据处理,进行定性定量的分析。可以反映大量基因在不同组织或同一组织不同发育时期或不同生理条件下的表达调控情况。 3. NCBI:National Center for Biotechnology Information.是隶属于美国国立医学图书馆(NLM)的综合性数据库,提供生物信息学方面的研究和服务。 4. EMBL:European Molecular Biology Laboratory.EBI为其一部分,是综合性数据库,提供生物信息学方面的研究和服务。 5. 简并引物:PCR引物的某一碱基位置有多种可能的多种引物的混合体。 6. 序列比对:为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。

7. BLAST:Basic Local Alignment Search Tool.是通过比对(alignment)在数据库中寻找和查询序列(query)相似度很高的序列的工具。 8. ORF:Open Reading Frame.由起始密码子开始,到终止密码子结束可以翻译成蛋白质的核酸序列,一个未知的基因,理论上具有6个ORF。 9. 启动子:是RNA聚合酶识别、结合并开始转录所必须的一段DNA序列。原核生物启动子由上游调控元件和核心启动子组成,核心启动子包括-35区(Sextama box)TTGACA,-10区(Pribnow Box)TATAAT,以及+1区。真核生物启动子包括远上游序列和启动子基本元件构成,启动子基本元件包括启动子上游元件(GC岛,CAAT盒),核心启动子(TATA Box,+1区帽子位点)组成。 10. motif:模体,基序,是序列中局部的保守区域,或者是一组序列中共有的一小段序列模式。 11. 分子进化树:通过比较生物大分子序列的差异的数值重建的进化树。 12. 相似性:序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占的比例。 13. 同源性:两个基因或蛋白质序列具有共同祖先的结论。

生物信息学的主要研究内容

常用数据库 在DNA序列方面有GenBank、EMBL和等 在蛋白质一级结构方面有SWISS-PROT、PIR和MIPS等 在蛋白质和其它生物大分子的结构方面有PDB等 在蛋白质结构分类方面有SCOP和CATH等 生物信息学的主要研究内容 1、序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。 2、结构比对 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。 3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一 从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。 4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。 5、非编码区分析和DNA语言研究,是最重要的课题之一 在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA 序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。 6、分子进化和比较基因组学,是最重要的课题之一 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。 7、序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备

生物信息学分析

4、生物信息学分析 通过核苷酸序列数据库和基因序列同源性在线分析途径初步对Rv2029c基因进行分类整理。由于结核分枝杆菌耐利福平野生株与核苷酸序列数据库KEGG GENES中的结核分枝杆菌标准株H37Rv的匹配率为100%,以下对基因的分析按照结核分枝杆菌标准株H37Rv的数据库信息进行,即完全匹配的1020bp长度序列(本次提取基因中包含上下游引物等序列,较长,1346bp)。 4.1基本信息 表1 基因基本信息 4.2基因组信息 表2 基因组信息

5、PLN02341(PfkB型碳水化合物激酶家族蛋白),位点208-294 6、PTZ0029(核糖激酶),位点205-301 药物靶点1、同源基因没有药物靶点 2、非同源但序列相似基因没有药物靶点 图3 蛋白结构域 4.3蛋白表达 4.3.1 二级结构分析 预测结果显示,PfkB蛋白的二级结构中β转角占46.61%,α螺旋占33.63%,β折叠占19.76%。转角结构和螺旋结构构成了结核分枝杆菌PfkB蛋白二级结构的骨架。

图4 蛋白二级结构 4.3.2 跨膜区分析 Tuberculist跨膜蛋白预测结果表明:蛋白长度339aa,预测跨膜蛋白数0。 图5 蛋白跨膜区分析 4.3.3 信号肽预测 Predict Protein分析表明PfkB蛋白氨基酸残基没有信号肽,由此推断此蛋白不包含信号肽,不是分泌型蛋白质。

图6 蛋白信号肽预测 4.3.4 疏水性分析 分析结果显示,蛋白最大疏水指数为2.411,最小疏水指数为-2.372。

图7 蛋白疏水性分析 4.3.5 DNA同源性分析 表3 基因同源性分析 菌株序列覆盖 率 E值一致性 Mycobacterium tuberculosis strain Beijing-like, complete genome 100% 0.0 100% Mycobacterium bovis subsp. bovis AF2122/97 complete genome 100% 0.0 100% Mycobacterium tuberculosis 18b genome 100% 0.0 100% Mycobacterium tuberculosis H37RvSiena, complete genome 100% 0.0 100% Mycobacterium tuberculosis str. Kurono DNA, complete genome 100% 0.0 100% Mycobacterium tuberculosis 49-02 complete 100% 0.0 100%

蛋白质组学生物信息学分析介绍

生物信息学分析FAQ CHAPTER ONE ABOUT GENE ONTOLOGY ANNOTATION (3) 什么是GO? (3) GO和KEGG注释之前,为什么要先进行序列比对(BLAST)? (3) GO注释的意义? (3) GO和GOslim的区别 (4) 为什么有些蛋白没有GO注释信息? (4) 为什么GO Level 2的统计饼图里蛋白数目和差异蛋白总数不一致? (4) 什么是差异蛋白的功能富集分析&WHY? (4) GO注释结果文件解析 (5) Sheet TopBlastHits (5) Sheet protein2GO/protein2GOslim (5) Sheet BP/MF/CC (6) Sheet Level2_BP/Level2_MF/Level2_CC (6) CHAPTER TWO ABOUT KEGG PATHWAY ANNOTATION (7) WHY KEGG pathway annotation? (7) KEGG通路注释的方法&流程? (7) KEGG通路注释的意义? (7) 为什么有些蛋白没有KEGG通路注释信息? (8) 什么是差异蛋白的通路富集分析&WHY? (8) KEGG注释结果文件解析 (8) Sheet query2map (8) Sheet map2query (9) Sheet TopMapStat (9) CHAPTER THREE ABOUT FEATURE SELECTION & CLUSTERING (10) WHY Feature Selection? (10)

聚类分析(Clustering) (10) 聚类结果文件解析 (10) CHAPTER FOUR ABOUT PROTEIN-PROTEIN INTERACTION NETWORK (12) 蛋白质相互作用网络分析的意义 (12) 蛋白质相互作用 VS生物学通路? (12) 蛋白质相互作用网络分析结果文件解析 (12)

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

生物信息学分析

生物信息学分析 生物信息学难吗? 经常有人向我问这个问题,这有什么疑问吗?如果不难学,根本就不用问我这个问题。也无需投入那么多时间精力就能掌握,更无需花费三四千元参加线下的培训班,也不会月薪过万。所以,答案很肯定,道理很简单:生物信息比较难学。 为什么难学? 我总结里几点原因。首先,这是一个交叉学科,要求你既要有生物学的基础,又要有很强的计算机操作技能。这个就有点困难了。因为只是一个生物学就包括多个门类,有很多东西需要去学习,还需要学习计算机知识。很多人一门内容还没学明白,现在还得在加一门,这就属于祸不单行,雪上加霜,屋漏偏逢连夜雨。因此,这种既懂生物学,又懂计算机的复合型人才就比较短缺。而且,生物信息本质上属于数据挖掘,除了生物,计算机,到后面还需要极强的统计学知识才能做好数据分析,所以,还得加上统计学,也就是生物信息学=生物学+计算机科学+统计学三门学科的知识,这也就是为什么生物信息学比较难学。 第二个原因,生物信息本身就包括很多内容,比如DNA的分析,RNA的分析,甲基化的分析,蛋白质的分析等方面,每一

门类又完全不同,从物种方面来分,动物,植物,微生物,医学等有差别很大,很难有一劳永逸,放之四海而皆准的分析方法。 第三个原因就是生物信息是一门快速发展的学习,会出现很多新的测序方法,比如sanger测序,illumina,BGIseq,PacBio,IonTorrent,Nanopore等,每一个平台技术原理完全不同,因此数据特点也完全不同,这就需要针对每一个平台的数据做专门的学习,而且每个平台又在不断的推陈出现,可能今天你刚开发好的方法,产品升级了,都得推倒重来。还有很多新的技术,例如现在比较火的单细胞测序,Hi-C测序,Bionano测序等等内容,以后还出现更多新技术新方法,足够让你活到老,学到老。当然,你先要能活到老,吾生也有涯,而知也无涯。以有涯随无涯,殆已! 高风险才有高收益 当然啦,虽然你已经看到学习生物信息肯定是不容易了,门槛很高,但是呢,门槛高也有很多好处,就是挡住了一部分人,当你学会了,迈过门槛,你的身价就提高了。如果人人都很容易掌握了,那么也就不值钱了。所以,生物信息,前途是光明的,道路是曲折的。

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

用于新基因的生物信息学分析

用于新基因的生物信息 学分析 ★★★★★ reasonspare(金币+5,VIP+0):谢谢分享,欢迎常来! lwf991229(金币+0,VIP+0):置为资源帖~~ 2-9 16:12 lwf991229(金币+0,VIP+0):高亮~ 2-9 16:13 核酸序列的基本分析 运用DNAMAN软件分析核酸序列的分子质量、碱基组成和碱基分布。同时运用BioEdit(版本7.0.5.3)软件对基因做酶切谱分析。 碱基同源性分析 运用NCBI信息库的BLAST程序对基因进行碱基同源性分析(Translated query vs.protien database(blastx))网站如下:https://www.wendangku.net/doc/2815350232.html,/BLAST/ 参数选择:Translated query-protein database [blastx];nr;stander1 开放性阅读框(ORF)分析 利用NCBI的ORF Finder程序对基因做开放性阅读框分析,网址如下: https://www.wendangku.net/doc/2815350232.html,/projects/gorf/orfig.cgi 参数选择:Genetic Codes:1 Standard 对蛋白质序列的结构功能域分析 运用简单模块构架搜索工具(Simple Modular Architecture Research Tool,SMART)对基因的ORF出的蛋白质序列进行蛋白质结构功能域分析。该数据库由EMBL建立,其中集成了大部分目前已知的蛋白质结构功能域的数据。 网址如下:http://smart.embl-heidelberg.de/ 运用NCBI的BLAST程序再对此蛋白质序列进行rpsBlast分析 参数选择:Search Database:CDD v2.07-11937PSSM

生物信息学分析方法

核酸和蛋白质序列分析 蛋白质, 核酸, 序列 关键词:核酸序列蛋白质序列分析软 件 在获得一个基因序列后,需要对其进行生物信息学分析,从中尽量发掘信息,从而指导进一步的实验研究。通过染色体定位分析、内含子/外显子分析、ORF分析、表达谱分析等,能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等,识别调控区的顺式作用元件,可以为基因的调控研究提供基础。通过蛋白质基本性质分析,疏水性分析,跨膜区预测,信号肽预测,亚细胞定位预测,抗原性位点预测,可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白,这对确定实验研究方向有重要的参考意义。此外,通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等,尽量挖掘网络数据库中的信息,可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接,放在北京大学人类疾病基因研究中心网站(https://www.wendangku.net/doc/2815350232.html,/science/bioinfomatics.htm),可以直接点击进入检索网站。 下面介绍其中一些基本分析。值得注意的是,在对序列进行分析时,首先应当明确序列的性质,是mRNA序列还是基因组序列?是计算机拼接得到还是经过PCR扩增测序得到?是原核生物还是真核生物?这些决定了分析方法的选择和分析结果的解释。 (一)核酸序列分析 1、双序列比对(pairwise alignment) 双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置,它是用计算机进行序列分析的强大工具,分为全局比对和局部比对两类,各以Needleman-Wunsch 算法和Smith-Waterman算法为代表。由于这些算法都是启发式(heuristic)的算法,因此并没有最优值。根据比对的需要,选用适当的比对工具,在比对时适当调整空格罚分(gap penalty)和空格延伸罚分(gap extension penalty),以获得更优的比对。 除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外,我们还推荐使用EMBOSS软件包中的Needle软件(http://bioinfo.pbi.nrc.ca:8090/EMBOSS/),和Pairwise BLAST (https://www.wendangku.net/doc/2815350232.html,/BLAST/)。以上介绍的这些双序列比对工具的使用都比较简单,一般输入所比较的序列即可。 (1)BLAST和FASTA FASTA(https://www.wendangku.net/doc/2815350232.html,/fasta33/)和BLAST (https://www.wendangku.net/doc/2815350232.html,/BLAST/)是目前运用较为广泛的相似性搜索工具。这两

相关文档