文档库 最新最全的文档下载
当前位置:文档库 › 生物信息学作4业

生物信息学作4业

生物信息学作4业
生物信息学作4业

《生物信息学》操作练习(一)

数据库搜索与序列比对

2013/3/27布置,一周内完成,结果存为单个word文件,文件名统一为“学号-姓名-01.doc”,上传网络教学平台或邮箱“dongx61@https://www.wendangku.net/doc/0617878308.html,”。

(一)

现有如下序列:

MALAGAPAGGPCAPALEALLGAGALRLLDSSQIVIISAAQDASAPPAPTGPAAPAAGPCDPDL LLFATPQAPRPTPSAPRPALGRPPVKRRLDLETDHQYLAESSGPARGRGRHPGKGVKSPGE KSRYETSLNLTTKRFLELLSHSADGVVDLNWAAEVLKVQKRRIYDITNVLEGIQLIAKKSKNHI QWLGSHTTVGVGGRLEGLTQDLRQLQESEQQLDHLMNICTTQLRLLSEDTDSQRLAYVTCQ DLRSIADPAEQMVMVIKAPPETQLQAVDSSENFQISLKSKQGPIDVFLCPEETVGGISPGKTP SQEVTSEEENRATDSATIVSPPPSSPPSSLTTDPSQSLLSLEQEPLLSRMGSLRAPVDEDRL SPLVAADSLLEHVREDFSGLLPEEFISLSPPHEALDYHFGLEEGEGIRDLFDCDFGDLTPLDF

要求:

(1)用NCBI BlastP比对(使用默认参数) 搜索,以确定该蛋白质的名称、序列号、

物种来源等基本信息;

(2)通过BLAST寻找其在小鼠(Mus musculus)中相似度最高的同源蛋白,提供比

对结果;

(3)通过比对Pfam数据库,推断该蛋白属于何种蛋白质家族,可能的功能是什

么?

(4)多重比对练习:

已知拟南芥(Arabidopsis thaliana) 转录因子E2F家族包含6个成员,分别为E2Fa (又名E2F3), E2Fb(又名E2F1), E2Fc, E2Fd, E2Fe, E2Ff,请通过Entrez查寻其蛋白质序列信息,并将结果保存为FASTA格式;

建立上述蛋白的多重比对FASTA文件;

用ClustalW或ClustaX进行多重比对,将结果保存下来以便进一步分析。

(二)

按要求对以下序列进行比对分析(命名为“query.fasta”).

GCATGCTGGCTCCTTTGGGATCGATCCGTCCGGTTCTTCTCCGGCCGGCCACCTCTCGAAGGTGACGCTGTCGCCG ACGAGCCACCGACATCCGACCGACAGCCCCCGACAGCGCTCCTACGCGGTGCCGACATGACACCGACACCGCAGGT CGGACGACGGGGGCTCAGGCGCGACGGGCGCGGATCACGACGGCCGTACCGCCGCGACGGCGAGCACCGCCGCGCC GCCGAGGAGTGGCCGAAGGAGTGAAGATCGGTTACGGACCGTAAAGGAGTACCTGGCGCACCGGCGCGTTGTCGCA TCGTCGTCCCGGCCGGTGGCGGAGCATGCCACCCATGCTGTCCGGTCTTCTGGCCAGATTGGTCAAACTGCTGCTC GGGCGCCACGGCAGTGCGCTGCACTGGAGGGCCGCGGGTGCCGCGACGGTCCTCCTGGTGATCGTCCTCCTCGCGG GCTCGTACTTGGCCGTCCTGGCTGAGCGCGGCGCACCGGGCGCGCAGCTGATCACGTATCCGCGGGCGCTGTGGTG GTCCGTGGAGACCGCGACGACCGTCGGCTACGGCGACCTGTACCCCGTGACTCTGTGGGGCCGGCTCGTGGCCGTG GTGGTGATGGTCGCCGGGATCACCTCCTTCGGTCTGGTGACCGCCGCGCTGGCCACCTGGTTCGTCGGCCGGGAAC AAGAGCGCCGGGGCCACTTCGTGCGCCACTCCGAGAAGGCCGCCGAGGAGGCGTACACGCGGACGACCCGGGCGCT GCACGAGCGTTTCGACCGTTTGGAGCGAATGCTCGACGACAACCGCCGGTGACTCCGCCGGTGACCGCCCGAGCGA GGCCGCACCGATGAGTCTGCGGCGGTTGTGCGGTCTACCCGTCGACGAAGGGAGCGCACCATGCGCAAGATCATCA TTTGCACGTTCCTGACGCTGGACGGCGTCATGCAGGCGCCGGGCGGCCCGGACGAGGACGCCGAGAGCGGCTTCGA ACACGGCGGCTGGCAGAAGCCGGTGGACGACGACGAGGTCGGCACGGCCATCGCCGGCTGGTACGAGGACTCCGAC GCCATGCTCCTCGGCCGCAAGACCTACGACATCTTCGCGTCGTACTGGCCGACCGCCGACCCCGACAACCCGTTCA CCCATCGGATGAACAGCATGC

(1) 用NCBI BlastX (核酸 蛋白质数据库),推断该基因组序列最有可能编码的蛋白质是什么?长度多少?其登录号(accession number) 是多少?

(2) 请标出以上所得的蛋白质对应的query核酸编码序列的起止位置。

(3) 以该蛋白序列为模板,用BlastP 搜索,将最大命中数(Max target sequences) 设为1000:

(a) 若使用默认的non-redundant protein (nr) database,默认参数不变,Blast 输出多少条序列?结果最末位的序列的E值为多少?

(b) 若换用SwissProt 蛋白质数据库,其他默认参数不变,Blast 输出多少条序列?结果最末位的序列的E值为多少?

(4) 若想获得与该蛋白相关的空间结构信息,该如何操作,试对结果做简单统计。统计内容应包括多少个物种,每条序列的相似度(identity%, similarity%)如何。

(5) 对(4)操作获得的序列进行多重比对,给出结果。

Query 330 MPPM lsgllarlvklll GRHGSALHWR aagaatvllvivlla GSYLAVLAERGAPGAQLI 509

MPPMLSGLLARLVKLLLGRHGSALHW AAGAATVLLVIVLLAGSYLAVLAERGAPGAQLI

Sbjct 1 MPPMLSGLLARLVKLLLGRHGSALHWAAAGAATVLLVIVLLAGSYLAVLAERGAPGAQLI 60

Query 510 TYPRALWWSVETATTVGYGDLYPVTLWGRLVAVVVMVAGITSFGLVTAALATWFVGREQE 689 TYP ALWWSVETATTVGYGDLYPVTLWGR VAVVVMVAGITSFGLVTAALATWFVGREQE Sbjct 61 TYPAALWWSVETATTVGYGDLYPVTLWGRCVAVVVMVAGITSFGLVTAALATWFVGREQE 120

Query 690 RRGHFVRHSEK aaeeaytrttra LHERF 773

RRGHFVRHSEKAAEEAYTRTTRALHERF

Sbjct 121 RRGHFVRHSEKAAEEAYTRTTRALHERF 148

生物信息学作业

生物信息学试题 1、构建分子系统树得主要方法有哪些?并简要说明构建分子进化树 得一般步骤。(20分) 答:(1)构建进化树得方法包括两种:一类就是序列类似性比较,主要就是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们得差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树得情况下,通过蛋白质结构比较包括刚体结构叠合与多结构特征比较等方法建立结构进化树 (2)序列比对——选取所需序列——软件绘制 具体如下: a测序获取序列或者在NCBI上搜索所需得目得序列 b在NCBI上做blast:比对相似度较高得基因,并以fast格式下载,整合在*txt文档中。 c比对序列,比对序列转化成*meg格式 d打开保存得*meg格式文件,构建系统进化树 2、氨基酸序列打分矩阵PAM与BLOSUM中序号有什么意义?它们各自 得规律就是什么?(10分) (1)PAM矩阵:基于进化得点突变模型,如果两种氨基酸替换频繁,说明自然界接受这种替换,那么这对氨基酸替换得分就高。一个PAM就就是一个进化得变异单位, 即1%得氨基酸改变。 BLOSUM矩阵:首先寻找氨基酸模式,即有意义得一段氨基酸片断,分别比较相同得氨基酸模式之间氨基酸得保守性(某种氨基酸对另一种氨基酸得取代数据),然后,以所有60%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM60;以所有80%保守性得氨基酸模式之间得比较数据为根据,产生BLOSUM80。

(2)PAM用于家族内成员相比,然后把所有家族中对某种氨基酸得比较结果加与在一起,产生“取代”数据(PAM-1 );PAM-1自乘n次,得PAM-n。 PAM-n中,n 越小,表示氨基酸变异得可能性越小;相似得序列之间比较应该选用n值小得矩阵,不太相似得序列之间比较应该选用n值大得矩阵。PAM-250用于约 20%相同序列之间得比较。 BLOSUM-n中,n越小,表示氨基酸相似得可能性越小;相似得序列之间比较应该选用 n 值大得矩阵,不太相似得序列之间比较应该选用n值小得矩阵。BLOSUM-62用来比较62%相似度得序列,BLOSUM-80用来比较80%左右得序列。 3、蛋白质三维结构预测得主要方法有哪些?试选择其中得一种方 法,说明蛋白质三维结构预测得一般步骤。(10分) (1) a同源建模(序列相似性低于30%得蛋白质难以得到理想得结构模型 b折叠识别(已知结模板得序列一致率小于25%) c从头预测得方法(无已知结构蛋白质模板)。 (2) 4、您所熟悉得生物信息学软件有哪些?请选择其中得至少一种软 件,结合自己得研究课题,谈谈您所选择软件得基本原理,使用

基因组学与生物信息学教案

《基因组学与生物信息学》教案 授课专业:生物学大类各专业 课程名称:基因组学与生物信息学 主讲教师:夏庆友程道军赵萍徐汉福

课程说明 一、课程名称:基因组学与生物信息学 二、总课时数:36学时(理论27学时实验9学时) 三、先修课程:遗传学、分子生物学、基因工程 四、使用教材: 杨金水. 基因组学. 北京:高等教育出版社,2002. 张成岗. 贺福初, 生物信息学方法与实践. 北京:科学出版社,2002. 五、教学参考书: T.A.布朗著,袁建刚译著,基因组(2rd版),北京:科学出版社,2006. 沈桂芳,丁仁瑞,走向后基因组时代的分子生物学,杭州:浙江教育出版社,2005. 罗静初译,生物信息学概论,北京:北京大学出版社,2002. 六、考核方式:考查 七、教案编写说明: 教案又称课时授课计划,是任课教师的教学实施方案。任课教师应遵循专业教学计划制订的培养目标,以教学大纲为依据,在熟悉教材、了解学生的基础上,结合教学实践经验,提前编写设计好每门课程每个章、节或主题的全部教学活动。教案可以按每堂课(指同一主题连续1~2节课)设计编写。教案编写说明如下: 1、编号:按施教的顺序标明序号。 2、教学课型表示所授课程的类型,请在相应课型栏内选择打“√”。 3、题目:标明章、节或主题。 4、教学内容:是授课的核心。将授课的内容按逻辑层次,有序设计编排,必要时标以“*”、“#”“?” 符号分别表示重点、难点或疑点。 5、教学方式既教学方法,如讲授、讨论、示教、指导等。教学手段指教科书、板书、多媒体、模型、 标本、挂图、音像等教学工具。 6、讨论、思考题和作业:提出若干问题以供讨论,或作为课后复习时思考,亦可要求学生作为作业 来完成,以供考核之用。 7、参考书目:列出参考书籍、有关资料。 8、日期的填写系指本堂课授课的时间。

生物信息学复习资料

第一章 1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟 2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。从传统的还原论研究生命过程转到了整体论思想。 2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图 3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。 、EMBL、DDBJ 5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。数据挖掘中的常见算法思想:判断、聚类、关联。数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。 第二章: 1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长 2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测 2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降 3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap 4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序 5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网

生物信息学作业1实验2

上海师范大学实验报告 实验二 一、实验原理 答:利用Blast全球联网数据库,对输入的序列进行生物信息学分析,给出与输入序列相关性最大的对应的基因信息,比较两者的同源性。 二、操作步骤 答:(1)先打开网址https://www.wendangku.net/doc/0617878308.html,/ (2)点击右边的Blast链接,打开Blast数据库,进入Blast界面 (3)在Basic Blast中选择nucleotide blast (4)在对话框中输入核苷酸序列,在choose search set下的Database选项中选择Others (nr etc.) (5)把网页拉到最下方,点击Blast按钮 (6)在Descriptions 栏下找到Max ident 百分率最高的序列名称 (7)再往下拉,找到Alignments项下第一个序列,可以找到输入序列相关信息 (8)点击Accession,即能找到更多输入序列的相关信息。 1. tttcactcca tagttactcc ccaggtga 1.1它属于哪类生物? 答:属于Hepatitis C virus (丙型肝炎病毒) 1.2它属于哪类基因? 答:属于non-structural protein 5B gene 1.3它在该基因的什么位置? 答:它在该基因的第749-776这个位置。 1.4它与你搜索到的序列的同源性(Identities)是多少? 答:同源性100% 2.(1)ccacccactg aaactgcaca gacaaatttg tacataagag 1.1它属于哪类生物? 答:属于Influenza A virus (A/chicken/Iran261/01(H9N2)) hemagglutinin (HA) gene (A型流感病毒,A型伊朗型261鸡流感病毒,H9N2病毒,血细胞凝集素抗原基因为依据) 1.2它属于哪类基因? 答:属于ssRNA negative-strand viruses Orthomyxoviridae (单链RNA,负义链病毒,正粘病毒科) 1.3它在该基因的什么位置? 答:它在该基因的第1-40这个位置 1.4它与你搜索到的序列的同源性(Identities)是多少?

生物信息学课程设计

生物信息学课程设计报告 题目:用blast、clustalx2和mega来分析鼠伤寒沙门氏菌的四环素抗性基因 专业:生物技术 班级:11-2 学号:11114040235 姓名:邹炜球 指导教师:马超 广东石油化工学院生物工程系 2013年 12 月 21 日

摘要 生物信息学(Bioinformatics)是研究生物信息的采集,处理,存储,传播,分析和解释等各方面的一门学科,它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。本课程设计主要通过分析鼠伤寒沙门氏菌的四环素抗性基因来介绍生物信息学里面常用的数据库NCBI和一些常用的软件(如blast、clustalx2、Primer Premier 5和mega),由于生物信息学这一门课在生物研究领域所起到的作用非常大,所以熟练一些常用的生物信息学软件和数据库是非常有必要的。 关键词:NCBI、blast、clustalx2、Primer Premier 、mega、生物信息学、序列比对、系统发育树

目录 1绪论 (4) 1.1生物信息学的发展概况 (4) 1.2生物信息学的发展展望 (4) 2 课题设计内容 (5) 2.1以某一基因或蛋白为研究对象搜索一条序列(DNA长度为300-1500bp,蛋白质序列 为100-500)及相关信息,并分别表示出他的GENBANK和FASTA格式 (6) 2.2以设计内容1为目标序列进行BLAST分析 (7) 2.3通过BLAST或相关软件下载8条基因或蛋白质序列 (9) 2.4以8条基因序列进行多序列比对 (10) 2.5依照设计内容4构建系统发育树 (10) 2.6以其中一条基因序列设计一条长度为200-500bp的一对引物 (12) 参考文献 (16)

生物信息学课程论文 作业题目 分配表

生物技术12-1 生物技术12-1 学号姓名性 别 签名学号姓名性别签名学号姓名性 别 签名 12114350101陈丽娜女大肠杆菌连接 酶 12114350104黄少敏女人的胰蛋白 酶 12114350105黄晓静女T4噬菌体 DNA聚合酶12114350106纪秀玲女人的肌红蛋白12114350107列泳婵女蛋白酶K序 列 12114350108石彩虹女小鼠P53基 因12114350110周海琪女拟南芥端粒酶 序列 12114350111曹杰濠男淀粉酶12114350113陈永成男G-谷氨酰转 肽酶12114350115方壮杰男乳酸脱氢酶12114350116冯健锋男肝癌铁蛋白12114350118黄静云男牛血清白蛋 白12114350119李树森男18S rDNA 12114350120李涛男ATP合成酶12114350121林秀尧男谷氨酸脱羧 酶12114350123刘国标男CDK4 12114350124罗皓炽男胃蛋白酶12114350125阮永刚男鲨烯合酶基 因12114350126石晓洲男肌动蛋白12114350129王佐正男肥胖基因相 关蛋白 12114350130吴文祯男柑橘果胶酯 酶12114350131吴永鹏男凝血酶原12114350132徐国相男维生素C合 成基因 12114350133叶业林男葡萄糖脱氢 酶

12114350134张维彬男大肠杆菌Β-半 乳糖苷酶 12114350135张伟龙男抗干旱基因12114350136郑晓坤男人血红蛋白 12114350142郑桂捷男磷酸酶的蛋白 质12114350138黄忠海男牛凝乳酶原 基因 12114350139徐少东男岩藻糖苷酶 12114350141王晓敏女木瓜蛋白酶 本班总人数:31 生物技术12-2 生物技术12-2 学号姓名性别签名学号姓名性别签名学号姓名性别签名12114350201黄雪梅女人的胰岛素12114350202李晨晨女热震惊蛋白/ 热击蛋白 1211435020 3 廖垭娣女乙肝病毒 CABYR- binding prot ein 12114350204冉梦梦女腺苷酸环化酶12114350205魏丹璇女DNA ase I 1211435020 6 吴彩凤女纤维素酶 12114350207武亦婷女18 rDNA 12114350208叶国玲女谷胱甘肽1211435020 9 叶锦玉女线粒体基因

生物信息学填空题(个人整理)

1、BLAST教案所程序中,哪个方法是不存在的?(D) A:BLASTP B:BLASTN C:BLASTX D:BLASTQ 2、下列哪个软件不是常用来观察蛋白质结构视图的?(D) A:AVS B:Chimera C:MICE D:HMM 3、下列哪个不是点突变的类型?(A) A:染色体畸变 B:错义突变 C:无义突变 D:移码突变 4、基因突变的效应不包括:(C) A:有利突变 B:中性突变 C:移码突变D:遗传多态现象 5、人类基因组的结构特点不包括:(A) A:基因进化 B:基因数目 C:基因重复序列 D:基因组复制 6、世界上三大数据库不包括:(B) A:NCBI B:BLAST C:UCSC D:Ensembl 7、常用序列比对方法错误的是:(C) A:编辑距离 B:点阵描图 C:局部比对 D:记分模式 8、下列哪个不是蛋白质结构模型?(D) A:同源性模型 B:折叠识别 C:ab initio折叠 D: MoLScript结构9、下列哪个选项不是微阵列实验设计的内容?(A) A:贝叶斯网络法 B:对照组的选择 C:重复样本的使用 D:随机化原则10、构建序列进化树的一般步骤不包括:(A) A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树 11、下列中属于一级蛋白质结构数据库的是:(C) A. EMBL B. DDBJ C. PDB D.SWISS-PROT 12.蛋白质结构预测分为:(B) A.一级和三级结构预测 B. 二级和空间结构预测 C. 三级和空间结构预测 D. 二级和三级结构预测 13.数据挖掘的四个步骤不包括下列哪个:(C) A. 数据选择 B. 数据转换 C. 数据记录 D. 结果分析 14.下列哪项不是生物学研究必备的工具:(A) A.数据分析B.数据统计C.因素分析D.多元回归分析 15.Linux中rmdir 命令的功能是:(D) A.改变工作目录 B.删除工作目录 C. 创建目录 D.删除空目录 16.BLAST教案所程序中,哪个方法是不存在的?(D) A:BLASTP B:BLASTN C:BLASTX D:BLASTQ 17.下列哪个不是蛋白质结构模型?(D) A:同源性模型 B:折叠识别 C:ab initio折叠 D: MoLScript结构18.人类基因组的结构特点不包括:(A) A:基因进化 B:基因数目 C:基因重复序列 D:基因组复制 19、下列哪个选项不是微阵列实验设计的内容?(A) A:贝叶斯网络法 B:对照组的选择 C:重复样本的使用 D:随机化原则20、构建序列进化树的一般步骤不包括:(A) A:建立DNA文库 B:建立数据模型 C:建立取代模型 D:建立进化树三、填空题

生物信息学课程作业

生物信息学作业 1. Align the leghemoglobin protein from soy bean and myoglobin from human with global and local alignment software (ex. needle and water) respectively and interpret the results. ANSWER: (1)Use Needle to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # Length: 203 # Identity: 43/203 (21.2%) # Similarity: 58/203 (28.6%) # Gaps: 90/203 (44.3%) # Score: 30.0 (2)Use Water to Align the two sequence: Aligned_sequences: 2 # 1: CAA38024.1 # 2: NP_001157488.1 # Matrix: EBLOSUM62 # Gap_penalty: 14 # Extend_penalty: 4 # Length: 32 # Identity: 11/32 (34.4%) # Similarity: 15/32 (46.9%) # Gaps: 0/32 ( 0.0%) # Score: 35 两种软件虽然使用同一罚分标准但得分不同。因为Needle程序实现标准pairwise全局比对,而Water则是局部比对。全局比对因为是比对全长序列,所以空位罚分多,得分较局部比对低。

生物信息学复习

一、名词解释(31个) 1.生物信息学:广义:应用信息科学的方法和技术,研究生物体系和生物过程中信 息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。 2.二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验 数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对:研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的 功能区域,也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析:是研究物种进化和系统分类的一种方法,其常用一种类似树状分支 的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发育树。 5.直系同源:如果由于进化压力来维持特定模体的话,模体中的组成蛋白应该是进化 保守的并且在其他物种中具有直系同源性。 指的是不同物种之间的同源性,例如蛋白质的同源性,DNA序列的同源性。(来自百度) 6.旁系(并系)同源:是那些在一定物种中的来源于基因复制的蛋白,可能会进化出 新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。 (来自百度) 7.FASTA序列格式:将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或 氨基酸字符串。 8.开放阅读框(ORF):是结构基因的正常核苷酸序列,从起始密码子到终止密码子 的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。(来自百度)9.结构域:大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域,折 叠得较为紧密,各行其功能,称为结构域。 10.空位罚分:序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进 行罚分,以控制空位插入的合理性。(来自百度) 11.表达序列标签:通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的 3’或5’端序列。(来自文献) 12.Gene Ontology 协会: 13.HMM 隐马尔可夫模型:将核苷酸序列看成一个随机序列,DNA序列的编码部分与非 编码部分在核苷酸的选用频率上对应着不同的Markov模型。 14.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类 整理和注释 15.序列一致性:指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同 一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性:指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比 例。 17.Blastn:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查 序列作一对一地核酸序列比对。(来自百度) 18.Blastp:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同 每条所查序列作一对一的序列比对。(来自百度)

生物信息学

第一章 生物信息学:是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等相互渗透而形成的交叉学科。是应用计算机技术和信息论方法采集、储存、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息,以帮助了解生物学和遗传学信息的科学. 基因组信息学是生物信息学的核心。 生物信息学研究的目标: 通过认识生命的起源,进化,遗传,和发育的本质,破译隐藏在DNA序列中的遗传语言,并揭示基因组信息结构的复杂性及遗传语言的根本规律,以及人体生理和病理过程的分子基础,为人类疾病的诊断,预防和治疗提供最合理且有效的方法和途径‘ 生物信息学研究内容: 1 生物信息的收集,储存,管理和提供 2 基因组序列信息的提取和分析 3 生物信息分析技术和方法的研究开发分析工具和实用软件 4 功能基因组相关信息分析 5 生物大分子结构模拟和药物模拟 第二章 表达序列标签(EST):是随机选取的cDNA克隆的部分序列,即一个EST就是对应于某一种mRNA的一个cDNA克隆的一段序列。一般长度为300-500bp,经一定方法定位后转变为STS。EST可用于全长基因的克隆、基因定位、基因表达、基因结构等的分析。 测序标签位点(STS):一段长度约200-300bp的特定的DNA序列,每个STS序列位点对于基因组中一个单独的位置。来源于EST序列和随机序列等。是由PCR方法确定的单拷贝序列。作图时,相当于一个路标。 蛋白质工程(protein engineering):运用蛋白质结构的详细信息、重组DNA技术,对蛋白质分子进行重新设计,从而定向的改造蛋白质的性质,使其具有人们希望的优良性质,甚至创造不存在的蛋白质。主要目的是通过改造编码蛋白质基因中的DNA顺序,或设计合成新的基因,经过宿主细胞的表达获得被改造了的新的蛋白质。 蛋白质组(proteome):对应于基因组的概念,指有一个细胞或一个组织的基因所表达的全部相应的蛋白质。蛋白质组是一个动态的概念:1、和基因不一样,不同组织和不同发育时期都不一样。2、基因在转录后,还有一系列修饰,翻译等过程都可以影响蛋白质的表达。因此通过对蛋白质组的研究,在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题与人类健康和疾病相关的生物医学问题。

《生物信息学》上机作业

《生物信息学》上机作业 题目:对人血红蛋白(HBA1)编码基因序列的生物信息分析

目录 引言 .............................................................................................................................................. - 1 -1 正文......................................................................................................................................... - 2 - 1.1 NCBI上对相关核苷酸序列的查找............................................................................ - 2 - 1.2 BLAST运行及其结果.................................................................................................. - 2 - 1.3 BLASTX运行及其结果................................................................................................ - 6 - 2 其他软件的运行及其结果..................................................................................................... - 8 - 2.1 Clustal W运行及其结果 ............................................................................................. - 9 - 2.2 MEGA4.0运行及其结果............................................................................................. - 10 -结论 ............................................................................................................................................ - 10 -

生物信息学作业

CDK2基因和蛋白质序列的生物信息学分析 姓名: 学号: 专业: 1前言 细胞周期蛋白依赖激酶2(cyclin-dependent kinase 2,CDK2),又名细胞分裂激酶2(cell division kinase 2)或p33蛋白激酶(p33 protein kinase),其基因定位于人类基因组的12号染色体上的q13染色带上。CDK2基因全长6013bp,这部分中有7个外显子和6个内含子,7个外显子的长度依次为353bp、78bp、121bp、171bp、102bp、204bp、1264bp(可依次记为外显子1-7)。在翻译过程中,该基因转录成的mRNA的外显子1的前137bp和外显子7的后1159bp不进行翻译,属于调控序列。mRNA上只有中间的部分编码蛋白质。 CDK2基因可以转录为两种mRNA。其中,变体1长度为2325bp,编码298个氨基酸;变体2长度为2223bp,编码264个氨基酸。这两种蛋白质为CDK2的同型蛋白,功能相同,具有调控细胞分裂的功能,主要在G1期到S期和S期到G2期这两个阶段起作用。CDK2广泛分布在生物体的各种细胞的胞质溶胶和细胞核质中,但只在进行分裂的细胞中行使功能,这是因为CDK2只有与不同的细胞周期蛋白(cyclin)结合后才具有活性。CDK2可以与细胞周期蛋白A、B1、B3、E等结合后,参与细胞周期调控。由于CDK2在细胞内的数量变化有可能导致细胞周期异常而产生癌症,故CDK2基因可以被看作癌基因,其活性和表达量可以作为衡量癌症的指标。CDK2与周期蛋白E的复合体不仅能直接参与中心体复制的起始调控,还能与类Rb蛋白p107或转录因子E2F结合,促进细胞从G1期向S期转化或调控DNA复制有关的基因转录。而CDK2与周期蛋白A的复合体可以增强DNA复制因子RF-A的活性。 在CDK2分子中,被称为T环的氨基酸环阻断了活性部位,妨碍激酶履行它的酶功能,而且活性部位的氨基酸形成一种难于为蛋白质结合的形状。CDK2与周期蛋白结合时,周期蛋白将T环转出2nm以上,又将CDK2中的PSTAIRE螺旋部分转了, 并把活性部位氨基酸变成能与底物蛋白结合的正确构象。CDK2的活性不仅与周期蛋白有关,还与其上的Thr-15、Tyr-15、Thr-160三个位点是否磷酸化有关。一般情况下,与周期蛋白结合的CDK2的上述三个位点被Wee/Mik1和CAK激酶磷酸化,但此时复合体还没有活性,只有当Cdc25c将Thr-15、Tyr-15两个位点去磷酸化后,复合体才有活性。细胞中存在多种因子对CDK2进行修饰调节,此外还存在对其活性起负性调控的蛋白质,即CDK激酶抑制物,例如p21CIP/WAF1、p27KIP2等。 前面提到,CDK2基因转录的产物有两种。这两种mRNA的不同之处在于变体1由全部7个外显子组成,而变体2缺失外显子5,由剩余的6个外显子组成。这样翻译成的两种同型蛋白的长度就相差34个氨基酸。 2 材料和方法: 2.1序列数据来源 采用蛋白质名称对NCBI非冗余蛋白质数据库进行检索,CDK2蛋白的记录有1013个。而采用基因名称对NCBI非冗余核酸数据库进行检索,CDK2蛋白的记录有680个。 采用人(Homo sapiens)的CDK2蛋白序列进行BLAST搜索。 2.2序列分析方法

生物信息学课程大纲

《生物信息学》课程大纲 一、课程目标 1.学科素养:生物信息学的基本研究方法,并能掌握应用其中的一些常用方法,以提高学生的科研能力,领会采用信息学技术去分析和探索大量核酸和蛋白质序列所蕴藏的生命意义的基本思路。(支撑毕业要求 3-1) 2.交流合作:理解团队学习的重要性,具有团队协作精神,掌握沟通合作技能,具有小组互助和协作学习体验。(支撑毕业要求 8-1) 3.交流合作:具有小组互助和协作学习体验,具备与学校领导、同事、学生、家长及社区沟通交流的知识与技能。(支撑毕业要求 8-3)

二、课程目标与毕业要求的对应关系 三、教学内容、重难点和课时安排 1.第一章生物信息学概论(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点(二)教学内容 1、生物信息学的概念和发展历史(支撑课程目标1) 2、生物信息学的生物学基础(支撑课程目标1) 3、生物信息学的计算机和网络基础(支撑课程目标1) 4、生物信息学的数学基础(支撑课程目标1) 5、生物信息学的产业化(支撑课程目标1) 6、生物信息学研究内容和发展前景展望(支撑课程目标1)

(三)本章重难点 ※生物信息学的数学基础、生物信息学的计算机和网络基础 第二章分子生物学数据库(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、生物学数据库概述(支撑课程目标1) 2、核苷酸序列与基因组数据库(支撑课程目标1) 3、蛋白质序列与模式、同源性数据库(支撑课程目标1) 4、结构数据库(支撑课程目标1) 5、基因和分子的互作和代谢途径信息数据库(支撑课程目标1) 6、RNA核苷酸序列数据库(支撑课程目标1) 7、其它遗传学与分子生物学资源(支撑课程目标1) 8、数据库中存在的问题及使用注意事项(支撑课程目标1) (三)本章重难点 ※蛋白质序列与模式、同源性数据库;基因和分子的互作和代谢途径信息数据库;RNA 核苷酸序列数据库 第三章序列比对与数据库检索(2学时) (一)教学要求 理解和掌握相关名词的定义、概念和解释等,形成正确的理念和行为观点 (二)教学内容 1、序列比对概述(支撑课程目标1) 2、双序列比对(支撑课程目标1) 3、比对的统计学显著性(支撑课程目标1) 4、多序列比对(支撑课程目标1) 5、数据库搜索(支撑课程目标1) 6、基因组长序列比对(支撑课程目标1) (三)本章重难点 ※双序列比对、数据库搜索 第四章核酸序列的信号和功能识别(4学时)

《生物信息学》教学大纲

《生物信息学》教学大纲 Bioinformatics 课程编码:27A11708 学分:1.5 课程类别:专业任选课 计划学时:24 其中讲课:20 上机:4 适用专业:生物技术专业、药学专业 推荐教材:薛庆中著,《DNA和蛋白质序列数据分析工具》,科学出版社,2014年。 参考书目:张成岗著,《生物信息学方法与实践》,科学出版社,2005年。 课程的教学目的与任务 本课程的教学目的是引导学生初步了解生物信息学的基本研究内容与研究方法以及生物信息在多学科领域的应用。使学生掌握生物信息学的基本术语、基本原理、基本研究方法、重要核酸和蛋白质数据库等。掌握指定的基于互联网的常用生物信息学软件的基本操作使用方法。要求学生通过基于问题和任务的学习方式,初步具备解决简单生物信息学问题的研究能力。 课程的基本要求 通过本课程的学习,要求学生1. 掌握该领域的基本知识。2. 掌握指定数据库与软件的应用。3.课程的主要任务包括一次期末考试和多次的章节作业以及课程问题讨论等。 4.培养与引导学生采用生物信息学实际操作能力、以期后期能用于相应领域的研究工作中。 各章节授课内容、教学方法及学时分配建议(含课内实验) 第一章:绪论建议学时:2 [教学目的与要求] 掌握专生物信息学产生背景、概念及研究内容;介绍常用的核酸、蛋白质数据库介。 [教学重点与难点] 掌握生物信息学概念机研究内容,熟悉常用数据库的使用。 [授课方法] 课堂讲授结合上机操作 [授课内容] §1.1生物信息学的产生背景,概念 生物信息学的发展简史 生物信息学的不同定义 §1.2生物信息学的研究内容及常用的核酸、蛋白质数据库介绍 生物信息学的而研究内容 常用的核酸数据库 常用的蛋白质数据库

生物信息学复习题及答案

一、名词解释: 1.生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。 2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。 序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。 序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P95 12.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。 13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。 14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异同,来回答大量的生物学问题。 15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。 16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。 17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。 系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。 18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。) 19.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。) 20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。 21.有根树:能够确定所有分析物种的共同祖先的进化树。

生物信息学作业题

生物信息学作业题 绪论 1.什么是生物信息学? 2.生物信息学有哪些主要研究领域? 第一章生物信息学的分子生物学基础 1.DNA的双螺旋结构要点是什么? 2.什么是基因组和蛋白质组?对它们的研究有何意义? 第二章生物信息学的计算机基础 1.简述网络操作系统的类型。 第三章核酸序列分析 1.什么是全局比对? 2.什么是局部比对?有哪些优点? 第四章分子进化分析 1.分子进化分析具有哪些优点? 2. 简述分子进化的中性学说。 第五章基因组分析 1. 什么是基因组学?其主要研究内容是什么? 2.简述基因预测分析的一般步骤。 第六章蛋白质组分析 1. 蛋白质组学的概念和主要研究的大致方向是什么? 2. 蛋白质组功能预测的程序是怎样的? 第七章生物芯片数据分析 1. 什么是生物芯片? 2. 生物芯片有哪些方面的应用? 第八章核酸与蛋白质结构预测 1. RNA二级结构典型的预测方法有哪些? 2. 基于统计学的预测蛋白质二级结构的方法有哪些? 第九章生物信息学平台与工具软件 1. 请利用Clustal X软件对下列6条蛋白质序列进行多重比对(比对结果用BioEdit软件打开,用“截图”方式显示比对结果)。 >1 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >2 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >3

mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >4 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl >5 mqngkvkwfn sekgfgfiev eggedvfvhf saiqgegfkt leegqevtfe veqgnrgpqatnvnkk >6 mqgkvkwfnn ekgfgfieie gaddvfvhfs aiqgegykal eegqevsfdi tegnrgpqaanvvkl 2. 现有一ZmPti1b蛋白质序列,请用DNAMAN软件分析其二级结构,给出分析结果。 1 MSCFACCGDE DTQVPDTRAQ YPGHHPARAD AYRPSDQPPK GPQPVKMQPI AVPAIPVDEI 61 REVTKGFGDE ALIGEGSFGR VYLGVLRNGR SAAVKKLDSN KQPDQEFLAQ VSMVSRLKHE 121 NVVELLGYCA DGTLRVLAYE FATMGSLHDM LRGRKGVKGA QPGPVLSWSQ RVKIAVGAAK 181 GLEYLHEKAQ PHIIHRDIKS SNVLLFDDDV AKIADFDLSN QAPDMAARLH STRVLGTFGY 241 HAPEYAMTGQ LSSKSDVYSF GVVLLELLTG RKPVDHTLPR GQQSLVTWAT PRLSEDKVRQ 301 CVDSRLGGDY PPKAVAKFAA VAALCVQYEA DFRPNMSIVV KALQPLLNAH ARATNPGDHA 361 GS

生物信息学札记(第4版)

生物信息学札记(第4版) 樊龙江 浙江大学作物科学研究所 浙江大学生物信息学研究所 浙江大学IBM生物计算实验室 2017年9月 本材料已由浙江大学出版社出版:《生物信息学》,樊龙江主编,2017 部分内容可通过下列网址获得: https://www.wendangku.net/doc/0617878308.html,/bioinplant/

札记前言 第一版 这份材料是我学习和讲授《生物信息学》课程时的备课笔记,材料大多是根据当时收集的一些外文资料翻译编辑而成。学生在学习过程中经常要求我给他们提供一些中文的讲义或材料,这促使我把我的这份笔记整理并放到网上,供大家参考。要提醒使用者的是,这份材料仅是根据我对生物信息学的一些浮浅的认识整理而成,其中的错误和偏颇只能请读者自鉴了。 2001年6月 第二版 自1999年开始接触生物信息学以来,一晃已近六年,而本札记也近四岁了。2001和2002年中国科学院理论物理所的郝柏林院士在浙江大学首次开设生物信息学研究生课程,我作为他的助教系统地学习了生物信息学;同时,借着我国水稻基因组测序计划的机遇,在他的带领下从2001年开始从事水稻基因组分析,从此自己便完全投入到这一崭新、引人入胜的领域中来。 不断有来信向我索要本札记的电子版文件,同时在不少网站上看到推荐该札记的内容。生物信息学、基因组学等发展很快,现在再回头审看该札记,有些部分已惨不忍读,这促使我下决心更新它。但因时间和学识问题,还是有不少部分自己不甚满意,就只有待日后再努力了。欢迎告诉我札记中的BUG,我的信箱fanlj@https://www.wendangku.net/doc/0617878308.html,或bioinplant@https://www.wendangku.net/doc/0617878308.html,。 2005年3月30日 第三版 近年来高通量测序技术产生的序列数据大量出现(如小RNA和大规模群体SNP数据),本次更新根据这一进展增加了两章内容,分别是第七章有关小RNA的分析和第八章遗传多态性及正向选择检测。两章内容由我的博士生王煜为主编写,李泽峰和刘云参与了文献整理。另外还更新了第四章有关水稻基因组分析一节。 2010年1月 第四版 2014年浙江大学开展本科生教材建设工作,我当时作为系主任要带头,就承诺编写我主讲的《生物信息学》教材。编写教材的确不是一件容易的事,经过几番挣扎和多方努力,总算完成了编写,算是了却了一桩心思。该教材内容比较完整,也跟踪了生物信息学领域的最新进展。我就权且把该教材内容作为札记的第四版,也算给该札记一个完美的结尾。 2017年9月

相关文档
相关文档 最新文档