当前位置：文档库 › 比较齐全的生物信息学常用网站

比较齐全的生物信息学常用网站

生物信息学机构

NCBI

https://www.wendangku.net/doc/9c17472002.html,/

International Nucleotide Sequence Database Collaboration.

https://www.wendangku.net/doc/9c17472002.html,/collab/

EBI

https://www.wendangku.net/doc/9c17472002.html,/

USDA

https://www.wendangku.net/doc/9c17472002.html,/

Sanger Centre

https://www.wendangku.net/doc/9c17472002.html,/

北京大学生物信息学中心

https://www.wendangku.net/doc/9c17472002.html,

核苷酸数据库

GenBank

https://www.wendangku.net/doc/9c17472002.html,/

dbEST

https://www.wendangku.net/doc/9c17472002.html,/dbEST/index.html

dbSTS

https://www.wendangku.net/doc/9c17472002.html,/dbSTS/index.html

dbGSS

https://www.wendangku.net/doc/9c17472002.html,/dbGSS/index.html

Genome (NCBI)

https://www.wendangku.net/doc/9c17472002.html,/entrez/query.fcgi?db=Geno me

dbSNP

https://www.wendangku.net/doc/9c17472002.html,/SNP/

HTGS

https://www.wendangku.net/doc/9c17472002.html,/HTGS/

UniGene

https://www.wendangku.net/doc/9c17472002.html,/UniGene/

EMBL核苷酸数据库

https://www.wendangku.net/doc/9c17472002.html,/embl

Genome (EBI)

https://www.wendangku.net/doc/9c17472002.html,/genomes/

向EMBL数据库提交序列

https://www.wendangku.net/doc/9c17472002.html,/embl/Submission/webin.html

DDBJ

http://www.ddbj.nig.ac.jp/

Plant R gene database

https://www.wendangku.net/doc/9c17472002.html,/rgenes

启动子数据库

Eukaryotic promoter database

http://www.epd.isb-sib.ch

http://www.genome.ad.jp/dbget/dbget2.html

转录因子数据库

FRANSFAC

http://transfac.gbf.de

ooTFD

https://www.wendangku.net/doc/9c17472002.html,

基因分类数据库

Gene Ontology (GO)

https://www.wendangku.net/doc/9c17472002.html,

蛋白质数据库

SWISS-PROT或TrEMBL

https://www.wendangku.net/doc/9c17472002.html,/swissprot/

http://www.expasy.ch/sprot/

PIR

https://www.wendangku.net/doc/9c17472002.html,/pir/

PRF

http://www.prf.or.jp/

PDBSTR

http://www.genome.ad.jp/dbget-bin/www

_bfind?pdbstr-todayProsite

http://www.expasy.ch/sprot/prosite.html

结构数据库

PDB

https://www.wendangku.net/doc/9c17472002.html,/pdb

https://www.wendangku.net/doc/9c17472002.html,

NDB

https://www.wendangku.net/doc/9c17472002.html,/NDB/ndb.html

https://www.wendangku.net/doc/9c17472002.html,/

DNA-Binding Protein Database

https://www.wendangku.net/doc/9c17472002.html,/NDB/structure-finder/dna bind/index.html

NMR Nucleic Acids Database

https://www.wendangku.net/doc/9c17472002.html,/NDB/structure-finder/nmr /index.html

Protein Plus Database

https://www.wendangku.net/doc/9c17472002.html,/NDB/structure-finder/prot ein/index.html Swiss 3Dimage

http://www.expasy.ch/sw3d/

SCOP

https://www.wendangku.net/doc/9c17472002.html,/scop/

CATH

https://www.wendangku.net/doc/9c17472002.html,/bsm/cath/

酶、代谢和调控路径数据库

KEGG

http://www.genome.ad.jp/kegg/

Enzyme Nomenclature Database

http://expasy.hcuge.ch/sprot/enzyme.html

Protein Kinase Resource (PKR)

https://www.wendangku.net/doc/9c17472002.html,/kinases/

LIGAND

http://www.genome.ad.jp/dbget/ligand.html

WIT

https://www.wendangku.net/doc/9c17472002.html,/WIT/

EcoCyc

https://www.wendangku.net/doc/9c17472002.html,/ecocyc/

UM-BBD

https://www.wendangku.net/doc/9c17472002.html,/umbbd/

多种代谢路径数据库

https://www.wendangku.net/doc/9c17472002.html,/stc-95/ResTools/biotools/biotools8. html

基因调控路径数据库(TRANSPATH)

http://transfac.gbf.de

基因组数据库

禾本科比较基因组

https://www.wendangku.net/doc/9c17472002.html,

GrainGene

https://www.wendangku.net/doc/9c17472002.html,

Botanical Databases

https://www.wendangku.net/doc/9c17472002.html,/botanicaldatabase.htm

Botanical Data

https://www.wendangku.net/doc/9c17472002.html,/calflora/batanical.html

日本水稻基因组(RGP)

http://rgp.dna.affrc.go.jp

水稻物理图谱

https://www.wendangku.net/doc/9c17472002.html,/projects/rice/fpc https://www.wendangku.net/doc/9c17472002.html,

华大水稻基因组框架图

https://www.wendangku.net/doc/9c17472002.html,

欧洲水稻测序（第12染色体）

https://www.wendangku.net/doc/9c17472002.html,s.fr

Maize genome

https://www.wendangku.net/doc/9c17472002.html,

Barley genome

https://www.wendangku.net/doc/9c17472002.html,/Research/barley/nabgmp.htm

Forage grasses genomes

https://www.wendangku.net/doc/9c17472002.html,/

https://www.wendangku.net/doc/9c17472002.html,/Topics/Species/Grasses /

Triticum genomes

https://www.wendangku.net/doc/9c17472002.html,/index.shtml

Arabidopsis genome

https://www.wendangku.net/doc/9c17472002.html, SoyBase

http://129.186.26.94

Alfalfa genome

https://www.wendangku.net/doc/9c17472002.html,

Cotton genome

https://www.wendangku.net/doc/9c17472002.html,

Glycine max genome

https://www.wendangku.net/doc/9c17472002.html,/PlantGDB/glycine_max.ht ml

https://www.wendangku.net/doc/9c17472002.html,/PlantGDB

C. elegans genome

https://www.wendangku.net/doc/9c17472002.html,

藻类（Chlamydomonas）基因组

https://www.wendangku.net/doc/9c17472002.html,/chlamy_genome

粘菌（Dictyostelium）基因组

https://www.wendangku.net/doc/9c17472002.html,

Animal genomes (ArkDB)

https://www.wendangku.net/doc/9c17472002.html,

FlyBase

https://www.wendangku.net/doc/9c17472002.html,/.bin/fbidq.html?FBgn0003 075

Mouse Genome Informatics

https://www.wendangku.net/doc/9c17472002.html,/bin/query_accession?id= MGI:97555

Saccharomyces Genome Database

https://www.wendangku.net/doc/9c17472002.html,/cgi-bin/dbrun/Sacch DB?find+Locus+%22PGK1%22

多种基因组数据库

https://www.wendangku.net/doc/9c17472002.html,/GenomeWeb

文献数据库

PubMed

https://www.wendangku.net/doc/9c17472002.html,/PubMed/

OMIM

https://www.wendangku.net/doc/9c17472002.html,/Omim/

Agricola

https://www.wendangku.net/doc/9c17472002.html,/ag98/

Rice Genetics Newsletter

https://www.wendangku.net/doc/9c17472002.html,/newsletters/rice_genetics

Proceedings of the National Academy of Sciences USA (PNAS)

https://www.wendangku.net/doc/9c17472002.html,

关键词为基础的数据库检索

Entrez

https://www.wendangku.net/doc/9c17472002.html,/Entrez/

Entrez Nucleotide Sequence Search

https://www.wendangku.net/doc/9c17472002.html,/Entrez/nucleotide.html

Entrez Protein Sequence Search

https://www.wendangku.net/doc/9c17472002.html,/Entrez/protein.html

Batch Entrez

https://www.wendangku.net/doc/9c17472002.html,/Entrez/batch.html

Sequence Retrieval System, India

http://bioinfo.ernet.in:80/srs5/

Sequence Retrieval System, Singapore

https://www.wendangku.net/doc/9c17472002.html,.sg:80/srs5/

Sequence Retrieval System, US

https://www.wendangku.net/doc/9c17472002.html,:80/srs/srsc

Sequence Retrieval System, UK

https://www.wendangku.net/doc/9c17472002.html,/ GetEntry Nucleotide & Protein Sequence Search

http://ftp2.ddbj.nig.ac.jp:8000/getstart-e.html

Database Search with Key Words

http://ftp2.ddbj.nig.ac.jp:8080/dbsearch-e-new.html

DBGET/LinkDB

http://www.genome.ad.jp/dbget/dbget2.html

序列为基础的数据库检索

BLAST

https://www.wendangku.net/doc/9c17472002.html,/BLAST/

FASTA

https://www.wendangku.net/doc/9c17472002.html,/fasta33/index.html

BLITZ

https://www.wendangku.net/doc/9c17472002.html,/bicsw/

SSearch

https://www.wendangku.net/doc/9c17472002.html,rs.fr/bin/ssearch-guess.cgi

Electronic PCR

https://www.wendangku.net/doc/9c17472002.html,/STS/

Proteome analysis

https://www.wendangku.net/doc/9c17472002.html,/proteome/

多序列分析

Clustal multiple sequence alignment

https://www.wendangku.net/doc/9c17472002.html,/multi-align/multi-ali gn.html

BCM

https://www.wendangku.net/doc/9c17472002.html,/

EBI ClustalW analysis

https://www.wendangku.net/doc/9c17472002.html,

系谱分析

PAUP

https://www.wendangku.net/doc/9c17472002.html,/PAUP/

EBI ClustalW analysis

https://www.wendangku.net/doc/9c17472002.html,

GCG package

https://www.wendangku.net/doc/9c17472002.html,/

PHYLIP

https://www.wendangku.net/doc/9c17472002.html,/phylip.html

MEGA/METREE

https://www.wendangku.net/doc/9c17472002.html,/imeg

Hennig86

https://www.wendangku.net/doc/9c17472002.html,/~mes/hennig/software.html

GAMBIT

https://www.wendangku.net/doc/9c17472002.html,/mcdbio/Faculty/Lake/Resea rch/Programs/

MacClade

https://www.wendangku.net/doc/9c17472002.html,/macclade/macclade.html

Phylogenetic analysis

https://www.wendangku.net/doc/9c17472002.html,/stc-95/ResTools/biotools/biotools2. html

ClustalX

ftp://ftp-igbmc.u-strasbg.fr/pub/ClustalX

MEGA

https://www.wendangku.net/doc/9c17472002.html,

基因结构预测分析

GENSCAN

https://www.wendangku.net/doc/9c17472002.html,/GENSCAN.html

http://bioweb.pasteur.fr/seqanal/interfaces/genscan-si mple.html

http://bioweb.pasteur.fr

GeneFinder

https://www.wendangku.net/doc/9c17472002.html,/gf/gf.shtml

https://www.wendangku.net/doc/9c17472002.html,/nucleo.html

Gene Feature Searches

https://www.wendangku.net/doc/9c17472002.html,:9331/

Grail

https://www.wendangku.net/doc/9c17472002.html,/Grail-1.3/

GrailEXP

https://www.wendangku.net/doc/9c17472002.html,/grailexp/

GeneMark

https://www.wendangku.net/doc/9c17472002.html,/GeneMark/eukhmm.cgi

https://www.wendangku.net/doc/9c17472002.html,/GeneMark/hmmcho ice.html

Veil

https://www.wendangku.net/doc/9c17472002.html,/labs/compbio/veil.html

AAT

https://www.wendangku.net/doc/9c17472002.html,/aat.html

GENEID

http://www.imim.es/GeneIdentification/Geneid/geneid_i nput.html

Genlang

https://www.wendangku.net/doc/9c17472002.html,/~sdong/genlang_home.ht ml

GeneParser

https://www.wendangku.net/doc/9c17472002.html,/~eesnyder/GeneParser.html

Glimmer

https://www.wendangku.net/doc/9c17472002.html,/labs/compbio/glimmer.html

MZEF

https://www.wendangku.net/doc/9c17472002.html,/genefinder

Procrustes

https://www.wendangku.net/doc/9c17472002.html,/software/procrustes/

基因分类

GO Annotator

https://www.wendangku.net/doc/9c17472002.html,/gofigure

蛋白质结构预测分析

Expasy

http://www.expasy.ch/

CBS

http://www.cbs.dtu.dk

Predicting protein secondary structure

https://www.wendangku.net/doc/9c17472002.html,:9331/pssprediction/pssp. html

Predicting protein 3D Structures

http://dove.embl-heidelberg.de/3D/

Predicting protein structures

https://www.wendangku.net/doc/9c17472002.html,:9331/seq-search/struc-p redict.html

其它分析工具和软件

Putative DNA Sequencing Errors Check

http://www.bork.embl-heidelberg.de/Frame/

MatInspector

http://www.gsf.de/cgi-bin/matsearch.pl

FastM

http://www.gsf.de/cgi-bin/fastm.pl Web Signal Scan

http://www.dna.affrc.go.jp/htdocs/sigscan/signal.html

BCM Search Launcher

https://www.wendangku.net/doc/9c17472002.html,:9331/seq-util/seq-util.ht ml

Webcutter

https://www.wendangku.net/doc/9c17472002.html,/cutter/cut2.html

Translate DNA to protein

http://www.expasy.ch/tools/dna.html

ABIM

http://www-biol.univ-mrs.fr/english/logligne.html sequence motifs:

Pfam

https://www.wendangku.net/doc/9c17472002.html,/Pfam/

https://www.wendangku.net/doc/9c17472002.html,/

ProDom

http://protein.toulouse.inra.fr/prodom.html

PRINTS

https://www.wendangku.net/doc/9c17472002.html,/bsm/dbbrowser/PRINTS/ 其它

多种数据库、分析工具和生物信息学机构

https://www.wendangku.net/doc/9c17472002.html,/stc-95/Restools/biotools

多种数据库和分析工具

https://www.wendangku.net/doc/9c17472002.html,/Tools/

Comparative sequence analysis

http://www.bork.embl-heidelberg.de/

功能基因组分析

Transcription profiling technologies

https://www.wendangku.net/doc/9c17472002.html,/ncicgap/expression_tech_i nfo.html

Protocols for cDNA array technology

https://www.wendangku.net/doc/9c17472002.html,/pbrown/array.html

Data management and analysis of gene expression arrays https://www.wendangku.net/doc/9c17472002.html,/DIR/LCG/15k/HTML/

Examples of commercially available filter arrays:

GeneFiltersTM (Research Genetics)

https://www.wendangku.net/doc/9c17472002.html,

Gene Discovery Arrays (Genome Systems)

https://www.wendangku.net/doc/9c17472002.html,

AtlasTM Arrays (CLONTECH)

https://www.wendangku.net/doc/9c17472002.html,

生物信息学软件及使用概述

生物信息学软件及使刘吉平 liujiping@https://www.wendangku.net/doc/9c17472002.html, 用概述生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学是一门新兴的交叉学生物信息学的概念：科，它将数学和计算机知识应用于生物学，以获取、加工、存储、分类、检索与分析生物大分子的信息，从而理解这些信息的生物学意义。生物秀-专心做生物！ w w w .b b i o o .c o m

分析和处理实验数据和公共数据，生物信息学软件主要功能 1.2.提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验 3.实验数据的自动化管理 4.寻找、预测新基因及其结构、功能 5.蛋白质高级结构及功能预测（三维建模，目前研究的焦点和难点）生物秀-专心做生物！ w w w .b b i o o .c o m

功能1. 分析和处理实验数据和公共数据，加快研究进度，缩短科研时间 ?核酸：序列同源性比较，分子进化树构建，结构信息分析，包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框（ORF ），蛋白编码区（CDS ）及外显子预测、RNA 二级结构预测、DNA 片段的拼接； ?蛋白：序列同源性比较，结构信息分析（包括Motif ，限制酶切点，内部重复序列的查找，氨基酸残基组成及其亲水性及疏水性分析)，等电点及二级结构预测等等； ?本地序列与公共序列的联接，成果扩大。生物秀-专心做生物！ w w w .b b i o o .c o m

Antheprot 5.0 Dot Plot 点阵图 Dot plot 点阵图能够揭示多个局部相似性的复杂关系生物秀-专心做生物！ w w w .b b i o o .c o m

生物信息学名词解释

1.计算生物信息学（Computational Bioinformatics）是生命科学与计算机科学、数理科学、化学等领域相互交叉而形成的一门新兴学科，以生物数据作为研究对象，研究理论模型和计算方法，开发分析工具，进而达到揭示这些数据蕴含的生物学意义的目的。 2.油包水PCR (Emulsion PCR) : 1) DNA片段和捕获磁珠混合; 2) 矿物油和水相的剧烈震荡产生油包水环境; 3) DNA片段在油包水环境中扩增;4) 破油并富集有效扩增磁珠。 3.双碱基编码技术：在测序过程中对每个碱基判读两遍，从而减少原始数据错误，提供内在的校对功能。代表测序方法：solid 测序。 4.焦磷酸测序法：焦磷酸测序技术是由4种酶催化的同一反应体系中的酶级联化学发光反应,适于对已知的短序列的测序分析,其可重复性和精确性能与SangerDNA测序法相媲美,而速度却大大的提高。焦磷酸测序技术不需要凝胶电泳,也不需要对DNA样品进行任何特殊形式的标记和染色,具备同时对大量样品进行测序分析的能力。在单核苷酸多态性、病原微生物快速鉴定、病因学和法医鉴定研究等方面有着越来越广泛的应用。例如：454测序仪：用蛋白质序列查找核苷酸序列。 :STS是序列标记位点（sequence-tagged site）的缩写，是指染色体上位置已定的、核苷酸序列已知的、且在基因组中只有一份拷贝的DNA短片断，一般长200bp －500bp。它可用PCR方法加以验证。将不同的STS依照它们在染色体上的位置依次排列构建的图为STS图。在基因组作图和测序研究时，当各个实验室发表其DNA测序数据或构建成的物理图时，可用STS来加以鉴定和验证，并确定这些测序的DNA片段在染色体上的位置；还有利于汇集分析各实验室发表的数据和资料，保证作图和测序的准确性。 :表达序列标签技术（EST，Expressed Sequence Tags）EST技术直接起源于人类基因组计划。：生物信息学数据库。UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理，剔除冗余部分，将同一基因的序列，包括EST序列片段搜集到一起，以便研究基因的转录图谱。UniGene除了包括人的基因外，也包括小鼠、大鼠等其它模式生物的基因。 :开放阅读框（ORF，open reading frame )是基因序列的一部分，包含一段可以编码蛋白的碱基序列，不能被终止子打断。编码一个蛋白质的外显子连接成为一个连续的ORF。 10.分子钟检验：只有分子钟的，没听过分子钟检验。一种关于分子进化的假说，认为两个物种的同源基因之间的差异程度与它们的共同祖先的存在时间(即两者的分歧时间)有一定的数量关系

启动子生物信息学分析软件

https://www.wendangku.net/doc/9c17472002.html,/seq_tools/promoter.html 2. PlantCARE（plant cis-acting regulatory elements）, a database of plant cis-acting regulatory elements http://bioinformatics.psb.ugent.be/webtoo ls/plantcare/html/ 3. promoter 2.0 prediction server http://www.cbs.dtu.dk/services/Promoter/ 4. 启动子分析网址: 1 https://www.wendangku.net/doc/9c17472002.html,/seq_tools/promoter.html 2 http://alggen.lsi.upc.es/recerca/menu_recerca.html 3 http://www.cbs.dtu.dk/services/Promoter/ 4 https://www.wendangku.net/doc/9c17472002.html,/~molb470/ ... s/solorz/index.html 5 https://www.wendangku.net/doc/9c17472002.html,/molbio/proscan/ http://bip.weizmann.ac.il/toolbo ... ters.html#databases https://www.wendangku.net/doc/9c17472002.html,/seq_tools/promoter.html https://www.wendangku.net/doc/9c17472002.html,.sg/promoter/CGrich1_0/CGRICH.htm https://www.wendangku.net/doc/9c17472002.html,/pub/programs.html#pmatch https://www.wendangku.net/doc/9c17472002.html,.hk/~b400559/arraysoft_pathway.html#Promoter http://www.dna.affrc.go.jp/PLACE/signalup.html http://intra.psb.ugent.be:8080/PlantCARE/ http://www.cbs.dtu.dk/services/Promoter/ https://www.wendangku.net/doc/9c17472002.html,/molbio/proscan/ https://www.wendangku.net/doc/9c17472002.html,/molbio/signal/ https://www.wendangku.net/doc/9c17472002.html,/thread-41571-1-1.htm 常用启动子分析网址： http://bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html#databas es

生物信息学常用工具

常用DNA和蛋白质序列数据分析工具： ●序列比对工具： a)BLAST： ●网络比对，包括基础的Blast比对、参数、特殊Blast如PSI-Blast、Blast2 等； ●本地比对，包括程序下载、安装、数据库的下载及格式化、Blast程序的运行等。 b)多序列比对ClustalX（Windows系统）包括程序下载、安装、及程序的运行、结果的输入输出等。 ●真核生物基因结构的预测： a)基因可读框的识别： Genescan； CpG岛、转录终止信号和启动子区域预测； CpGPlot； POLYAH； PromoterScan； b)基因密码子偏好性： CodonW； c)采用mRNA序列预测基因： Spidey； d)ASTD数据库 ●分子进化遗传分析工具 ●MEGA；

●Phylip； ●蛋白质结构和功能预测 a)一级结构 ProtParam蛋白质序列理化参数检索； ProtScale蛋白质疏水性分析； COILS卷曲螺旋预测； b)二级结构 PredictProtein蛋白质结构预测； PSIPRED不同蛋白质结构预测方法； c)InterProScan: 模式和序列谱研究 Prosite：蛋白质结构域、家族和功能为点数据库； Pfam：蛋白质家族比对和HMM数据库； BLOCK：模块搜索数据库； SMART：简单模块架构搜索工具； TMHMM：跨膜结构预测工具； d)三级结构 Swiss-Model Workspace: 同源建模的网络综合服务器； Phyre：线串法预测蛋白质折叠； HMMSTR/Rosetta：从头预测蛋白质结构； Swiss-PdbViewer：分子建模和可视化工具；序列模体的识别和解析； MEME程序包； ●蛋白质谱数据分析

生物信息学软件使用

生物信息学软件的使用（以MC4R基因为例）第一章从NCBI上查找DNA、mRNA、蛋白质序列一、以猪的黑素皮质素受体4(MC4R, melanocortin-4 re-ceptor)基因为例，介绍如何从NCBI 上查找DNA、mRNA、氨基酸序列。 1.首先查找MC4R的DNA序列。在百度里输入NCBI，打开后得到的结果如下网页：在Search 栏输入“MC4R pig”，在下拉菜单里选择Gene，然后点击Search，得到如下结果：

点击第一个ID为397359的链接，得到如下的结果：

可以看到该基因位于猪的1号染色体上，在右下方有个“Go to nucleotide”即进入核酸序列，有三种格式（用红圈标记的），经常用的是“FASTA”和“GenBank”，“FASTA”格式的比较简洁，不包含任何的数字，就全部是碱基，序列的对比和分析是就要用到这种格式；而“GenBank”格式就比较详细，可以查看到很多信息，比如碱基数、mRNA序列、内含子、外显子、CDS，以及氨基酸序列等等之类的。点击GenBank后得到如下结果： Sus scrofa breed mixed chromosome 1, Sscrofa10.2 DNA LOCUS NC_010443 2265 bp DNA linear CON 29-SEP-2013 DEFINITION Sus scrofa breed mixed chromosome 1, Sscrofa10.2. ACCESSION NC_010443 REGION: complement(178553488..178555752) GPC_000000583 VERSION NC_010443.4 GI:347618793 DBLINK BioProject: PRJNA28993 Assembly: GCF_000003025.5 KEYWORDS RefSeq. SOURCE Sus scrofa (pig) ORGANISM Sus scrofa Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Laurasiatheria; Cetartiodactyla; Suina; Suidae; Sus. COMMENT REFSEQ INFORMATION: The reference sequence is identical to CM000812.4. On Oct 11, 2011 this sequence version replaced gi:333795951. Assembly Name: Sscrofa10.2 The genomic sequence for this RefSeq record is from the genome assembly released by the Swine Genome Sequencing Consortium as Sscrofa10.2 in August 2011 (see https://www.wendangku.net/doc/9c17472002.html,/Projects/S_scrofa). Sscrofa10.2 is a mixed assembly of clones and contigs from the whole-genome shotgun

常用生物信息学软件

常用生物信息学软件一、基因芯片 1、基因芯片综合分析软件。 ArrayVision 7.0 一种功能强大的商业版基因芯片分析软件，不仅可以进行图像分析，还可以进行数据处理，方便protocol的管理功能强大，商业版正式版：6900美元。 Arraypro 4.0 Media Cybernetics公司的产品，该公司的gelpro, imagepro一直以精确成为同类产品中的佼佼者，相信arraypro也不会差。 phoretix? Array Nonlinear Dynamics公司的基因片综合分析软件。 J-express 挪威Bergen大学编写，是一个用JA V A语言写的应用程序，界面清晰漂亮，用来分析微矩阵（microarray）实验获得的基因表达数据，需要下载安装JA V A运行环境JRE1.2后(5.1M)后，才能运行。 2、基因芯片阅读图像分析软件 ScanAlyze 2.44 ，斯坦福的基因芯片基因芯片阅读软件，进行微矩阵荧光图像分析，包括半自动定义格栅与像素点分析。输出为分隔的文本格式，可很容易地转化为任何数据库。 3、基因芯片数据分析软件 Cluster 斯坦福的对大量微矩阵数据组进行各种簇（Cluster）分析与其它各种处理的软件。 SAM Significance Analysis of Microarrays 的缩写，微矩阵显著性分析软件，EXCEL软件的插件，由Stanford大学编制。 4．基因芯片聚类图形显示 TreeView 1.5 斯坦福开发的用来显示Cluster软件分析的图形化结果。现已和Cluster成为了基因芯片处理的标准软件。 FreeView 是基于JA V A语言的系统树生成软件，接收Cluster生成的数据，比Treeview 增强了某些功能。 5．基因芯片引物设计 Array Designer 2.00 DNA微矩阵（microarray）软件，批量设计DNA和寡核苷酸引物工具三、序列综合分析 V ector NTI Suite 8.0 不喜欢装备各种专业性强的软件，而希望用一个综合性的软件代替的同志可以选择本软件。本阶段的大部分功能它都有。该软件具体特有良好的数据库管理（增加、修改、查找），对要操作的数据放在一个界面相同的数据库中统一管理。软件中的大部分分析可以通过在数据库中进行选定（数据）->分析->结果（显示、保存和入库）三步完成。在分析主界面，软件可以对核酸蛋白分子进行限制酶分析、结构域查找等多种分析和操作，生成重组分子策略和实验方法，进行限制酶片段的虚拟电泳，新建输入各种格式的分子数据、

生物信息学工具BLAST的使用简介_吕军

2003年3月内蒙古大学学报(自然科学版)M ar.2003第34卷第2期Acta Scientiarum Naturalium Univ ersitatis NeiM ongol Vol.34No.2 文章编号:1000-1638(2003)02-0179-09 生物信息学工具BL AS T的使用简介吕　军1,3,张　颖3,冯立芹2,李　宏1 (1.内蒙古大学理论物理与理论生物物理研究室,内蒙古呼和浩特010021; 2.内蒙古民族大学物理系,内蒙古通辽028043; 3.内蒙古工业大学物理教研室,内蒙古呼和浩特010062) 摘要:从网上在线服务、电子邮件服务和本地运行三个方面介绍BL AS T的使用方法,目的是使大家尽快掌握它,使其成为理论生物学研究的有力工具. 关键词:BL AS T;数据库;搜索中图分类号:Q617 文献标识码:A 引　言随着人类基因组计划(HGP)的进展,生物数据量迅速膨胀,海量的生物数据摆在生物信息学的工作者面前.生物信息学计算的核心是序列的比较,从而,比较基因组学、比较蛋白质组学成为后基因组时代的主要研究方向之一.比较的内容从序列的组分变化、寻找特殊的字段,到序列间字母的对应.比较的主要目的在于阐明序列间的同源(isogeny)关系,以及从已知序列去预测新序列的结构和功能. 两个或多个符号序列按字母比较,尽可能确切地反映他们之间的相似和相异,称为序列的联配(a lig nment).核酸和蛋白质序列的联配的前提是,假定两个序列来自同一个祖先序列(“同源”),它们在演化的过程中由于变异的积累而成为不同的序列. 近年来,进行序列联配分析的工具软件发展了很多,其中,尤以BLAST和FAST A使用最为频繁,一般认为,BLAS T运行速度快,对蛋白质序列的搜寻更为有效,FASTA速度较慢,对核酸序列更为敏感.BLAST是“基本局域联配搜索工具”(Basic Local Alig nment Search Tool)的字头缩写,是最常用的比较核酸和蛋白质同源性的比较工具.现在,利用BLAST对数据库进行搜索已成为生物信息学工作者的经常.因为BLAST和FAS TA的功能相近,所以,本文以BLAS T为例从三个方面来分别介绍BLAST的使用方法.关于BLAST的算法描述可见文献〔1〕和〔2〕. 1　网上在线服务 BLAST是运行速度甚快的数据库搜索程序,许多生物信息中心都有专门运行BLAST的服务器.主要的BLAST服务器网址如下: http://w w w.ncbi.nlm.nih.g ov/blast/(运行BLASTR2.0,美国,维护GenBank) http://w w https://www.wendangku.net/doc/9c17472002.html,(运行W U-BLAST2,欧洲,维护EM BL数据库) http://w w w.blast.geno me.ad.jp/(运行BLAST2.0,日本) https://www.wendangku.net/doc/9c17472002.html,(运行BLASTR2.0,中国,有ncbi和ebi的镜像) 收稿日期:2002-05-17 基金项目:国家自然科学基金(10147204)资助项目,内蒙古自然科学基金(2001301)资助项目作者简介:吕军(1973～),男,内蒙古乌拉特前旗人,讲师,硕士.

常用生物信息学软件介绍

常用生物学软件简介 1. Oligo 6是目前使用最为广泛的一款引物设计软件，除了可以简单快捷地完成各种引物和探针的设计与分析外，还具有很多其他同类软件所不具有的高级功能： a) 已知一个PCR引物的序列，搜寻和设计另一个引物的序列。b) 按照不同的物种对MM子的偏好性设计简并引物。 c) 对环型DNA片段，设计反向PCR引物。d) 设计多重PCR引物。e) 为LCR反应设计探针，以检测某个突变是否出现。f) 分析和评价用其他途径设计的引物是否合理。 g) 同源序列查找，并根据同源区设计引物。 h) 增强了的引物/探针搜寻手段。设计引物过程中，可以“Lock”每个参数，如Tm 值范围和引物3’端的稳定性等。 i) 以多种形式存储结果；支持多用户，每个用户可保存自己的特殊设置。网址： https://www.wendangku.net/doc/9c17472002.html,/ 2． Vector NTI Suite是一套功能最全，而且界面最美观，最友好的分子生物学应用软件包。主要包括四个大型软件，它们分别可以对DNA、RNA、蛋白质分子进行各种分析和操作。Vector⑴ NTI：作为Vector NTI Suite的核心组成部分，它可以在生物研究的全过程中提供数据组织和序列编辑的软件支持。Vector NTI 是以一种窗口形式，且支持项目组织的数据库来完成这一功能的；通过这个数据库，可以保存和组织大部分的实验数据，比如：基因结构、载体、序列片断、引物、蛋白质、多肽、电泳Markers和限制性内切酶等。实际上，该数据库还支持对Vector NTI Suite 中各种小型的绘图和结果展示工具的管理。Vector NTI 可以按照用户要求设计克隆策略。用户只需提供克隆载体，外源片断序列，明确载体克隆的大致位置或酶切位点，其它工作由软件完成。设计结果以图文形式输出到屏幕；最后根据客户定制的条件进行模拟电泳。Vector NTI 还具有强大的设计和评估PCR引物、测序引物和杂交探针功能。BioPlot⑵：BioPlot是一个对蛋白质和核酸序列进行各种理化特性分析的综合性工具，它是一种方便的桌面程序。和其他程序不同的是，BioPlot可以绘制50种以上预定制的蛋白质特征图谱，如疏水性和抗原性；并将序列与特征图谱和活性序列区域一一对应。BioPlot还可以对核酸序列进行8种不同类型的分析，如：退火温度、自由能和GC含量等。AlignX⑶：AlignX可以对多个蛋白质或核酸序列进行同源比较，以寻找不同序列之间的同源区域或相似性很高序列中的不同碱基，并绘制进化树；为下一步设计PCR引物、探针及研究系统发育提供基础。AlignX 可以识别所有标准TXT格式，如FASTA、GeneBank、EMBL、SWISS－PROT、GenPept 和ASCII Text。ContigExpress⑷：Contig Express是用来对多个小核酸片段进行拼接而形成连续的长序列。这些小片段可以是Text序列，也可以是直

生物信息学常用工具,作用及操作流程

用于分析DNA、RNA以及蛋白质一级结构 1、VecScreen用于分析未知序列的长度、载体序列的区域、判断可能使用的克隆载体。操作过程：NCBI→Resource List (A-Z)→V→VecScreen→输入序列→Run VecScreen→获得结果 2、RepeatMasker用于分析未知序列的重复序列情况，输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。操作流程： RepeatMasker Home Page→RepeatMasking→输入文本→选择参数→submit sequence→Results→选择所需结果 3、使用CpGPlot工具，分析未知序列的CpG岛的长度、区域、GC数量及Obs/Exp 值。 EMBL→service→Search “cpg”→EMBOSS cpgplot→输入序列→选择参数→submit→得到结果 4、Neural Network Promoter Prediction和Splice Site Prediction用于预测未知序列的启动子，获得可能的启动子序列及相应的位置。 Neural Network Promoter Prediction BDGP: Home→Analysis Tools→Promoter Prediction→输入序列→选择参数→submit →得到结果 Splice Site Prediction Splice Site Prediction→输入序列→选择参数（物种）→submit→得到结果这两个都是bdgp里边的，sp这个直接能进去操作。 5、ORF finder用于分析未知序列开放阅读框的预测，寻找潜在的蛋白质编码片段，并进行六框翻译（概念性翻译）。操作流程 NCBI→Resource List (A-Z)→ORF finder→输入序列→选择参数→submit→获得结果→选择符合要求的形式的结果 6、GENSCAN，用于未知序列综合分析，预测来自各种生物的基因组序列中基因的位置和外显子结构，并对其进行概念性翻译。同时可以获得未知序列的长度以及C+G含量。(首先确定给定序列的物种来源) 操作流程： GENSCAN→输入序列→选择参数→Run GENSCAN→得到结果 7、REBASE是限制性内切酶数据库，用于分析限制性核酸内酶的Recognition Sequence和Type（识别序列和酶切类型）。 Official REBASE Homepage→输入酶的名字→GO→得到结果

生物信息学工具介绍

生物信息学工具介绍 1、FASTA[10]（https://www.wendangku.net/doc/9c17472002.html,/fasta33/）和BLAST[11]（http://www.nc https://www.wendangku.net/doc/9c17472002.html,/BLAST/）是目前运用较为广泛的相似性搜索工具。比较和确定某一数据库中的序列与某一给定序列的相似性是生物信息学中最频繁使用和最有价值的操作。本质上这与两条序列的比较没有什么两样，只是要重复成千上万次。但是要严格地进行一次比较必定需要一定的耗时，所以必需考虑在一个合理的时间内完成搜索比较操作。FASTA使用的是Wilbur-Lipman 算法的改进算法，进行整体联配，重点查找那些可能达到匹配显著的联配。虽然FASTA不会错过那些匹配极好的序列，但有时会漏过一些匹配程度不高但达显著水平的序列。使用FASTA和BLAST，进行数据库搜索，找到与查询序列有一定相似性的序列。一般认为,如果蛋白的序列一致性为25-30%,则可认为序列同源。BLAST(Basic Loc al Alignment Search Tool，基本局部联配搜索工具)是基于匹配短序列片段，用一种强有力的统计模型来确定未知序列与数据库序列的最佳局部联配。BLAST 是现在应用最广泛的序列相似性搜索工具，相比FASTA 有更多改进，速度更快，并建立在严格的统计学基础之上。这两个工具都采用局部比对的方法，选择计分矩阵对序列计分，通过分值的大小和统计学显著性分析确定有意义的局部比对。BLAST根据搜索序列和数据库的不同类型分为5种：1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。 2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。 3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。 4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。 5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。另外PSI-BLAST通过迭代搜索，可以搜索到与查询序列相似性较低的序列。其中BLASTN、BLASTP在实践中最为常用，TBLASTN在搜索相似序列

生物信息学期末复习知识点总结

生物信息学：利用数学、物理、化学的理论、技术和方法，以计算机为工具，对生命现象加以研究，得到深层次的生物学知识。研究任务：收集与管理生物分子数据，对数据进行处理分析，为其它生物学研究提供服务四大“模式生物”：酵母、线虫、果蝇、小鼠糖的生物功能，作为燃料（是生命活动所需的能源），重要的中间代谢物，参与生物大分子组成，作为信号分子脂类的生物功能，构成生物膜的骨架，储存能量（效率是糖的2倍左右），构成生物表面的保护层、保温层，重要的生物学活性物质蛋白质的生物功能，是遗传信息转化成生物结构和功能的表达者；参与基因表达的调节，以及细胞中氧化还原反应、电子传递、神经传递、学习记忆等重要生命过程；酶（一类重要的蛋白质）在细胞和生物体内各种生化反应中起催化作用；蛋白质的空间结构一级结构(primary structure)多肽链中氨基酸数目、种类和线性排列顺序二级结构(secondary structure)氢键形成?-螺旋(? -helix)链间形成?-折叠(?-sheet) 三级结构(tertiary structure)肽链进一步沿多方向盘绕成紧密的近似球状结构四级结构(quaternary structure)具有特定构象的肽链进一步结合，并在空间相互作用检索方法：1）追溯法：通过已知文献后附有的参考文献中提供的线索来查找文献。（2）常用法：利用各种检索工具来查找文献。（3）循环法：是将常用法和追溯法交替使用的一种综合文献检索方法。（4）浏览法：是从本专业期刊或其它类型的原始文献中直接查阅文献资料。检索途径：着者途径：分类途径：主题途径：其它途径；检索过程：（1）分析研究课题（2）制定检索策略（3）查找文献线索（4）获得原始文献大规模基因组DNA测序：鸟枪法（ Shot-gun sequencing）方法：借助物理或化学的手段将整个基因组随机打断成一定大小的片段进行测序，再根据序列间的重叠关系进行计算机排序与组装，确定它们在基因组中的位置。适用范围：主要用于重复序列少、相对简单的原核生物基因组的测序工作。不适用于分析较大的、更复杂的基因组。优点：速度快、简单易行、成本低克隆重叠群法(clone contig sequencing)方法：先将染色体打成比较大的片段(几十-几百Kb)，利用分子标记将这些大片段排成重叠的克隆群，分别测序后拼装。需要绘制物理图谱，以鸟枪法为基础。适用范围：较大的、更复杂的基因组蛋白质结构解析：X射线晶体衍射；核磁共振波谱学其他方法：扫描隧道电子显微镜–圆二色谱一级数据库：直接来源于实验获得的原始数据，只经过简单的归类、整理和注释。二级数据库：在一级数据库、实验数据和理论分析的基础上，针对不同的研究内容和需要，对生物学知识和信息的进一步整理得到的数据库。序列比较的根本任务是：通过比较生物分子序列，发现他们之间的相似性，找出序列之间共同的区域，同时辨别序列之间的差异。同源性：是指序列们是由共同祖先进化而来，讲两条序列的同源关系，只有两种情况：同源、不同源。相似性：指序列间的差别，是一个度量。同源与相似的关系：一般认为序列相似性达到一定程度，即可认为是同源，但不绝对。序列比对算法实现：点阵分析：寻找序列间可能的性状对位排列；寻找蛋白质、DNA序列中正向或反向重复；预测RNA中自补区域；直观，整体水平；动态规划算法：精确而全面，非常耗费资源；启发式算法滑动窗口技术：使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法。动态规划算法计算过程：1计算过程从d 0 ,

生物信息学分析方法

核酸和蛋白质序列分析蛋白质, 核酸, 序列关键词：核酸序列蛋白质序列分析软件在获得一个基因序列后，需要对其进行生物信息学分析，从中尽量发掘信息，从而指导进一步的实验研究。通过染色体定位分析、内含子／外显子分析、ORF分析、表达谱分析等，能够阐明基因的基本信息。通过启动子预测、CpG岛分析和转录因子分析等，识别调控区的顺式作用元件，可以为基因的调控研究提供基础。通过蛋白质基本性质分析，疏水性分析，跨膜区预测，信号肽预测，亚细胞定位预测，抗原性位点预测，可以对基因编码蛋白的性质作出初步判断和预测。尤其通过疏水性分析和跨膜区预测可以预测基因是否为膜蛋白，这对确定实验研究方向有重要的参考意义。此外，通过相似性搜索、功能位点分析、结构分析、查询基因表达谱聚簇数据库、基因敲除数据库、基因组上下游邻居等，尽量挖掘网络数据库中的信息，可以对基因功能作出推论。上述技术路线可为其它类似分子的生物信息学分析提供借鉴。本路线图及推荐网址已建立超级链接，放在北京大学人类疾病基因研究中心网站（https://www.wendangku.net/doc/9c17472002.html,/science/bioinfomatics.htm）,可以直接点击进入检索网站。下面介绍其中一些基本分析。值得注意的是，在对序列进行分析时，首先应当明确序列的性质,是mRNA序列还是基因组序列？是计算机拼接得到还是经过PCR扩增测序得到？是原核生物还是真核生物？这些决定了分析方法的选择和分析结果的解释。（一）核酸序列分析 1、双序列比对（pairwise alignment）双序列比对是指比较两条序列的相似性和寻找相似碱基及氨基酸的对应位置，它是用计算机进行序列分析的强大工具，分为全局比对和局部比对两类，各以Needleman-Wunsch算法和Smith-Waterman算法为代表。由于这些算法都是启发式（heuristic）的算法，因此并没有最优值。根据比对的需要，选用适当的比对工具，在比对时适当调整空格罚分（gap penalty）和空格延伸罚分（gap extension penalty），以获得更优的比对。除了利用BLAST、FASTA等局部比对工具进行序列对数据库的搜索外，我们还推荐使用EMBOSS软件包中的Needle软件（http://bioinfo.pbi.nrc.ca:8090/EMBOSS/），和Pairwise BLAST （https://www.wendangku.net/doc/9c17472002.html,/BLAST/）。以上介绍的这些双序列比对工具的使用都比较简单，一般输入所比较的序列即可。（1）BLAST和FASTA FASTA（https://www.wendangku.net/doc/9c17472002.html,/fasta33/）和BLAST （https://www.wendangku.net/doc/9c17472002.html,/BLAST/）是目前运用较为广泛的相似性搜索工具。这两个工具都采用局部比对的方法，选择计分矩阵对序列计分，通过分值的大小和统计学显著

生物信息学复习题百度文库合集

生物信息学，一、名词解释： 1、生物信息学：生物分子信息的获取、存贮、分析和利用；以数学为基础，应用计算机技术，研究生物学数据的科学。 2、相似性（similarity）：两个序列（核酸、蛋白质）间的相关性。 3、同源性（homology）：生物进化过程中源于同一祖先的分支之间的关系。 4、同一性（identity）：两个序列（核酸、蛋白质）间未发生变异序列的关系。 5、序列比对（alignment）：为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。 6、生物数据库检索（database query，数据库查询）：对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。 7、生物数据库搜索（database search)：通过特定序列相似性比对算法，找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。二、简答题： 1、分子生物学的三大核心数据库是什么？它们各有何特点？ GenBank核酸序列数据库；SWISS-PROT蛋白质序列数据库；PDB生物大分子结构数据库；2、简述生物信息学的发生和发展。 20世纪50年代，生物信息学开始孕育； 20世纪60年代，生物分子信息在概念上将计算生物学和计算机科学联系起来； 20世纪70年代，生物信息学的真正开端； 20世纪70年代到80年代初期，出现了一系列著名的序列比较方法和生物信息分析方； 20世纪80年代以后，出现一批生物信息服务机构和生物信息数据库； 20世纪90年代后，HGP促进生物信息学的迅速发展。 3、生物信息学的主要方法和技术是什么？数学统计方法；动态规划方法；机器学习与模式识别技术；数据库技术及数据挖掘；人工神经网络技术；专家系统；分子模型化技术；量子力学和分子力学计算；生物分子的计算机模拟；因特网（Internet）技术 4、常见的DNA测序方法有哪些？各有何技术特点和优缺点？ Maxam-Gilbert DNA化学降解法：优点：可测完全未知序列及CG富含区；缺点：操作繁琐； Sanger双脱氧链终止法：优点：简便，可测较长片段；缺点：需已知部分序列或加接头；焦磷酸测序：优点：廉价、高通量；缺点：一次测序片段短。 5、分子生物学数据库有哪些类型？各有何特点？基因组数据库：基因组测序核酸序列数据库：核酸序列测定一次数据库：蛋白质序列数据库：蛋白质序列测定。生物大分子(蛋白质)三维结构数据库：X-衍射和核磁共振特点：数量少，容量大，更新快

常用的生物信息学软件的介绍和文献依据

名称简介参考文献备注 ALINE 一个产生出版质量比对的“所见即所得”蛋白质-序列比对编辑器 19390156 AMDA 用于自动微阵列数据分析的一个 R包 16824223 AmiGO 访问本体论和注释数据19033274 AnnotationSketch 基因组注释绘图库，基因组特征可视化 19106120 Arcadia 代谢通路的一个可视化工具，翻译文本的生物学网络描述为图示 20453003 ArchTEx 下一代测序数据片段的最佳延长及准确提取和可视化 22302569 ArrayExpress 将ArrayExpress数据集导入到 R/Bioconductor中 19505942 ArrayExpressHTS 用于RNA-seq数据处理和质量评估的一个流程 21233166 arrayMagic 双色cDNA微阵列质控和预处理15454413 arrayQCplot 用图形分析和统计分析检查微阵列数据质量的软件 16864592 BALL 生物化学算法库20973958

BALLView 用于分子建模研究和教育的一个工具 16332707 BamTools 分析和管理BAM文件的一个 C++应用程序接口和工具包 21493652 Batch Blast Extractor 批量Blast提取器：一个自动的 blastx剖析器应用程序 18831775 BayesPeak 分析ChIP-seq数据的一个R包，峰识别 21245054 BEDTools 比较基因组特征的一套灵活的实用程序，支持BED，BAM， GFF格式文件 20110278 BEST 结合位点评估工具套件，整合了4 种普遍使用的motif发现程序 15814553 BIGpre 一个下一代测序数据质量评估程序包 22289480 BiNGO 一个评估基因本体论类别在生物网络中过代表的Cytoscape插件 15972284 Bio++ 用于序列分析、系统发生学、分子进化和群体遗传学的一套C++库 16594991 BioCoder 一种标准化及自动化生物学实验方案的编程语言 21059251

生物信息学复习资料

一、名词解释(31个) 1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。 2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。 3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。 4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。 5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度） 6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度） 7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。 8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度） 9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。 10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度） 11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分 cDNA的3’或5’端序列。（来自文献） 12.Gene Ontology 协会： 13.HMM 隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释 15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员, 或者蛋白质的同一氨基酸位置的相同的氨基酸成员, 可用百分比表示。 16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。 17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度） 18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）