文档库 最新最全的文档下载
当前位置:文档库 › 针对蛋白质复合物Other类型的打分函数

针对蛋白质复合物Other类型的打分函数

针对蛋白质复合物Other类型的打分函数
针对蛋白质复合物Other类型的打分函数

[Article]

https://www.wendangku.net/doc/438429787.html,

物理化学学报(Wuli Huaxue Xuebao )

Acta Phys.鄄Chim.Sin .,2006,22(5):622~626

Received:November 17,2005;Revised:February 16,2006.

?

Correspondent,E ?mail:wzchen@https://www.wendangku.net/doc/438429787.html,,cxwang@https://www.wendangku.net/doc/438429787.html,;Tel:010?67392724.

国家自然科学基金(30400087,10574009),教育部博士学科点专项基金(20040005013),北京市自然科学基金(5042003)资助项目

?Editorial office of Acta Physico ?Chimica Sinica

针对蛋白质复合物Other 类型的打分函数

沈龙珠

李春华马晓慧常珊

陈慰祖?

王存新?

(北京工业大学生命科学与生物工程学院,北京100022)

摘要

在不同类型复合物结合界面的物理化学特征不同的基础上,针对较难预测的Other 类型复合物设计出特

异性打分函数,用于在对接过程中挑选出有效结构.该函数由原子接触能(E ACE )、范德华和静电相互作用能组成,通过多元线性回归方法获得各项的权重系数.对来自CAPRI benchmark1中17个Other 类复合物例子进行打分测试.结果表明,组合打分能够刻画出Other 类型复合物单体间相互作用的特征,反映出复合物形成前后的能量变化,具备一定的从众多样本中筛选出有效结构的能力.相对于残基成对势(RP),该组合打分获得了更高的打分成功率.对CAPRI 第八轮竞赛中两个结构预测模型进行打分排序,该组合打分也体现出强于RP 的鉴别有效结合模式潜力.关键词:打分函数,原子接触能,残基成对势,

Other 类复合物,

CAPRI

中图分类号:O641,

Q617

Scoring Function for the Other 鄄type Protein Complexes

SHEN,Long ?Zhu

LI,Chun ?Hua MA,Xiao ?Hui

CHANG,Shan

CHEN,Wei ?Zu ?

WANG,Cun ?Xin ?

(College of Life Science and Bioengineering,Beijing University of Technology,Beijing 100022,P.R.China )

Abstract

Based on the conclusion that different complexes have distinctive chemo ?physical characters at interfaces,

a specific scoring function was designed to select the effective structures in protein ?protein docking procedure for the Other ?type protein complexes,which are hard to predict.This scoring function was composed of the atomic contact energy (E ACE ),van der Waals,and electrostatic interaction energies.The weight of each term was obtained by the multiple linear regression approach.The test result on 17Other ?type complexes from CAPRI benchmark1demonstrated that the combinatorial scoring function could delineate the interaction feature of the Other ?type complexes and reflect the energy change during the complex formation,and it has certain capacity of discriminating effective structures from numbers of the docked https://www.wendangku.net/doc/438429787.html,pared to the residue pair potential (RP),the combinatorial score could gain a higher success rate.Ranking the predicted models of two targets in CARPI round 8,the combinatorial score also exhibits greater potential to distinguish the effective association modes.Keywords :

Scoring function,

Atomic contact energy,

Residue pair potential,

Other ?type complexes,

CAPRI

分子对接是指从蛋白质分子单体三维结构出发,采用计算机模拟方法预测复合物结构的技术.该方法的研究对于探讨分子识别机理有重要的理论价值,并在复合物结构预测方面有广泛的应用前景.为

推动蛋白质对接算法的发展,欧洲生物信息学中心于2001年发起CAPRI [1](critical assessment of predic ?tion of interactions)蛋白质?蛋白质复合物结构预测竞赛,迄今已经成功举办了八轮比赛.

May

622

No.5陈慰祖,王存新等:针对蛋白质复合物Other类型的打分函数

按照单体分子坐标的来源,可以将对接划分为

三种类型,即结合态(Bound)对接、半结合态(Semi-bou nd)对接和非结合态(Unbound)对接.Bound对接是指组成复合物的两个单体的分子坐标均来自复合

物结构;Unbound对接是指两单体坐标均来自独立

的结构;Semibound对接则是指两单体之一来自独

立结构,另一个来自复合物结构.在CAPRI比赛初

期(1~2轮[2]),主要目标是研究Semibound对接.在这一阶段,所选目标的Unbound单体在结合前后构象

变化相对较小.许多对接方法将蛋白单体视为刚体,

应用快速傅立叶变换(FFT)算法进行全空间采样[3],使用主要基于几何互补原则的打分函数,从大量对

接样本中筛选出最佳结果.在分子柔性处理方面,主

要采用分子力学方法优化对接结构,或软化分子表

面间接地考虑分子柔性[4],但这并不能够很好地适应那些结合前后分子构象变化大的情况.因此,优化打

分函数和考虑分子柔性成为后阶段分子对接算法的

主要研究方向[5].在第二阶段CAPRI(3~5轮[6]),出现了许多需要先对分子进行同源模建然后再进行对接

的例子,这无疑对结构预测又提出了新的挑战.此

外,这一阶段的对接目标分子结合前后构象变化程

度也高于上一阶段[7],势必要求在对接过程中加入分子柔性信息.分子柔性的考虑主要从侧链和主链两

个角度出发:针对侧链柔性发展出了侧链转子库[8]、

多拷贝优化[9]等技术;针对主链的柔性,发展出了多

构象叠落[10?11]、运动域分块[12]等方法.在打分方面也

有所进展,涌现出诸多新的打分函数[6].然而,从历次CAPRI竞赛结果看,参与者提交的预测结构的排序

结果仍然在一定程度上缺乏可靠性.因此,进一步改

进打分函数是以后CAPRI的一个重要目标[6].在最近一轮CAPRI(第8轮)中,首次设立了与结构预测平行的打分能力评价,充分显示了发展准确快速的打分方案的迫切性和重要的学术意义.

按照构造方法,打分函数主要划分为三种类型,

即基于物理的打分函数,经验的打分函数和基于知

识的打分函数.基于物理的打分函数是依据物理化

学原理将结合自由能表示为具有独立物理意义的多

项式之和.尽管此类方法相对准确率较高,但由于计

算量巨大,只适用于很少的对接程序之中.经验的打

分函数将结合自由能计算表达式分解成带有权重的

氢键、静电、疏水效应以及熵效应等项的加和,分别

计算各项贡献,权重系数通过回归方法从实验数据

拟合得到.ICM?DISCO[13],RosettaDock[8]等分子对接程序均采用了经验函数.基于知识的函数使用统计的方法分析实验测得复合物结构,从中提取相互作用规律.原子接触能[14]和残基成对势[15]是目前应用较为普遍的统计函数.

尽管目前已经发展出多种类型打分函数,但是对于不同类型复合物,同一打分函数的评价能力有所差异.这主要是由于不同复合物类型的界面特征存在一定差异造成的.Jackson[16]发现蛋白酶/抑制剂与抗原/抗体类型复合物间的相互作用形式明显不同.我们小组[17]已有的研究表明,针对不同的复合物类型采取不同的过滤策略,可以提高对接预测成功率.Vajda等[18]根据预测难度将蛋白质复合物划分为五类,较难预测的第四和第五类主要为除了酶/抑制剂和抗原/抗体外的Other类型.这类复合物往往在生物体内信号转导、协同作用等方面起着重要作用,具备药物识别靶点的基本特征,有着重大的理论研究价值和潜在的应用前景.本工作以此为出发点,通过线性回归的方法拟合了一套适用于Other类型复合物的打分函数,这套打分函数整合了基于物理和基于知识的势函数,由原子接触势、范德华和静电相互作用能组成.

1方法与研究体系

1.1方法

在本工作中,打分函数的表达形式如下: Score=w1E ACE+w2E attr vdw+w3E rep vdw+w4E sa ele+w5E sr ele+

w6E la ele+w7E lr ele(1)其中,E ACE、E attr vdw、E rep vdw、E sa ele、E sr ele、E la ele、E lr ele分别表示去溶剂化能,范德华吸引、排斥作用,短程静电吸引、排斥作用,长程静电吸引、排斥作用;w1、w2、w3、w4、w5、w6、w7为权重系数.

去溶剂化能采用原子接触势模型(ACE)[14],可以表示为

E ACE=

i∑j

∑e ij(2)其中e ij为原子i、j之间的接触能,求和遍及所有距离小于0.6nm的原子对.模型包含了侧链熵(S sc)效应,在很多近似计算中取代(ΔG solv-TΔS sc)项作为对结合自由能的部分贡献.

静电项采用介电距离依赖的库仑势模型计算:

E ele=q i q j

4πε0εr r ij(3)其中,ε0为真空介电常数,相对介电常数εr=4r ij,r ij 为原子i和j之间的距离,q i、q j分别为原子i和j的

623

Acta Phys.鄄Chim.Sin.(Wuli Huaxue Xuebao ),2006

Vol.22

电荷.以0.5nm 作为截断距离,划分长程、短程相互作用.范德华吸引和排斥作用由以下方程计算[19]:

E attr

vdw

=i

∑j

∑εij

r m ,ij r ij

()12

-2r m ,ij

r ij

()6

[]r ij ≥0.89r

m ,ij

(4)E rep vdw

=i ∑j

∑10.0×1-r

ij 0.89r m ,ij

()

r ij <0.89r

m ,ij

(5)

其中r m ,ij 为范德华半径之和,εij 是势阱深乘积的平方根,且函数在r ij =0.89r m ,ij 处连续.范德华排斥项采用非标准的Lennard ?Jones 形式,是为了忽略分子对接中由于结构未经优化出现某些原子间距离过近而带来的能量过大.力场参数取自CHARMM19力场[20].1.2体

从蛋白质复合物标准集Benchmark1.0[21]中挑选了17个Other 类型的蛋白质复合物进行打分函数的训练和测试(见表1).使用FTDock 程序[3]

对每个复合物分别进行Bound 和Unbound/Semibound 对接,各产生30000个对接构象,取L_RMSD(root ?mean ?square displacement of the ligand)较小的2000个Bound 对接构象来拟合打分函数,将全部Bound 、Unbound/Semibound 对接构象用于测试打分函数的区分能力.

CAPRI 8预测包括Target 22和Target 23两个结构,它们分别是剪接体复合物(U5?15K/U5?52K)和GTPase GBP1结构域同源二聚体,同属于Other 类

型.应用组合打分函数以及RP 对CAPRI 服务器提供的271个(Target 22)和385个(Target 23)预测结构进行打分排序,选择最佳的10个构象提交.

2结果与讨论

2.1组合打分函数及评价能力

用R 软件[22]进行多元线性回归,以能量值对L_RMSD 作数据拟合.回归方程检验和回归系数检验表明响应值与自变量间存在显著的线性关系.从而确定Other 类型复合物组合打分函数(见(1)式)的形式为

Score=0.0877E ACE +0.2880E attr

vdw

+0.0989E rep vdw +0.0431E sa ele +0.0580E sr ele +0.0817E la

ele +0.0791E lr ele

(6)

表1用于训练和测试打分函数的17个Other 类型

复合物[21]

Table 1

The 17Other ?type complexes used for training and testing the scoring function [21]

?

Either component of the complex is https://www.wendangku.net/doc/438429787.html,plex

Receptor description

Ligand description 1A0O *Che A Che Y

1ATN *Actin Deoxyribonuclease I

1AVZ HIV ?1NEF FYN tyrosin kinase SH3domain 1EFU *

E.coli Ef ?Tu

Efts 1FIN CDK2cyclin ?dependant kinase 2Cyclin 1FQ1CDK2

KAP 1GLA

*Glycerol kinase GSF III 1GOT Transducin Gt ?α,Gi ?αchimera

Gt ?β?γ1IGC *IgG1Fab Fragment Protein G

1KKL HPr Kinase

Phosphocarrier Protein Hpr 1L0Y

T Cell Receptor βchain

Exotoxin A11SPB *Subtilisin

Subtilisin prosegment 1WQ1RAS activating domain RAS 2BTF *β?Actin Profilin

2MTA Methylamine dehydrogenase Amicyanin

2PCC Cytochrome C Peroxidase Iso ?1?Cytochrome C 3HHR

*

Human growth hormone

Receptor

表2组合打分函数的测试结果

Table 2The testing result of the combinatorial scoring function

L_RMSD (root ?mean ?square displacement of the ligand)is obtained by comparing the positions of the ligand main ?chain atoms in the predicted model and the experimental determined structure after a least ?square superposition of the receptors.One hit is defined as the decoy with L_RMSD less than 1nm;

?

The number of hits within top 10conformations;

-No structure with L_RMSD <1nm obtained in 30000docked decoys

Bound

Semibound/Unbound 1st hit of 1st hit hits *

1st hit of 1st hit hits *

Training set(15)1AVZ 20.1641--01A0O 10.1723160.70201ATN 120.174090.20011SPB 10.143360.14121FIN 10.14110---1GLA 10.1893---1GOT 10.15110---1WQ110.168880.91111KKL 10.1973630.95502BTF 10.159530.89612MTA 10.74251450.93002PCC 10.176520.98033HHR 10.1227---Test set(2)1FQ180.40425740.96201EFU

1

0.162

10

5

0.941

1

1IGC 420.7790740.99201L0Y ------

624

No.5陈慰祖,王存新等:针对蛋白质复合物Other

类型的打分函数

图1RP和组合打分对17个Semibound/Unbound对接例子打分成功率比较

Fig.1Comparison of success rates between RP and the combinatorial score on17

semibound/unbound docking cases 表3组合打分和RP对CAPRI8预测模型排序结果的比较Table3Comparison on the ranking results of the predicted models of CAPRI8by the combinatorial score and RP a the rank of models officially published by CAPRI on the web (https://www.wendangku.net/doc/438429787.html,/round8/round8.html);

b the rank of the combinatorial score;

c the rank of RP;

-the model not found in the top20models ranked by the score functions

Pub a Com b Pub a Com b RP c M011-M11115-M042-M012--M27035M27316-M1264-M1494--M5352M46518-M3364M24161717 M1917-M1657--M15281M038--M181916M029--M0510-M0510--

RP c

-

-

-

-

5

-

-

-

9

-

Model Target22Model Target23

表2总结了组合打分对17种复合物打分评价的结

果.有效结构定义为L_RMSD小于1nm的结构.对

于训练集,15个Bound对接打分排序中11个体系

的有效结构都排到了第1位,12个体系的第1个有

效结构的L_RMSD都小于0.2nm,而且前10名样

本中有7个获得了5个或5个以上的有效结构.对Semibound/Unbound对接打分排序表明,在全部获

得有效结构的例子中,有效结构有半数排到了前10

位,两个体系(1ATN,1SPB)的第1个有效结构具有

较小的L_RMSD(0.200nm,0.141nm).对于测试集

样本1EFU,Bound对接排序的前10位全部被有效

结构占有,而且排名第1的有效结构的L_RMSD仅

为0.162nm.Semibound对接也在前10位排列中捕

获到5个有效结构.对样本1FQ1,Bound对接中,第1个有效结构的排位和L_RMSD分别为8和0.404 nm.Semibound对接中,第一个有效结构的排位为574.对于1L0Y体系,无论在Bound还是在Unbound

搜索中都没有发现有效结构.这主要是因为,该体

系接触面积小(11.3nm2),而且两个单体分子都是Unbound,具有相当的柔性,因此较难得到有效结构

采样.需要指出:在采样阶段获得一定数量的有效

结构是进行打分排序的前提基础.对于Other类复

合物,分子柔性往往较大,会在结合前后出现较为

显著的构象变化,刚性对接采样获得有效结构数本

身相对较少,给打分筛选增加了困难.同时,由于对

接所采样本未经优化处理,结构上存在一定不合理

性,也造成打分不够准确.所以需要在采样阶段更

为充分地考虑分子柔性变化,打分之前进行合理的

结构优化,改善Semibound/Bound对接打分的现状,这也是我们下一步要进行的工作.

相对于通常用于对FTDock采样进行排序的RP打分,该组合打分在区分有效结构的能力上表现出明显优势,如图1所示.成功率定义为一定数目保留构象中打分获得的有效结构数与全部有效结构数的比值对所有例子的平均.对于保留的前1000个结构,RP的成功率均低于0.20,而组合打分成功率接近0.45,大约增长了一倍.上述结果表明,Other类型的组合打分基本能够体现这类复合物的物理化学特征,通过能量函数的形式反映出复合物结合前后的能量变化关系,从众多对接采样中区分出有效结构.

2.2对于Target22和Target23,组合打分与

RP打分效果的比较

CAPRI第8轮包括两个目标结构(Target22和Target23),由于实验结构已经发表,结构预测评价被取消,但打分评价还正常进行.应用该组合打分和RP对CAPRI服务器提供的预测模型进行打分排序,提交10个最佳构象.表3列出了CAPRI组委会公布结果中排名前10位的模型以及它们对应在组合打分和RP打分中排序前20个结构中相应的位置.考虑两个打分排列前20个构象是因为在竞赛的筛选提交结构过程中,综合参考了两种打分这一分数段的构象的信息,从中优选得到最终提交结果.对于Target22,组合打分捕获到5个名列公布结果前10位的构象,其中4个排名到了前5位,而RP只得到2个,仅1个结构进入前5位.对于Target23,组合打分

625

Acta Phys.鄄Chim.Sin.(Wuli Huaxue Xuebao ),2006

Vol.22

筛选出4个模型,而RP 只找到1个.而且在公布排名的前10名列表中,组合打分搜索到的结构完全包括了RP 的搜索结构.由此可见,组合打分评价构象的能力明显高于RP,更为适合Other 类型.

当然该组合打分函数也存在如下缺点:1)表3显示出组合打分排序与公布结果之间存在不一致性.尤其是对于Target 23,组合打分捕获到的4个模型都被列到了15名以后.2)从前20位构象的打分数值的分布情况(图2)可以看出,该数值分布在一个狭窄的区间内,构象间能量差异不够显著,不利于构象间的区分.所以,同在采样过程中加入生物学信息具有同样重要意义[11],在打分过滤过程中合理地引入结合位点的结构信息将有助于排除假阳性的干扰,筛选出可靠的有效结构.

3结论

针对蛋白质复合物中较难预测的Other 类型,提出了适于该类型的打分函数.对17个复合物的对接结构测试结果表明,该组合打分基本能够体现这类复合物的物理化学特征,反映出复合物形成前后的能量变化关系,具备一定的从大量采集构象中筛选获得有效结构的能力.相对于RP,组合打分函数表现出更强的区分有效结构的能力.对CAPRI 第8轮的两个结构分别用组合打分与RP 进行筛选,结果显示组合打分表现出更好的筛选能力.但同时需要指出的是,Other 类型复合物是对接研究中较为困难的一类复合物,分子结合前后构象变化较大,给采样和打分都造成困难.因此,需要在采样阶段考虑分子柔性,在打分之前进行结构优化,这将是我们下一步的工作重点.

References

1Janin,J.Proteins,2002,47:257

2Janin,J.;Henrick,K.;Moult,J.;Eyck,L.T.;Sternberg,M.J.E.;Vajda,S.;Vakser,I.;Wodak,S.J.Proteins,2003,52:23Katchalski ?Katzir,E.;Shariv,I.;Eisenstein,M.;Friesem,A.A.;Aflalo,C.;Vakser,I.A.Proc.Natl.Acad.Sci.,1992,89:21954Li,C.H.;Ma,X.H.;Chen,W.Z.;Wang,C.X.Proteins,2003,52:47

5M éndez,R.;Leplae,R.;Maria,L.D.;Wodak,S.J.Proteins,2003,52:51

6M éndez,R.;Leplae,R.;Lensink,M.F.;Wodak,S.J.Proteins,2005,60:150

7Janin,J.Proteins,2005,60:170

8Gray,J.J.;Moughon,S.;Wang,C.;Schueler ?Furman,O.;Kuhlman,B.;Rohl,C.A.;Baker,D.J.Mol.Biol.,2003,331:2819Jackson,R.M.;Gabb,H.A.;Sternberg,M.J.E.J.Mol.Biol.,1998,276:265

10Smith,G.R.;Sternberg,M.J.E.;Bates,P.A.J.Mol.Biol.,2005,347:1077

11Ma,X.H.;Li,C.H.;Shen,L.Z.;Gong,X.Q.;Chen,W.Z.;Wang,C.X.Proteins,2005,60:319

12Schneidman ?Duhovny,D.;Inbar,Y.;Nussinov,R.;Wolfson,H.J.Proteins,2005,60:224

13

Fern ández ?Recio,J.;Totrov,M.;Abagyan,R.Proteins,2003,52:113

14Zhang,C.;Vasmatzis,G.;Cornette,J.L.;DeLisi,C.J.Mol.Biol.,

1997,267:707

15Moont,G.;Gabb,H.A.;Sternberg,M.J.E.Proteins,1999,35:36416Jackson,R.M.Protein Sci.,1999,8:60317Li,C.H.;Ma,X.H.;Chen,W.Z.;Wang,C.X.Prot.Eng.,2003,16:265

18Vajda,S.;Camacho,C.J.Trends in Biotechnology,2004,22:11019Kuhlman,B.;Baker,D.Proc.Natl.Acad.Sci.,2000,97:1038320Brooks,B.R.;Bruccoleri,R.E.;Olafson,B.D.;States,D.J.;Swaminathan,S.;Karplus,https://www.wendangku.net/doc/438429787.html,put .Chem.,1983,4:18721Chen,R.;Mintseris,J.;Janin,J.;Weng,Z.Proteins,2003,52:8822

Ihaka,R.;Gentelman,https://www.wendangku.net/doc/438429787.html,put.Graph.Stat.,1996,5:

299

图2CAPRI 8中蛋白质复合物Target 22和Target 23组合打分前20位模型的分数分布Fig.2The score distribution of top 20modes ranked by the combinatorial score for

protein complex Target 22and Target 23in CAPRI 8

626

蛋白质结构与功能的关系

蛋白质结构与功能的关系 蛋白质的结构包括一级结构、二级结构、三级结构、四级结构。 一级结构是蛋白质的一级结构指在蛋白质分子从N-端至C-端的氨基酸排列顺序。一级结构是蛋白质空间构象和特异生物学功能的基础,但不是决定蛋白质空间构象的唯一因素。 蛋白质的二级结构是指多肽链的主链骨架本身在空间上有规律的折叠和盘绕,它是由氨基酸残基非侧链基团之间的氢键决定的。常见的二级结构有α螺旋、三股螺旋、β折叠、β转角、β凸起和无规卷曲。α螺旋中肽链骨架围绕一个轴以螺旋的方式伸展,它可能是极性的、疏水的或两亲的。β折叠是肽链的一种相当伸展的结构,有平行和反平行两种。如果β股交替出现极性残基和非极性残基,那么就可以形成两亲的β折叠。β转角指伸展的肽链形成180°的U形回折结构而改变了肽链的方向。β凸起是由于β折叠股中额外插入一个氨基酸残基而形成的,它也能改变多肽链的走向。无规卷曲是在蛋白质分子中的一些极不规则的二级结构的总称。无规卷曲无固定走向,有时以环的形式存在,但不是任意变动的。从结构的稳定性上看,右手α螺旋>β折叠> U型回折>无规卷曲,但在功能上,酶与蛋白质的活性中心通常由无规卷曲充当,α右手螺旋和β折叠一般只起支持作用。 蛋白质的三级结构是指多肽链在二级结构的基础上,进一步盘绕、卷曲和折叠,形成主要通过氨基酸侧链以次级键以及二硫键维系的完整的三维结构。三级结构通常由模体和结构域组成。稳定三级结构的化学键包括氢键、疏水键、离子键、范德华力、金属配位键和二硫键。模体可用在一级结构上,特指具有特殊生化功能的序列模体,也可被用于功能模体或结构模体,相当于超二级结构。结构模体是结构域的组分,基本形式有αα、βαβ和βββ等。常见的模体包括:左手超螺旋、右手超螺旋、卷曲螺旋、螺旋束、α螺旋-环-α螺旋、Rossmann卷曲和希腊钥匙模体。结构域是在一个蛋白质分子内的相对独立的球状结构和/或功能模块,由若干个结构模体组成的相对独立的球形结构单位,它们通常是独自折叠形成的,与蛋白质的功能直接相关。一个结构域通常由一段连续的氨基酸序列组成。根据其占优势的二级结构元件的类型,结构域可分为五大类:α结构域、β结构域、α/β结构域、α+β 结构域、交联结构域。以上每一类结构域的二级结构元件可能有不同的组织方式,每一种组织就是一种结构模体。这些结构域都有疏水的核心,疏水核心是结构域稳定所必需的。 具有两条和两条以上多肽链的寡聚蛋白质或多聚蛋白质才会有四级结构。组成寡聚蛋白质或多聚蛋白质的每一个亚基都有自己的三级结构。蛋白质的四级结构内容包括亚基的种类、数目、空间排布以及亚基之间的相互作用。驱动四级结构形成或稳定四级结构的作用力包括

生物化学知识点与题目 第四章 蛋白质化学.

第四章蛋白质化学 知识点: 一、氨基酸 蛋白质的生物学功能 氨基酸:酸水解:破坏全部色氨酸以及部分含羟基氨基酸。碱水解:所有氨基酸产生外消旋。氨基酸的分类:非极性氨基酸(8种):Ala、V al、Leu、Ile、Pro、Met、Phe、Trp;极性氨基酸(12种):带正电荷氨基酸Lys、Arg、His;带负电荷氨基酸Asp和Glu;不带电荷氨基酸Ser、Thr、Tyr、Asn、Gln、Cys、Gly。 非蛋白质氨基酸: 氨基酸的酸碱性质: 氨基酸的等电点,氨基酸的可解离基团的pK值,pI的概念及计算, 高于等电点的任何pH值,氨基酸带有净负电荷,在电场中将向正极移动。 氨基酸的光吸收性:芳香族侧链有紫外吸收,280nm, 氨基酸的化学反应:α-氨基酸与水合茚三酮试剂共热,可发生反应,生成蓝紫化合物。茚三酮与脯氨酸和羟脯氨酸反应则生成黄色化合物。 二、结构与性质 肽:基本概念;肽键;肽;氨基酸残基;谷胱甘肽;肽键不能自由转动,具有部分双键性质;肽平面 蛋白质的分子结构:一级结构,N-末端分析,异硫氰酸苯酯法;C-末端分析,肼解法 蛋白质的二级结构:是指蛋白质分子中多肽链骨架的折叠方式,包括α螺旋、β折叠和β转角等。 超二级结构:超二级结构是指二级结构的基本结构单位(α螺旋、β折叠等)相互聚集,形成有规律的二级结构的聚集体。 结构域: 蛋白质的三级结构:蛋白质的三级结构指多肽链中所有氨基酸残基的空间关系,其具有二级结构或结构域。 球状蛋白质分子的三级结构特点:大多数非极性侧链(疏水基团)总是埋藏在分子内部,形成疏水核;大多数极性侧链(亲水基团),总是暴露在分子表面,形成一些亲水区。 蛋白质的四级结构:蛋白质的四级结构是由两条或两条以上各自独立具有三级结构的多肽链(亚基)通过次级键相互缔合而成的蛋白质结构。变构蛋白、变构效应;血红蛋白氧合曲线。维持蛋白质分子构象的化学键:氢键,疏水键,范德华力,盐键,二硫键等 三、蛋白质的分子结构与功能的关系 蛋白质的分子结构与功能的关系:一级结构决定高级结构,核糖核酸酶的可逆变性;变性、复性、镰刀型红细胞贫血症的生化机理; 四、蛋白质的性质及分离纯化 胶体性质:双电层,水化层;1. 透析;2. 盐析;3. 凝胶过滤; 酸碱性质:1. 等电点沉淀;2. 离子交换层析;3. 电泳 蛋白质的变性:蛋白质变性后,二、三级以上的高级结构发生改变或破坏,但共价键不变,一级结构没有破坏。

基于静态网络的蛋白质复合物预测方法综述

Software Engineering and Applications 软件工程与应用, 2018, 7(3), 151-159 Published Online June 2018 in Hans. https://www.wendangku.net/doc/438429787.html,/journal/sea https://https://www.wendangku.net/doc/438429787.html,/10.12677/sea.2018.73018 A Survey of Computational Methods for Protein Complexes Prediction Based on Static PPI Networks Yang Yu Software College, Shenyang Normal University, Shenyang Liaoning Received: Jun. 6th, 2018; accepted: Jun. 20th, 2018; published: Jun. 27th, 2018 Abstract Protein complexes are formed by interacting proteins and exhibit diverse biological functions. Protein complexes are predicted by computational methods from biological networks, which is not only important for understanding the mechanisms of biological activities and the pathogenesis of diseases, but also for making up the deficiencies of biological high-throughput experimental methods. In this paper, two types of prediction methods based on static network protein com-plexes are introduced and analyzed. Secondly, we discuss the deficiencies of protein complex al-gorithms and the challenges of this field. Keywords Protein-Protein Interaction Network, Clustering, Complex Prediction, Computational Methods 基于静态网络的蛋白质复合物预测方法综述 于杨 沈阳师范大学,软件学院,辽宁沈阳 收稿日期:2018年6月6日;录用日期:2018年6月20日;发布日期:2018年6月27日 摘要 蛋白质复合物通过相互作用蛋白质形成,表现出多样的生物功能。使用计算方法从生物网络中预测蛋白质复合物不仅对于理解生物活动的机制和疾病的发病机理具有重要意义,而且可以弥补生物高通量实验

CAPRI第32~37轮竞赛中蛋白质复合物结构的预测和评估

第43卷第12期2017年12月北京工业大学学报JOURNAL OF BEIJING UNIVERSITY OF TECHNOLOGY Vol.43No.12Dec.2017 CAPRI 第32~37轮竞赛中蛋白质复合物结构的 预测和评估 张大为,许晓双,孔 韧,陆旭峰,陆振宇,常 珊 (江苏理工学院电气信息工程学院生物信息与医药工程研究所,江苏常州 213001) 摘 要:为了探究蛋白质复合物的结构与相互作用,建立了蛋白质的分子对接方法,从2014年起参加蛋白质复合物结构预测竞赛的预测和打分竞赛.该方法首先采用结构模建方法预测单体蛋白质分子的结构,通过快速傅里叶变换进行全空间构象搜索.然后,优化蛋白质复合物构象,并采用全原子统计势函数进行评价.总结第32~37轮CAPRI 竞赛结果发现,该方法在T104二T105二T111和T118比赛中挑选出了L RMSD 小于2.0?10-10m 的近天然结构.通过对比其他国际优秀课题组的方法,分析预测和打分比赛中取得的成绩和不足之处,并为后续的研究提出了改 进方案与建议. 关键词:蛋白质分子对接;复合物结构预测;打分函数 中图分类号:O 641文献标志码:A 文章编号:0254-0037(2017)12-1828-09 doi :10.11936/bjutxb2017030029收稿日期:2017-03-21 基金项目:NSFC-广东联合基金(第二期)超级计算科学应用研究专项(U1501501);国家自然科学基金资助项目(11647146,81603852);江苏省六大人才高峰资助项目(2016-XYDXXJS-020);江苏省产学研前瞻资助项目(BY2016030-06)作者简介:张大为(1985 ),男,讲师,主要从事蛋白质相互作用方面的研究,E-mail:zdw@https://www.wendangku.net/doc/438429787.html, 通信作者:常 珊(1982 ),男,副教授,主要从事生物信息学和分子模拟方面的研究,E-mail:schang@https://www.wendangku.net/doc/438429787.html, Protein Complex Structure Prediction and Evaluation in CAPRI Rounds 32-37 ZHANG Dawei,XU Xiaoshuang,KONG Ren,LU Xufeng,LU Zhenyu,CHANG Shan (Institute of Bioinformatics and Medical Engineering,School of Electrical and Information Engineering,Jiangsu University of Technology,Changzhou 213001,Jiangsu,China)Abstract :To explore protein complex structures and interactions,a protein docking method was proposed,and the prediction and scoring evaluations of CAPRI from 2014were conducted.Firstly,the structure modeling method was carried out to predict the protein monomer structure,and Fast Fourier Transformation (FFT)was applied to perform the global conformational searching.Then,the protein complex conformations were refined and evaluated by all-atom statistical potential function.The summarized results from Rounds 32-37of CAPRI show that this docking method predicts the near-native structures with L RMSD <2.0?10-10m in the experiments of T104,T105,T111and https://www.wendangku.net/doc/438429787.html,pared with other international excellent groups,the advantage and disadvantages in the prediction and scoring experiments were analyzed.Finally,the possible improvements for protein structure prediction in the oncoming experiments were proposed.Key words :protein docking;complex structure prediction;scoring function 万方数据

蛋白质结构预测在线软件

蛋白质预测在线分析常用软件推荐 蛋白质预测分析网址集锦 物理性质预测: Compute PI/MW http://expaxy.hcuge.ch/ch2d/pi-tool.html Peptidemasshttp://expaxy.hcuge.ch/sprot/peptide-mass.html TGREASE ftp://https://www.wendangku.net/doc/438429787.html,/pub/fasta/ SAPS http://ulrec3.unil.ch/software/SAPS_form.html 基于组成的蛋白质识别预测 AACompIdent http://expaxy.hcuge.ch ... htmlAACompSim http://expaxy.hcuge.ch/ch2d/aacsim.html PROPSEARCH http://www.e mbl-heidelberg.de/prs.html 二级结构和折叠类预测 nnpredict https://www.wendangku.net/doc/438429787.html,/~nomi/nnpredict Predictprotein http://www.embl-heidel ... protein/SOPMA http://www.ibcp.fr/predict.html SSPRED http://www.embl-heidel ... prd_info.html 特殊结构或结构预测 COILS http://ulrec3.unil.ch/ ... ILS_form.html MacStripe https://www.wendangku.net/doc/438429787.html,/ ... acstripe.html 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。 由NCBI检索蛋白质序列 可联网到:“http://www.ncbi.nlm.ni ... gi?db=protein”进行检索。 利用SRS系统从EMBL检索蛋白质序列 联网到:https://www.wendangku.net/doc/438429787.html,/”,可利用EMBL的SRS系统进行蛋白质序列的检索。 通过EMAIL进行序列检索 当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。 蛋白质基本性质分析 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的

多糖蛋白质复合物

1.7卡拉胶对蛋白质消化性影响的研究进展 蛋白质的消化受几个因素的高度影响,包括胃环境(pH值和酶活性)、蛋白结构和其他存在于胃肠道内的食物成分。研究表明通过食物处理过程比如加热和高压处理可以使蛋白质结构的改变,也可以影响蛋白质水解的速率和模式。(1 N. St?anciuc, I. van der Plancken, G. Rotaru and M. Hendrickx, Rev. Roum.Chim., 2008, 53, 921–929. 2 M. R. Peram, S. M. Loveday, A. Ye and H. Singh, J. Dairy Sci.,2013, 96, 63–74. 3 I. O'Loughlin, B. Murray, P. Kelly, R. FitzGerald and A. Brodkorb, J. Agric. Food Chem., 2012, 60, 4895–4904.)近几年来,学者们研究发现通过对蛋白质外表面构造的修饰和减弱外表面的联结网络的形成,表面活性剂的存在会进一步增加蛋白质的水解。(8 J. Maldonado-Valderrama, A. P. Gunning, P. J. Wilde andV. J. Morris, So Matter, 2010, 6, 4908–4915.)在食物处理过程中,通过构象的改变和与其他成分结合,蛋白质的消化方式可能会发生改变。 两种大分子单独存在不能形成凝胶,而混合后却能形成凝胶体,且其凝胶特性随蛋白质—多糖质量比、混合环境pH值和处理温度以及离子强度而变化。蛋白质与多糖两种大分子在溶液中共存时,一些如温度、pH等物理条件适宜时,大分子上的部分基团可以相互连接,形成聚合物产生一些独特的性质,最终影响蛋白质的消化性。 蛋白质化学性质研究近三十年来取得了飞速的发展,扫描电镜、SDS-PAGE、流变等新技术的应用,使人们更加深入的了解蛋白质结构,蛋白质一、二、三、四级结构的阐明推动了结构研究的进程。卡拉胶的研究主要在于其结构的探测,以及其特性的研究。 尽管蛋白质和多糖各自在模拟胃环境中的消化行为已经研究得很深入了,但是很少有关注蛋白质和多糖混合系统的研究。每一种高分子的消化行为都能被同存的其他物质所影响。 (13 C. Villaume, C. Sanchez and L. M′ejean, Biochim.Biophys.Acta, Gen. Subj., 2004, 1670, 105–112.)蛋白质与卡拉胶在水溶液中发生交互作用,从而影响蛋白质的消化性,可以从以下几个方面探究: 1.7.1蛋白质与卡拉胶在水溶液中的相容性与不相容性 蛋白质与多糖在水溶液中的交互作用主要有以下三种形式,即共溶(Cosolubility)、相容(Compatibility)及不相容(Incompatability)。[38] Samant S. K., Singhal R. S., Kulkarni P. R., et al. Protein-polysaccharide interactions: Anew approach in food formulations. International Journal of Food Science and Technology,1993, 28: 547-562 [39] Williams P. A., Phillips G O. Interaction in mixed polysaccharide systems. In A. Stephan(Ed).Food Polysaccharide and Their Applications. Marcel Dekker Inc., New York. 1995:463一500 [40] Doublier J. L., Garnier C., Renard D., et al. Protein-Polysaccharide interactions. Colloidand Interface Science, 2000, 5:202-214其中相容是指蛋白质与多糖能在水溶液中发生交互作用,大分子间互相吸引,通过共价键、静电相互作用及氢键等方式进行连接,形成络合物。 1.7.1.2蛋白质—卡拉胶交互作用凝胶形成原因 蛋白质和卡拉胶之间的络合发生在接近或低于蛋白质等电点的pH值,通常是由于带相反电荷的生物聚合物两者之间的静电相互作用。(21 S. Turgeon, C. Schmitt and C. Sanchez, Curr. Opin. Colloid Interface Sci., 2007, 12, 166–178. 22 C. Schmitt and S. L. Turgeon, Adv. Colloid Interface Sci., 2011,167, 63–70.)静电吸引力的大小在很大程度上取决于相交互大分子的电荷密度。(23 J.-L. Doublier, C. Garnier, D. Renard and C. Sanchez, Curr. Opin. Colloid Interface Sci., 2000, 5, 202–214. 24 A. Ye, Int. J. Food Sci. Technol., 2008, 43, 406–415.

蛋白质结构预测和序列分析软件

蛋白质结构预测和序列分析软件蛋白质数据库及蛋白质序列分析 第一节、蛋白质数据库介绍 一、蛋白质一级数据库 1、 SWISS-PROT 数据库 SWISS-PROT和PIR是国际上二个主要的蛋白质序列数据 库,目前这二个数据库在EMBL和GenBank数据库上均建 立了镜像 (mirror) 站点。 SWISS-PROT数据库包括了从EMBL翻译而来的蛋白质序 列,这些序列经过检验和注释。该数据库主要由日内瓦大 学医学生物化学系和欧洲生物信息学研究所(EBI)合作维 护。SWISS-PROT的序列数量呈直线增长。 2、TrEMBL数据库: SWISS-PROT的数据存在一个滞后问题,即 进行注释需要时间。一大批含有开放阅读 了解决这一问题,TrEMBL(Translated E 白质数据库,它包括了所有EMBL库中的 质序列数据源,但这势必导致其注释质量 3、PIR数据库: PIR数据库的数据最初是由美国国家生物医学研究基金 会(National Biomedical Research Foundation, NBRF) 收集的蛋白质序列,主要翻译自GenBank的DNA序列。 1988年,美国的NBRF、日本的JIPID(the Japanese International Protein Sequence Database日本国家蛋 白质信息数据库)、德国的MIPS(Munich Information Centre for Protein Sequences摹尼黑蛋白质序列信息 中心)合作,共同收集和维护PIR数据库。PIR根据注释 程度(质量)分为4个等级。 4、 ExPASy数据库: 目前,瑞士生物信息学研究所(Swiss I 质分析专家系统(Expert protein anal 据库。 网址:https://www.wendangku.net/doc/438429787.html, 我国的北京大学生物信息中心(www.cbi.

蛋白多糖-又称黏多糖,为基质的主要成分,是多糖分子与蛋白质结合而成的复合物

蛋白多糖-又称黏多糖,为基质的主要成分,是多糖分子与蛋白质结合而成的复合物 蛋白多糖-又称黏多糖,为基质的主要成分,是多糖分子与蛋白质结合而成的复合物。多糖部分为糖胺多糖,又称氨基已糖多糖,由成纤维细胞产生,主要分硫酸化和非硫酸化两类。前一类主要有硫酸软骨素、硫酸角质素、硫酸肝素等;后一类为透明质酸,是曲折盘绕的长链大分子,构成蛋白质多糖复合物的主干,其他糖胺多糖则与蛋白质结合,形成蛋白多糖亚单位,后者再通过结合蛋白链与透明质酸长链分子形成蛋白多糖聚合体。 学术术语来源—— 温阳益髓中药干预兔膝骨关节炎软骨基质金属蛋白酶的表达 文章亮点: 1 实验的特点为发现温阳益髓中药对骨关节炎软骨中基质金属蛋白酶13表达的抑制作用极其显著,可以降低基质金属蛋白酶1的表达,其作用效果较盐酸氨基葡萄糖要略弱,对基质金属蛋白酶3表达具有显著的抑制作用,其作用强度比盐酸氨基葡萄糖更强。 2 作者认为,温阳益髓中药可以有效抑制软骨基质中基质金属蛋白酶的表达,通过抑制基质金属蛋白酶的表达减少软骨基质的降解,从而对关节软骨起到保护作用。 关键词: 组织构建;软骨组织工程;温阳益髓;中药;骨关节炎;基质金属蛋白酶;软骨;盐酸氨基葡萄糖;北京市自然科学基金 主题词: 骨关节炎;软骨;中草药;基质金属蛋白酶 摘要 背景:目前临床上关于温阳益髓中药治疗膝骨关节炎对软骨基质金属蛋白酶表达影响的研究还较少有报道。 目的:制作兔膝骨关节炎模型观察温阳益髓中药对软骨基质金属蛋白酶表达的影响。 方法:健康成年新西兰大白兔96只,随机选取72只采用石膏外固定方法制作兔膝骨关节炎模型。确定造模成功后再随机分为3组,模型组不做处理;中药治疗组每日灌胃方药提取液24 mL/kg,药物对照组每日灌胃葡立胶囊(盐酸氨基葡萄糖)24 mg/kg,1次/d,至造模成功后8周。另外24只新西兰大白兔作为空白对照。 结果与结论:PCR方法定量分析骨关节炎模型组软骨组织中基质金属蛋白酶1、基质金属蛋白酶3、基质金属蛋白酶13表达水平均显著高于其他3组。中药治疗组及药物对照组中基质金属蛋白酶1、基质金属蛋白酶3及基质金属蛋白酶13的表达较模型组明显降低。说明温阳益髓中药治疗兔膝骨关节炎能够有效抑制兔骨关节炎软骨基质金属蛋白酶的表达。 中国组织工程研究杂志出版内容重点:组织构建;骨细胞;软骨细胞;细胞培养;成纤维细胞;血管内皮细胞;骨质疏松;组织工程

蛋白质结构预测在线软件

蛋白质预测分析网址集锦? 物理性质预测:? Compute PI/MW?? ?? SAPS?? 基于组成的蛋白质识别预测? AACompIdent???PROPSEARCH?? 二级结构和折叠类预测? nnpredict?? Predictprotein??? SSPRED?? 特殊结构或结构预测? COILS?? MacStripe?? 与核酸序列一样,蛋白质序列的检索往往是进行相关分析的第一步,由于数据库和网络技校术的发展,蛋白序列的检索是十分方便,将蛋白质序列数据库下载到本地检索和通过国际互联网进行检索均是可行的。? 由NCBI检索蛋白质序列? 可联网到:“”进行检索。? 利用SRS系统从EMBL检索蛋白质序列? 联网到:”,可利用EMBL的SRS系统进行蛋白质序列的检索。? 通过EMAIL进行序列检索?

当网络不是很畅通时或并不急于得到较多数量的蛋白质序列时,可采用EMAIL方式进行序列检索。? 蛋白质基本性质分析? 蛋白质序列的基本性质分析是蛋白质序列分析的基本方面,一般包括蛋白质的氨基酸组成,分子质量,等电点,亲水性,和疏水性、信号肽,跨膜区及结构功能域的分析等到。蛋白质的很多功能特征可直接由分析其序列而获得。例如,疏水性图谱可通知来预测跨膜螺旋。同时,也有很多短片段被细胞用来将目的蛋白质向特定细胞器进行转移的靶标(其中最典型的例子是在羧基端含有KDEL序列特征的蛋白质将被引向内质网。WEB中有很多此类资源用于帮助预测蛋白质的功能。? 疏水性分析? 位于ExPASy的ProtScale程序(?)可被用来计算蛋白质的疏水性图谱。该网站充许用户计算蛋白质的50余种不同属性,并为每一种氨基酸输出相应的分值。输入的数据可为蛋白质序列或SWISSPROT数据库的序列接受号。需要调整的只是计算窗口的大小(n)该参数用于估计每种氨基酸残基的平均显示尺度。? 进行蛋白质的亲/疏水性分析时,也可用一些windows下的软件如,bioedit,dnamana等。? 跨膜区分析? 有多种预测跨膜螺旋的方法,最简单的是直接,观察以20个氨基酸为单位的疏水性氨基酸残基的分布区域,但同时还有多种更加复杂的、精确的算法能够预测跨膜螺旋的具体位置和它们的膜向性。这些技术主要是基于对已知

ESI-MS 分析蛋白质非共价键复合物

ESI-MS分析蛋白质非共价键复合物 质谱作为一种分析方法,长期以来一直用于小分子化合物的结构分析。直到80年代末电喷雾电离质谱(Electrospray Ionization Mass Spectrometry, ESI-MS)和基体辅助激光解析电离飞行时间质谱(Matrix-assisted Laser Desorption Ionization Time of Flight Mass Spectrometry, MALDI-TOF-MS)两种“软电离(Soft Ionization)”质谱的出现,才将质谱的分析范围扩大到生物大分子的结构分析。这两种技术具有高灵敏和高质量检测范围,能在飞摩尔(10-15)乃至阿摩尔(10-18)水平检测相对分子量高达几十万的生物大分子。随着近年来“软电离”技术的进一步发展,质谱技术在蛋白质非共价键复合物研究方面显示了良好的应用前景。 虽然有多种方法可用于检测非共价键复合物,但它们各有优缺点。凝胶色谱、超速离心、红外光谱、差示紫外光谱、荧光光谱、圆二色光谱等可反映形成非共价键复合物后蛋白质结构发生的变化,但只能提供很少或不能提供关于分子量及复合物化学计量结合数的信息;X-晶体衍射和核磁共振法可用于测定蛋白质的三维结构,能提供详细的结构信息,但都费时且复杂。X-晶体衍射只有在得到合适晶体的情况下才能应用,而单晶的培养却非易事。核磁共振分析所用样品量很大且不能分析分子量很大的复合物。电喷雾电离质谱能够在非常接近天然溶液状态的情况下将非常弱的蛋白质非共价键复合物从液相转变为气相而进行测定,能够更加真实地反映生物大分子的生理状态。 电喷雾离子化技术(ESI)的工作原理:利用位于一根毛细管和质谱进口间的电势差生成离子,在电场的作用下产生喷雾形式存在的带电液滴。在真空条件下下,液滴表面溶剂蒸发,液滴变小,液滴的电荷密度骤增。当静电排斥力大于液滴的表面张力时,液滴便发生崩解,形成更小的液滴。如此形成的小液滴以类似的方式继续崩解,于是液滴中的溶剂迅速蒸干,产生多电荷离子(离子可带正电或负电、依赖于实验条件),在质谱仪内被分析纪录。电喷雾电离的特征之一是可生成高度带电的离子而不发生破裂,这样可将质荷比降低到各种不同类型的质量分析仪都能检测的程度。 电喷雾质谱研究蛋白质非共价键复合物成功的关键是仪器参数的设定和样

蛋白质结构解析研究进展作业

《蛋白质结构解析研究进展》 一、蛋白质结构分类 人类对于进化的认识及蛋白质结构相似性比较的研究使蛋白质结构分类成为可能,而且近年来取得的研究进展表明,大部分蛋白质可以成功的分入到适当数目的家族中。目前国际上流行的蛋白质结构分类数据库基本上采取两种不同的思路,一种是数据库中储存所有结构两两比较的结果;第二种思路是致力于构建非常正式的分类体系。由于所有分类方法反映了各研究小组在探究这个重要领域的不同角度,所以这些方法是同等有效的。目前,被广泛应用的四种分类标准是:手工构造的层次分类数据库SCOP,全自动分类的MMDB和FSSP,和半手工半自动的CATH。 蛋白质结构自动分类问题可以被纳入机器学习的范畴,通过提取分析蛋白质结构的关键特征,构造算法来学习蕴含于大量已知结构和分类的数据中的专家经验知识,来实现对未知蛋白质结构的分类预测。目前,对蛋白质结构的不同层次分类,结果比较好的机器学习方法是:神经网络多层感知器、支持向量机和隐马尔可夫模型。支持向量机应用于分类问题最终归结于求解一个最优化问题。上世纪90 年代中期,隐马尔可夫模型与其他机器学习技术结合,高效地用于多重比对、数据挖掘和分类、结构分析和模式发现。多层感知器即误差反向传播神经网络,它是在各种人工神经网络模型中,在机器学习中应用最多且最成功的采用BP学习算法的分类器。 二、蛋白质结构的确定 蛋白质三维空间结构测定方法主要包括X射线晶体学分析、核磁共振波谱学技术和三维电镜重构,这三种方法都可以完整独立地在原子分辨水平上测定出蛋白质的三维空间结构。蛋白质数据库PDB中80%的蛋白质结构是由X射线衍射分析得到的,约15%的蛋白质结构是由核磁共振波谱学这种新的结构测定方法得到。 1、X射线晶体学

重要蛋白质复合物的结构与功能研究

项目名称:重要蛋白质复合物的结构与功能研究首席科学家:隋森芳清华大学 起止年限:2011.1至2015.8 依托部门:教育部

二、预期目标 1、总体目标 本项目在瞄准蛋白质科学重大前沿问题的基础上,密切结合我国的实际情况,在重要蛋白质复合物结构与功能的研究上取得若干突破,获得一批原创性的成果,力争在国际顶级学术期刊上发表高水平论文。此外,通过本项目的实施,争取建立较完善的蛋白质复合物结构与功能研究的实验体系和技术平台,建立和培养一支具有国际水平的适于蛋白质复合物研究的队伍梯队。本项目把提升我国蛋白质科学的研究水平和国际影响力作为目标之一,通过本项目的实施使我国在蛋白质复合物研究领域在国际上占据重要的地位,并为我国基于蛋白质复合物药物靶点的创新药物研发奠定基础。 2、五年预期目标 1)通过本项目的实施获得一批原创性的研究成果:(1)通过解析蛋白质跨膜转运复合物、膜融和蛋白复合物,以及重要通道蛋白复合物的结构,揭示这些蛋白复合物在膜转运过程中的装配机制及发挥功能的分子机理;(2)通过解析膜受体与其配体以及调控基因表达的一系列蛋白质复合物的结构,揭示其介导的信号通路的分子机制;(3)通过解析调控细胞极化过程的信号通路中几组蛋白质复合物的结构及装配,阐明细胞极化过程的分子调控机理;(4)通过解析ACC、UCA、TC以及PC等具有重要生理功能的羧基转移酶的全酶结构,揭示其在催化代谢过程的生化反应中发挥作用机理。 2)通过本项目的实施,建立完善的蛋白质复合物结构与功能研究的实验研究体系,探索建立运用X-ray、Cryo-EM和NMR三大技术联合攻关高通量解析蛋白质复合物结构的技术平台。 3)通过本项目的实施,培养一批高质量博士后和研究生,扶植一批在蛋白质复合物的结构与功能研究领域具有国际竞争力的优秀中青年科学家和后备人才,建立一支结构合理,具有攻坚能力的国际先进水平的研究队伍。 4)以研究论文形式公布项目研究成果,发表高水平的学术论文。在影响因子大于10的国际一流杂志上发表学术论文15篇以上,其中Cell、Nature、Science论文4篇以上。

三种分析蛋白结构域的方法

三种分析蛋白结构域(Domains)的方法 1,SMART入门,蛋白结构和功能分析 SMART介绍 SMART (a Simple Modular Architecture Research Tool) allows the identification and annotation of genetically mobile domains and the analysis of domain architectures. More than 500 domain families found in signalling, extracellular and chromatin-associated proteins are detectable. These domains are extensively annotated with respect to phyletic distributions, functional class, tertiary structures and functionally important residues. Each domain found in a non-redundant protein database as well as search parameters and taxonomic information are stored in a relational database system. User interfaces to this database allow searches for proteins containing specific combinations of domains in defined taxa. For all the details, please refer to the publications on SMART. SMART(,可以说是蛋白结构预测和功能分析的工具集合。简单点说,就是集合了一些工具,可以预测蛋白的一些二级结构。如跨膜区(Transmembrane segments),复合螺旋区(coiled coil regions),信号肽(Signal peptides),蛋白结构域(PFAM domains)等。 SMART前该知道的 1,SMART有两种不同的模式:normal 或genomic 主要是用的数据库不一样。Normal SMART, 用的数据库 Swiss-Prot, SP-TrEMBL 和 stable Ensembl proteomes。Genomic SMART, 用全基因组序列。详细列表:,一些名词解释 进行时 可以直接用各个数据库蛋白的ID。如Uniprot/Ensembl??ID / Accession number (ACC)。或是直接蛋白序列。运行SMART也可选择signal peptides、PFAM domains等的预测,勾上就是。看下图 SMART结果 运行后的结果用图表表示。其实运行后的结果都有明确的解释。详细请看下面。

蛋白质结构预测方法综述

蛋白质结构预测方法综述 卜东波陈翔王志勇 《计算机不能做什么?》是一本好书,其中文版序言也堪称佳构。在这篇十余页的短文中,马希文教授总结了使用计算机解决实际问题的三步曲,即首先进行形式化,将领域相关的实际问题抽象转化成一个数学问题;然后分析问题的可计算性;最后进行算法设计,分析算法的时间和空间复杂度,寻找最优算法。 蛋白质空间结构预测是很有生物学意义的问题,迄今亦有很多的工作。有意思的是,其中一些典型工作恰恰是上述三步曲的绝好示例,本文即沿着这一路线作一总结,介绍于后。 1 背景知识 生物细胞种有许多蛋白质(由20余种氨基酸所形成的长链),这些大分子对于完成生物功能是至关重要的。蛋白质的空间结构往往决定了其功能,因此,如何揭示蛋白质的结构是非常重要的工作。 生物学界常常将蛋白质的结构分为4个层次:一级结构,也就是组成蛋白质的氨基酸序列;二级结构,即骨架原子间的相互作用形成的局部结构,比如alpha螺旋,beta片层和loop区等;三级结构,即二级结构在更大范围内的堆积形成的空间结构;四级结构主要描述不同亚基之间的相互作用。 经过多年努力,结构测定的实验方法得到了很好的发展,比较常用的有核磁共振和X光晶体衍射两种。然而由于实验测定比较耗时和昂贵,对于某些不易结晶的蛋白质来说不适用。相比之下,测定蛋白质氨基酸序列则比较容易。因此如果能够从一级序列推断出空间结构则是非常有意义的工作。这也就是下面的蛋白质折叠问题: 1蛋白质折叠问题(Protein Folding Problem) 输入: 蛋白质的氨基酸序列

输出: 蛋白质的空间结构 蛋白质结构预测的可行性是有坚实依据的。因为一般而言,蛋白质的空间结构是由其一级结构确定的。生化实验表明:如果在体外无任何其他物质存在的条件下,使得蛋白质去折叠,然后复性,蛋白质将立刻重新折叠回原来的空间结构,整个过程在不到1秒种内即可完成。因此有理由认为对于大部分蛋白质而言,其空间结构信息已经完全蕴涵于氨基酸序列中。从物理学的角度讲,系统的稳定状态通常是能量最小的状态,这也是蛋白质预测工作的理论基础。 2 蛋白质结构预测方法 蛋白质结构预测的方法可以分为三种: 同源性(Homology )方法:这类方法的理论依据是如果两个蛋白质的序列比较相似,则其结构也有很大可能比较相似。有工作表明,如果序列相似性高于75%,则可以使用这种方法进行粗略的预测。这类方法的优点是准确度高,缺点是只能处理和模板库中蛋白质序列相似性较高的情况。 从头计算(Ab initio ) 方法:这类方法的依据是热力学理论,即求蛋白质能量最小的状态。生物学家和物理学家等认为从原理上讲这是影响蛋白质结构的本质因素。然而由于巨大的计算量,这种方法并不实用,目前只能计算几个氨基酸形成的结构。IBM 开发的Blue Gene 超级计算机,就是要解决这个问题。 穿线法(Threading )方法:由于Ab Initio 方法目前只有理论上的意义,Homology 方法受限于待求蛋白质必需和已知模板库中某个蛋白质有较高的序列相似性,对于其他大部分蛋白质来说,有必要寻求新的方法。Threading 就此应运而生。 以上三种方法中,Ab Initio 方法不依赖于已知结构,其余两种则需要已知结构的协助。通常将蛋白质序列和其真实三级结构组织成模板库,待预测三级结构的蛋白质序列,则称之为查询序列(query sequence)。 3 蛋白质结构预测的Threading 方法 Threading 方法有三个代表性的工作:Eisenburg 基于环境串的工作、Xu Ying 的Prospetor 和Xu Jinbo 、Li Ming 的RAPTOR 。 Threading 的方法:首先取出一条模版和查询序列作序列比对(Alignment),并将模版蛋白质与查询序列匹配上的残基的空间坐标赋给查询序列上相应的残基。比对的过程是在我们设计的一个能量函数指导下进行的。根据比对结果和得到的查询序列的空间坐标,通过我们设计的能量函数,得到一个能量值。将这个操作应用到所有的模版上,取能量值最低的那条模版产生的查询序列的空间坐标为我们的预测结果。 需要指出的是,此处的能量函数却不再是热力学意义上的能量函数。它实质上是概率的负对数,即 ,我们用统计意义上的能量来代替真实的分子能量,这两者有大致相同的形式。 p E log ?=如果沿着马希文教授的观点看上述工作 ,则更有意思:Eisenburg 指出如果仅仅停留在简单地使用每个原子的空间坐标(x,y,z)来形式化表示蛋白质空间结构,则难以进一步深入研究。Eisenburg 创造性地使用环境串表示结构,从而将结构预测问题转化成序列串和环境串之间的比对问题;其后,Xu Ying 作了进一步发展,将蛋白质序列表示成一系列核(core )组成的序列,Core 和Core 之间存在相互作用。因此结构就表示成Core 的空间坐标,以及Core 之间的相互作用。在这种表示方法的基础上,Xu Ying 开发了一种求最优匹配的动态规划算法,得到了很好的结果。但是由于其较高的复杂度,在Prospetor2上不得不作了一些简化;Xu Jinbo 和Li Ming 很漂亮地解决了这个问题,将求最优匹配的过程表示成一个整数规划问题,并且证明了一些常用

蛋白质结构

四级结构(quaternary structure) 四级结构是指在亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。四级结构的蛋白质中每个球状蛋白质称为亚基,亚基通常由一条多肽链组成,有时含两条以上的多肽链,单独存在时一般没有生物活性。亚基有时也称为单体(monomer),仅由一个亚基组成的并因此无四级结构的蛋白质如核糖核酸酶称为单体蛋白质,由两个或两个以上亚基组成的蛋白质统称为寡聚蛋白质,多聚蛋白质或多亚基蛋白质。多聚蛋白质可以是由单一类型的亚基组成,称为同多聚蛋白质或由几种不同类型的亚基组成称为杂多聚蛋白质。对称的寡居蛋白质分子可视为由两个或多个不对称的相同结构成分组成,这种相同结构成分称为原聚体或原体(protomer)。在同多聚体中原体就是亚基,但在杂聚体中原体是由两种或多种不同的亚基组成。 蛋白质的四级结构涉及亚基种类和数目以及各亚基或原聚体在整个分子中的空间排布,包括亚基间的接触位点(结构互补)和作用力(主要是非共价相互作用)。大多数寡聚蛋白质分子中亚基数目为偶数,尤以2和4为多;个别为奇数,如荧光素酶分子含3个亚基。亚基的种类一般是一种或两种,少数的多于两种。 亚基的立体排布 稳定四级结构的作用力与稳定三级结构的没有本质区别。亚基的二聚作用伴随着有利的相互作用包括范徳华力,氢键,离子键和疏水作用还有亚基间的二硫键。亚基缔合的驱动力主要是疏水作用,因亚基间紧密接触的界面存在极性相互作用和疏水作用,相互作用的表面具有极性基团和

疏水基团的互补排列;而亚基缔合的专一性则由相互作用的表面上的极性基团之间的氢键和离子键提供。 血红蛋白的四级结构 血红蛋白分子就是由二个由141个氨基酸残基组成的α亚基和二个由146个氨基酸残基组成的β亚基按特定的接触和排列组成的一个球状蛋白质分子,每个亚基中各有一个含亚铁离子的血红素辅基。四个亚基间靠氢键和八个盐键维系着血红蛋白分子严密的空间构象。 蛋白质--名词辨析 蛋白质一级结构(primary structure): 氨基酸序列。 蛋白质二级结构(secondary structure): 蛋白质主干原子间形成的二面角Φ(phi)和φ(psi)以及主链 上原子间形成的氢键决定的,在某些情况下,这些二面角和

相关文档
相关文档 最新文档