当前位置：文档库 › 计算机辅助药物设计(完整版)

计算机辅助药物设计(完整版)

计算机辅助药物设计完整版

第1章概论

一、药物发现一般过程

新药的研究有三个决定阶段：先导化合物的发现，新药物的优化研究，临床与开发研究。计算机辅助药物设计的主要任务就是先导化合物的发现与优化。

二、合理药物设计

1、合理药物设计（rational drug design）是依据与药物作用的靶点，即广义上的受体，如酶、受体、离子通道、病毒、核酸、多糖等，寻找和设计合理的药物分子。通过对药物和受体的结构在分子水平甚至电子水平的全面准确了解进行基于结构的药物设计和通过对靶点的结构、功能、与药物作用方式及产生生理活性的机理的认识基于机理的药物设计。CADD通过内源性物质或外源性小分子作为效应子作用于机体的靶点，考察其形状互补，性质互补（包括氢键、疏水性、静电等），溶剂效应及运动协调性等进行分子设计。

2、方法分类

（1）合理药物设计有基于靶点结构的三维结构搜索和全新药物设计等方法。后者分为模板定位法、原子生长法、分子碎片法。

（2）根据受体是否已知分为直接药物设计和间接药物设计。前者即通过结构测定已知受体或受体-配体复合物的三维结构，根据受体的三维结构要求设计新药的结构。受体结构测定方法：同源模建（知道氨基酸序列不知道空间结构时），X射线衍射（可结晶并得到晶体时），多维核磁共振技术（在体液即在水溶液环境中）。后者通过一些配体的结构知识（SAR，计算机图形显示等）推测受体的图像，提出假想受体，采用建立药效团模型或3D-QSAR和基于药效团模型的三维结构搜索等方法，间接进行药物设计。

三、计算化学

计算化学包括分子模型、计算方法、计算机辅助分子设计（CAMD）、化学数据库及有机合成设计。

计算方法基本上可分为两大类：分子力学（采用经典的物理学定律只考虑分子的核而忽略外围的电子）和量子力学（采用薛定谔方程考虑外围电子的影响，分为从头计算方法和半经验方法）。

常用的计算应用有：（1）单点能计算：根据模型中原子的空间位置给出相应原子坐标的势能；（2）几何优化：系统的修改原子坐标使原子的三维构象能量最小化；（3）性质计算：预测某些物理化学性质，如电荷、偶极矩、生成热等；（4）构象搜索：寻找能量最低的构象；（5）分子动力学模拟：模拟分子的构象变化。

方法选择主要有三个标准：（1）模型大小；（2）可用的参数；（3）计算机资源

四、计算化学中的基本概念

1、坐标系统

分为笛卡尔坐标（三维空间坐标）和内坐标（Z矩阵表示，参数为键长、键角、二面角数据）。前者适合于描述一系列的不同分子，多用于分子力学程序，有3N个坐标；后者常用于描述单分子系统内各原子的相互关系，多用于量子力学程序，有3N-6个坐标。

2、原子类型：用来标记原子属性。

3、势能面

体系能量的变化被认为能量在一个多维的面上运动，这个面被称为势能面。坐标上能量的一阶导数为零的点为定点（原子力为零，局部或全局最稳定）。

4、面积

Van der Waals面积：原子以van der Waals为半径的球的简单堆积。

分子面积：试探分子（常为半径1.4?的水分子）在Van der Waals面积上滚动的面积（包括试探球与分子的接触面积和分子空穴产生的悬空面积）。

可接近面积：试探球在分子van der Waals表面滚动时试探球原点处所产生的面积。

5、单位：键长多用?（埃，angstroms），键能多用kcal/mol表示。

五、计算机辅助药物设计软件及限制

目前CADD存在的问题：蛋白质结构三维结构的真实性和可用性问题（细胞膜上的受体或跨膜蛋白离开原先环境，空间排列会发生很大变化，难以得到真实的三维空间结构；大量受体结构未知；很多受体只有一级结构，获得的三维结构有限）；受体-配体相互作用的方式问题；设计的分子能否进行化学合成；药物体内转运、代谢和体内毒副作用问题等。

第2章分子力学

分子力学是基于原子间存在化学键、非键原子之间的范德华及静电相互作用这一经典理论，通过分子几何、能量、振动光谱及其他物理性质的计算寻求分子的平衡构型及能量，确定有机分子的结构、构象、能量及动力学模型。其计算忽略了电子的贡献，只考虑核。计算较小仅与分子中原子数目的平方成正比。

一般分子动力学软件提供三种位能面采样算法：

单点：只是对位能面上某一点计算，给出该构象下的系统能量和梯度（反应能量下降方向上该点在位能曲线上陡度）

几何优化：对单点位能面采样，寻找梯度为零的构象，局部最小

分子动力学：对势能面增加动能，导致分子系统按Newton定律运动，在势能低点运动加快。主要用于能量最小化和构象搜索。受体结构已知，该法计算药物与受体的结合能；受体未知通过已知配体导出药效团模型。

一、理论简介

分子力学基本思想是通过选择一套势函数和从实验中得到的一套力常数，从给定的分子体系原子的空间坐标的初值，用分子力场描述的体系总能量对于原子坐标的梯度，通过多次迭代的数值算法来得到合理的分子体系的结构。

分子的化学键具有一定的键长、键角，分子要调整它的几何形状（构象），必须使其键长值和键角值尽可能接近标准值，同时非键作用能处于最小的状态，由这些键长和键角调节构象，给出核位置的最佳分布，即分子的平衡构型。

分子力学优化只能是局部优化，若为了找到全局能量最低构象，须将所有可能的初始构象分别进行优化，最后进行比较确定分子体系的最优构象。

二、分子力场

分子力学有能力处理大分子体系，它从经典力学的观点来描述分子中原子的拓扑结构，是通过分子立场这个分子模拟的基石实现的。

如果一个解析表达式能拟合位能面，则此解析表达式就成为分子力场，亦即一个力场的确定就是选择解析函数形式和确定参数。分子力学用几个典型结构参数和作用力来描述结构的变化，由分子内相互作用（键伸缩，角弯曲，扭转能，面外弯曲等）和分子间相互作用（静电、氢键、vdW）构成。

三、能量最小化

按是否采用能量的导数分为两类：非导数法（即单纯型法：以逐个改变原子的位置来寻找能量最小值，找到的并不一定是局部最小值，主要用于调整分子的起始构象）和导数法。一阶能量导数的方向指向能量最小化的点，梯度反映该点的陡度，有最陡下降法（SD）、共轭梯度法、任意步长逼近法；二阶能量导数预测何处能量梯度方向发生变化，有牛顿-拉普森法。

SD：梯度是进行搜索的方向，每次搜索之后旧的方向被新点处的梯度取代，适合优化最初段，

尤其是减少大量的非键相互作用非常有用，适用于大分子。共轭梯度法：不仅运用当前梯度，也采用先前的最小化历史来确定下一步，收敛比SD快，用于大分子。Newton-Raphson法：原则上可一步收敛，但存储导数的矩阵太大，不适用于大体系。

四、常用的分子力场

以适合生物大分子的Amber和适合小分子的MM2为代表。

MM3：MM力场对静电的相互作用采用键的偶极方法，对于极性或电荷系统不能充分模拟，适用于小非极性分子的结构和热动力学模拟。

AMBER力场：广泛用于蛋白质和核酸，不适合用于小分子。

OPLS力场：用于蛋白质和核酸，特别适用在液相系统中模拟物理性质。

CHARMM力场：适用于生物大分子，充分考虑溶剂和溶剂、溶质和溶质、溶剂和溶质之间的相互作用。

BIO+力场：CHARMM力场的补充，采用CHARMM立场的参数，结果与CHARMM一样。

MMFF94力场：运用凝聚态过程，适合大分子和小分子，且精确一致。

Universal力场：针对整个周期表的分子力学和动态模拟力场，有过渡元素时的最佳选择。

COMPASS力场

五、分子动力学

以牛顿力学为基础，把每个原子看做符合牛顿运动定律的粒子，在一定时间内，连续几分牛顿运动方程计算原子的位置和速度得出原子的运动轨道。分子动力学涉及Newton运动方程的积分，需要选取适当的时间步长，选取的时间步长和运动的频率有关。分子动力学模拟经过三个阶段：加热、模拟（包括平衡期和资料收集期）、冷却。

构建分子的时候是0K（原子运动速度为0），缓慢加热（使系统在每个步长里都接近平衡，在较短时间达到模拟温度下的平衡）到模拟温度。对室温下的模拟，梯度应小于3，是为了避免人为的在高能区产生的局部力使分子在张力较大的地方发生断裂或扭曲。在模拟期的平衡很重要，可以避免加热过程中引入人为因素。分子体系冷却可降低在较高温度时分子的张力，冷却过程也叫模拟退火，使分子从高能构象越过一定的能垒转向稳定的低能构象。

分子动力学模拟溶剂的作用，可通过选择媒介的介电常数和周期边界条件模拟，水的介电常数80.4。采用周期边界条件模拟是为了消除刚性壁边界条件和自然边界条件的表面效应。去顶八面体常用于球形分子。

分子力学模拟一般都应先对分子进行几何优化，在几何优化基础上再对分子进行动力学模拟。

分子动力学的作用：

（1）分子动力学主要用于能量最小化，和分子力学的区别：分子力学不能越过一定的能垒，只是局部优化；分子动力学模拟则是全局优化低能构象（越过能垒高度与模拟温度有关）。

（2）通过分子动力学模拟，可再现分子的各种构象形式，用于推测药物与受体相作用的构象。

（3）分子力学适合处理分子内张力（键，角，二面角）或vdw力等分子处于非极性溶剂中，当考虑到极性溶剂（如体内）或溶剂效应时，使用分子动力学方法，Monte carlo方法，Langevin动力学或模拟退火法。

六、Monte Carlo方法

利用随机取样处理问题的方法称为Monte Carlo方法，它是一种通过的采取随机数和概率统计进行猜测来研究问题。分子动力学不能越过的能垒，Monte Carlo构象搜寻可以是跳跃式的，其优点是取样的构象恰当，对低能构象取样几率大。

七、Langevin

Langevin模拟是随机动力学模拟，通过给各原子分配分子在溶剂中与其他分子相互碰撞并随着在溶剂中运动产生的摩擦力的值进行模拟。Langevin动力学模拟只是对分子施加一个力模拟碰撞后的能量损失，所以不需要指明溶剂分子，多用于长链分子和聚合物。特别适用于研究溶剂中的大分

子。

八、构象分析

描述分子结构的三个层次：分子构造，分子构型，分子构象。构象搜寻采用适当的方法产生各种不同的构象，并对这些构象进行能量最小化，比较这些构象并找出其中能量最低的构象。根据产生构象的方法不同，可分为（1）系统搜寻法（系统地搜寻分子的争购构象空间，寻找势能面上的极小点。最基本的搜索方法是格点搜索，即在分子构象空间中以柔性键的旋转角度小间隔为变量逐渐搜索。只适合处理小分子体系，也不适用于环状结构。）和（2）非系统搜寻两类。

九、随机搜寻法

（1）模拟退火方法

是分子动力学，Monte Carlo和Langevin动力学在模拟时采取温度缓慢降低的方法。它首先使体系升温，使分子体系有足够的能量，克服柔性分子中存在的各种旋转能垒和顺反异构能垒，搜寻全部构象空间，在构象空间中选出一些能量相对极小的构象，然后逐步降温，再进行分子动力学模拟，此时较高能垒已无法越过，在极小化后去除能量较高的构象，最后可以得到能量最小的优势构象。

Monte Carlo退火方法采用Monte Carlo方法的Metropolis采样算法。在某温度下，体系有起始构象，构象发生微小的随机变化产生新的构象，相应的能量发生变化。如果能量差不大于零则接受构象变化，新构象成为下一步的初始构象。如果能量大于零，选择一个随机数将其与原相比较，若能量小于零则接受，新的构象成为下一次随机变化的起始点；否则拒绝变化，老的构象仍是下一次随机变化的起始点（过程中产生Boltzmann分布）。（与Monte Carlo的区别在于Monte Carlo模拟退火方法中温度也是体系的变量。

模拟退火方法可有效地寻找分子的优势构象，因为其取舍构象时不仅接受能量下降的变化，也接收部分部分能量上升的变化，并且该法不依赖于初始构象。

（2）高温淬火动力学

是高温分子动力学与能量最低化相结合来判断一系列构象的分布，往往还需要结合模拟退火。（3）遗传算法（主要用于全局优化）

算法步骤：①随机产生初始群体，群体中个体以二进制序列标记②计算适应值（个体优劣的度量和下一代存活概率）③通过复制算子、杂交算子和变异算子产生新一代更具适应的群体。

对于构象搜寻，染色体二进制序列的值表示分子可旋转的扭角。适应值为能量的函数。

（4）距离几何法

该方法核心仍为随机技术。特别适用于导出大量信息无法手工解析的蛋白质与核酸的结构。

第3章量子力学

一、量子化学理论简介

应用量子力学原理处理化学问题，形成分子轨道理论、价键理论与配位场理论。

分子轨道理论（又称Hartee-Fock理论）在物理模型上有三个基本近似：①非相对近似是电子在原子核附近运动而不被的原子核俘获，必须保持很高运动度。近似认为电子质量等于电子静止的质量，即电子质量恒为1个单位。②Born-Oppenheimer近似是在计算分子总能量（电子总能量与核排斥能值和）时，把电子的运动和核的运动分开处理，忽略贡献很小的电子态之间偶合项，即非绝热项，故又称绝热近似。③单电子近似则认为电子波函数为n个电子所占据的轨道（单电子函数）的乘积。自洽场：每一个电子的运动状态不仅受核力的作用，而且还要受其他n-1个电子所产生的势场的作用，这样在描述与电子势场时，必须考虑受作用的那一个电子状态和它本身作为其他电子运动时对势场的贡献要一致起来，即自洽起来。这样的势场，成为自洽场。

1、Hartree-Fock方法固有近似性，它忽略了局部的电子-电子效应，即忽略了电子相关。因此常采取组态相互作用弥补这一缺点。组态指电子在其可能达到的各轨道上的排布方式的描述。通过用不同组态的波函数进行混合来表示分子的波函数称为组态相互作用。利用组态相互作用给出基态

与激发态的能量可以预测电子的吸收频率、紫外可见光谱，用RHF的组态相互作用而不是用UHF 研究键的断裂。

2、另一个考虑电子相关能的方法是MΦller-Plesset微扰法（MP）（MP2最常用）。

3、密度泛函（DFT）方法计算电子相关能。传统的ab initio HF SCF方法难以考虑电子相关作用，而MP等方法难以处理即使是稍稍较大的体系。与波函数方法相比。DFT使得量子力学方法可以直接用于大分子的计算，比如生物大分子。

二、从头计算法

从头计算法（ab initio）是解全电子体系的非相对论的量子力学方程，全部严格计算分子积分，不做任何近似处理。体系的Hamilton算符显全部电子（包括内层电子）的贡献。求解Hartree-Fock 方程是一个试探和迭代的过程，全部计算达到进一步迭代时轨道能量（或总能量）不再变化（超过某阈值）为止，于是就称这些轨道与它们所产生的位能场自洽，并将全部过程称为自洽场（SCF）方法。Roothaan把分子轨道（MO）表示为原子轨道（AO）的基函数线性组合（LCAO-MO），即用LCAO逼近Hartree-Fock轨道，导出一组代数函数，即Hartree-Fock-Roothaan方程或Roothaan方程。

原子轨道的集合称为基组（basis set）。极小基组是Slater型轨道（Slater type orbitals,STO），每个占据轨道只用一个指数相表示，形式为STO-nG，n表示每个原子轨道的Gaussian函数个数，适当表示Slater轨道至少需要有3个Gaussian函数。用具有不同指数来表示每个占据轨道，用两个指数时的基组称为双ξ基组（由一个收缩指数和一个发散指数线性组合给出计算结果）。若对内层电子采用一个指数，而对价电子采用两个指数，即为双ξ混合基组（一般表示为3-21G，3代表有3个Gauss 函数描述内层轨道，价电子也有3个gauss函数，2个收缩函数，1个发散函数）。在双ξ基组再加上极化函数，用*号表示增加一组d型函数描述2p轨道分子中的极化情况，用**表示表示除增加d型函数外，又增加p型函数表示1s轨道在分子中的计划情况，称为双ξ扩展基组。

从头计算法只是说明它是全电子的、非经验的计算方法。量子化学从头计算方法可以获得相当高的精度，甚至达到所谓的化学精度。

三、简化的从头计算方法

1、价电子从头计算方法（VE-AB INITIO）

2、浮动球高斯轨道方法（FSGO）

3、分子碎片法（MF）通常用于研究有机大分子。

4、模拟从头计算分子轨道方法（SAMO）

5、基于固体物理的Slater-Xα方法

四、半经验方法

定义：引入可调参数，体系Hamilton算符只显价电子的贡献。一种基于Hartree-Fock-Roothaan 方程，借用经验或半经验参数代替分子积分。可分为处理π价电子和处理全部价电子两大类。每一类中又分为单电子法和双电子法两种。前者忽略了电子间的相互作用，后者则考察了电子间的排斥能。

（1）π价电子处理（Huckel近似）：只考察π价电子，对于共轭分子是十分成功的。其单电子法为简单分子轨道法（HMO），双电子法为PPP法。

（2）全价电子处理：对于非平面型分子，已不能将π电子单独分离出来，必须将σ电子包括在内的所有价电子都考察进去。

①单电子法：包括推广的HMO法（EHMO）。EHMO从是否要求电荷自恰与自洽的严格程度又分为简单EHMO，电荷迭代EHMO（IT-EMHO）和电荷迭代与组态相关EHMO（C-EHMO，即MWH 法）。EHMO不能预测键长，计算电荷密度较高，一定条件下计算键角比较准确。由于EHMO方法计算量小，又能在研究同系物和分子内部电荷分布、键性质、分子轨道能级及其对称性，较多应用于大分子和含重元素的化合物或原子簇。

②双电子法：包括各种忽略微分重叠方法（NDO）及修正的NDO方法。NDO根据双电子积分

时忽略程度又分为全忽略微分重叠方法（CNDO），间略忽略微分重叠方法（INDO）和忽略双原子微分重叠方法（NDDO）。

半经验方法中常用的计算方法

CNDO、INDO：CNDO是最简单的自洽方法，用于计算敞开和封闭体系基态的电子性质，是计算药物电荷分布的首选方法（注：但并非精度最高的方法）。MINDO3是将INDO许多相互作用的计算用参数代替，计算分子基态性质较为成功，主要用于有机大分子，特别适用于含硫化合物。

ZINDO/1将INDO扩展到过渡金属，用于计算含过渡金属分子的能量与几何优化，ZINDO/S 可用于预测紫外可见光谱，不适用于计算几何优化和分子动力学。

基于忽略双原子重叠方法有MNDO和AMI法，MNDO方法对NDDO方法所做的的修正主要是采用电荷多极矩作用表示双中心电子积分，其次是引入带参数的函数来表示几个重要积分，最后，它用光谱数据对单中心双电子积分参数化时部份地考虑了相关能。

AM1是对MNDO方法的改进，也是最精确的方法之一，用于含有第一周期和第二周期元素的有机分子，不适用于过渡金属，计算同时含有氮和氧的分子结果好于MNDO。PM3与AM1方法一样，只是参数和不一样，其对非键相互作用计算优于AM1，主要用于有机分子和主族元素。

五、药物设计中量子力学活性指标

无论是药物分子还是生物大分子，都是具有一定结构的化学物质，它们的化学性质都是有其外周电子的基本结构特性所决定的。

1、轨道能量以前沿轨道能量最为重要，它们是HOMO（最高占有轨道能）和LUMO（最低空轨到能）。HOMO能可作为分子给电子能力的量度，而LUMO能则可作为分子接收电子能力的量度。

E HOMO与分子的电离势相关，作为分子给电子能力的量度，其值越小，该轨道中的电子越稳定，分子给电子能力越小，E LUMO与分子的电子亲和能直接相关，其值越小，电子进入该轨道后体系能量降低越多，该分子接收电子的能力越强。E HOMO与E LUMO之差是非常重要的稳定性指标，其差越大稳定性越好，在化学反应中的活性越差，该值近似等于分子的最低激发能，所以有时也将其作为化学反应的最低活化能（但这种想法忽略了分子在激发态时的重组，常出现错误）。

2、电荷密度的大小可以反映各原子发生反应的倾向性，电子密度越大的位置与亲电试剂的反应性越大，而电子密度越小的位置则于亲和试剂的反应性越大。

3、键级（bond order，P rs）即键的数目，表示两个相邻原子间成键的强度。

4、离域能亦称共轭能，是指通过电子的共轭作用发生超共轭而使体系趋于稳定，活化能降低的能量。离域能越大，反应则越易于进行。超离域度（S r’）是以轨道能级系数的倒数加权的电子密度，是离域能的度量参数。

5、原子自极化率（πr）其值越大则表明他在攻击物质面前越容易调节自己的电荷，因而活性也较大，常成为反应活性点。

6、前沿电子密度f r也称福井函数，前沿轨道的电子密度f r是比较分子内部不同位置的化学反应活性的量度。注：前沿轨道电荷只能用来描述同一分子内不同原子的活性。

7、静电势指一个单位正电荷从无限远处带到某一点所要做的功，比单个原子的静电荷密度更反映实际。

六、QM/MM量子力学与分子力学相结合

在研究受体与药物相互作用时，有时要涉及到化学键的生成和断裂，近年来发展了量子力学与经验力学相结合的方法——QM/MM模型。方法中最重要的一步是根据研究的目的划分体系，通常将体系化分为如下几个区域：量子力学区域，分子力学区域和边界区域。

第4章二维定量构效关系

定量构效关系是研究一组化合物的活性或毒性或药代性质与其结构之间、物理化学性质之间之间或者拓扑结构之间的相关关系，用数理统计和数理模型加以表征的研究方法。其意义为：在受体

结构未知的情况下，揭示化合物的结构与活性的依赖关系，建立表征这种关系的数学模型，以预测新化合物的活性，演绎受体与药物结合并呈活性时的立体环境及物理化学要求。

QSAR数据主要由两部分组成：

活性数据又可称为应变量，在QSAR中，应变量活性参数通常以产生标准生物效应时药物的物质的量剂量或物质的量浓度的负对数（log1/C）表示。

化学描述变量（即为自变量）包括：

（1）理化参数描述符

①疏水性参数LogP，脂水分配系数。通过摇瓶法和HPLC法测定。

②电性参数Hammett 常数：表示芳香取代基的诱导和共轭效应之和；值：取代基诱导效应之和；偶极矩()；解离常数pKa；红外、紫外、NMR、MS等光谱数据。

③立体参数Taft立体参数：Es=lg?(kx/kH)A Es越小，表示体积越大，水解速度越慢。摩尔折射：=2?12+2? /(3/)，数值越大代表体积越大；Van der Waals体积；STERIMOL多维立体参数。

（2）分子片段描述符描述符将分子中某一特征片断，如原子片断、环片断以及亚结构片断作为描述符代码，是一种拓扑学范畴的描述符。

（3）分子连接性指数反映了分子中各原子排列状况、分支大小且与多种理化常数及生物活性相关。可用质谱的质荷比作为描述符。（4）其他参数

QSAR的分析方法：线性回归分析法和模式判别法。

回归分析：是对一组数据进行最小二乘拟合处理并建立函数关系的过程。当有几种性质可能对活性有贡献时，可用多元回归来处理。拟合函数的统计评价也是这种分析的一部分。常用的包括Free-Wilson方法和Hansch分析法等。

线性关系的判别：因变量与自变量之间是否存在线性关系，可通过对回归系数进行t检验来断定。进行t检验后，如果发现有的偏回归系数不显著，那么就要从回归方程中删除这些没有明显作用的自变量，删除变量时不可同时将几个不显著的自变量一起去掉，应当先删去t值最小的一个变量，重新计算回归方程，对新的回归方程的回归系数作检验，再删去新方程中一个不显著的自变量，如此重复，直到回归方程中所有的自变量都显著为止。

方程的显著性检验可用复相关系数取值R断定。复相关系数R反映了因变量与所有自变量之间回归关系密切的程度，检验R的显著性就是检验回归方程的显著性。因变量与自变量总体相关并不意味因变量与每个自变量都显著相关，因此还需按上述方法对偏回归系数作显著性检验。

虽然R是衡量总回归效果的重要标志，但R值的大小与回归方程中自变量的个数n，及因变量所取的观察值的个数k有关。当n相对于k不很大时，会获得较大的R值，即容易产生偶然相关。进行多元回归时要注意n与k的比例。一般认为n至少是k的4倍或5倍以上，就是说1个自变量要求因变量有4～5个观察值对应，以消除偶然相关的影响。另外，需要注意，由自变量预测因变量时，所用的数据不应超出建立回归方程时数据范围，不能随意外推。

数据拟合后所得方程的好坏也可用R2和S两种统计量来判断。R2是方程方差在数据方差中所占的份数，R2＝1表示数据对方程完全适合，而R2＝0.50表示数据中只有50％的方差可用方程解释；补充统计量S是观察值与方程预测值的标准偏差。如果方程的S值较实际测定的标准偏差小，表明数据拟合得较理想。

回归分析通常被运用于结构非常近似的化合物。当化合物结构差别较大时，由于描述符类型过多且难以产生相关性，此时有模式识别：以建立能区分活性种类的判别函数为目的。常用的方法：（1）聚类分析预先将为数众多的不同取代基(称为样本或样品)，按其化学结构参数(称作变量或指标)进行分类，使化学结构参数相近者归为一类，不同者归为其它类别。对样本分类的方法为Q 型聚类方法，对变量分类的方法为R型聚类分析法。

（2）主成分分析合理地从k个主成分中挑选出少数几个彼此无相关性的主成分作代表，就可以

获取由原始变量提供的绝大部分信息。（3）非线性变换（4）因子分析和主成分分析相当类似，利用相关系数矩阵以少数几个互不相关的主因子来代表原始变量所提供的信息。（5）人工神经网络QSAR应用：（1）预测同源物质的生物活性（2）避免合成过多的化合物；（3）更有目的地提高化合物的选择性作用；（4）预测化合物的某些成药性质；（5）帮助了解药物的作用机制及描述受体的图像。

2D-QSAR限制：使用前提（1）假定化合物的结构和生物活性之间存在一定的关系，也就是说，结构和活性之间存在函数关系（2）根据已知化合物结构—活性数据建立的函数，可以外推置新的化合物（3）化合物的结构可用适当的结构描述符来表示（4）所有化合物的限速反应均相同（5）化合物与酶或受体结合时，药物、酶或受体所引起的构象变化不予考虑（6）与受体亲和力有关的线性自由能参数的具有加和性（7）药物在体内代谢的差异均予以忽略。

定量构效关系的应用注意以下几个方面：（1）只能应用于作用机制相同的化合物，作用机制不同的化合物难于应用。一般认为，结构相近的同源物，其在体内的作用机制是相同的；（2）只能预测同源物的生物活性，对于非同源物由于作用机制不同不能预测；（3）在预测生物活性方面并不都是成功的。因为所得到的定量关系式还不能完全解释化合物与受体或酶间的作用情况，同时现有的理化参数还不足以真正描述化合物生物活性的本质；（4）一组同源物质的生物活性变化幅度若小于一个对数单位时，往往难于得到满意的相关结果，这可以由相关系数r的计算方法造成的；（5）参与回归分析的化合物数目与所得到的相关式中参数项数目之比至少为5：1，在进行回归分析计算中，若有偏离较大的化合物需要除掉时，除掉的数据点不能多于原化合物总数的10%，以避免掺入人为的因素而导致机会相关。对于被除去的数据点应给以合理的解释；（6）定量构效关系的研究不能代替药物设计的所用工作，也不能发现结构全新的先导化合物，对于一个全新的化合物也无法预测他的生物活性，这一方面可以通过三维定量构效关系进行。

非极性化合物与水混合时会形成互不相溶的两相，即非极性分子有离开水相进入非极性相的趋势，即疏水性，非极性溶质与水溶剂的相互作用则称为疏水效应。

疏水常数的定义：化合物在脂水两相中平衡浓度之比，通常将分子在水-正辛醇体系中的分配系数logP作为疏水性的度量，选择水－正辛醇体系是由于该体系与生物体系相似。

LogP的测定方法：

（1）摇瓶法。摇动一个装有两种互不相溶溶剂和一种溶质的烧瓶，待达到平衡后，分析溶质在其中一相或两相中的浓度。缺点：速度慢、费时、繁琐、易受溶质的稳定性或纯度的影响。

（2）薄层色谱法（原理是logP与色谱保留指数RM具有线性关系）；（3）反相高效液相色谱法；

（4）估算方法①碎片加合性法（原理是把分子划分为基本片段，每种特定的基本片段具有特定的贡献值，整个分子的logP值是其所含的所有片段贡献的加和。由于该法假定分子的疏水常数具有加和性，因而若偏离该假定则就有较大误差。）②基于分子性质的计算方法（注意：含羧基等极性基团的分子在疏水过程中包含电离、水合和形成离子对等现象，其logP的计算偏差较大。）用20个已知LOGP的甾体化合物库名为建立只有5个参数的回归方程，预测化合物LOGP的取舍的原则（有可能以实验题考核）：

（1）若交叉相关系数＞0.9，说明两参数是高度相关的，也就是说回归方程中只需其中一个就可（2）若删除与logP相关系数≤0.05的参数导致F值下降，则不应删除（3）对两个参数其它条件相似可删除与logP相关性小的参数（4）删除过程中应注意复相关系数R2和Fisher值，以判断参数的取舍。

Hansh回归方程（即多元线性回归方程，又称二维定量构效关系）提出了同源物的生物活性与各种取代基的理化参数之间的依赖关系，采用最小二乘法经多重回归，用与自由能相关的参数方程表示也就是线性自由能相关方法。Log1/C=-k lπ2 +k2π＋k3σ＋k4Es＋ks，其中C为化合物产生指定生物效应的物质的量浓度、π为疏水参数、σ为电性参数、Es为立体参数、k1,k2,k3,k4代表权重即各因素贡献大小的系数。

1、疏水参数π是被取代的化合物的脂水分配系数（正辛醇-水）（logP）与未取代的母体化合物的脂水分配系数之差。-π2表示药物的亲脂性和生物活性呈倒抛物线关系。随着脂溶性增加，到达作用部位的概率也逐渐增加，达高峰后，又由于亲脂性过大，则药物难以在水相中运转，而在脂肪组织中含量增加，使到达作用部位的概率又下降，所以药物需要适当的疏水性，活性最大时的疏水性为最适π值(logP0 )。（参见下面的HANSCH抛物线模型）

2、电性参数指取代基的电性效应对分子反应性能的影响。①Hammett取代常数(σ)反映芳环间位或对位上侧链取代基的影响(共轭效应与诱导效应之和)，σ为正值表示为吸电子基；负值表示为推电子基。②Taft取代常数(σ *)是反映脂肪族化合物中未构成共轭体系的取代基团极性效应的量度。

3、立体参数：反映所代表基团的大小及它对配体-受体位相互作用接近的影响。①Taft Es值为用酸性介质中的水解速率常数反映立体因素的影响。氢的Es值为零，基团越大，E s值越负。②摩尔折射（MR）反应是液体的物质的量体积，若方程中MR项为负值，即表示空间位阻为重要影响因素，如果为正值，说明由诱导极化产生的色散力为主要影响因素。③van der Waals参数，用van der Waals体积（V s）和半径（r v）来表示基团的实际大小，van der Waals半径和Taft E s值用作立体参数的主要缺点是具有这些常数的基团数目很有限。④最小立体差异(MSD)参数：反映一个化学式与另一个化学式相互重叠在一起时，以其不重合部分的差异为基础。

Kubinyi双线性模型：该模型与Hansch的抛物线模型的不同点是曲线的上升及下降部分均为直线，仅在最适logP0附近为抛物线，且两直线的斜率根据数据的分布情况而变化，而不是像抛物线那样上升和下降两部分为对称的弧线，因此对数据可更好地拟合。

HANSCH-FUJITA法的注意：（1）所有化合物必须是同源物，即母环相同（2）与受体具有相同的作用机理（3）需要化合物具有较大的物理化学性质的差异（4）所选择的参数之间不能有相关性（5）化合物的活性差异至少要大于10倍（6）建模化合物的数量至少是回归分析选用参数的5倍。

HANSCH-FUJITA法的限制：（1）只考虑化合物与受体的作用位点，而不考虑化合物化合物与受体结合时的构象变化（2）所有参数只能表达二维意义上的结构特征，不能表征三维特征；不能定量的解释三维结构与生物活性之间的关系（3）只能用于先导物的优化，不能用于先导物的发现。

第五章基于受体的药物设计（直接设计法）

分子对接(Molecular Docking)，是将小分子化合物（配体）识别、适配和结合于生物大分子（受体）的虚拟操作，旨在发现与受体结合部位相匹配的小分子化合物。是从虚拟库中筛选苗头和先导化合物的重要方法。受体和药物分子之间通过空间匹配和能量匹配而相互识别形成分子复合物，并预测复合物结构的操作过程。

分子对接的用途：（1）研究分子间的结合模式（2）预测分子间的结合能力（3）药物设计(先导化合物的发现或者改造)（4）蛋白质工程

分子对接的原理：药物与受体分子的结合强度取决于结合的自由能变化(ΔG结合)，结合的自由能变化与药物-受体复合物的解离常数的对数成线性关系。ΔG结合=-2.303 RT lgKi，即ΔG结合=- 5.85 lgKi基于该公式，由分子对接的能量值即可预测配体与受体间的亲和力。

结合自由能的变化与系统的焓和熵的关系为：ΔG结合=ΔH结合-TΔS结合在对接的过程中，通常忽略熵效应的变化，而焓变通常只考虑配体与受体结合部位的相互作用能(ΔE相互作用)。ΔE相互作用包括氢键作用(ΔE HB)，静电作用(ΔE elec)和范德华作用(ΔE vdw)。在一定意义上，氢键和静电作用表征了配体-受体结合部位的化学互补性，而范德华作用表征了相互间形状互补的疏水相互作用。

分子对接的一般过程：（1）确定靶标，找出结合位点，定出表面；（2）制备并调整受体位点以及配体的构象；（3）生成配体能量较低的多构象；（4）计算对接时所有构象-受体相互作用能量；（5）进行分子动力学模拟；（6）复合物的全局最优结合构象。

分子对接的分类：（1）刚性对接：研究体系的构象不发生变化（精度不高，但速度快，适合于针对大容量数据库的快速虚拟高通量筛选。）；（2）半柔性对接（适合于阐述配体-受体结合模式，以及针对小容量数据库的虚拟筛选。）；（3）柔性对接（度很高，速度慢，适合于揭示配体-受体间的动态结合过程以及深入的作用机制分析，不能用于高通量筛选。）

分子对接的核心步骤：

（1）如何找到最佳的结合位置：①配体的可能构象；②配体在活性位点的可能取向

受体与配体的结合是在三维空间中实现的，受体的结合部位和配体的分子构象决定了分子对接的结果。受体结构由于结构复杂，计算冗长，一般不计其构象变化。而针对配体分子，需要进行构象搜索，确定其低能态构象群，这是对接的最关键的步骤。

分子对接中构象搜寻的主要方法：蒙特卡罗法，遗传算法，模拟退火法，系统搜索和片段生长法。分子对接方法的分类，主要是依据构象搜寻的方法进行的。

（2）如何评价对接分子之间的结合强度：①非键作用能②基于分子表面的溶剂化计算③半经验的自由能计算

可以利用打分函数

第六章基于配体的药物设计（间接设计法）

计算机辅助药物设计(Computer Aided Drug Design, CADD)，是药物化学的一个分支，是以计算机作为操作界面和辅助手段，利用计算化学、分子图形学、统计学和数据库等技术，研究药物和受体的相互作用，发现和设计新的生物活性分子的方法，在先导化合物的发现和优化合成中起重要作用。

根据受体结构是否已知，可将CADD分为（1）基于受体的药物设计（直接设计法）包含①分子对接②同源模建③分子动力学④碎片分子设计（2）基于配体的药物设计（间接设计法）包含①药效团②定量构效关系③数据库构建

基于配体的药物设计：在不知道受体三维结构的情况下，从研究一系列药物分子对同一受体的活性出发，分析它们的结构变化与生物活性强弱的关系，揭示与受体能发生结合并产生活性的普遍的结构因素和药效特征的方法。

基于配体的药物设计常用方法：（1）药效团模型（2）定量构效关系（3）虚拟筛选（针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(QSAR)模型，从现有小分子数据库中，搜寻与靶标生物大分子结合或符合QSAR 模型的化合物，进行实验筛选研究。）

虚拟筛选数据库的建立：（1）收集化合物，制备成标准分子文件（2）能量优化，将分子转为3D格式（3）构象搜寻，对每一个分子都产生多构象（4）化学相似性分析（5）分子过滤，去除不具有成药性的分子

常用化学数据库：ZINC数据；Pubchem数据库；NCI数据库