抗结核病药物的3D-QSAR定量结构性质关系研究
化学091班学生:靳飞翔指导老师:刘侠
(陕西科技大学化学与化工学院陕西西安710021)
摘要:采用三维全息原子场作用矢量(3D-HoV AIF)对25个查耳酮类抗结核病药物进行定量构效关系(QSAR)研究。运用多元线性回归(Multiple linear regression, MLR)及偏最小二乘回归(partial least square regression, PLS)建模,同时采用内部及外部双重验证的办法对所得模型稳定性能进行了深入分析和检验。采用3D-HoV AIF 的MLR及PLS建模的复相关系数(R cum2)、留一法(leave-one-out, LOO)交互校验(cross-validation, CV)复相关系数(Q LOO2)和外部样本校验复相关系数(Q ext2)分别为0.984、0.920、0.808和0.998、0.975、0.903。结果表明,3D-HoV AIF较好表征抗结核药物分子结构信息,因而能建立具有良好稳定性和预测能力的QSAR模型。
关键词:体外抗菌活性,抗结核病药物,三维全息原子场作用矢量, 比较分子/虚拟受体相互作用分析法,定量构效关系
Anti-TB drugs by 3D-QSAR Quantitative Structure-Property
Relationship Study
ABSTRACT: A newly developed three-dimensional holographic vector of atomic interaction field (3D-HoV AIF) were used to describe the chemical structures of 25 Chalcone as antituberculosis agents. Here quantitative structure activity relationship (QSAR) models were built by Multiple linear regression(MLR)and partial least square regression (PLS). The estimation stability and generalization ability of these models were strictly analyzed by both established MLR and PLS, leave-one-out (LOO) cross-validation (CV), predicted values versus experimental ones of external samples were 0.998、0.975、0.903 and 0.926、0.785、0.785, respectively. The results indicated that results of PLS here had favorable estimation stability and good prediction capabilities. Satisfactory results showed that 3D-HoV AIF could preferably express information related to biological activity of anti-tuberculosis drug.
KEYWORDS:mycobacterium tuberculosis, in vitro antibacterial activity, anti-tuberculosis drug, three-dimensional holographic vector of atomic interaction field, quantitative (3D-HoV AIF), structure-activity relationship (QSAR),
1 引言
结核病是一种古老的疾病,由结核分枝杆菌(Mycobacterium Tuberculosis, MTB)感染所致,困扰人类已数千年之久。全球有1/3人口感染了结核杆菌,其中99 %的结核病死亡者分布在发展中国家。患病率高、死亡率高、耐药率高、年递降率低是结核病近年的疫情特征。100多年以来,虽有不少抗结核病药物被发现,但每年仍有30万人死于结核病。近几年, 结核发病率有上升趋势。在过去的50年中,只有少数的药物被美国食品和药物管理局批准用于治疗结核病,这说明发现和临床试验新制剂的困难和制药工业领域研究的缺乏。因此,近年来人们不得不致力于研究新抗分枝杆菌的药物,希望能为治疗结核病找到可靠的药物。
新药的研究与开发是一项耗资大、周期长、技术要求高、风险大的系统工程。尽管如此,由于新药具有垄断生产和高额利润回报等特点,仍是今后药物研究开发的热点和重点,利用QSAR方法是先从理论上设计一种化合物,预测其药理活性,再用于临床使用,能够有目的设计合成新药,有效地降低开发成本。本文采用本实验室最近提出的两种有效的寻找描述子的方法,分别为3D-HoV AIF,在不借助任何实验手段及毋需样本构象重叠的前提下建立了抗结核病药物活性与其结构的定量关系,取得了相当满意的结果。以期为设计合成抗菌活性更高的该类药物提供理论参考。
2 原理与方法
2.1 三维全息原子场作用矢量
三维全息原子场作用矢量(3D holographic vector of atomic interaction field, 3D-HoVAIF)[1-2]从分子立体结构的两个不变量——原子相对距离和原子自身性质出发,基于三种常见的与生物活性直接相关的原子间非键作用方式(静电、立体和疏水作用),将有机分子中常见原子(氢、碳、氮、磷、氧、硫、氟、氯、溴、碘)分别按其所处元素周期表5个主族(IA、IVA、VA、VIA、VIIA),划分为5大类,为更精确描述原子结构特征,进一步把不同主族中原子按其杂化状态细分为10类,这样一个分子内部不同类别原子之间的相互作用情况就有55种。3D-HoVAIF 采用静电、立体和疏水三种势能来表达不同的作用形式,这样对于一个有机化合物分子将有3×55=165对原子作用项来表征分子结构信息。
2.2 多元线性回归原理
多元线性回归(Multiple linear regression, MLR)是一种经典的建模方法,它对自变量和因变量加以线性拟合以得到最小二乘(Least Square, LS)意义下的最佳结果。在研究互相独立的自变量与因变量之间的线性关系时,采用多元线性回归分析通常可以获得满意的结果。假设自变量x1,x2,…, x j与因变量y 皆成线性关系,则一个j元线性回归的数学模型可表达为:
?=b o+b1x1+b2x2+…+b j x j (2-1) 方程式(2-1)中b0为常数项,自变量x j前的系数b j,称因变量y对自变量x j的偏回归系数,它表示在其它自变量为常数时,该自变量每变化1个单位而使因变量y平均改变的数值。
2.3 偏最小二乘回归原理
目前PLS在定量构效关系研究中是一种较为流行的建模方法。该法可以分析包含缺失值、多重共线性以及噪声的众多自变量,并可以同时对多个因变量进行建模,特别适合在样本容量小于变量个数的情况下进行回归建模。它通过对X和Y矩阵同时做双线性分解,并将分解所得的潜在变量(latent variable)再做一次最小二乘拟合以得到最终模型。
3 模型建立和检验
3.1 多元线性回归建模
(1)SMR筛选出了27个变量,而一般要求变量个数最多不超过样本容量的三分之一。根据这一经验规则,并结合交互检验的复相关系数Q LOO2变化情况进行对比。交互校验的复相关系数(Q LOO2)随变量引入的变化情况如下图3-1所示。
图3-1 MLR 模型Q LOO 2随SMR 引入变量的变化情况 图3-2 MLR 模型对25个样本与预测值相关情况
根据上图所示的各模型的Q LOO 2 值,分别 以5个变量、9个变量为例,分别进行回归建模。
表3-1 实验结果与文献值相比较
序号
R cum 2 Q LOO 2 Q ext 2 模型5
0.968 0.920 0.808 模型10
0.998 0.975 0.903 文献方法1 0.81 0.76 0.56
可见,运用5个变量和9个变量所建立的模型均具有较好的预测能力。为检验模型的稳定性和外部样本的预测能力,内部采用留一法检验,对外部样本的预测能力用外部检验的Q ext 2来衡量。内部检验和外部检验的结果均表明,所建模型的稳定性较好,且预测结果均优于文献值,如上表3-1所示。
将9个预测样本带入模型进行检验。将16个内部样本及9个外部样本的实验值与预测值的相关性绘于上图3-2中。由该图可以看出,几乎所有样本都均匀分布于过原点45°直线周围,无明显异常点。由此表明3D-HoVAIF 能够恰当表征化合物的结构特征,并在统计模型中作出正确反映。
3.2 偏最小二乘建模
将SMR 每一步得到的原始变量矩阵,经偏最小二乘回归(Partial Least Square Regression, PLS)建模,并使用LOO-CV 法计算模型的Q LOO 2大小,当其达到最大值时变量数目来确定最终模型。可以看到当取3个变量时建立PLS 模型Q LOO 2达到最大值(图3-3)。
图3-3 PLS模型Q LOO2随SMR引入变量的变化情况图3-4 实验值与预测值相关性利用新型3D-HoV AIF描述子对抗结核病药物活性及其化学结构进行定量构效关系研究,取得模型相关统计量(复相关系数R cum2、交互检验复相关系数Q LOO2、外部样本校验复相关系数Q ext2)与文献[3]结果进行比较,如下表3-2所示。结果表明,该模型对于这一类抗结核病药物的活性,拟合程度较高,具有很强的预测能力。将预测集用于模型检验,图3-4使用3D-HoV AIF建立的QSAR模型的计算值与实验观测值相关情况,几乎所有样本都均匀分布于过原点45°直线周围,无明显异常点。由此表明3D-HoVAIF能够恰当表征化合物的结构特征,并在统计模型中作出正确反映。
表3-4 实验结果与文献值比较
序号R cum2Q LOO2Q ext2
模型4 0.951 0.914 0.764
文献方法2 0.81 0.76 0.56
4 小结
本文使用多元线性回归和偏最小二乘回归两种方法进行建模,说明3D-HoV AIF能够较好地表征药物分子内的复杂相互作用。3D-HoV AIF使用的均是纯理论数据,其物化意义明确,可解释性强,并且避免了当今大多3D药物设计技术在应用过程存在的烦琐操作等缺点,显示出较为广阔的应用前景。利用QSAR方法是先从理论上设计一种化合物,预测其药理活性,再用于临床使用,能够有目的设计合成新药,有效地降低开发成本。
5 参考文献
[1] 仝建波,周鹏,张生万等.三维全息原子场作用矢量用于嘌呤衍生物定量结构保留相关的研究[J].
科学通报,2006, 51(9):1016-1021.
[2] 崔新颖,孔祥雨.抗结核药物及其应用研究[J].华大学学报(自然科学版),2009,10(3):23-27.
[3] P. M. Sivakumar, S. Prabu Seenivasan, Synthesis,antimycobacterial activity evaluation
and QSAR studies of chalcone derivativesBioorganic & Medicinal Chemistry Letters 17 (2007) 1695–1700