学位论文 > 优秀研究生学位论文题录展示

QSAR研究中提高模型预测能力的新方法探讨及其在药物化学中的应用

作　者: 李加忠
导　师: 姚小军
学　校: 兰州大学
专　业: 分析化学
关键词: 定量结构活性关系 QSAR模型验证化合物低能构象一致性建模分析局部模型LLR 最小二乘支持向量机基因表达式编程虚拟筛选
分类号: R914
类　型: 博士论文
年　份: 2009年
下　载: 621次
引　用: 11次
阅　读: 论文下载

内容摘要

科学的发展是服务于现实生活的。人们经常会以“到底有什么实际用途”、“与现实生活有什么关系”或者“能否解决实际问题”来衡量一个新鲜事物。定量结构活性关系（Quantitative Structure-Activity Relationship, QSAR）研究也不例外,其在解决实际问题中的实用性一直备受关注。QSAR发展至今,应用已经非常广泛,其研究对象包括化合物的生物活性、毒性、药代动力学参数和生物利用度以及分子的各种理化性质和环境行为等,研究领域涉及生物、药学、化学以及环境科学等诸多学科。人们期望通过各种QSAR模型从分子水平上理解化合物的微观结构与其宏观活性之间的关系,为设计、筛选或预测具有人们期望的性质的化合物提供信息。在众多的应用中,利用模型预测未经实验测定甚至未合成的新化合物的相关活性,是QSAR模型最重要的用途之一。但是要用于预测新化合物,QSAR模型必须具有较高且可信的外部预测能力。因此本论文从建立QSAR模型的各个步骤考虑,试图解决目前QSAR研究中某些还有待完善的问题,重点研究了定量构效关系研究中化合物低能构象的选择问题、提出了几种新的建模策略、引入新的建模方法,旨在尽可能地提高QSAR模型的可靠性以及外部预测能力。同时,将具有很好预测能力的定量构效关系模型用于活性化合物的设计和筛选。论文第一章对定量结构活性关系研究进行了概述。从QSAR的发展历史、研究现状到发展趋势,从模型的建立、检验到应用,都进行了详细的阐述,并重点讨论了模型的验证问题。另外为了对QSAR建模方法有清晰的认识,本章从不同角度对各种QSAR方法进行了分类归纳;论文第二章讨论了二维QSAR研究中的一个基本问题——化合物构象对于定量构效关系模型的影响。旨在分析不同能量优化方法所得到的低能构象的差别、对最终QSAR模型的影响有多大。基于什么样的构象对于建立最终模型的至关重要,这也是一个QSAR研究的基础。通过对三组复杂程度不同的化合物进行研究后,得出了以下主要结论:（1）进行分子的三维结构优化时所用的初始构象能够影响模型的最终结果,并且分子结构越复杂影响越大;（2）构象搜索能够给出能量较低的分子状态,它可以协助分子力学或半经验等优化方法很快很容易的找到全局最优的低能构象;（3）如果所建立的QSAR模型用于新化合物的预测,则新化合物最好与训练集数据使用同样的优化方法;第三章介绍本文提出的两种新颖的一致性建模分析方法:WCM和改进的CDFS。一致性建模分析是一种新型的建模方法,但目前用来建立一致性模型的方法都是平均策略（ACM）。实际上不同的子模型包含的信息不同,对于最终活性的贡献也不同。因此本文提出一种更加合理的加权策略（WCM）,考虑用多元线性回归的方法给子模型不同的权重,并且提出了Q²引导的子模型选择策略（QGMS）来指导子模型的选择过程。这两种策略用于一系列丙二酰辅酶A脱羧酶抑制剂的定量构效关系研究,WCM模型的表现优于ACM和最佳单个模型,模型的拟合能力和预测能力都有很大提高,且模型更加稳定可靠,可解释性增强。CDFS是另一种一致性建模思路。CDFS方法将数据集进行多次分组分别建模,然后取模型的公共描述符建立最终模型。该方法的缺点是很难保证所得到的若干训练集的代表性。本文提出利用科学的分组方法得到具有代表性的训练数据,基于该数据利用不同的描述符组合进行建模,描述符出现频率越高说明其包含的结构信息越重要,然后取出现频率高的描述符建立最终模型。该方法用于169个噻唑类淋巴细胞特异性激酶抑制剂的定量构效关系研究,最终得到了包含八个公共描述符的模型,得到了很好的结果;第四章指出了局部建模local lazy regression （LLR）方法中一个问题,并且提出了相应的解决办法。在局部建模分析中,如何确定最优的临近点数量（k）对模型的预测是至关重要的,目前使用的方法是利用抽一法交互验证（LOO-CV）的Q²来自动决定。而LOO-CV只是一种内部检验技术,不能说明模型的外部预测能力,因此建立模型进行预测的可靠性值得怀疑。本文提出通过监测局部模型的外部预测能力来提高LLR预测的可靠性和准确性,并用于黑色素浓缩激素受体1拮抗剂的定量构效关系研究,提高了模型的预测能力和预测可信度,得到了很好的结果;第五章应用两种新型的非线性建模方法最小二乘支持向量机（LS-SVMs）和基因表达式编程（GEP）进行建模分析,使模型的拟合能力和预测能力都有一定的提高。本论文中, （1） LS-SVMs方法用于羟吲哚类细胞周期依赖性激酶（CDK）抑制剂的分类,模型分类正确率比线性判别分析（LDA）模型有很大提高;（2） LS-SVMs方法用于44个人类肝脏糖原磷酸化酶（hlGPa）抑制剂,模型的抽一法交互验证表明LS-SVMs模型更加稳定,非线性模型的预测能力比多元线性回归（MLR）模型更强,且在此工作中验证了QSAR研究中进行描述符选择的必要性;（3） LS-SVMs方法用于吡嗪-吡啶类血管内皮生长因子受体2（VEGFR-2）抑制剂的定量构效关系研究,模型的预测能力比线性MLR模型有很大程度的提高;（4）非线性GEP方法用于62个MCHR1拮抗剂的QSAR研究,所得GEP模型的拟和能力尤其是外部预测能力都比线性MLR方法有很大提高,R_ext²从线性的0.756提高到0.819;第六章重在讨论模型的应用——数据库挖掘和虚拟筛选。提出了一个新颖的QSAR/docking混合策略对淋巴细胞特异酶Lck抑制剂进行QSAR研究,所建模型用于虚拟筛选化合物数据库,最终筛选出两个磺酰基脲类衍生物,它们与Lck激酶活性位点的结合模式与文献报道的已知抑制剂非常相似,并且具有较高的预测活性。其中关键的磺酰基脲和疏水基团子结构可以作为Lck抑制剂结构优化的先导骨架。本研究所提出的策略可以从多方面考虑训练数据的结构特征,并且可以保证训练集数据的多样性,成功地将基于配体的虚拟筛选（LBVS）和基于受体的虚拟筛选（SBVS）有机地结合到一起进行化合物数据库的筛选。

全文目录

摘要  10-13
Abstract  13-17
论文创新之处  17-19
第一章定量结构活性关系概述  19-78
  1.1 QSAR的发展历程  20-22
  1.2 QSAR模型方法的分类  22-28
    1.2.1 分类(Classification)与回归(Regression)模型  22
    1.2.2 线性(Linear)与非线性(Nonlinear)模型  22-23
    1.2.3 前向(Forward)与反向(Reverse)模型  23
    1.2.4 全局(Global)和局部(Local)模型  23-25
    1.2.5 单一模型(Single model)与一致性模型(Consensus modeling)  25
    1.2.6 按所建模型的维数分类  25-28
  1.3 QSAR建模基本过程中的"OECD Principles"  28-42
    1.3.1 数据准备  28-31
    1.3.2 分子模建  31-33
    1.3.3 模型验证(Model Validation)  33-39
    1.3.4 模型的应用域(Applicability Domain,AD)  39-40
    1.3.5 模型解释(Mechanistic interpretation)  40-42
  1.4 QSAR模型的应用  42-43
  1.5 QSAR研究最新进展  43-50
    1.5.1 Multiobject model  43-46
    1.5.2 Group-Based QSAR (G-QSAR)  46-47
    1.5.3 正交投影模型(Orthogonal projection modeling)  47-50
  1.6 本论文使用的主要建模方法  50-57
    1.6.1 GA-MLR  50-51
    1.6.2 最小二乘支持向量机LS-SVMs~(247)  51-54
    1.6.3 基因表达式编程GEP  54-57
  参考文献  57-78
第二章 QSAR研究的一个基本问题—化合物构象对QSAR模型的影响  78-112
  2.1 QSAR研究中经常被忽略的问题—分子构象  78-79
  2.2 对构象问题的分析思路  79-80
  2.3 研究数据  80-92
  2.4 建模方法  92-98
    2.4.1 描述符的计算  92-96
    2.4.2 特征选择和建模方法  96
    2.4.3 模型验证  96-98
  2.5 结果与讨论  98-102
    2.5.1 数据集1(SMF)的结果  98-100
    2.5.2 数据集2(LckI)的结果  100-101
    2.5.3 数据集3(NS5BI)的结果  101-102
  2.6 结论  102-103
  参考文献  103-112
第三章两种新型的一致性建模分析方法: WCM和改进的CDFS  112-160
  3.1 加权一致性模型建模(WCM)方法及其在丙二酰辅酶A脱羧酶抑制剂构效关系研究中的应用  112-135
    3.1.1 常用的一致性模型(Consensus modeling)建模策略——平均  112-113
    3.1.2 加权一致性模型建模的提出  113
    3.1.3 一致性模型在构效关系研究中的应用——丙二酰辅酶A脱羧酶抑制剂的定量构效关系研究(Malonyl coenzyme-A decarboxylase inhibitors)  113-114
    3.1.4 QSAR模型建模方法  114-121
    3.1.5 结果与讨论  121-135
    3.1.6 结论  135
  3.2 利用改进的CDFS一致性建模分析对p56~(LCK)抑制剂进行QSAR研究  135-152
    3.2.1 CDFS (Combined data splitting-feature selection)策略  135-136
    3.2.2 改进的 CDFS  136-137
    3.2.3 喹喔啉类P56~(Lck)抑制剂  137-138
    3.2.4 建模方法  138-144
    3.2.5 结果与讨论  144-151
    3.2.6 结论  151-152
  参考论文  152-160
第四章提高Lazy预测准确性和可靠性的新策略及其在MCHR1拮抗剂构效关系研究中的应用  160-183
  4.1 QSAR研究中全局和局部建模问题  160-161
  4.2 提高LLR外部预测能力的折中思路  161-162
  4.3 黑色素浓缩激素受体1拮抗剂  162-163
  4.4 研究方法  163-169
    4.4.1 描述符的计算和数据分组  163-168
    4.4.2 变量选择和模型建立(GA-MLR)  168
    4.4.3 LLR学习算法  168-169
  4.5 结果与讨论  169-176
    4.5.1 线性模型(MLR)  169-171
    4.5.2 模型的应用范围及描述符的解释  171-173
    4.5.3 LLR的结果  173-176
  4.6 结论  176-177
  参考文献  177-183
第五章非线性LS-SVMs和GEP方法在药物化学中的应用  183-240
  5.1 基于LS-SVMs方法的羟吲哚类CDK抑制剂的构效关系研究  183-198
    5.1.1 细胞周期依赖性激酶CDK抑制剂  183-184
    5.1.2 建模方法及步骤  184-191
    5.1.3 结果与讨论  191-197
    5.1.4 描述符解释  197-198
    5.1.5 结论  198
  5.2 基于LS-SVMs方法的人类肝脏糖原磷酸化酶抑制剂的定量构效关系研究  198-210
    5.2.1 人类肝脏糖原磷酸化酶(hlGPa)抑制剂  198-199
    5.2.2 建模方法及步骤  199-203
    5.2.3 结果与讨论  203-209
    5.2.4 描述符解释  209-210
    5.2.5 结论  210
  5.3 应用LS-SVMs的方法在线预测吡嗪-吡啶类VEGFR-2抑制剂的生物活性  210-219
    5.3.1 血管内皮生长因子受体2 (VEGFR-2)抑制剂  210-211
    5.3.2 建模方法及步骤  211-214
    5.3.3 结果与讨论  214-218
    5.3.4 描述符解释  218-219
    5.3.5 结论  219
  5.4 基因表达式编程方法及其在MCHR1拮抗剂中的定量构效关系研究  219-230
    5.4.1 黑色素浓缩激素受体1 (MCHR1)拮抗剂  219
    5.4.2 建模方法及步骤  219-225
    5.4.3 结果与讨论  225-230
    5.4.4 结论  230
  参考文献  230-240
第六章 2D-QSAR的直接应用——数据库挖掘  240-257
  6.1 对QSAR方法学解决实际问题的疑问  240-241
  6.2 2D-QSAR的直接应用——数据库挖掘  241-242
  6.3 淋巴细胞特异性蛋白酪氨酸激酶(Lck)抑制剂的虚拟筛选  242-245
    6.3.1 淋巴细胞特异性蛋白酪氨酸激酶(Lck)抑制剂  242
    6.3.2 药物数据库  242-243
    6.3.3 筛选策略QSAR/docking  243-244
    6.3.4 QSAR建模及过滤器选择  244-245
      6.3.4.1 QSAR建模及评估  244
      6.3.4.2 过滤器的选择  244-245
      6.3.4.3 虚拟筛选  245
  6.4 结果与讨论  245-253
    6.4.1 QSAR模型的建立和模型空间  245-246
    6.4.2 模型验证和过滤器的选择  246-247
    6.4.3 虚拟筛选  247-253
  6.5 结论  253
  参考文献  253-257
在读期间发表论文  257-260
作者简介  260-261
致谢  261-262

QSAR研究中提高模型预测能力的新方法探讨及其在药物化学中的应用

内容摘要

全文目录

相似论文