学位论文 > 优秀研究生学位论文题录展示

支持向量回归在化学农药定量构效关系中的应用

作 者: 李巍巍
导 师: 袁哲明
学 校: 湖南农业大学
专 业: 植物保护
关键词: 定量构效关系 筛选描述符 支持向量回归 化学农药 杀虫剂 杀菌剂 除草剂
分类号: S48
类 型: 硕士论文
年 份: 2011年
下 载: 28次
引 用: 0次
阅 读: 论文下载
 

内容摘要


化学农药的中心研究问题之一就是新农药的开发——开发对不利于农业生产的植物虫害、病害、杂草等具有期望活性的化合物。随着农业生产有害物对传统农药的抗性增强以及人们对绿色食品的要求,使新化学农药的创制难度加大,采用传统方法大量盲目合成再筛选,显然费时、费力、费钱,且对环境带来污染,因此将定量构效关系(QSAR)应用于农药的创制起到了极其重要的作用。QSAR研究涉及三大问题:获得表征化合物分子结构的描述符、筛选描述符及选择建模方法。描述符的获得首先可通过查阅文献得到低维描述符(描述符的个数一般不多于10个,仅能表征化合物的部分信息),其次可通过E-Dragon 1.0等软件计算得到高维描述符(描述符的个数成千上万,能表征绝大部分化合物信息)。低维描述符的筛选可采用前期建立的非线性多轮末尾淘汰法进行,而高维描述符的筛选问题一直未获根本性解决:非线性多轮末尾淘汰法用于高维描述符筛选时计算速度慢、时间耗费巨大;逐步线性回归仅适用于线性问题;主成分分析是用主成分来代替多个描述符的线性加权组合,因此基于主成分建立的模型解释性差。常用于QSAR建模方法有多元线性回归(MLR)、逐步线性回归(SLR)、偏最小二乘回归(PLS)、二次多项式回归(QPR)等线性或拟线性模型,这些传统模型解释性较好,但对高维、非线性、小样本问题的解析能力有限,人工神经网络(ANN)具有很好的非线性逼近能力,但存在模型结构难以确定、可解释性差、易出现过度训练、训练不足或易陷入局部最小等诸多缺陷,基于统计学习理论的支持向量回归(SVR)较好地解决了小样本、非线性、过拟合、维数灾、局部极小等问题,且泛化推广能力优异。本文为解决化学农药QSAR研究中合理选择描述符的问题,采用ChemDraw结合E-Dragon 1.0对3个化学农药相关数据集进行了描述符的计算,均得到了超过1000个描述符,描述符的类型多达24类,如:结构描述符、拓扑描述符、2D自相关描述符、3D-MoRSE描述符等,为从中快速获得与化合物活性相关的描述符,基于SVR建立了高维描述符非线性快速筛选法,采用杀虫剂杀菌剂除草剂等3类化学农药相关化合物进行验证,与文献常用描述符进行了比较分析,结果显示:1、基于SVR及文献中提供的描述符对三类化学农药进行了QSAR研究,包括三元不对称有机磷酸酯类杀虫剂(22个样本)、新型含噻唑和三唑环的亚胺类杀菌剂(17样本)和2-羟基-3-烷基-1,4-萘醌类除草剂(23样本)等。首先对文献提供的描述符进行了相关分析,发现描述符中大多数描述符间的相关系数均达到了极显著相关水平,特别是2-羟基-3-烷基-1,4-萘醌类化合物的描述符HE与ClogP、Polar与ClogP的相关系数分别达到了0.99和1.00;除了这种线性相关关系外,描述符间可能还存在非线性相关关系,因此采用实验室前期建立的基于SVR非线性多轮末尾淘汰法筛选描述符。结果发现,对描述符筛选前、后的数据集进行留一法预测发现,经筛选描述符后的模型性能值(MSE、R2、F值)均有所提升,证实了该方法能有效剔除与化合物活性值无关或可被其他参数替代的描述符,且对线性相关的描述符HE、ClogP和Polar也能进行有效的筛选。最后基于描述符重要性分析对保留描述符进行了重要性排序,给出了描述符对化合物活性值影响的大小排序,增强了模型的可解释性。2、以上描述符选择结果表明,常用描述符所包涵的信息有限且可能与特定化合物活性并无相关性,因此所建模型性能一般,采用本文建立的高维描述符非线性快速筛选法,对3个化合农药相关数据集通过软件计算获得的高维描述符进行筛选,最后均得到了意义明确的、不多于8个的保留描述符。留一法预测结果表明,经非线性筛选描述符后模型的留一法预测性能均得到了大幅提升,与原文献提供的描述符相比优势明显,充分说明了新的描述符筛选方法能有效地从大量描述符中准确地找出与化合物活性相关的且意义明确的描述符。进一步采用SVR回归显著性测验对所建QSAR模型是否可用进行了分析,以及采用单因子重要性分析对保留描述符进行了重要性排序,增强了所建QSAR模型的可解释性。综上,本文基于支持向量回归建立了高维描述符非线性快速筛选法,为化学农药QSAR研究中描述符的选择提供了理论基础,在化合物的QSAR中具有广泛应用前景。

全文目录


摘要  4-6
Abstract  6-9
目录  9-13
第一章 绪论  13-36
  1 QSAR的发展历史  14-16
  2 QSAR的研究方法  16-24
    2.1 二维定量构效关系研究(2D-QSAR)  16-18
      2.1.1 Hansch方程  16-17
      2.1.2 Free-Wilson模型  17-18
      2.1.3 分子连接性法  18
    2.2 三维定量构效关系研究(3D-QSAR)  18-22
      2.2.1 比较分子力场分析法  19-20
      2.2.2 比较分子相似性法  20-21
      2.2.3 虚拟受体法  21
      2.2.4 分子形状分析法  21-22
      2.2.5 距离几何法  22
      2.2.6 比较结合能分析法  22
      2.2.7 其他3D-QSAR方法  22
    2.3 多维定量构效关系研究  22-24
  3 QSAR的基本研究步骤  24-34
    3.1 相关数据的收集和整理  24-25
    3.2 生成及优化分子结构式  25-27
      3.2.1 ChemOffice  25-26
      3.2.2 ChemWindow  26-27
    3.3 计算及选择分子结构描述符  27-30
      3.3.1 经验性描述符  27-28
      3.3.2 组成描述符  28-29
      3.3.3 拓扑描述符  29
      3.3.4 几何描述符  29
      3.3.5 电荷相关描述符  29
      3.3.6 量子化学描述符  29-30
      3.3.7 其他描述符  30
    3.4 选择合适的QSAR建模方法并建立QSAR模型  30-34
      3.4.1 偏最小二乘法  31
      3.4.2 遗传算法  31-32
      3.4.3 人工神经网络  32-33
      3.4.4 支持向量回归  33-34
    3.5 检验QSAR模型  34
  4 本论文研究内容  34-36
第二章 基于常用描述符的化学农药QSAR研究  36-65
  1 引言  36-38
  2 材料与方法  38-54
    2.1 数据集  38-51
      2.1.1 数据集1:三元不对称有机磷酸酯类杀虫剂  38-42
      2.1.2 数据集2:新型含噻唑和三唑环的亚胺类杀菌剂  42-46
      2.1.3 数据集3:2-羟基-3-烷基-1,4-萘醌类除草剂  46-51
    2.2 相关分析  51-52
    2.3 基于均方误差的非线性多轮末尾淘汰法筛选描述符  52
    2.4 回归模型显著性检验  52-53
    2.5 描述符重要性分析  53
    2.6 评价指标  53-54
  3 结果与讨论  54-63
    3.1 三元不对称有机磷酸酯类杀虫剂的QSAR研究  54-56
      3.1.1 相关分析结果  54-55
      3.1.2 非线性多轮末尾淘汰法筛选描述符结果分析  55-56
      3.1.3 描述符重要性分析结果  56
    3.2 新型含噻唑和三唑环的亚胺类杀菌剂QSAR研究  56-60
      3.2.1 相关分析结果  56-57
      3.2.2 非线性多轮末尾淘汰法筛选描述符结果分析  57-59
      3.2.3 描述符重要性分析结果  59-60
    3.3 2-羟基-3-烷基-1,4-萘醌类除草剂QSAR研究  60-63
      3.3.1 相关分析结果  60-61
      3.3.2 非线性多轮末尾淘汰法筛选描述符结果分析  61-63
      3.3.3 描述符重要性分析结果  63
  4 小结  63-65
第三章 高维描述符非线性快速筛选法的建立及用于化学农药QSAR研究  65-86
  1 引言  65-66
  2 数据与方法  66-71
    2.1 分子描述符的计算和特征选取  66-70
      2.1.1 ChemDraw绘制化合物分子结构并获得分子式  66-67
      2.1.2 E-Dragon 1.0计算描述符  67-70
    2.2 基于SVR的高维描述符非线性快速筛选  70-71
  3 结果与分析  71-84
    3.1 三元不对称有机磷酸酯类杀虫剂的QSAR研究  71-74
      3.1.1 高维描述符非线性快速筛选结果与分析  72-74
      3.1.2 描述符重要性分析结果  74
    3.2 新型含噻唑和三唑环的亚胺类杀菌剂QSAR研究  74-80
      3.2.1 高维描述符非线性快速筛选结果与分析  75-79
      3.2.2 描述符重要性分析结果  79-80
    3.3 2-羟基-3-烷基-1,4-萘醌类除草剂QSAR研究  80-84
      3.3.1 高维描述符非线性快速筛选结果与分析  81-84
      3.3.2 描述符重要性分析结果  84
  4 小结  84-86
第四章 结论与展望  86-88
  1 结论  86-87
  2 展望  87-88
参考文献  88-94
致谢  94-95
作者简历  95

相似论文

  1. 二化螟抗药性监测及对呋喃虫酰肼的抗性风险评估,S435.112.1
  2. 氯虫酰胺的合成研究,TQ453.2
  3. 氟虫酰胺的合成工艺研究,TQ453.2
  4. 马铃薯甲虫对拟除虫菊酯类杀虫剂和硫丹的抗性及其机理,S435.32
  5. 害虫捕食性天敌拟环纹豹蛛烟碱型乙酰胆碱受体毒理学特性研究,S476.2
  6. 烟粉虱田间种群抗药性监测及BtGluClα1基因组结构的分析,S433
  7. 马铃薯甲虫对4种新烟碱类杀虫剂的敏感性变化及其机理,S435.32
  8. 害虫捕食性天敌拟环纹豹蛛乙酰胆碱酯酶毒理学特性研究,S481.1
  9. 几种新型杀虫剂对马铃薯甲虫的毒力及两类靶标的分子克隆,S435.32
  10. 利用EMS诱变构建甘蓝型油菜突变体库的初步研究,S565.4
  11. 我国不同地理种群登革热媒介伊蚊和丹东三带喙库蚊对杀虫剂的抗药性,R184
  12. 水直播稻田除草剂配方及54%杀草丹·吡嘧磺隆油悬浮剂的研究,S451.21
  13. 稻纵卷叶螟对杀虫剂敏感性测定及防治混剂筛选,S482.3
  14. 体外培养的日本金龟子芽孢杆菌的回收及冷冻干燥保护剂的研究,S482.3
  15. 四种除草剂对两种泥鳅的毒性效应,S482.4
  16. 基于HVS的无参考图像质量评价方法的研究,TP391.41
  17. 粗糙集理论和Flex技术在中长期径流预报中的应用,P338
  18. 非汛期水库群协同优化调度与应用研究,TV697.11
  19. 基于智能算法的碳纤维原丝纺丝工艺监测与优化,TQ342.742
  20. 生物农药与化学农药对比分析,S48

中图分类: > 农业科学 > 植物保护 > 农药防治(化学防治)
© 2012 www.xueweilunwen.com