学位论文 > 优秀研究生学位论文题录展示

色谱指纹数据处理算法研究及应用

作 者: 蒋佳学
导 师: 林晓惠
学 校: 大连理工大学
专 业: 计算机软件与理论
关键词: 色谱 代谢组学 数据挖掘 数据融合 时间序列
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 38次
引 用: 0次
阅 读: 论文下载
 

内容摘要


色谱分离检测技术是常用的代谢组学分析技术。通过对样本进行色谱分离检测,可以获取样本的代谢物色谱指纹轮廓,以进行后续的代谢组学分析。由色谱技术可以得到几百甚至上千个代谢物,而所检测的样本通常只有几十个。即代谢组学色谱指纹数据具有高维小样本的特点。如此高的代谢物维度及相对过少的样本,加大了代谢组学色谱指纹数据的分析难度。因此,研究人员引入数据挖掘技术用于处理代谢组学色谱指纹数据。对初烤烟叶色谱数据进行分析是植物代谢组学中的一个重要应用。为满足对烟草色谱数据存储和分析的需求,本文开发了一个烟草色谱指纹图谱数据分析系统,并已投入实际应用。同时,数据融合方法常应用于对多个年份中所采集的不同烟草样本的香型品质进行分析。然而,不同年份的生态气候差异会对香型差异造成干扰。为有效融合不同年份的色谱数据,本文提出了一种基于统计假设检验与局部尺度化相结合的数据融合方法。该方法只对受到年份影响的特征进行尺度化处理,去除年份差异的影响。在将该方法应用于对贵州两年的烤烟样本融合处理时,同现有的数据偏移修正融合方法相比,有效地去除了不同年份生态气候导致的差异,使得随机森林和支持向量机对烤烟香型的分类性能均得到了提高。本文的另一内容是对代谢组学时间序列色谱数据及时间序列随机森林分类算法进行研究,给出了一种与时间序列规律性变化度量相结合的时间序列随机森林算法。该算法和普通的时间序列随机森林相比,在选择决策树结点分划特征时,同时考虑了特征的区分能力及特征的时间序列变化规律特点。在将该算法应用在家蚕的时间序列分类问题的实验中,验证了该算法比普通时间序列随机森林的优越性。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-10
  1.1 代谢组学色谱分析技术  8
  1.2 数据挖掘  8-9
  1.3 本文主要工作  9-10
2 代谢组学色谱指纹数据分析技术  10-16
  2.1 统计学方法  10-11
  2.2 无监督数据挖掘技术  11-12
    2.2.1 聚类  11-12
    2.2.2 主成份分析  12
  2.3 有监督数据挖掘技术  12-15
    2.3.1 分类  12-13
    2.3.2 分类器融合  13-14
    2.3.3 特征选择  14-15
  2.4 本章小结  15-16
3 烟草色谱指纹数据处理算法  16-38
  3.1 植物代谢组学简介  16
  3.2 研究问题背景介绍  16-17
  3.3 贵州不同区域烤烟中重要致香成分色谱指纹图谱软件  17-22
    3.3.1 TDFPAS系统体系结构  17-18
    3.3.2 TDFPAS系统功能  18-22
  3.4 数据融合技术去除初烤烟叶年份差异  22-36
    3.4.1 数据融合技术  22-24
    3.4.2 DF-SHTLS数据融合算法  24-25
    3.4.3 样本数据信息  25
    3.4.4 年份差异影响检测  25-28
    3.4.5 去除年份差异效果对比  28-29
    3.4.6 分类性能对比  29-30
    3.4.7 数据融合特征分析  30-36
  3.5 本章小结  36-38
4 数据挖掘算法在时间序列色谱数据分析中的应用  38-49
  4.1 基于色谱指纹数据的代谢组学时间序列问题简介  38
  4.2 时间序列决策树及随机森林在时间序列问题上的应用  38-42
    4.2.1 时间序列决策树  39-41
    4.2.2 时间序列随机森林  41-42
  4.3 时间序列规律性变化评价指标  42-45
    4.3.1 时间序列规律性变化度量  42-43
    4.3.2 时间序列标准化  43-44
    4.3.3 M-决策树和M-随机森林  44-45
  4.4 蚕蛹时间序列问题  45-46
  4.5 分类性能对比  46-47
  4.6 时间序列变化趋势分析  47-48
  4.7 本章小结  48-49
结论  49-50
参考文献  50-54
攻读硕士学位期间发表学术论文情况  54-55
致谢  55-56

相似论文

  1. 基于微型无人平台导航多传感器信息融合算法研究,V249.32
  2. 脑梗塞血瘀证的肽组学和代谢组学初步研究,R277.7
  3. 松萝酸与依托红霉素致肝脏毒性的GC-MS代谢组学研究,R965
  4. 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
  5. 芴甲氧羰基-D-色氨酸及D-苯丙氨酸分子印迹聚合物的制备及分离性能研究,O631.3
  6. 基于数据挖掘技术的保健品营销研究,F426.72
  7. 犀牛角及其仿制品的研究,TS932.2
  8. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  9. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  10. 藏药三果汤散抗氧化有效成分研究,R29
  11. 奶粉中三聚氰胺分析方法研究及快速测定体系的建立,O657.3
  12. 电厂用阳离子交换树脂硫酸根溶出特性研究,TQ425.23
  13. 鸭ADSL与PurH基因序列特征及表达与肌肉肌苷酸(IMP)含量的相关性分析,S834
  14. 生长素对harpin蛋白激发HR的调控机制初步研究,S432.1
  15. 多聚糖PC类衍生物CSPs的合成及手性分离能力的研究,TQ460.1
  16. 4-氨基-2-三氟甲基苯基维甲酸酯的制备和质量控制的初步研究,TQ463
  17. 发育于热带地区玄武岩的时间序列土壤中石英和植硅体的变化特征,S153
  18. 除草剂溴苯腈与硝磺草酮在玉米和土壤中的残留研究,S481.8
  19. 长春花吲哚生物碱检测的方法及其分离纯化,R284
  20. Bicluster数据分析软件设计与实现,TP311.52
  21. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com