学位论文 > 优秀研究生学位论文题录展示
对液相质谱数据集的数据降维
作 者: 刘磊
导 师: 刘大有
学 校: 吉林大学
专 业: 计算机应用技术
关键词: 生物标记挖掘 数据降维 特征选择 特征提取 液相质谱数据集 宫颈癌数据集 维数灾难
分类号: TP18
类 型: 硕士论文
年 份: 2007年
下 载: 185次
引 用: 1次
阅 读: 论文下载
内容摘要
本文主要描述了在一个具有极高维度的液相质谱型宫颈癌数据集中进行数据挖掘的过程。此项目的目的是通过对具有区分一种特定疾病状态,即患癌或非患癌的对应于生物标记的某种蛋白质或肽的发掘来降低数据集的维度。数据降维的两种主要方法——特征选择和特征提取在本项目中都得到利用。我们既整合了一些经典的特征选择算法,又采用了一些较新的算法,比如像CLaNC,One_by_One,T检验,Gram-Schmidt等,同时也尝试了几乎所有的特征提取算法,包括主成分分析,Autoencoder network等等。最近邻分类法和交叉验证被分别用作分类器和生成训练样本集和测试样本集的数据分割法。大多数的算法都是在MatLab的平台下编程实现的,我们还引入了WEKA作为补充工具。实验是在两种方法学的指导下进行的,即特征选择分别位于交叉验证之前和之后。在分析和对比了由各种算法产生的结果之后,我们能够得出如下结论:尽管对于患癌症者或非患癌者的区分上,Group_I中第391个特征并不是具有0分类错误率的完美
|
全文目录
提要 5-10 第一章 维数灾难 10-14 1.1 维数灾难 10-13 1.2 维数灾难的解决 13-14 第二章 特征选择与特征提取 14-31 2.1 特征选择 14-25 2.1.1 CLaNC 算法描述 15-16 2.1.2 One-By-One 算法描述 16-17 2.1.3 T 检验算法描述 17-20 2.1.4 Gram-Schmidt 算法描述 20-25 2.1.4.1 经典Gram-Schmidt 算法描述. 20-23 2.1.4.2 随机特征Gram-Schmidt 算法描述 23-25 2.2 特征提取 25-28 2.2.1 主成分分析算法描述 25-26 2.2.2 Autoencoder network 算法描述 26-28 2.3 K 最近邻分类器 28-29 2.4 交叉验证 29-31 第三章 生物标记的发掘 31-32 第四章 液相质谱宫颈癌数据集 32-46 4.1 液相质谱分析法 32-38 4.1.1 高效液相色谱 33-36 4.1.2 质谱分析 36-37 4.1.3 高效液相色谱与质谱分析的接口 37-38 4.2 液相质谱数据的处理 38-39 4.3 宫颈癌数据集 39-46 第五章 数据降维实验 46-114 5.1 利用WEKA 进行数据降维 46-59 5.1.1 数据准备-ARFF 47-48 5.1.2 属性选择 48-59 5.2 利用MATLAB 进行数据降维 59-83 5.2.1 CLaNC 算法实现 59-62 5.2.2 One-By-One 算法实现 62-68 5.2.2.1 One_by_one1 算法实现 63-65 5.2.2.2 One_by_one2 算法实现 65-68 5.2.3 T 检验算法实现 68-76 5.2.3.1 经典t 检验算法实现 69-70 5.2.3.2 配对t 检验算法实现 70-76 5.2.4 Gram-Schmidt 算法实现 76-82 5.2.4.1 经典Gram-Schmidt 算法实现. 76-79 5.2.4.2 随机特征Gram-Schmidt 算法实现 79-82 5.2.5 性能比较 82-83 5.3 利用MATLAB 工具箱进行数据降维. 83-91 5.4 利用改进的方法学进行数据降维 91-114 5.4.1 利用WEKA 和改进后的方法学对数据进行降维 93-102 5.4.2 利用MatLab 和改进后的方法学对数据进行降维 102-114 第六章 结论 114-116 附录一 宫颈癌数据集SOP 1 116-119 附录二 宫颈癌数据集SOP 2 119-123 附录三 MATLAB 工具箱“DRTOOLBOX”(V0.3b) 123-128 摘要 128-131 ABSTRACT 131-134 致谢 134-135 ACKNOWLEDGEMENTS 135-136 参考文献 136-137
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 红外图像目标识别及跟踪技术研究,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 利用非局部相似性的图像超分辨率重建研究,TP391.41
- 学术网络重名排岐算法研究,TP301.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com
|