学位论文 > 优秀研究生学位论文题录展示
基因微阵列数据的特征提取和特征优化在癌症诊断中的应用
作 者: 孟范静
导 师: 刘毅慧;王洪国
学 校: 山东轻工业学院
专 业: 计算机应用技术
关键词: 基因微阵列数据 特征选取 遗传算法 支持向量机
分类号: R319
类 型: 硕士论文
年 份: 2008年
下 载: 77次
引 用: 0次
阅 读: 论文下载
内容摘要
由于在缺乏启发性的知识的情况下,遗传算法对于高维的数据的特征提取非常有效,所以遗传算法是基因数据研究中非常重要的算法。而支持向量机是在统计学习理论的基础上发展起来的新的模式识别方法,它不仅考虑了对推广性的要求,而且能够在现有的有限信息的条件下得到最优结果,在解决样本少、高维数、非线性等问题中有许多特有的优势。本实验正是基于这两种理论的优势而提出的。对基因微阵列数据的分析,通常包括以下的内容:对基因数据的预处理;对处理过的数据选取有用的信息或者特征基因;对基因数据进行分析并对结果进行评价。其中在对基因数据进行分析之前,基因数据的预处理非常重要,而数据分析的关键则是对特征基因的选择和提取,因而对数据分析的质量不仅取决于所用算法的有效性,而且也取决于处理过程中所产生的特征基因的数量和质量。同样,最后对基因数据的分析及结果评价也同样重要。本文中对于基因数据的分析,实验采用两种方法进行,并且为了验证方法的有效性,实验利用白血病数据集和结肠癌数据集进行验证。具体的实现方法如下:实验第一种方法是基于支持向量机分类的分析方法。为了获得较好的实验结果,按照如下步骤进行:首先对基因数据进行预处理,将白血病数据集分为训练集和测试集两部分,然后分别利用t-test检验方法和Wilconxon检验方法选取白血病训练数据集的特征基因,减少数据的维数和无关的数据信息。然后利用选取的特征基因训练支持向量机,并利用白血病的测试数据集合进行检验,通过利用样本划分法对学习的结果进行评估。为了进一步验证所提方法的有效性,实验又利用结肠癌数据集按照同样的步骤进行验证,实验结果进一步证明了所提方法的有效性。为了能够得到选取的优化特征基因,实验采用的第二种方法是基于遗传算法对特征基因进行优化的方法,在对数据进行标准化和降低维数后,利用遗传算法选取特征基因,最后利用判别分析方法对数据进行学习,通过在白血病数据集中的应用,对学习的结果进行分析和评估,判断所用方法具有良好的效果。
|
全文目录
摘要 8-9 ABSTRACT 9-10 第1章 绪论 10-15 1.1 课题研究背景 10 1.2 基因芯片的数据分析 10-13 1.2.1 基因微阵列数据的应用 10-12 1.2.2 基因数据分析的方法 12-13 1.3 本文的主要工作 13-15 第2章 基因微阵列数据 15-18 2.1 基因芯片技术 15-16 2.2 基因微阵列数据 16-17 2.3 基于基因微阵列数据的癌症诊断 17-18 第3章 支持向量机 18-26 3.1 统计学习理论 18-20 3.1.1 经验风险最小化 18-19 3.1.2 结构风险最小化 19-20 3.1.3 VC 维 20 3.2 支持向量机 20-26 3.2.1 线性可分支持向量机 22-24 3.2.2 非线性可分支持向量机 24-26 第4章 遗传算法 26-34 4.1 编码方法 29-30 4.2 个体的适应度函数 30-31 4.3 选择算子 31 4.4 交叉算子 31-32 4.5 变异算子 32-34 第5章 本文所提出的方法 34-55 5.1 DNA 微阵列数据的预处理 34-37 5.1.1 实验数据及来源 34 5.1.2 特征选取的方法 34-37 5.1.3 特征基因的评估方法 37 5.2 方法一:基于支持向量机方法 37-44 5.2.1 分类模型 38 5.2.2 数据的预处理 38-39 5.2.3 基因微阵列数据的特征选取 39 5.2.4 分类结果及方法稳定性评价 39-44 5.3 方法二:基于遗传算法 44-54 5.3.1 实验设计 44-45 5.3.2 数据的预处理 45-49 5.3.4 结果的判定及评价 49-51 5.3.5 结果分析 51-54 5.4 本章小结 54-55 第6章 结束语 55-57 参考文献 57-62 致谢 62-63 攻读硕士学位期间取得的科研成果 63
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
中图分类: > 医药、卫生 > 基础医学 > 医用一般科学 > 其他科学技术在医学上的应用
© 2012 www.xueweilunwen.com
|