学位论文 > 优秀研究生学位论文题录展示

基于基因表达谱的小圆蓝细胞瘤亚型识别研究

作 者: 朱云华
导 师: 阮晓钢
学 校: 北京工业大学
专 业: 模式识别与智能系统
关键词: 基因表达谱 肿瘤分型 特征选取 小圆蓝细胞瘤 多类支持向量机
分类号: R73-3
类 型: 硕士论文
年 份: 2005年
下 载: 89次
引 用: 1次
阅 读: 论文下载
 

内容摘要


基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学研究的重要课题。本文针对肿瘤鉴别问题,以小圆蓝细胞瘤(SRBCT)为研究对象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就小圆蓝细胞瘤的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取得如下研究成果: 第一,针对SRBCT 分类信息的度量指标的研究本文提出了用于SRBCT 特征基因选取的类加权Bhattacharyya 距离指标。在修正信噪比指标的基础上,以体现贝叶斯分类错误率的Bhattacharyya 距离衡量基因包含的分类信息。考虑到SRBCT 具有四个亚型,以各类样本占总样本的比例为加权系数,对四个类别的Bhattacharyya 距离加权求和,以此作为基因排序和选择的标准。用两种指标选取基因在不同分类模型上进行亚型识别实验,结果表明,用本文提出的指标选取的基因包含更多的分类信息。第二,针对SRBCT 亚型预测模型的研究本文建立了三种亚型预测模型,首次将多类支持向量机(MSVM)应用到SRBCT亚型识别问题上。分别建立了三层BP 网络模型,基于BSVM 的多模模型和MSVM模型。通过比较不同特征基因集合在三种模型上的分类准确率,确定了一个25个基因的特征集合,基于这个集合利用MSVM 可取得100%的预测准确率。对这三种模型分类性能的对比研究的结果表明,MSVM 优于其它两种方法,是解决SRBCT亚型识别问题的有效工具。第三,针对SRBCT 特征基因集合中冗余基因排除方法的研究本文提出了一种基于Pearson 相关系数的“两两冗余”排除法。该方法考虑到某些基因之间存在着相关性,去掉SRBCT 特征基因集合中分类信息指标较大基因的相关基因,得到15 个特征基因。基于这15 个特征基因本文构建了一个4 聚类SOM 聚类模型,对所有SRBCT 样本进行聚类,聚类正确率达到100%。与文献[5]报道的结果比较,Khan 采用主元分析法和人工神经网络建立的预测模型需要96 个基因,而本文基于MSVM 的预测模型只需15 个特征基因就可取得100%的预测准确率,表明了本文方法的有效性。本文的研究得到了国家自然科学基金的支持,已发表相关论文4 篇, 1 篇发表在《计算机应用》上,2 篇发表在《计算机工程与应用》上,1 篇发表在《Proceedings of the Third International Conference on Machine Learning and Cybernetics, 2004》(EI 收录)。本文的研究有助于肿瘤与基因关系的理解,有助于肿瘤特征

全文目录


摘要  4-6
ABSTRACT  6-10
第1章 绪论  10-18
  1.1 课题研究的背景  10-12
    1.1.1 生物信息学  10-11
    1.1.2 肿瘤基因疾病的诊断  11
    1.1.3 研究的目的与意义  11-12
  1.2 基于基因表达谱的肿瘤识别研究概况  12-15
  1.3 本文主要工作  15-17
    1.3.1 课题来源  15-16
    1.3.2 主要内容  16-17
    1.3.3 论文组织  17
  1.4 本章小结  17-18
第2章 问题描述与数据来源  18-24
  2.1 基因表达谱概述  18-20
    2.1.1 基因表达的基本概念  18-19
    2.1.2 基因表达水平的检测  19
    2.1.3 基因表达谱数据的获取  19-20
  2.2 SRBCT 亚型识别问题概述  20-22
  2.3 SRBCT 基因表达数据库的建立  22-23
  2.4 本章小结  23-24
第3章 数据预处理与特征选取  24-31
  3.1 数据噪声与预处理  24-25
    3.1.1 数据噪声的来源  24-25
    3.1.2 数据预处理  25
  3.2 特征基因选取  25-28
    3.2.1 分类信息指标  25-27
    3.2.2 SRBCT 分类特征选取  27-28
  3.3 特征选取结果比较  28-30
    3.3.1 生成分类特征基因集合  28-29
    3.3.2 不同指标选取基因的分类性能  29-30
  3.4 本章小结  30-31
第4章 预测模型的设计与评估  31-49
  4.1 基于BP 网络的预测模型  31-36
    4.1.1 BP 网络结构设计  31-33
    4.1.2 学习算法  33-35
    4.1.3 交叉校验和独立测试集评估  35-36
  4.2 基于BSVM 的预测模型  36-42
    4.2.1 BSVM 原理概述  36-39
    4.2.2 基于BSVM 的多模分类器  39-40
    4.2.3 分类器评估与实验结果  40-42
  4.3 基于MSVM 的预测模型  42-46
    4.3.1 MSVM 原理概述  42-43
    4.3.2 MSVM 用于多分类问题的优势  43-44
    4.3.3 MSVM 分类器的设计与评估  44-46
  4.4 三种模型的比较  46-48
  4.5 本章小结  48-49
第5章 冗余排除与聚类分析  49-58
  5.1 用于冗余分析集合的确定  49
  5.2 强相关性冗余基因的排除  49-53
    5.2.1 “两两冗余”分析  49-51
    5.2.2 实验结果分析  51-53
  5.3 SOM 聚类分析  53-54
  5.4 结果比较与讨论  54-57
  5.5 本章小结  57-58
结论  58-60
参考文献  60-64
攻读硕士学位期间发表的学术论文  64-65
致谢  65

相似论文

  1. 基于RNA测序技术的马氏珠母贝珍珠囊转录组及数字基因表达谱分析,Q786
  2. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  3. 夜间低温对番茄苗期抗逆性、基因表达谱及碳水化合物代谢的影响,S641.2
  4. ERK1/2和JNK信号通路对大鼠再生肝8种细胞的增殖和凋亡调控作用研究,Q418
  5. 大鼠肝再生与肝硬化发生的基因转录谱相关性及其意义研究,R575.2
  6. 大鼠肝再生与肝肿瘤发生的基因转录谱相关性及其意义研究,R735.7
  7. 急性胰腺炎患者血浆DNA定量分析和基因表达谱研究,R576
  8. 基于连续小波变换分析的基因表达谱数据分析,O174.2
  9. 肝星形细胞的生长因子信号通路相关基因与大鼠肝再生的相关性研究,R657.3
  10. 基于内容挖掘的中文垃圾邮件过滤技术研究,TP393.098
  11. 基于词和基本短语模式的特征提取方法,TP391.1
  12. 观赏植物吸收代谢甲醛及其甲醛胁迫响应基因的研究,S68
  13. 水稻耐高温遗传基础研究及基因表达谱分析,S511
  14. 重症肌无力患者胸腺组织基因表达谱的初步研究,R746.1
  15. 基于CPN网络的Deep Web集成系统中结果模式语义标注方法,TP393.09
  16. 基于图模型的中文小样本文本分类研究,TP391.1
  17. 基于遗传算法的文本聚类研究,TP391.1
  18. 基于条件随机场的中文命名实体识别,TP391.43
  19. 高维特征非线性快速筛选及其在生物信息学应用,Q811.4
  20. 秦川牛Chemerin基因及其受体CMKLR1基因组织表达谱及多态性研究,S823
  21. 能蛋水平对北京油鸡后期繁殖性能的影响及睾丸基因表达谱的建立,S831.3

中图分类: > 医药、卫生 > 肿瘤学 > 肿瘤学实验研究
© 2012 www.xueweilunwen.com