学位论文 > 优秀研究生学位论文题录展示

基于潜在语义索引及层次聚类特征空间重构方法与应用研究

作 者: 李梅梅
导 师: 王亚东
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 特征空间重构 潜在语义索引 层次聚类 蛋白质远程同源 蛋白质相互作用
分类号: Q51
类 型: 硕士论文
年 份: 2009年
下 载: 56次
引 用: 0次
阅 读: 论文下载
 

内容摘要


蛋白质序列之间的远程同源检测和蛋白质相互作用预测是计算生物学中一个中心的问题。诸如支持向量机(support vector machine, SVM)一类的分类器方法是目前使用最广泛、也是最有效的方法之一。许多基于SVM的方法都致力于寻找有用的蛋白质序列表示方法,如使用显式的特征向量表示或者核函数等。这样的表示方法面临着高维度和大量噪音的问题。另外,远程同源检测问题中的数据集是不平衡数据集,即反例样本远远大于正例样本,目前的方法主要使用ROC(Receiver Operating Characteristic)分数来评价远程同源检测方法的性能。然而,对不平衡样本集,ROC曲线会过于乐观的估计算法的性能。基于这些观察,本文采用了一个新的特征空间重构的方法解决高维度和噪音的问题——基于潜在语义索引(Latent Semantic Index,LSI)和层次聚类的特征空间重构方法LSI-HC;并在远程同源检测问题中采用精确度-召回率(Precision-Recall,PR)曲线来代替ROC曲线来评估算法的性能。对蛋白质同源检测问题,本文使用SCOP数据库1.53版本数据集作为标准数据集,采用具有生物学意义的N元组以及局部比对核函数(LAK)作为特征。我们首先分析了原始特征之间的关联,证明了这些特征之间确实存在着很大的相关性,进而又引入了潜在语义索引来分析所有特征之间隐含的语义关系,并据此使用层次聚类重构特征空间,达到降低维数和消除噪音的目的。模型的建立采用的是SVM模型,最终的评价标准采用的是PR分数,在N元组特征上,我们的结果和Dong et al.2006的方法进行比较,提高了14个百分点,在LAK特征上,和Saigo et al.2004的方法比较,提高了7个百分点。对蛋白质相互作用预测问题,本文使用的是HPRD数据库中的标准数据集,使用的是3元组特征,实验结果和Shen et al.2007的结果比较,ROC分数提高了4.5个百分点。另外,我们对Wnt、IL-2、IL -7、Notch这四个信号通路中的蛋白质相互作用进行了预测,并画出了相互作用网络,较好的实验结果也证明了我们的方法对蛋白质互作网络的预测有着重要的意义。

全文目录


相似论文

  1. 棉花纤维初始发育期14-3-3相互作用蛋白的酵母双杂交筛选,S562
  2. 免疫共沉淀联合质谱筛选肝核因子HNF3β相互作用蛋白质及初步功能研究,R341
  3. 核蛋白NDP52与肿瘤坏死因子受体相关因子TRAF6相互作用及临床意义的研究,R363
  4. 对于系统发育谱法聚类算法的改进,TP311.13
  5. 面向消费者感性需求的手持GPS设计探讨,TN967.1
  6. 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
  7. BL0033与BL0034在长双歧杆菌果糖ABC转运系统中功能的研究,Q935
  8. 人蛋白激酶组—小分子相互作用预测,Q55
  9. 蛋白质相互作用预测及Hub蛋白分类与作用规律研究,Q51
  10. 蛋白质相互作用规律及预测方法研究;,Q51
  11. 基于极大熵聚类算法的蛋白质互作分析,Q51
  12. 基于两层次聚类的车辆配载调度方法,U492.22
  13. 血管生成素与Fibulin蛋白家族相互作用的验证与功能探索,R735.3
  14. 网络舆情数据获取与话题分析技术研究,TP393.09
  15. 互联网新闻热点挖掘系统的研究与实现,TP393.09
  16. 基于离散增量结合二次判别法预测蛋白质相互作用及DNA甲基化位点,Q51
  17. 基于小波和模糊关系的蛋白质信息检测,Q51
  18. 新基因CCP22功能的初步研究,Q75
  19. 模糊聚类中若干问题的研究,O235
  20. 帕金森病相关基因的聚类分析研究,R742.5
  21. 基于社区发现的网络舆论导向系统研究与应用,TP393.09

中图分类: > 生物科学 > 生物化学 > 蛋白质
© 2012 www.xueweilunwen.com