学位论文 > 优秀研究生学位论文题录展示

基于本体的食品投诉文档文本聚类研究

作 者: 关煜
导 师: 杨喜权
学 校: 东北师范大学
专 业: 计算机应用技术
关键词: 文本聚类 本体论 概念特征扩充 Hownet相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 14次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网时代的到来,信息在传播途径上发生了翻天覆地的变化,人们可以轻易的从网络上下载海量数据,文本聚类作为一种有效的文本组织手段,可以帮助人们发现网路上热点的问题,自动编辑多文档文摘,文本聚类受到了越来越多学者的关注。文本聚类核心技术在于文本的表示方法,传统的解决办法是基于向量空间模型的表示方式。这种统计学上的表示方式不能很好表达文本的语义和语用信息,因此存在一定的弊端,如不能解决一词多义,同义词等问题,这也制约着文本聚类的质量。为了解决这些问题,我们引入了本体论技术。本体论用来描述事物的本质,是人工智能领域新兴的知识表示技术。本体将人们公认的经验知识,按照一定的建模元语表达出来,它可以描述概念及描述概念间的相互关系。本体可以被看成一种交流手段让机器理解人类的知识并将其积极的利用起来去解决实际问题。本文针对乳制品投诉文档构建乳制品本体,提出了一种基于本体的文本聚类算法,重点是解决对文本表示上的语义信息扩充问题,通过概念匹配找到文本文档中隐含的概念信息补充特征向量,进而提高聚类效果。并在无监督聚类基础上引入主题知识,利用Hownet相似度计算公式对比文档与危害主题词,进行对文档的聚类,将这种聚类框架应用在投诉文档集上,挖掘有用信息,追踪食品安全中存在隐患。实验结果证明,本文方法能够完成聚类,并取得良好的效果。该研究具有应用价值和广泛的应用前景。

全文目录


摘要  4-5
Abstract  5-8
第一章 引言  8-13
  1.1 研究背景及意义  8-9
    1.1.1 选题背景  8-9
    1.1.2 选题意义  9
  1.2 国内外研究现状  9-11
    1.2.1 文本聚类的研究现状  9-10
    1.2.2 本体的研究现状  10-11
  1.3 论文的组织结构  11-13
第二章 乳制品本体的设计与构建  13-22
  2.1 本体的基础  13-14
    2.1.1 本体的概念  13-14
    2.1.2 本体的分类  14
  2.2 本体的知识模型  14-16
    2.2.1 本体的建模元语  14-15
    2.2.2 本体语义  15-16
  2.3 本体的构建方法和开发工具  16-19
    2.3.1 本体构建的原则  16
    2.3.2 本体构建方法  16-17
    2.3.3 本体开发工具  17-19
  2.4 乳制品本体设计和构建  19-21
  2.5 本章小结  21-22
第三章 文本聚类算法及相关技术研究  22-27
  3.1 文本聚类概述  22-23
    3.1.1 文本聚类概念  22-23
  3.2 文本建模  23-24
    3.2.1 文本预处理  23
    3.2.2 向量空间模型  23-24
  3.3 文本聚类算法  24-26
    3.3.1 层次聚类算法  24
    3.3.2 划分聚类算法  24-26
  3.4 文本聚类算法性能评估  26-27
第四章 基于本体的文本聚类研究及实验  27-40
  4.1 基于乳制品本体的投诉文档聚类  27-34
    4.1.1 投诉文档获取及预处理  28-29
    4.1.2 建立领域知识词库  29-30
    4.1.3 概念特征扩展  30-31
    4.1.4 概念特征权值计算  31-32
    4.1.5 使用K-means 算法进行聚类  32-33
    4.1.6 实验结果与分析  33-34
  4.2 基于危害主题的乳制品投诉文档聚类  34-38
    4.2.1 乳制品危害主题  35
    4.2.2 基于Hownet 的相似度计算  35-37
    4.2.3 基于危害主题的文本聚类  37-38
    4.2.4 实验结果与分析  38
  4.3 本章小结  38-40
第五章 总结与展望  40-41
参考文献  41-43
致谢  43-44
在学期间公开发表论文情况  44

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 哲学思想在指导中学数学教学中的作用,G633.6
  3. 基于本体的语义检索研究,TP391.3
  4. 演化聚类算法及其应用研究,TP311.13
  5. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  6. 拉图尔的行动者网络理论研究,N02
  7. Web新闻热点发现系统的设计与实现,TP393.09
  8. SOM算法的改进及其在中文文本聚类的应用,TP391.1
  9. 面向金融领域BBS的话题发现和热度评价,TP393.094
  10. Web页面语义信息提取方法的研究,TP393.09
  11. 增量文本聚类在舆情监控中的研究与实现,TP391.1
  12. 国内马克思主义哲学实践本体论研究之反思,B023
  13. 基于N-grams短语的中文Web文本聚类及其预处理的研究,TP391.1
  14. 马克思实践本体论问题研究,B02
  15. 实践本体论批判,B02
  16. 普适计算下智能空间的哲学探究,N02
  17. 康德对传统本体论的批判,B516.31
  18. 基于Map-Reduce构建高效文本聚类系统,TP391.1
  19. 基于蚁群的文本文档聚类技术研究,TP391.1
  20. 一种基于JXTA的文献共享系统设计与实现,TP393.02

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com