学位论文 > 优秀研究生学位论文题录展示
基于领域本体的文本分类研究
作 者: 韦婷婷
导 师: 王驹
学 校: 广西师范大学
专 业: 计算机应用技术
关键词: 文本分类 领域本体 语义关联 本体推理
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 100次
引 用: 0次
阅 读: 论文下载
内容摘要
由于信息的传播量及传播速度之快速增长,互联网上的资源呈爆炸式的增长,人们被各种各样的海量信息包围着,却不知道从何入手才能快速找到急需的信息。如何有效组织和管理这些大量信息,分门别类的存放,用户能够各取所需信息,已经成为了当前信息科学与技术的一大挑战。文本分类作为信息组织和管理的关键技术,帮助人们高效的定位信息,因此对其技术的要求也变得越来越高。传统的文本分类方法大多是采用词向量空间模型的表示方法,认为构成文本的关键词之间彼此独立,没有语义关联,导致了大量语义信息的丢失,得到的特征向量不能很好的表示文本的内容,从而影响了分类的效果。而实际上,构成文本的特征项之间包含一定的语义关联,如同义关系,上下位关系等。为解决这一问题,随着语义网的出现,人们提出了语义驱动的文本分类方法。本体因其良好的概念层次结构,能够清晰的表达概念之间的关系而被广泛的使用实现基于语义的文本分类。然而,目前基于本体的文本分类方法研究尚在起步阶段,还存在一些不足:对本体的使用大多只停留在词典的层面上,未深入挖掘特征项和概念之间的语义关系;文本表示模型仅映射到本体的概念,不考虑描述概念之间关系的属性和实例;大多算法都忽略了本体的一个最重要优势—推理机制。本文在充分研究传统方法和基于本体的分类方法研究现状后,对存在的问题进行改进,主要的工作如下:(1)本文介绍了本体的相关知识及构建的原则和方法,并重点介绍OWL2描述语言以及本文采用此种语言编码的原因。详细介绍了旅游领域本体的构建过程。同时还对文本分类过程的关键技术进行介绍,包括文本分类定义,文本表示,特征抽取和选择,常用的分类器等。(2)文本分类中文本表示模型的好坏直接影响到分类的结果。为实现在语义的层面上进行文本分类,本文基于概念映射方法将传统的词向量空间模型转换成概念向量空间模型,不仅映射到本体的概念,还包括本体的属性和实例,尽可能的保留文本特征词之间的语义关系。由于概念是包含更多语义信息的特征项,传统基于统计的权重计算方法不能很好的代表概念的语义,因此本文提出一种对传统TFIDF权重计算的改进方法,为信息丰富的本体概念赋予更高的权重。(3)由于传统机器学习分类器的计算复杂性,且易受训练文本数量大小的影响,因此本文以领域本体自身层次结构作为分类的体系,提出一种特征项与本体概念之间的语义关联度计算方法,并在此基础上计算整篇文本到每个概念类别的隶属度。最后通过实验表明,该计算方法比使用贝叶斯和最近邻分类器方法获得更高的准确率。(4)为充分挖掘本体对分类的指导作用及提高分类的效率,本文的分类方法还结合了本体的推理规则,利用本体的推理机制挖掘出本体中更多的隐含知识。这些隐含知识对分类有一定的指导作用,从而减少了计算开销。实验表明,结合推理规则的分类方法比不使用推理规则的方法效率更高。(5)本文以旅游领域为背景,通过爬虫抓取旅游信息相关的网页,利用本文提出的计算方法实现对旅游网页文本的分类。给出了各个模块的具体流程,包括预处理,概念空间模型的生成,分类过程等。最后给出实验对比的分析与总结。
|
全文目录
中文摘要 3-5 ABSTRACT 5-9 第1章 绪论 9-15 1.1 研究背景及意义 9-10 1.2 国内外研究现状 10-12 1.2.1 传统文本分类方法研究现状 10 1.2.2 基于本体的文本分类方法研究现状 10-12 1.3 本文研究内容 12-13 1.4 组织结构 13-15 第2章 文本分类技术 15-23 2.1 文本分类的组成 15 2.2 文本分类定义 15-16 2.3 文本的表示与计算 16-20 2.3.1 文本表示模型 16-17 2.3.2 特征降维方法 17-19 2.3.3 特征项的权重计算 19-20 2.4 几种常用的文本分类算法 20-22 2.5 小结 22-23 第3章 本体概述及领域本体的构建过程 23-34 3.1 本体相关理论 23-25 3.1.1 本体的定义 23 3.1.2 本体的描述语言 23-25 3.1.3 本体的构建原则和方法 25 3.2 构建旅游领域本体 25-33 3.2.1 确定本体的目的和应用范畴 25-26 3.2.2 确定领域的核心概念 26 3.2.3 构建本体的类层次、属性及实例 26-29 3.2.4 旅游领域本体的形式化编码 29-33 3.3 小结 33-34 第4章 基于概念映射的文本表示方法 34-44 4.1 引言 34-35 4.2 概念向量空间模型的生成 35-41 4.2.1 文本的预处理过程 35-38 4.2.2 概念映射 38-41 4.3 概念特征项加权计算 41-43 4.4 小结 43-44 第5章 结合领域本体推理及相关度计算的文本分类方法 44-55 5.1 本体推理 44-49 5.1.1 本体推理的作用 44 5.1.2 Jena框架 44-47 5.1.3 旅游领域本体中的推理规则 47-49 5.2 文本与概念类别的相关度计算 49-53 5.2.1 特征项与概念的语义关联度计算 49-53 5.2.2 文本到概念类别的隶属度计算 53 5.3 分类算法流程图 53-54 5.4 小结 54-55 第6章 实验结果与分析 55-61 6.1 分类的总体框架 55 6.2 开发平台 55-56 6.3 文本分类的性能评估 56-57 6.4 实验结果与讨论 57-60 6.5 本章小结 60-61 第7章 总结与展望 61-63 7.1 论文总结 61 7.2 下一步的改进工作 61-63 参考文献 63-66 读研期间发表的论文 66-67 致谢 67-68
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 乔治·米勒的认知意义论,B842.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于粗糙集理论的文本分类研究,TP18
- 一种基于语义的建筑工程质量检测方法研究,TP391.1
- 模糊理论在文本分类中的应用研究,O159
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于“环境-行为”本体模型的软件可信演化研究,TP311.52
- 旅游本体知识库的构建及推理应用研究,TP391.1
- 基于规则的隐私本体推理研究,TP391.1
- 中文文本分类核心技术研究,TP391.1
- 基于本体的模具企业知识集成系统研究,TG76
- 基于贝叶斯过滤的文本分类技术的研究与实现,TP393.098
- 基于本体的旋转机械故障诊断知识建模研究,TH165.3
- 机械故障智能诊断系统本体建模及推理的应用研究,TH165.3
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 基于海洋生态本体的知识管理系统的研究与实现,TP311.52
- 本体在智能小区中的应用研究,TP391.1
- 集合多标签文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|