学位论文 > 优秀研究生学位论文题录展示
知识文档的语义检索方法研究与实现
作 者: 齐保元
导 师: 刘金刚;曹存根
学 校: 首都师范大学
专 业: 计算机应用
关键词: 知识文档 语义检索 二级索引 主题词表 主题词获取
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息化高速发展的今天,各行各业也在不断推进电子化进程,在此过程中积累了大量的电子知识文档。这些文档分散在各个员工、部门和业务单元之间,不能得到有序的整理与合理利用。重复劳动和低效率的产出效能,形成了一种很尴尬的局面:一方面,我们的信息内容很多,而另一方面,从这些文档得到我们所需要的知识却很难。组织内部的知识基本都是领域相关的知识,具有用词专业化、描述精准的特点,与普通用户的用法产生一定的差距,因此虽然文档的质量较高,然而用户却无法用通俗的自然语言将其检索出来,成为永远无法检索出的文档,无法发挥其作用。因此,组织知识管理和使用面临这两个重要的问题:(1)如何更好地管理组织知识文档,形成标注准确、有序组织的存储格式?(2)如何在专家和普通用户之间架起一条连接的桥梁,让搜索条件不至于对用户的输入有太严格的要求,而又可以返回具有相对高关联度的文档?本文提出了一种针对带有主题词标注的知识文档(在无歧义的情况下,下文也称“文档”、“档案”)进行语义检索方法。其基本思想是:首先构建一个较为完整的领域主题词表结构,然后对文档进行主题词标注,然后建立从词元到主题词,主题词到知识文档的二级索引结构,存储到索引文件中;对用户的检索,我们首先按照第一级索引结构,进行查询词到主题词的转化,计算出语义相似度,然后进行第二级索引结构的查询,返回符合要求的文档。本文还提出了针对主题词进行个性化定制的方法,实现在检索时通过判断词的所属域来进行更精准地剥离检索条件,减少了以往需要在不同的搜索条件之间切换带来的低效。为了对原有的主题词表进行扩充,本文提出了基于条件随机场与规则约束后处理的主题词获取方法。实验表明,这种方法比传统的单纯使用条件随机场可以取得更好的效果。目前,按照本文方法实现的知识文档语义检索系统已经在某集团公司的前台话务系统和后台管理系统进行部署和实际应用,并取得了令人满意的效果。
|
全文目录
摘要 6-8 Abstract 8-9 目录 9-12 图目录 12-13 表目录 13-14 第一章 概述 14-20 1.1 引言 14 1.2 搜索引擎的研究现状 14-16 1.2.1 目录式搜索引擎 14-15 1.2.2 全文搜索引擎 15 1.2.3 元搜索引擎 15-16 1.3 语义检索的研究现状 16-17 1.4 本文的目标和主要研究内容 17-18 1.4.1 本文的主要目标 17 1.4.2 本文的主要研究内容 17-18 1.5 论文组织 18-20 第二章 主题词表的管理与知识文档标注 20-32 2.1 整体模型设计 20-21 2.2 主题词表及其主题词之间的语义关系 21-24 2.2.1 主题词表及其常见的语义关系 21-22 2.2.2 主题词之间新的语义关系 22-23 2.2.3 多语种主题词的设计 23-24 2.2.4 主题词之间关系的结构设计 24 2.3 知识文档的标注方法 24-26 2.3.1 主题词调用接口 24-25 2.3.2 主题词选取的原则 25-26 2.4 系统实现 26-29 2.4.1 主题词检索 26 2.4.2 主题词增加与编辑 26-27 2.4.3 差异主题词维护 27-28 2.4.4 主题词结构 28-29 2.4.5 主题词标注 29 2.5 本章小结 29-32 第三章 索引与检索模型的设计 32-46 3.1 索引与检索概述 32-34 3.1.1 前向索引 32-33 3.1.2 反向索引 33 3.1.3 检索方法 33-34 3.2 Lucene简介 34-36 3.2.1 Lucene的系统结构图 34-36 3.3 Lucene的索引 36-40 3.3.1 基本概念 36 3.3.2 建立索引的内部流程 36-37 3.3.3 建立索引库 37-40 3.4 Lucene的检索 40-44 3.4.1 基本概念 40-41 3.4.2 Lucene查询的内部流程 41-42 3.4.3 检索例子解析 42-44 3.5 本章小结 44-46 第四章 语义检索系统的设计与实现 46-62 4.1 用户查询历史分析 46-47 4.1.1 词类类型 46 4.1.2 分类结果 46-47 4.2 基于主题词检索的二级索引 47-48 4.2.1 级索引的基本结构 47-48 4.2.2 构建二级索引的过程 48 4.3 语义计算 48-50 4.3.1 主题词元到主题词的转化 48-49 4.3.2 入口词转化与语义相似度计算 49-50 4.4 语义检索系统的基本模型 50 4.5 搜索流程 50-56 4.5.1 输入预处理 50-51 4.5.2 分词处理 51 4.5.3 主题词增补 51-53 4.5.4 结合Lucene进行检索 53-54 4.5.5 实验结果 54-55 4.5.6 实验结果分析 55-56 4.6 搜索建议 56-60 4.6.1 Trie树基本概念 56-57 4.6.2 Trie树的创建与查找 57-58 4.6.3 搜索建议的实现 58-59 4.6.4 实验结果以及分析 59-60 4.7 本章小结 60-62 第五章 主题词表的个性化配置 62-68 5.1 问题的提出 62 5.2 主题词的个性化配置 62-64 5.2.1 数据库配置方法 62-63 5.2.2 XML配置方法 63-64 5.3 个性化配置的实现方法 64-65 5.4 实验结果与分析 65-66 5.5 本章小结 66-68 第六章 主题词自动获取 68-80 6.1 词表的自动构建 68 6.2 条件随机场 68-70 6.3 实验特征集 70-75 6.3.1 语料的转化 71-72 6.3.2 原始词表的前后缀提取 72-73 6.3.3 转化成CRF++需要的格式 73-75 6.4 主题获取系统和主要过程 75-77 6.4.1 系统结构 75-76 6.4.2 CRF训练与测试 76 6.4.3 CRF++结果的后处理 76-77 6.5 实验结果与分析 77-79 6.5.1 实验结果 78 6.5.2 实验分析 78-79 6.6 本章小结 79-80 第七章 总结与展望 80-82 致谢 82-84 作者简介 84-86 参考文献 86-87
|
相似论文
- 基于本体的语义检索研究,TP391.3
- Delicious中文标签与汉语主题词表的结合研究,G254.2
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于本体的知识管理系统的设计与实现,TP311.52
- 基于语义的金融企业非结构化信息检索系统研究,TP391.3
- 本体技术在电子病历中的应用研究,TH772.2
- 基于主题词表的医学领域本体的构建研究,TP391.1
- 基于SOA知识文档管理系统的设计与实现,TP311.52
- 面向事件处理的领域知识管理关键技术研究及实现,TP182
- 《汉语主题词表》本体化的自动生成研究,G353
- 用关联数据技术实现网络知识组织系统的研究,TP182
- 本体的构建方法与应用研究,TP391.1
- 语义Web服务中的领域本体半自动构建研究,TP311.52
- 基于林业主题词表构建林业领域本体的研究,S712
- 基于林业主题词表语义关系网的文献聚类,TP391.1
- 生物学文献的自动标引系统的研究与开发,TP392
- 本体在E-Learning系统中的应用研究,TP399
- 基于本体的语义检索方法研究,TP391.3
- 基于本体的动画素材图像语义标注研究,TP391.41
- 基于Ontology的信息搜索技术研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|