学位论文 > 优秀研究生学位论文题录展示
基于百科的中文知识搜索系统的设计与实现
作 者: 姚静
导 师: 刘秉权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 知识搜索 Wikipedia 本体库 倒排索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 46次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的发展,使用搜索引擎进行信息查找已经成为人们日常生活的一部分。人们只需要输入查询关键词,搜索引擎就可以将互联网上最匹配的网页链接返回给用户。但是搜索引擎并不能直接返回答案,用户还需要从返回的链接中寻找所需要的信息。早在人工智能技术刚开始的时候,人们就开始思考如何让计算机用自然语言来回答人的问题,这种技术被称为自动问答系统。由于当初的技术和资源受限,相关研究一直限制在特殊领域。随着Web2.0技术的发展,越来越多的人向互联网上分享信息,其中最具代表性的就是Wikipedia这类在线百科全书。现在Wikipedia上已经聚集了海量的知识数据,这些数据的出现为实现更加智能的通用领域自动问答系统提供了可能。本文将在此方面进行尝试,设计并实现一个基于百科的通用的知识搜索系统,用户可以使用自然语言问答的方式进行查询,系统直接返回百科网站上具有的答案。主要研究内容包括以下几个方面:第一、设计了三层体系结构的知识搜索系统方案,使用本体库作为百科网站和知识搜索中间层。一个更加智能的知识搜索系统需要一个便于机器理解的知识表现形式,本文研究了如何使用了本体库这种知识表现方法作为知识搜索系统的数据存储方式。第二、设计了基于多个百科网站的本体库构建方法。基于单个百科网站的本体库构建已经出现了一些优秀的成果和基本的构建方法,但基于多个百科网站构建本体库却少有人问津。本文首先对若干个百科网站分别构建本体库,然后将这些本体库合并为一个。第三、对基于本体库的知识搜索方法进行了研究,并提出一种基于本体对象的多层倒排索引的知识检索方法。多层倒排索引充分考虑了本体库知识表示的层次性,按照本体库中知识的类别将将整个索引分成两层,通过这种层次关系,使检索过程更加直接。第四、设计并实现了完整的知识搜索系统。整个系统分成百科网站收集子系统、本体库构建子系统、索引子系统、检索子系统以及用户接口子系统。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-17 1.1 课题研究的背景 9-10 1.2 课题研究的目的和意义 10-11 1.3 课题研究现状 11-15 1.3.1 基于百科的本体库构建 11-14 1.3.2 基于本体的知识搜索 14-15 1.4 研究内容及论文结构安排 15-17 第2章 基于百科的知识搜索的实现路线 17-22 2.1 基于百科的知识搜索的整体实现路线 17-18 2.2 基于百科的本体库构建的技术方案 18-20 2.2.1 基于百科的本体库构建的系统结构 18-19 2.2.2 基于百科的本体库构建的难点 19-20 2.3 基于本体的知识搜索的技术方案 20-21 2.3.1 基于本体的知识搜索的系统结构 20 2.3.2 基于本体的知识搜索的难点 20-21 2.4 本章小结 21-22 第3章 基于百科的本体库构建 22-31 3.1 本体库构建的基本思想 22-23 3.2 基于百科的本体库构建的难点及处理方法 23-29 3.2.1 本体库结构描述 23-24 3.2.2 本体库数据组成 24-26 3.2.3 本体库存储描述 26-28 3.2.4 多源本体库合并 28-29 3.3 本体库构建结果 29-30 3.4 本章小结 30-31 第4章 基于本体的知识搜索 31-39 4.1 基于本体的知识搜索的基本思想 31 4.2 基于本体的知识搜索的难点及处理方法 31-34 4.2.1 本体识别 32 4.2.2 同义词处理 32-34 4.2.3 问题词处理 34 4.3 基于本体对象的多层倒排索引的知识检索 34-38 4.4 本章小结 38-39 第5章 基于百科信息的知识搜索系统的实现 39-51 5.1 系统总体架构设计 39-41 5.2 系统各子系统具体实现 41-48 5.2.1 百科网站收集子系统 41 5.2.2 本体库构建子系统 41-45 5.2.3 索引子系统 45-46 5.2.4 检索子系统 46-47 5.2.5 用户接口子系统 47-48 5.3 系统效果图展示 48-50 5.4 本章小结 50-51 结论 51-52 参考文献 52-55 攻读学位期间参与的项目 55-57 致谢 57
|
相似论文
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 基于倒排索引的压缩算法性能研究,TP391.3
- 基于Web的实例知识条目自动构建方法,TP391.3
- 基于Lucene的网页抓取与检索系统,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 基于内容的快速音频检索,TP391.3
- 基于Android的桌面搜索引擎的研究与实现,TP391.3
- 一种基于语义标注的个性化搜索技术的研究与实现,TP391.3
- 动态全文索引系统关键技术研究,TP391.3
- 物流领域本体管理系统的设计与实现,TP311.52
- 基于关键字的模糊查询技术的研究,TP311.13
- 基于双路索引的XML查询优化研究,TP311.13
- 一种基于与或图的语义Web服务自动组合方法的研究,TP393.09
- 一种可扩展的面向中文主题搜索引擎的研究与设计,TP391.3
- 基于MPI的分布式搜索引擎系统研究,TP391.3
- 基于P2P的搜索引擎的关键技术研究,TP391.3
- 基于词关联度的信息检索系统,TP391.3
- Web查询分类方法的改进,TP393.09
- 语义增强的关系相似度度量算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|