学位论文 > 优秀研究生学位论文题录展示
基于短信的旅游领域实体问答系统研究
作 者: 毛存礼
导 师: 余正涛
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 短信 领域实体 数据库问答 查询分析 实体识别 主题分类 Lucene
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
自然语言数据库问答是一种很好的问答模式,允许以自然语言的方式进行数据库查询,把答案返回给用户。短信是目前最方便的一种信息服务与交流方式,如何将短信与特定领域一些固定业务的数据库结合,实现基于短信的自然语言数据库问答,非常有价值。本文围绕基于短信的领域实体自然语言数据库问答模型,业务数据库构建、领域实体识别、短信主题分类、答案检索等技术进行了一系列的研究和探讨,主要取得了以下几个方面的成果:(1)针对领域数据库业务查询特点,定义和描述了一种以领域实体、实体属性、属性类别及属性值为结构的特定领域通用的业务数据库构建方法,该方法将特定领域实体类业务数据库的查询结构定义为实体、实体属性、实体属性类别、实体属性值,将实体类业务数据库中不同属性列的查询就转化为查询某一实体相应属性的具体属性值,可实现不同领域业务数据通用存储,定义的结构与领域无关。(2)针对短信领域业务查询特点,提出了融合实体识别与主题分类相结合的实体业务数据库实体与属性类别获取的短信查询分析方法,该方法针对短信特点及领域实体业务数据库的结构特点,将短信查询分析问题转化为识别查询中的领域实体及短信查询主题类别问题,并采用基于条件随机场的领域命名实体识别方法识别查询中的领域实体,采用面向短文本的动态组合分类算法进行短信主题分类,提取领域实体属性类别,答案提取实验表明,提出的业务数据库实体与属性类别识别方法能提高业务数据查询准确率。(3)针对领域实体业务数据库特点及短信特点,构建了基于Lucene的特定领域实体业务数据库答案检索系统,该系统采用Lucene框架将结构化的业务数据库转化为文本数据库,即将数据库中每条记录作为一个文挡,利用Lucene将所有文本建立倒排索引文件,并以数据库中的领域实体、实体属性类别对应的列作为索引词,采用基于领域知网的词语相似度计算方法,计算查询实体名称、主题类别与数据库中索引词之间的相似度,以相似度最大的索引词检索提取业务数据查询答案,答案检索实验证明该方法能提高答案查询准确率。(4)以云南旅游实体数据查询为例,设计实现了基于短信的云南旅游景点、酒店问答原型系统。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-15 1.1 研究背景及意义 8-9 1.2 国内外研究现状 9-11 1.2.1 国外研究现状 9-10 1.2.2 国内研究现状 10-11 1.3 基于短信的领域实体数据库问答系统模型 11-13 1.4 论文的研究内容和组织结构 13-15 1.4.1 研究内容 13 1.4.2 论文组织 13-15 第二章 领域实体数据库、领域知识库构建方法研究 15-22 2.1 引言 15 2.2 领域实体业务数据库构建 15-19 2.2.1 领域特定业务数据库设计 15-17 2.2.2 领域通用业务数据库设计 17-19 2.3 领域知识库构建 19-21 2.3.1 获取领域实体词汇 19-20 2.3.2 获取领域义原 20 2.3.3 领域实体词汇"知网"描述 20-21 2.4 本章小结 21-22 第三章 基于领域实体数据库问答的短信查询分析 22-39 3.1 引言 22 3.2 领域实体识别 22-26 3.2.1 层叠条件随机场模型 23 3.2.2 层叠条件随机场模型语料标注方法及特征模板选取 23-25 3.2.3 基于层叠条件随机场模型的旅游领域实体识别算法 25-26 3.3 短信查询主题识别 26-38 3.3.1 引言 26-27 3.3.2 短信主题分类特征向景空间 27-30 3.3.3 基于AdaBoost算法的短信主题分类 30-32 3.3.4 基于动态组合分类算法的短信主题分类 32-35 3.3.5 短信主题分类实验与分析 35-38 3.4 本章小结 38-39 第四章 基于LUCENE的领域实体数据库答案检索 39-50 4.1 引言 39 4.2 LUCENE框架 39-41 4.2.1 Lucene介绍 39-40 4.2.2 Lucene的系统结构 40-41 4.3 基于LUCENE框架的旅游领域实体数据库答案检索 41-47 4.3.1 基于Lucene的旅游领域实体数据库答案检索模型 41-42 4.3.2 旅游领域实体全文数据库构建 42 4.3.3 旅游领域实体类文本数据库索引文件格式 42-43 4.3.4 旅游领域实体类文本数据库索引创建 43-44 4.3.5 旅游领域实体类文本数据库索引检索 44-45 4.3.6 旅游领域实体类文本数据库检索结果排序 45-47 4.4 实验与分析 47-48 4.4.1 评价指标 47 4.4.2 实验与结果分析 47-48 4.5 本章小结 48-50 第五章 基于短信的旅游领域实体问答原型系统实现 50-55 5.1 引言 50 5.2 基于短信的旅游领域实体问答原型系统设计与实现 50-54 5.2.1 系统整体框架设计 50-51 5.2.2 系统开发平台 51 5.2.3 旅游领域实体数据库库构建 51-52 5.2.4 领域知识库构建 52 5.2.5 查询分析 52-53 5.2.6 基于Lucene框架的旅游领域实体数据库答案提取 53-54 5.3 系统实现效果演 54 5.4 本章小结 54-55 第六章 结论及下一步工作 55-57 6.1 结论 55 6.2 下一步的工作 55-57 致谢 57-58 参考文献 58-61 附录A 攻读硕士学位期间发表的论文 61-62 附录B 攻读硕士学位期间参与的项目 62-63 附录C 攻读硕士学位期间申请的专利及软件著作权 63
|
相似论文
- 大红山铁矿井下人员跟踪定位系统的优化研究,TN929.5
- 畜产品质量安全保障监管RFID系统,TS201.6
- 煤矿风险信息集成与智能预警研究,X936
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于社会标注的主题分类及排序优化方法研究,TP391.1
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 20世纪中美城市文学比较研究,I206.7
- 企业短信互动系统设计及实现关键技术研究,TN929.53
- 基于语义Web的信息检索技术研究,TP391.3
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 教务选课系统的设计与实现,TP311.52
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于倒排索引的压缩算法性能研究,TP391.3
- 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
- 分布式图片搜索引擎设计与实现,TP391.41
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 基于词片网格的语音文档主题分类,TN912.3
- 基于lucene中文全文检索系统的研究与实现,G354
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|