学位论文 > 优秀研究生学位论文题录展示
结构化数据的自然语言接口技术研究
作 者: 张文斌
导 师: 张宇
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 自然语言接口 问答 结构化数据 语义网 本体
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 48次
引 用: 0次
阅 读: 论文下载
内容摘要
当今互联网上信息繁杂,存在多种多样的信息格式,质量参差不齐。其中结构化数据是众多种类的数据中质量最高的一类,它包括关系数据库、本体、XML数据库等。互联网上已有的结构化数据非常丰富,并且一直在快速增长,具有很大的利用价值。结构化数据的传统查询方式一般要求用户熟悉结构化数据的某种特定的形式化查询语言(如SQL)以及该数据的结构,然后根据自身的信息需求构造查询语句进行查询。而结构化数据的自然语言接口允许用户以自然语言的形式对结构化数据进行查询,不要求用户熟悉查询语言和数据的结构,是一种更为友好的信息获取方式,极大地提高了结构化数据的易用性。因此,结构化数据的自然语言接口的研究具有非常重要的现实意义。同时,结构化数据的自然语言接口即为结构化数据上的自动问答,而自动问答一直是自然语言处理和信息检索领域的热点,所以结构化数据的自然语言接口也具有重要的研究价值。结构化数据的格式不同,对应的自然语言接口的技术也因而不同。本文主要对关系数据库和语义网本体这两大类最常见的结构化数据进行了自然语言接口的研究。对于关系数据库的自然语言接口,我们提出了基于最短路和基于序列标注的两种方法。最短路的方法过于简单机械,效果不佳。序列标注的方法效果较好,但需要大量标注语料。总结关系数据库的自然语言接口实验的经验和教训,我们又选取语义网本体进行了自然语言接口的实验。我们在语义网本体上提出的基于实体关系路径搜索的方法取得了最佳的效果。实验表明,我们在关系数据库和语义网本体上都构建了能取得较好效果的自然语言接口系统。相比而言,语义网本体更适合作为自然语言接口的数据格式。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-18 1.1 课题背景 10-11 1.2 课题的研究目的和意义 11-12 1.3 国内外相关研究 12-16 1.3.1 关系数据库的自然语言接口 12-13 1.3.2 本体的自然语言接口 13-15 1.3.3 XML 数据库的自然语言接口 15 1.3.4 语义分析 15-16 1.4 本文的研究内容及章节安排 16-18 第2章 关系数据库的自然语言接口 18-33 2.1 引言 18 2.2 关系数据库的属性元素和值元素 18-19 2.3 基于最短路的方法 19-24 2.3.1 数据库元素索引 20-21 2.3.2 自然语言查询与数据库元素匹配 21 2.3.3 匹配图的构建 21-22 2.3.4 最佳匹配的生成 22-23 2.3.5 SQL 语句的生成 23-24 2.4 基于序列标注的方法 24-29 2.4.1 数据库元素的标记类别 25-26 2.4.2 SQL 语句转换成MSQL 语句 26-27 2.4.3 序列标注语料的生成 27 2.4.4 训练MSQL 的序列标注器 27 2.4.5 MSQL 语句转换成为SQL 语句 27-29 2.5 实验设置 29-30 2.5.1 实验数据 29-30 2.5.2 评测指标 30 2.6 实验结果与分析 30-32 2.6.1 基于最短路的方法 30 2.6.2 基于序列标注的方法 30-32 2.7 本章小结 32-33 第3章 从关系数据库到语义网本体 33-42 3.1 引言 33 3.2 关系数据库的自然语言接口的缺陷 33-35 3.2.1 自然语言与SQL 语句差别太大 33-34 3.2.2 SQL 语句的表达力有限 34-35 3.3 语义网背景知识 35-40 3.3.1 语义网的历史和现状 35 3.3.2 语义网相关概念 35-40 3.4 语义网本体的自然语言接口的优势 40-41 3.4.1 接近自然语言 40 3.4.2 丰富的语义信息 40-41 3.4.3 支持推理 41 3.4.4 方便地整合数据 41 3.5 本章小结 41-42 第4章 语义网本体的自然语言接口 42-61 4.1 引言 42 4.2 结构化数据的自然语言接口研究面临的困难 42-43 4.3 语义网本体的构建 43-45 4.4 基于实体关系路径搜索的方法 45-57 4.4.1 基本假设 45-46 4.4.2 系统框架 46-47 4.4.3 本体数据的预处理 47-48 4.4.4 自然语言查询与本体资源的匹配 48-50 4.4.5 实体关系路径的分值定义 50-52 4.4.6 最佳实体关系路径搜索 52-54 4.4.7 SPARQL 语句的生成 54-57 4.4.8 SPARQL 语句的执行 57 4.5 实验设置 57-58 4.5.1 实验数据 57-58 4.5.2 评测指标 58 4.6 实验结果与分析 58-60 4.6.1 实验结果 58-59 4.6.2 结果分析 59-60 4.7 本章小结 60-61 第5章 结构化数据的自然语言接口技术的应用 61-67 5.1 引言 61 5.2 语义网本体问答系统 61-62 5.2.1 系统框架 61-62 5.2.2 系统演示 62 5.3 Web 客服问答系统 62-66 5.3.1 Web 聊天系统 63-64 5.3.2 自动问答系统 64-66 5.3.3 系统演示 66 5.4 本章小结 66-67 结论 67-69 参考文献 69-74 致谢 74
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 哲学思想在指导中学数学教学中的作用,G633.6
- 基于本体的语义检索研究,TP391.3
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 拉图尔的行动者网络理论研究,N02
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 220kV输电线路除冰机器人机械本体研究,TP242
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 关系数据库到RDF(S)映射方法的研究,TP311.13
- 基于语义的Web服务发现研究,TP393.09
- 本体在智能小区中的应用研究,TP391.1
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 普适计算下智能空间的哲学探究,N02
- 针对教育视频的虚拟学习社区设计与实现,G434
- 企业级软件组件质量保障与快速部团策略的研究,TP311.53
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|