学位论文 > 优秀研究生学位论文题录展示
基于互联网的中文问答系统研究
作 者: 赵辄谦
导 师: 张永奎
学 校: 山西大学
专 业: 计算机应用技术
关键词: 自动问答 问题分类 信息检索 信息抽取 答案抽取 命名实体识别
分类号: TP393.09
类 型: 硕士论文
年 份: 2003年
下 载: 266次
引 用: 7次
阅 读: 论文下载
内容摘要
随着互联网的普及,互联网上的信息越来越多,为人们提供了丰富的信息资源。而另一方面,人们却很难在杂乱无章的网络中快速、准确地获得自己想要的信息。虽然现在互联网上有很多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有很多缺点,并不能满足人们方便、快速、准确地获取信息的需要。自动问答技术正是为了满足人们的这种愿望而发展起来的。搜索引擎,要求输入的是一些关键字的组合,而自动问答系统允许用户输入一个问句;搜索引擎返回给用户的是一堆相关的网页,而自动问答系统返回给用户的是一个简短而准确的答案。这样用户就可以通过自动问答系统方便、快速、准确地获得自己想要的信息。 本文在英文问答系统的基础上实现了一个基于互联网的中文问答系统,详细阐述了中文问答系统的各部分的实现。对问题理解部分,本文采用了基于规则的方法来进行问题分类。相关语句抽取部分的相似度计算使用了N元模型和向量空间模型。答案的抽取使用了基于隐马尔可夫模型的命名实体识别算法。 最后本文介绍了系统的实验结果及其评价。实验结果表明,尽管本文提出的只是一个初步的系统,但是也说明了英文问答系统处理的方法也同样适用于中文问答系统。
|
全文目录
1 引言 8-18 1.1 问答系统简介 8-10 1.2 问答系统的简短历史 10-12 1.3 当前使用的方法概述 12-15 1.4 国内外研究现状 15-16 1.5 本文的研究内容 16-18 2 系统结构 18-19 3 问题分析 19-22 3.1 问题的类型 19-20 3.2 问题类型的识别 20-21 3.3 去掉停用词和疑问词 21 3.4 关键词扩展 21-22 4 相关文档获取 22-27 4.1 信息检索的数学模型 22-25 4.2 本文中信息检索模块的设计 25-27 5 湘关语句的获取和排序 27-29 6 答案的抽取和排序 29-37 6.1 什么是命名实体识别 29-30 6.2 命名实体识别的应用 30 6.3 NE系统的评价方法 30-31 6.4 命名实体识别的算法 31-35 6.5 本文答案抽取模块的实现 35-37 7 问答系统的实现 37-38 8 系统结果及评价 38-43 8.1 问题分析模块性能 38-39 8.2 命名实体抽取模块性能 39-40 8.3 文档层次的试验性能 40 8.4 句子层次的试验性能 40-41 8.5 最终系统的性能 41-43 9 结论和将来的工作 43-44 致谢 44-45 参考文献 45-48 附录 48-54 附录A: 系统运行图例 48-51 附录B: 本文问题分析中用到的规则 51-52 附录C: 本文问题分析中用到的停用词 52-54
|
相似论文
- 基于词义及语义分析的问答技术研究,TP391.1
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 主题搜索引擎关键技术研究,TP391.3
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
- 跨语言文本分类的研究,TP391.1
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|