学位论文 > 优秀研究生学位论文题录展示
基于主动学习的语义缺失问句补全
作 者: 易博
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 问句分类 省略恢复 主动学习 交互式问答
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
交互式问答系统需要对上下文的语境进行处理,才能使系统有更强的理解交互能力。问句的语义缺失现象是必要处理的核心问题之一。在交互式问答系统中,存在着大量的语义缺失的问句。实际的汉语语境中亦是如此。本课题使用wizard-of-oz方法模拟真实语境中的问答对话收集语料,其中语意完整的问句所占比例超过一半,可由系统直接进行处理;而余下的语义缺失问句占45%,进行省略恢复后,可以提升系统上下文语境的理解能力,返回满足用户需求的答案。课题首先提出语义缺失问句补全系统的处理流程。而首要步骤便是将用户问句分类,划分为四个类别:语义完整类型,名词性省略类型,指代类型和其他类型。使用词法和句法分析工具对问句进行解析,观察分析语料的语言学现象进行特征的抽取。然后使用四种不同的分类算法对分类器进行训练。ID3决策树算法性能较优,正确率为80.1%。问句分类处理之后,系统需要对语义缺失类型的问句使用先行语恢复补全模型进行处理。其中对名词性省略类型和指代类型分别进行了特征的抽取和分类器的训练,最后确定先行语。分别在人工收集和TREC评测的语料集上进行实验。在TREC语料集上的实验结果与他人的结果做了对比,准确率提升八个百分点,达到74.6%。接着,本课题引入主动学习机制来对系统性能进行改进。先是针对语义缺失问句的分类过程使用主动贝叶斯网络和基于相对熵的委员会方法实现主动学习的过程。在扩展的语料集上进行对比实验,其中主动贝叶斯网络的性能高于baseline,基于相对熵的查询方法与baseline性能持平;然后针对先行语的恢复分类过程使用基于投票熵的委员会方法实现主动学习过程。将用户反馈功能和主动学习机制相结合,可以使系统动态更新语料,不断提升系统性能。设计三组对比试验,验证基于用户反馈的主动学习机制带来性能上的改进,提升两个百分点,达到77.9%。
|
全文目录
摘要 4-5 Abstract 5-7 目录 7-9 第1章 绪论 9-20 1.1 研究背景及意义 9-10 1.2 国内外研究现状 10-15 1.2.1 交互式问答研究现状与分析 10-12 1.2.2 省略恢复研究现状与分析 12-14 1.2.3 主动学习研究现状与分析 14-15 1.3 相关技术介绍 15-18 1.3.1 语法语义资源 15-16 1.3.2 分类算法介绍 16-18 1.4 本文主要研究内容与组织 18-20 1.4.1 本文内容 18-19 1.4.2 本文的组织 19-20 第2章 语义缺失问句的分类 20-30 2.1 引言 20 2.2 系统处理流程的设计 20-21 2.3 语义缺失问句的类别解析 21-24 2.3.1 语言学相关分析 21-22 2.3.2 语义缺失问句的类别划分 22-24 2.4 分类特征选择 24-27 2.4.1 特征抽取 24-27 2.4.2 特征选择与分析 27 2.5 实验与分析 27-29 2.6 本章小结 29-30 第3章 上下文缺失信息恢复 30-40 3.1 引言 30 3.2 先行语恢复补全模型 30-31 3.3 指代类型的处理 31-36 3.3.1 先行语特征抽取 32-35 3.3.2 特征评估与实验 35-36 3.4 名词性省略类型的处理 36-37 3.4.1 类型分析 36 3.4.2 特征抽取与实验 36-37 3.5 实验结果测评 37-39 3.6 本章小结 39-40 第4章 基于主动学习的性能改进 40-49 4.1 引言 40-41 4.2 基于主动学习的问句分类 41-45 4.2.1 主动贝叶斯网络 42-43 4.2.2 基于相对熵的委员会方法 43-44 4.2.3 实验与讨论 44-45 4.3 用户反馈与主动学习的结合 45-48 4.3.1 基于投票熵的委员会方法 46-47 4.3.2 实验与讨论 47-48 4.4 本章小结 48-49 第5章 功能演示及后续工作 49-53 5.1 引言 49 5.2 功能演示 49-51 5.2.1 海天园交互式问答系统介绍 49-50 5.2.2 系统演示 50-51 5.3 后续工作 51-53 结论 53-54 参考文献 54-58 攻读学位期间发表的学术论文 58-60 致谢 60
|
相似论文
- 基于专家委员会的主动学习算法研究,TP181
- 基于半监督学习的中文问句分类研究,TP391.1
- 基于贝叶斯分类方法的中文问句分类研究,TP391.1
- 交互式问答系统中的省略恢复研究,TP391.1
- 基于异构信息的交互式问答系统,TP391.3
- 面向真实环境的金融问答系统,F830
- 基于内容的图像检索相关技术的研究,TP391.41
- 基于汉语框架网的中文问句分类研究,TP391.1
- 基于半监督的支持向量机网页分类方法,TP393.092
- 基于半监督和主动学习相结合的图像的检索研究,TP391.41
- 基于篇章的名词省略恢复研究及其在机械产品设计中的应用,TH122
- 基于主动学习的文本过滤系统的研究,TP391.1
- 面向野外障碍物检测的半监督主动学习研究,TP181
- 在线主动学习在环境感知中的应用研究,TP181
- 基于内容的图像检索中若干机器学习问题研究,TP391.3
- 声学建模中若干问题的研究,TN912.34
- 划分分类模型中主动学习关键技术研究,TP181
- 自然语言理解中名词省略恢复研究及其在产品设计中的应用,TN02
- 面向篇章的省略恢复及其在机械设计中的应用,TH122
- 自然语言理解中篇章动词省略恢复研究及其在产品设计中的应用,TB472
- 中文文本分类中特征描述及分类器构造方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|