学位论文 > 优秀研究生学位论文题录展示
统计中文问句分类研究
作 者: 刘立
导 师: 余正涛
学 校: 昆明理工大学
专 业: 计算机应用技术
关键词: 问答系统 中文问句分类 流形学习 依存关系 属性核函数
分类号: H146.3
类 型: 硕士论文
年 份: 2012年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
问答系统(Question Answer System)能为人们提供自然语言的问句方式的提问,直接返回答案,而不是大量网页。相对于传统搜索引擎来说,问答系统能够更好地表达用户的需求,适应用户的习惯,回答信息也更准确,更快捷,更高效,其克服传统搜索引擎存在的缺陷,是当前研究的热点问题。问句分类是问答系统的一个重要组成部分,它能为问答系统的答案抽取环节提供答案的选取策略,所以分类的准确性直接影响问答系统的性能。本文对问句分类中特征选取与降维、问句属性核函数等方面开展了系列的研究和探讨。主要成果如下:1、针对问句分类过程中词袋方式选取特征所面临的特征空间维数过高以及数据稀疏的问题,本文提出了一种结合词语相关性与流形学习的特征提取方法,该方法首先选取训练语料库中文档频率(DF)值高的词作为分类特征的属性维,其次以词汇语义相似度方法获取问句特征空间特征值,再次使用有监督局部线性嵌入算法对特征空间进行非线性降维,从而获得问句分类特征向量,最后使用支持向量机建立问句分类模型,在旅游领域7000多中文文句上的实验结果表明。本文所提方法能够有效解决特征空间维数过高与数据稀疏问题。2、在使用支持向量机的标准核函数进行问句分类过程中,问句的内在结构常常被忽略。针对以上问题,本文提出了一种结合问句依存关系与词性的属性核函数方法,该方法首先提取问句中的词、词性、核心词依存关系、疑问词依存关系等特征,其次通过问句中的词的依存关系,词性以及共有的依存路径进行计算核函数的值,最后采用SMO算法优化求解。在旅游领域中文问句进行了不同核函数的中文问句分类对实验,结果表明提出的核函数能够有效利用问句内在依存结构,提高模型的训练速率以及分类准确率。3、采用本文中所提的算法,分别设计并实现了结合流形学习的问句分类系统,基于问句属性核函数的问句分类系统。
|
全文目录
摘要 3-4 Abstract 4-8 第一章 绪论 8-12 1.1 研究背景及意义 8-9 1.2 国内外研究现状 9-11 1.3 论文研究内容 11 1.4 论文组织 11-12 第二章 结合流形学习的中文问句分类 12-26 2.1 引言 12 2.2 相关研究 12-13 2.3 中文问句特征空问提取 13-16 2.3.1 中文问句特征空间构建 13-14 2.3.2 中文问句特征值获取 14-16 2.4 结合流形学习的问句分类 16-20 2.4.1 流形学习与数据分析 16-18 2.4.2 局部线性嵌入算法与有监督局部线性嵌入算法 18-19 2.4.3 结合有监督局部线性嵌入算法的问句分类 19-20 2.5 实验结果与分析 20-25 2.5.1 不同特征空间获取方法的问句分类试验比较 20-21 2.5.2 TF/IDF特征提取方法降维实验比较 21-23 2.5.3 语义相似度特征提取方法降维实验比较 23-25 2.6 本章小结 25-26 第三章 基于问句属性核函数的中文问句分类 26-34 3.1 引言 26 3.2 相关研究 26-27 3.3 支持向量机理论 27 3.4 基于问句属性核函数的问句分类 27-31 3.4.1 问句预处理 27-28 3.4.2 问句属性核函数 28-30 3.4.3 与标准核函数方法的不同 30-31 3.5 实验结果与分析 31-32 3.6 本章小结 32-34 第四章 原型系统实现与评价 34-44 4.1 问句数据收集 34-35 4.2 结合流形学习的问句分类系统设计与实现 35-40 4.2.1 系统整体架构 35-36 4.2.2 中文问句特征提取 36-37 4.2.3 中文问句特征空间降维 37-40 4.3 基于问句属性核函数的中文问句分类原型系统 40-42 4.3.1 系统整体框架 40 4.3.2 问句依存分析 40-41 4.3.3 核函数矩阵的构造与模型训练 41-42 4.4 本章小结 42-44 第五章 结论及下一步的工作 44-46 5.1 结论 44 5.2 下一步工作 44-46 致谢 46-48 参考文献 48-52 附录A 攻读硕士学位期间发表的论文 52-53 附录B 攻读硕士学位期间参与的项目 53
|
相似论文
- 基于流形学习的高维流场数据分类研究,V231.3
- 唇读中的特征提取、选择与融合,TP391.41
- 基于流形学习的数据降维技术研究,TP311.13
- 面向农民的问答系统设计与实现,G353.1
- 面向主题的Web文档自动文摘生成方法研究,TP391.1
- 基于判别型典型相关分析的多流形识别,TP391.41
- 基于局部优化投影的人脸识别方法研究,TP391.41
- 流形学习中样本点稀疏问题的研究,TP391.41
- 高、低剂量率γ线照射对哺乳类细胞生长存活及DNA损伤修复的影响,R818
- 鲁棒流形学习算法研究,TP391.41
- 基于流形学习的人脸识别算法研究,TP391.41
- 面向军事知识的自动问答系统的设计与实现,TP311.52
- 面向销售服务的自动问答系统的设计与实现,TP311.52
- 针对教育视频的虚拟学习社区设计与实现,G434
- 基于脑电的情感识别,TP391.4
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于流形学习的多目标分布估计算法研究,TP301.6
- 暴雨中冰雹的识别,P429
- 流形学习中的增量谱嵌入方法,TP181
- 基于互联网的人物简历问答系统的研究与设计,TP393.09
- 长期演进系统下入侵检测关键技术的研究,TP393.08
中图分类: > 语言、文字 > 汉语 > 语法 > 近代、现代语法 > 句法
© 2012 www.xueweilunwen.com
|