学位论文 > 优秀研究生学位论文题录展示
基于半监督学习的中文问句分类研究
作 者: 赵全
导 师: 余正涛
学 校: 昆明理工大学
专 业: 模式识别与智能系统
关键词: 问句分类 特征提取 语义相似度 标记样本 无标记样本 半监督学习 协同训练 Co-forest算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
问句分类是问答系统中很重要的一个组成模块,是问答系统处理的基础与核心,分类准确性直接影响问答系统的性能。目前很多研究主要集中在有监督学习问句分类研究,并已经取得比较好的效果。但在现实应用中,对大量的样本数据进行人工标记是代价高昂的,本文围绕基于半监督学习的问句分类展开研究,取得了以下成果:首先,提出了一种面向问句分类的特征提取方法。采用特征向量来表示问句特征,从语料库中选取高频关键词、领域词汇及疑问词作为特征向量的特征项,通过句法依存分析,提取问句主干词,利用语义相似度计算方法,计算这些词与特征项的相似度,获得其特征值,以构建问句特征向量。其次,提出了基于半监督学习的问句分类方法。该方法在问句特征提取的基础上,采用具有协同训练的Co-forest学习算法,利用已标记的问句样本对无标记的问句样本进行标记,并选取高置信的新标记问句添加入已标记的问句样本中,以此构建问句分类模型。该方法在云南旅游领域5个大类和23个小类的分类实验中比监督学习方法准确率分别提高了8.28个百分比和1.19百分比,结果表明提出的方法能够有效利用无标记样本提高问句分类的准确率。最后,在云南旅游领域问句语料库的基础上,设计并实现了中文问句分类原型系统,并在实验的基础上,对问句分类器进行评测。
|
全文目录
摘要 3-4 Abstract 4-6 目录 6-8 第一章 引言 8-14 1.1 研究背景及意义 8-9 1.2 国内外研究现状 9-11 1.3 问题的提出及解决方法 11-12 1.4 本文的主要研究内容 12 1.5 论文的组织 12-14 第二章 中文问句的特征提取 14-25 2.1 引言 14 2.2 中文问句特征空间构建 14-16 2.2.1 特征维词语的提取 15 2.2.2 特征词条组的提取 15-16 2.3 利用词袋方法获取问句特征向量 16-17 2.4 利用TF-IDF获取问句特征向量 17-18 2.4.1 TF-IDF方法基本定义 17 2.4.2 采用TFIDF方法进行特征值处理 17-18 2.5 利用字面相似度计算方法获取问句特征向量 18-20 2.5.1 字面相似度计算方法基本定义 18-19 2.5.2 采用字面相似度计算方法进行特征值处理 19-20 2.6 利用语义相似度计算方法获取问句特征向量 20-24 2.6.1 词汇语义相似度计算基本定义 20-23 2.6.2 采用语义相似度计算方法进行特征值处理 23-24 2.7 本章小结 24-25 第三章 基于监督学习的问句分类模型 25-34 3.1 引言 25 3.2 决策树方法 25-26 3.3 C4.5与Random Forest算法的选择 26-27 3.4 基于监督学习的问句分类方法 27-30 3.4.1 决策树C4.5算法 27-28 3.4.2 随机森林(Random Forest)算法 28-30 3.5 实验结果与分析 30-33 3.6 本章小结 33-34 第四章 基于半监督学习的问句分类模型 34-45 4.1 引言 34 4.2 相关研究 34-35 4.3 Co-forest协同学习算法 35-36 4.4 基于半监督学习问句分类模型的实现方法 36-38 4.5 实验结果与分析 38-43 4.5.1 不同特征维度的半监督学习 38-39 4.5.2 不同中文问句分类特征提取方法比较 39-41 4.5.3 不同半监督学习算法比较 41-42 4.5.4 不同无标记比例的半监督学习比较 42-43 4.6 本章小结 43-45 第五章 云南旅游问句分类模型的设计与实现 45-51 5.1 引言 45 5.2 云南旅游领域问句的收集与组织 45-46 5.3 实验结果与评价 46-50 5.4 本章小结 50-51 第六章 结束语 51-53 6.1 当前研究工作总结 51 6.2 下一步研究设想 51-53 致谢 53-54 参考文献 54-58 附录A 攻读硕士期间发表论文及参与项目 58-59 附录B 攻读硕士学位期间申请的专利及软件著作权 59
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|