学位论文 > 优秀研究生学位论文题录展示
基于对话的主题提取研究
作 者: 蒋莹莹
导 师: 殷蔚华
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 对话文本 主题提取 问-答对探测
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会信息化步伐日益加快和网络技术的飞速发展,人们的沟通方式也随之发生改变,通过网络与他人进行交流的方式日益取代了书信的方式,网络文本数据的数量日益增加。因此对海量网络文本数据的信息处理和数据挖掘具有非常重要的意义,并引起了国内外研究者的密切关注。其中一个研究方向是对网络对话信息的主题提取,它可应用于问答系统、网络信息安全、情报获取等多个领域。通过研究书面语文本的主题提取方法及了解国内外对对话文本主题提取技术的研究现状,总结了对话与书面语的语言特点差异。书面语具有结构紧凑、用语规范、主题思路清晰的特点,但是对话具有含大量问-答对且问-答对中信息相对重要、多主题且主题之间边界模糊、主题交织且组织结构混乱等特点。从而认识到用于书面文本的主题提取方法不能直接适用于对话文本的主题提取,需要对对话的各个特点进行有针对性的处理,才能提高对话文本主题提取的准确率。基于上述思想,设计了一个基于对话的主题提取系统,主要包括问-答对探测模块、主题切分模块、主题树生成模块等。其中问-答对探测模块主要针对对话里含有大量问-答对且问-答对中信息相对重要的特点,使用了机器学习的方法探测问句和其相对应的答句;主题切分模块针对的是对话中多主题且主题之间边界模糊的特点,通过主题概率模型得到词汇在语句中的分布概率,从而获得相邻语句之间的边界点;主题树生成模块针对对话中主题交织,组织结构混乱的特点,使用融入语言特征的聚类算法将切分后的语块按主题重新归类。最后对问-答对探测模块进行了仿真实验和对主题句抽取模块进行了测试。在对问-答对探测模块的仿真实验中,使用C4.5决策树和朴素贝叶斯两种分类器对问(答)句进行判别。通过比较分类器对训练集和测试集的问(答)句和非问(答)句的判别性能,以及选择了不同的特征集进行了多次测试和分析,得到了一系列的比对结果。对照比对结果,讨论了在不同情况下两种分类器在判别问(答)句的性能优缺点,从而得到了在不同情况下应该选取何种句子特征集与分类器的结论。在对主题句抽取模块的测试中,通过测试不同数据集得到的结果集,比较了结果之间的差异性并分析了造成差异的原因。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-17 1.1 引言 9 1.2 对话主题提取概念 9-10 1.3 国内外相关研究状况 10-15 1.4 本文主要内容及章节安排 15-17 2 基于对话的主题提取系统的相关技术 17-22 2.1 对话语料的特点分析 17-18 2.2 针对对话特点的解决思路 18 2.3 系统关键技术研究 18-21 2.4 本章小结 21-22 3 基于对话的主题提取系统的设计 22-35 3.1 系统框架设计 22 3.2 对话语料入库模块 22-24 3.3 对话数据前期处理模块 24-25 3.4 探测问-答对模块 25-29 3.5 主题探测模块 29-31 3.6 主题树生成模块 31-33 3.7 抽取主题句模块 33-34 3.8 本章小结 34-35 4 基于对话的主题提取系统的模块仿真与结果分析 35-45 4.1 问句检测仿真测试 35-40 4.2 答句检测仿真测试 40-42 4.3 主题句抽取模块结果分析 42-44 4.4 本章小结 44-45 5 全文总结与展望 45-47 5.1 全文总结 45-46 5.2 展望 46-47 致谢 47-48 参考文献 48-51
|
相似论文
- 基于Web挖掘的信息提取与推荐相关研究,TP393.09
- 基于领域概念体系的学术论文主题提取,TP391.1
- 从英文台词看中美文化的交互态势,H313
- 新课程背景下的多重对话与文本解读,G633.3
- 阅读教学对话的反思与实践,G633.33
- 初中语文对话教学个案研究,G633.3
- 高中语文阅读教学中的多重对话研究,G633.3
- 语文阅读对话教学中文本的研究,G633.3
- 阅读教学对话研究,G633.3
- 基于语义的Web主题提取的研究,TP391.1
- 面向文本的主题挖掘技术与实现,TP391.1
- Web结构挖掘中HITS算法的优化与实现,TP393.01
- 新闻预定服务系统,TP319
- 基于网页分块的主题搜索引擎的研究与实现,TP391.3
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|