学位论文 > 优秀研究生学位论文题录展示
汉语句法分析的重排序技术研究
作 者: 程勇
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 汉语句法分析 PCFG 重排序 可视化
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 12次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着网络的发展,现代人对信息沟通和处理的需求越来越迫切,这使得自然语言处理以及相关的应用领域得到了迅速的发展。而由于句法分析在自然语言处理研究中的关键地位及其在各种应用上的光明前景,本文对汉语的句法分析进行了深入的探讨和研究,并且由于重排序方法在提高句法分析性能上的有效性,因此本文把对重排序方法的研究作为本文的主要研究内容。具体的工作如下:首先,本文对当前主流的句法分析模型进行了介绍,并且在宾州中文树库CTB5.0上进行了实验,测试比较了不同句法分析模型的性能。根据对实验结果的分析本文探讨了不同构建模型的方法以及不同模型对句法分析的影响,而这些影响主要体现在对信息的融合,对训练语料的要求,以及对最终句法分析的性能和效率上。其次,本文应用了不同的句法分析模型作为初始模型来进行句法分析的重排序实验,其中初始模型分别采用了概率上下文无关文法(PCFG)模型,Stanford-1模型以及Berkeley模型,而对于影响重排序性能的两个重要因素:特征表示和参数训练,本文进行了如下的设置,特征表示方面,本文主要参考了Collins在他的文章中给出的特征集并进行了稍微的改动,而参数训练方面则采用了最大熵方法作为训练方法。另外本文进一步探讨了不同类型特征对实验结果的影响,分析结果表明重排序模型中的特征选择应考虑初始模型的影响。最后,在对传统重排序方法研究的基础上,本文发现现有的重排序方法对于N-best候选树中所蕴含的信息并没有充分利用,因此针对性地进行了改进并通过相应实验进行了验证。具体的说,在传统的重排序方法中,常常将重排序映射为一个分类问题,而指导训练分类参数的代价函数常常设置为使N-best候选句法分析树中的排名第一的句法分析树和其他句法分析树之间的边界距离(Margin)最大。但是本文发现,在实际情况中,句法分析树之间的顺序是根据该句法树与标准树的相似度值来排序的,也就是说,不同的句法分析树之间没有“质”的差异,只有“量”的差异,而在传统的方法中却常常忽视这一信息。针对此问题,本文提出了两种改进模型:基于相对距离的分割模型和基于多类融合的模型。并且利用这两种模型在PCFG模型作为初始模型的基础上进行了实验。实验结果表明,改进模型使得句法分析的性能有了进一步的提高,在用PCFG作为初始模型的基础上,改进模型比传统的重排序技术又提高了0.9个百分点左右。另外,本文实现了一个多种显示模式的句法分析树可视化系统,该系统提供了三种主要的显示模式来对句法分析树进行展示,分别是“短语模式”,“依存模式”,“骨架模式”。除了对句法分析树给出不同结构的显示外,该系统还可以为重排序中的特征选择提供相应的帮助。
|
全文目录
摘要 4-6 ABSTRACT 6-10 第1章 绪论 10-24 1.1 课题的背景和意义 10-12 1.1.1 课题背景 10-11 1.1.2 课题意义 11-12 1.2 句法分析的研究现状 12-20 1.2.1 语法体系 12-15 1.2.2 句法消歧 15-18 1.2.3 句法分析算法 18-20 1.3 本文的研究内容和组织结构 20-24 1.3.1 研究思路的简单介绍 20-21 1.3.2 评价体系与实验环境 21-22 1.3.3 本文的组织结构 22-24 第2章 基于 PCFG 的句法分析模型比较研究 24-35 2.1 概率上下文无关文法 24-28 2.1.1 利用 PCFG 进行句法消歧 25-26 2.1.2 利用 PCFG 构建语言模型 26-27 2.1.3 PCFG 模型的训练方法 27 2.1.4 PCFG 存在的问题 27-28 2.2 针对 PCFG 的改进模型 28-32 2.2.1 标记扩展模型 28-29 2.2.2 词汇化模型 29-32 2.3 实验与分析 32-34 2.3.1 模型选取与数据准备 32 2.3.2 实验结果与分析 32-34 2.4 本章小结 34-35 第3章 基于最大熵方法的重排序技术研究 35-46 3.1 重排序方法的提出与研究现状 35-36 3.1.1 重排序方法的提出 35 3.1.2 重排序方法的研究现状 35-36 3.2 基于最大熵方法的重排序模型 36-39 3.2.1 最大熵方法 36-38 3.2.2 重排序问题 38-39 3.3 句法分析树的特征表示 39-42 3.4 实验与分析 42-44 3.4.1 模型选取与数据准备 42-43 3.4.2 实验结果与分析 43-44 3.5 本章小结 44-46 第4章 融合 Score 信息的改进重排序模型 46-53 4.1 传统重排序方法存在的问题 46-48 4.2 改进的重排序模型 48-50 4.2.1 基于相对距离的分割模型 48-49 4.2.2 基于多类融合的模型 49-50 4.3 实验与分析 50-52 4.4 本章小结 52-53 第5章 多种显示模式的句法分析树可视化系统 53-63 5.1 可视化系统的提出和模式介绍 53-57 5.1.1 可视化系统的提出 53 5.1.2 已有的可视化系统介绍 53-54 5.1.3 显示模式介绍 54-57 5.2 系统功能介绍 57-58 5.2.1 句法分析树显示功能 57-58 5.2.2 N-best 候选树比较功能 58 5.3 系统设计方法 58-61 5.3.1 句法分析树对应的数据结构 59 5.3.2 短语结构向依存结构的转化 59-60 5.3.3 相关算法 60-61 5.4 本章小结 61-63 结论 63-65 参考文献 65-69 攻读硕士学位期间发表的论文及其它成果 69-71 致谢 71
|
相似论文
- 医学超声图像的三维可视化研究,TP391.41
- 小麦群体生长可视化系统的设计与实现,S512.1
- 基于模型的水稻根系可视化研究,S511
- 基于模型的小麦根系可视化研究,S512.1
- 算法动画在高中算法教学中的应用研究,G633.6
- 机载激光雷达测量系统及点云数据快速处理技术,TN959.73
- 利用钻孔资料实现矿体三维可视化,TP391.41
- 井筒保护煤柱开采设计与变形监测及数据处理,TD822.3
- 基于MPI的三维地层建模和可视化方法研究,TP391.41
- 层状岩体三维建模与可视化方法研究,TP391.41
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 开采沉陷可视化技术及在建筑用地稳定性评价中的应用,TD325
- 桥梁施工管理可视化系统研究,U445.1
- 炼钢—精炼—连铸生产调度与过程监控系统,TF345
- 基于地理信息系统的电力可视化管理系统设计与实现,TM73
- 电网分析计算中的可视化技术研究,TM769
- 粒子滤波算法的硬件优化设计,TN713
- 基于RTMP与SIP的可视化交互系统研究与设计,TP311.52
- ADS无窗散裂靶件模拟实验与数值研究,TL942
- 晶体加热炉三维温度场建模与可视化方法研究,TP391.41
- 日语拟声词的翻译,H36
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|