学位论文 > 优秀研究生学位论文题录展示

依存句法分析统计模型及树库转化研究

作 者: 李正华
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 依存句法分析 统计模型 确定性搜索算法 树库转化
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 96次
引 用: 6次
阅 读: 论文下载
 

内容摘要


句法分析的任务是根据给定的语法,自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。在句法分析的研究中,依存语法以其形式简洁、易于标注、便于应用等优点,逐渐受到研究人员的重视。本文比较全面地研究了依存句法分析中的几项关键技术,包括统计模型、搜索算法、树库建设等。为了深入的理解各种模型、算法在实际中的应用效果,本文选择了三个具有代表性的方法,分别为马金山面向中文的依存分析算法,Nivre的基于转移的依存分析器MaltParser以及McDonald的基于图的依存分析器MSTParser,进行了深入的研究,并且通过实验进行比较。结果表明,MaltParser和MSTParser在中文上取得了不错的效果,但是马金山的算法在效率上占有优势,可以满足实际应用的需要。作者参加了CoNLL 2008依存分析和语义角色标注联合评测任务,取得了比较好的成绩。依存分析系统分为两个步骤。首先,本文基于MSTParser,经过仔细的特征选择和参数优化,建立了依存分析器。为了克服全局寻优的依存分析方法无法融合全局特征的缺点,本文使用了依存关系校正器对依存分析器的处理结果进行后处理。本文尝试使用基于规则与统计相结合的方法,将PennCT转化为HIT-IR-CDT的体系结构。本文将转化后的树库PennCDT加入到HIT-IR-CDT,训练并测试依存句法分析器。通过对实验结果仔细分析,本文认为这种基于规则与统计相结合的树库转化方法是有效的。但是由于PennCT和HIT-IR-CDT在标注体系上存在较大的差异,还需要继续深入研究。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题背景  8-9
  1.2 依存句法分析的研究现状  9-13
    1.2.1 英语依存分析  10-11
    1.2.2 汉语依存分析  11-12
    1.2.3 多语依存分析  12-13
  1.3 本文的主要研究内容  13-14
第2章 依存句法分析方法理论及实验对比  14-28
  2.1 句法分析的统计模型  15-20
    2.1.1 基于生成模型的统计方法  15-18
    2.1.2 基于判别模型的统计方法  18-19
    2.1.3 基于无指导的统计方法  19-20
  2.2 句法分析的搜索算法  20-22
    2.2.1 基于全局寻优的搜索算法  21
    2.2.2 基于局部最优的搜索算法  21-22
  2.3 依存分析评价方法  22-23
  2.4 实验比较  23-27
    2.4.1 面向中文的确定性依存分析方法  23-25
    2.4.2 基于转移的依存分析方法  25-26
    2.4.3 基于图的依存分析方法  26
    2.4.4 实验结果  26-27
  2.5 本章小结  27-28
第3章 HIT-IR-DP 依存句法分析系统  28-38
  3.1 引言  28
  3.2 系统设计  28-36
    3.2.1 依存分析器  28-32
    3.2.2 依存关系校正器  32-36
    3.2.3 其他工作  36
  3.3 评测结果  36-37
  3.4 本章小结  37-38
第4章 短语结构树库向依存结构树库转化研究  38-51
  4.1 相关工作  39-40
  4.2 树库情况  40-42
  4.3 树库转化过程  42-47
    4.3.1 词性标注集转化  42-43
    4.3.2 短语结构转依存结构  43-46
    4.3.3 依存关系标注  46-47
  4.4 转化后树库的利用  47-50
  4.5 本章小结  50-51
结论  51-52
参考文献  52-56
附录  56-57
攻读学位期间发表的学术论文  57-59
致谢  59-60
个人简历  60

相似论文

  1. 大坝安全监测系统设计及数据分析,TV698.1
  2. 针对链接语料的主题社区挖掘,TP391.1
  3. 基于多水平统计模型的气象数据研究,P468.0
  4. 机载GPS测量数据处理质量控制方法研究,P228.4
  5. 基于GIS/RS的土壤侵蚀动态变化研究,S157
  6. 基于OGC WPS标准的空间统计PSE研究及PSE-SDBI实现,TP393.09
  7. 网络入侵检测系统的关键技术研究与实践,TP393.08
  8. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  9. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  10. 中文问答系统中问题分析关键技术的研究,TP391.1
  11. 基于MRF模型的SAR图像分割方法研究,TN957.52
  12. 脉冲无线电噪声的参数研究,TN98
  13. 基于声音特征的动物行为识别系统研究,TN912.34
  14. 相对论重离子碰撞HBT疑难的研究,O571.6
  15. 不完全信息下的公交客流OD推算方法的研究,U491.111
  16. 基于统计模型的多姿态人脸识别研究,TP391.41
  17. 基于统计模型的H.264码率控制技术研究,TN919.81
  18. 认知无线电网络的累加干扰分析,TN925
  19. 高速公路全生命周期能耗统计模型研究,U412.366
  20. 基于情感分析的新闻浏览平台关键技术研究,TP391.1
  21. 基于主动学习的汉语依存树库构建,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com