学位论文 > 优秀研究生学位论文题录展示
基于语义分析的汉语短语识别方法研究
作 者: 卢朝华
导 师: 黄广君
学 校: 河南科技大学
专 业: 计算机软件与理论
关键词: 短语识别 最大熵模型 转换规则 依存语法
分类号: TP391.43
类 型: 硕士论文
年 份: 2009年
下 载: 67次
引 用: 0次
阅 读: 论文下载
内容摘要
汉语基本短语的识别和分析是自然语言浅层句法分析的重要任务之一。基本短语的分析结果使句子层次比较清晰,为进一步的句法分析打下基础。在汉语的基本短语类型中,汉语名词短语和介词短语占相当大的一部分。基本名词短语和介词短语识别率的提高对机器翻译和信息检索都具有重要的意义。本文针对浅层句法分析的任务,采用不同的机器学习方法对文本中的名词短语和介词短语进行识别,构造了不同的识别系统,取得了比较满意的识别结果。其研究内容如下:名词短语的识别:通过深入分析基于最大熵识别名词短语和基于转换规则识别名词短语两种方法,提出了基于最大熵和转换规则相结合的名词短语识别。在用最大熵识别汉语名词短语中,构建了最大熵模型的基本框架,根据名词短语的结构特点及上下文特征,进行特征提取、特征选择、参数估计。以此建立了识别名词短语的最大熵模型。用基于转换规则的方法识别名词短语时,充分利用上下文环境进行规则学习,得到了识别名词短语的有序规则序列。经过分析最大熵与转换规则方法各自的特点,提出基于两者相结合的名词短语识别方法。实验结果显示提高了整个汉语名词短语识别系统的速度和精度。汉语介词短语的识别:在研究分析基于最大熵识别汉语名词短语的基础上,针对介词短语右边界存在多种错误识别的问题,提出了一种基于最大熵的汉语介词短语自动识别方法。该方法结合了汉语介词短语左右边界词语的依存语法知识,先由最大熵模型对介词短语进行识别,然后利用依存树库中介词短语的左右边界词语的依存语法知识,对介词短语右边界的错误识别进行校正。提高了介词短语的识别率。
|
全文目录
摘要 2-3 ABSTRACT 3-7 第1章 绪论 7-12 1.1 研究背景及意义 7-8 1.2 国内外研究现状 8-11 1.3 论文的组织结构 11-12 第2章 短语识别的相关技术 12-22 2.1 浅层句法分析方法介绍 12-19 2.1.1 浅层句法分析简介 12 2.1.2 基于统计的方法 12-17 2.1.3 基于规则的方法 17-19 2.2 依存语法知识 19-21 2.2.1 依存语法理论的产生 19 2.2.2 依存语法的基本原则 19-21 2.3 本章小结 21-22 第3章 汉语名词短语识别 22-35 3.1 名词短语的定义及识别任务 22-23 3.1.1 名词短语的定义 22-23 3.1.2 名词短语识别的任务 23 3.2 最大熵识别名词短语 23-29 3.2.1 最大熵模型框架 23-26 3.2.2 最大熵模型的特征表示及特征选取 26-27 3.2.3 参数估计 27-28 3.2.4 识别系统流程及算法 28-29 3.3 基于转换规则识别名词短语 29-32 3.3.1 基于转换规则的基本思想 29-30 3.3.2 名词短语的初始标注 30-31 3.3.3 转换规则的生成 31 3.3.4 基于转换的名词短语识别算法 31-32 3.4 最大熵与转换规则结合识别汉语名词短语 32-34 3.4.1 两种方法结合的基本思想 32-33 3.4.2 最大熵与转换规则结合识别名词短语算法 33-34 3.5 本章小结 34-35 第4章 汉语介词短语识别 35-45 4.1 有关介词短语的介绍 35-36 4.1.1 介词短语的定义 35-36 4.1.2 有关介词短语识别 36 4.2 基于最大熵的介词短语识别 36-41 4.2.1 特征表示及特征选择 36-38 4.2.2 特征提取及参数估计 38-39 4.2.3 介词短语识别流程 39-41 4.3 基于依存语法的错误识别自动校正 41-44 4.3.1 依存语法基础 41-42 4.3.2 介词短语右边界错误识别自动校正 42-43 4.3.3 介词短语的进一步研究 43-44 4.4 本章小结 44-45 第5章 实验结果及分析 45-52 5.1 名词短语识别实验结果及分析 45-48 5.1.1 实验平台 45 5.1.2 评价标准 45 5.1.3 实验数据 45-46 5.1.4 实验结果及分析 46-48 5.2 汉语介词短语识别实验结果及分析 48-51 5.2.1 实验数据 49 5.2.2 实验结果及分析 49-51 5.3 本章小结 51-52 第6章 总结和展望 52-54 6.1 全文总结 52-53 6.2 研究展望 53-54 参考文献 54-57 致谢 57-58 攻读硕士学位期间的研究成果 58
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于地理元胞自动机的林火蔓延模型与模拟研究,S762
- 最大熵模型的语义句法分析在问答系统中的应用研究,TP391.1
- 基于条件随机场的汉语短语识别研究,TP391.1
- 基于依存树库的英语名词句法研究,H314.3
- 新闻语料中名词短语识别的研究,TP391.43
- 三维游戏中人物动作与声音的研究,TP391.1
- 基于依存语法的统计机器翻译研究,TP391.2
- 基于英汉树库的机器翻译研究,H315.9
- 汉语介词短语的自动识别,TP391.43
- 基于混合方法的复杂命名实体抽取研究,TP391.1
- 基于时态信息的网页排序系统的研究与实现,TP393.092
- 基于最大熵的哈萨克语基本名词短语识别研究,TP391.43
- 中文最长名词短语识别研究,TP391.43
- 中文新闻语料中的时间短语识别方法研究,TP391.43
- 面向框架语义的汉语短语自动识别研究,TP391.4
- 基于最大熵的汉语介词短语自动识别,TP391.43
- 中文信息处理中命名实体识别问题的研究,TP391.43
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 文字识别及其装置
© 2012 www.xueweilunwen.com
|