学位论文 > 优秀研究生学位论文题录展示
基于最大熵模型的汉语框架语义角色自动标注
作 者: 王蔚林
导 师: 李济洪
学 校: 山西大学
专 业: 概率论与数理统计
关键词: 语义角色标注 汉语框架网络 最大熵模型 汉语基本块
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 59次
引 用: 0次
阅 读: 论文下载
内容摘要
本文基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用最大熵模型,对语义角色的各个关键步骤进行了比较深入的研究,将语义角色标注任务定义为:给定句子中的目标词及其所属框架,自动标出相应的框架语义角色。模型以词为基本标注单元,分别使用了基于词层面和基本块层面的特征。针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出了一种较优模板选择方法。本文的全部实验是在CFN中选出的25个框架的6692条例句上进行的,对每一个框架,将例句均匀分成4份,两两组合进行训练和测试,分3组做2-fold交叉验证。本文将标注步骤分为:1)边界识别2)角色分类3)后处理三个步骤。分别采用了边界识别与角色分类一起进行,以及先边界识别,再角色分类两种标注策略。在后处理步骤上,对输出的标注序列要求在整个句子上满足IOB序列合法性约束。我们采用信息检索中传统的评价指标计算各个步骤的P、R、F1-值,后续实验中我们还给出了2-fold交叉验证的F1-值的平均值,作为性能评价指标。实验结果表明,基于词特征的语义角色自动标注系统的F1-值为56.291%;融入基本块特征后的自动标注系统的F1-值为58.011%。统计检验表明,后者比前者显著好;另外,本文与基于句法分析树的的方法进行对比研究,其结果显著低于本文的方法。
|
全文目录
中文摘要 8-9 ABSTRACT 9-11 第1章 引言 11-17 1.1 课题研究背景和意义 11-12 1.2 研究现状 12-15 1.2.1 国际评测 12-14 1.2.2 研究现状 14-15 1.3 研究内容 15-17 第2章 汉语框架网络介绍 17-21 2.1 汉语框架网络知识库简介 17-19 2.2 汉语框架网络标注 19-21 第3章 最大熵模型介绍 21-25 3.1 最大熵模型简介 21-22 3.2 最大熵模型中高斯平滑参数 22-25 第4章 基于词的汉语框架语义角色标注模型 25-45 4.1 系统描述 25-27 4.1.1 数据资源 25-26 4.1.2 标注单元 26 4.1.3 标注步骤 26-27 4.2 特征描述 27-32 4.2.1 基于词层面的特征 27-30 4.2.2 基于正交表的特征模板的选优 30-32 4.3 后处理策略 32 4.4 模型评价 32-33 4.5 实验方案 33 4.6 基于词层面特征不含通用语义角色的实验 33-39 4.6.1 基于词层面的不含通用语义角色的边界识别结果 33-36 4.6.2 基于词层面的不含通用语义角色的分类结果 36-39 4.7 基于词层面含有通用语义角色的实验 39-45 4.7.1 含有通用语义角色的边界识别结果分析 39-41 4.7.2 含有通用语义角色的角色分类结果分析 41-45 第5章 融合汉语基本块信息的语义角色标注模型 45-53 5.1 基于基本块的特征 45-47 5.2 特征选择 47-48 5.3 交叉验证方差计算 48-50 5.4 实验结果分析 50-53 第6章 总结及展望 53-55 6.1 总结 53 6.2 展望 53-55 参考文献 55-59 附录A:山大973词性标注体系及其与清华大学词性映射关系 59-61 附录B:实验用正交表及PB表 61-65 攻读学位期间取得的研究成果 65-67 致谢 67-69 个人简况及联系方式 69-72
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于语义分析的汉语短语识别方法研究,TP391.43
- 基于马尔可夫逻辑网络的语义角色标注,TP391.1
- 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
- 基于拼音标注的中文分词算法研究,TP391.1
- 最大熵模型的语义句法分析在问答系统中的应用研究,TP391.1
- 语义角色标注的集成策略的研究,TP391.1
- 基于Web的比较观点挖掘方法研究,TP391.1
- 基于依存关系的中文语义角色标注研究,TP391.1
- 基于依存句法分析的语义角色标注,TP391.1
- 基于条件随机场模型的汉语框架语义角色自动标注研究,TP391.1
- 面向三维场景生成的中文语义角色标注方法研究,TP391.1
- 基于汉语框架网的问句语义角色标注研究,TP391.1
- 基于支持向量机的汉语框架语义角色自动标注,TP391.1
- 基于条件场的语义角色标注,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|