学位论文 > 优秀研究生学位论文题录展示

基于最大熵模型的汉语框架语义角色自动标注

作 者: 王蔚林
导 师: 李济洪
学 校: 山西大学
专 业: 概率论与数理统计
关键词: 语义角色标注 汉语框架网络 最大熵模型 汉语基本块
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 59次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用最大熵模型,对语义角色的各个关键步骤进行了比较深入的研究,将语义角色标注任务定义为:给定句子中的目标词及其所属框架,自动标出相应的框架语义角色。模型以词为基本标注单元,分别使用了基于词层面和基本块层面的特征。针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出了一种较优模板选择方法。本文的全部实验是在CFN中选出的25个框架的6692条例句上进行的,对每一个框架,将例句均匀分成4份,两两组合进行训练和测试,分3组做2-fold交叉验证。本文将标注步骤分为:1)边界识别2)角色分类3)后处理三个步骤。分别采用了边界识别与角色分类一起进行,以及先边界识别,再角色分类两种标注策略。在后处理步骤上,对输出的标注序列要求在整个句子上满足IOB序列合法性约束。我们采用信息检索中传统的评价指标计算各个步骤的P、R、F1-值,后续实验中我们还给出了2-fold交叉验证的F1-值的平均值,作为性能评价指标。实验结果表明,基于词特征的语义角色自动标注系统的F1-值为56.291%;融入基本块特征后的自动标注系统的F1-值为58.011%。统计检验表明,后者比前者显著好;另外,本文与基于句法分析树的的方法进行对比研究,其结果显著低于本文的方法。

全文目录


中文摘要  8-9
ABSTRACT  9-11
第1章 引言  11-17
  1.1 课题研究背景和意义  11-12
  1.2 研究现状  12-15
    1.2.1 国际评测  12-14
    1.2.2 研究现状  14-15
  1.3 研究内容  15-17
第2章 汉语框架网络介绍  17-21
  2.1 汉语框架网络知识库简介  17-19
  2.2 汉语框架网络标注  19-21
第3章 最大熵模型介绍  21-25
  3.1 最大熵模型简介  21-22
  3.2 最大熵模型中高斯平滑参数  22-25
第4章 基于词的汉语框架语义角色标注模型  25-45
  4.1 系统描述  25-27
    4.1.1 数据资源  25-26
    4.1.2 标注单元  26
    4.1.3 标注步骤  26-27
  4.2 特征描述  27-32
    4.2.1 基于词层面的特征  27-30
    4.2.2 基于正交表的特征模板的选优  30-32
  4.3 后处理策略  32
  4.4 模型评价  32-33
  4.5 实验方案  33
  4.6 基于词层面特征不含通用语义角色的实验  33-39
    4.6.1 基于词层面的不含通用语义角色的边界识别结果  33-36
    4.6.2 基于词层面的不含通用语义角色的分类结果  36-39
  4.7 基于词层面含有通用语义角色的实验  39-45
    4.7.1 含有通用语义角色的边界识别结果分析  39-41
    4.7.2 含有通用语义角色的角色分类结果分析  41-45
第5章 融合汉语基本块信息的语义角色标注模型  45-53
  5.1 基于基本块的特征  45-47
  5.2 特征选择  47-48
  5.3 交叉验证方差计算  48-50
  5.4 实验结果分析  50-53
第6章 总结及展望  53-55
  6.1 总结  53
  6.2 展望  53-55
参考文献  55-59
附录A:山大973词性标注体系及其与清华大学词性映射关系  59-61
附录B:实验用正交表及PB表  61-65
攻读学位期间取得的研究成果  65-67
致谢  67-69
个人简况及联系方式  69-72

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 汉语框架自动识别中的歧义消解,TP391.1
  4. 基于自学习的社会关系抽取的研究,TP391.1
  5. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  6. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  7. 基于语义分析的汉语短语识别方法研究,TP391.43
  8. 基于马尔可夫逻辑网络的语义角色标注,TP391.1
  9. 统计机器翻译中层次短语翻译模型的研究与实现,TP391.2
  10. 基于拼音标注的中文分词算法研究,TP391.1
  11. 最大熵模型的语义句法分析在问答系统中的应用研究,TP391.1
  12. 语义角色标注的集成策略的研究,TP391.1
  13. 基于Web的比较观点挖掘方法研究,TP391.1
  14. 基于依存关系的中文语义角色标注研究,TP391.1
  15. 基于依存句法分析的语义角色标注,TP391.1
  16. 基于条件随机场模型的汉语框架语义角色自动标注研究,TP391.1
  17. 面向三维场景生成的中文语义角色标注方法研究,TP391.1
  18. 基于汉语框架网的问句语义角色标注研究,TP391.1
  19. 基于支持向量机的汉语框架语义角色自动标注,TP391.1
  20. 基于条件场的语义角色标注,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com