学位论文 > 优秀研究生学位论文题录展示

基于条件随机场模型的汉语框架语义角色自动标注研究

作 者: 王瑞波
导 师: 李国臣
学 校: 山西大学
专 业: 计算机软件与理论
关键词: 语义角色标注 汉语框架网络 条件随机场模型 汉语基本块
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 48次
引 用: 1次
阅 读: 论文下载
 

内容摘要


目前自然语言处理技术的瓶颈是语义的自动分析,尤其是句义分析。句子中词汇的语义角色标注是对句子进行语义分析的一个重要步骤,是句子命题义的形式化表示的一种实现方式。汉语框架语义角色的自动标注是基于汉语框架语义知识库(CFN)对中文句子实现句义的形式化表示的方法,其深入的研究,将为构建大规模语义语料库提供有效的工具,将有力推动中文信息检索、自动问答、信息抽取等自然语言处理技术的发展。考虑到目前汉语完全句法分析还不成熟,按照英语以句法成分作为标注单元的做法将难以实现。因此,本文将汉语框架语义角色自动标注看作是以词为标注单元和以基本块为标注单元的整个句子的序列标注任务,并分别使用条件随机场模型进行实验。本文的语义角色标注任务为:给定句子中的目标词及其所属框架,自动标出相应的框架语义角色。本文从目前CFN的200多个框架中选取例句数相对较多的25个框架的所有例句按5:5构成训练、测试集。对于基于词的标注模型,本文构造了词层面的特征(当前词、当前词的词性、当前词的位置及其组合),利用正交表来选择最优的特征模板。在测试集上,基于词的标注模型的F值达到了62.50%。进一步,本文使用清华大学的基本块分析器对所有例句进行自动分析,将基本块特征加入到baseline模型中,测试集上F值有1.15%的上升,达到63.65%。对结果的错误分析表明:词特征稀疏可能是导致性能不高的主要原因。对于基于基本块的标注模型,本文以自动的基本块标注信息中构造若干浅层句法特征,同样利用正交表优选特征模板。在测试集上,最优模板的F值达到62.11%。较baseline模型有约0.4%的下降,测试集的25个框架中多个框架的F值,较基于词的标注模型都有显著下降。主要的原因是基本块的标注性能较低。最后,本文从语义角色标注模型的角度和机器学习的角度对研究过程中所遇到的一些问题进行了分析和归纳,指明进一步的研究方向。

全文目录


摘要  8-9
ABSTRACT  9-11
第1章 引言  11-19
  1.1 研究背景和意义  11-12
  1.2 本文研究内容  12-13
  1.3 国内外研究现状  13-17
    1.3.1 FrameNet相关语义角色评测任务介绍  14-15
    1.3.2 文献综述  15-17
  1.4 论文结构安排  17-19
第2章 汉语框架网络介绍及句法语义分析模型的构建  19-29
  2.1 FrameNet工程简介  19-20
  2.2 汉语框架网络介绍  20-23
    2.2.1 框架库  20-22
    2.2.2 词元库  22
    2.2.3 句子库  22-23
  2.3 CFN句法语义分析模型的构建  23-27
  2.4 汉语框架语义角色标注任务描述  27
  2.5 本章小结  27-29
第3章 条件随机场模型介绍  29-41
  3.1 条件随机场模型  29-30
  3.2 条件随机场模型的特征选取方法  30-31
  3.3 条件随机场模型的参数估计方法  31-33
    3.3.1 条件随机场模型权重参数的极大似然估计  31-32
    3.3.2 条件随机场模型的极大似然估计缺陷  32
    3.3.3 条件随机场模型参数的最大化后验估计  32-33
  3.4 条件随机场模型的概率推理机制  33-36
    3.4.1 归一化因子的计算公式  33-35
    3.4.2 最优标注序列的寻找  35-36
  3.5 IOB2标注策略及不合理序列的处理  36-37
  3.6 条件随机场模型的改进  37-38
  3.7 条件随机场工具包介绍  38-39
  3.8 本章小结  39-41
第4章 汉语框架语义角色标注的基线模型  41-61
  4.1 基于词的汉语框架语义角色标注模型  41-44
    4.1.1 模型的形式化描述  41
    4.1.2 模型标注范围的选取  41-44
  4.2 特征描述及选取方法  44-47
  4.3 语料选取  47-48
  4.4 语料切分  48-49
  4.5 评价指标  49
  4.6 特征重要性分析  49-50
  4.7 实验结果  50-54
    4.7.1 “陈述”框架动词词元的实验结果  50-52
    4.7.2 “陈述”框架名词词元的实验结果  52-54
    4.7.3 “陈述”框架的语义角色标注实验结果  54
  4.8 实验分析  54-58
    4.8.1 特征的极差分析  54-55
    4.8.2 模型的性能分析  55-57
    4.8.3 “陈述”框架语义角色标注性能曲线  57-58
  4.9 其它框架的实验结果  58-60
  4.10 本章小结  60-61
第5章 融合汉语基本块信息的汉语框架语义角色标注模型  61-91
  5.1 汉语基本块描述体系及基本块自动标注性能  61-62
  5.2 基本块和汉语框架语义角色的关系  62-64
  5.3 融合基本块信息的汉语框架语义角色标注模型  64-65
  5.4 基于词的模型  65-76
    5.4.1 模型的特征描述及选取  65-67
    5.4.2 模型的实验结果  67-73
    5.4.3 实验分析  73-75
    5.4.4 其它框架的实验结果  75-76
  5.5 基于基本块的模型  76-86
    5.5.1 模型预处理  77
    5.5.2 模型的特征描述及选取  77-78
    5.5.3 模型的实验结果  78-83
    5.5.4 实验分析  83-85
    5.5.5 其它框架的实验结果  85-86
  5.6 模型的比较与融合  86-88
  5.7 本章小结  88-91
第6章 总结及展望  91-95
  6.1 论文总结  91-92
  6.2 下一步研究计划  92-95
参考文献  95-101
附录A: 山大973词性标注体系及其与清华大学词性映射关系  101-103
附录B: 实验用正交表及PB表  103-107
发表文章目录  107-109
致谢  109-111
个人简历  111-112

相似论文

  1. 汉语框架自动识别中的歧义消解,TP391.1
  2. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  3. 基于马尔可夫逻辑网络的语义角色标注,TP391.1
  4. 产品名实体识别及规范化研究,TP391.1
  5. 语义角色标注的集成策略的研究,TP391.1
  6. 基于Web的比较观点挖掘方法研究,TP391.1
  7. 基于依存关系的中文语义角色标注研究,TP391.1
  8. 基于依存句法分析的语义角色标注,TP391.1
  9. 面向三维场景生成的中文语义角色标注方法研究,TP391.1
  10. 基于汉语框架网的问句语义角色标注研究,TP391.1
  11. 基于支持向量机的汉语框架语义角色自动标注,TP391.1
  12. 基于最大熵模型的汉语框架语义角色自动标注,TP391.1
  13. 基于条件随机场模型的文本分类研究,TP391.1
  14. 基于条件场的语义角色标注,TP391.1
  15. 中文复杂句语义角色标注,TP391.1
  16. 语义角色标注中的关键技术研究,TP391.1
  17. 基于结构学习的语义角色标注,TP391.1
  18. 词性标注体系对中文分词的影响,TP391.1
  19. 网络舆情信息挖掘关键技术研究与应用,TP393.09
  20. 基于规则抽取的汉语语块识别,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com