学位论文 > 优秀研究生学位论文题录展示

汉语功能块的自动识别研究

作 者: 刘海霞
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 汉语功能块 条件随机域模型 语义信息 歧义结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 25次
引 用: 0次
阅 读: 论文下载
 

内容摘要


汉语的功能块是定义在句子层面上的功能性成分,一般占据句子中的主语、谓语、宾语、状语、定语、中心语等功能位置,体现了汉语句子的基本骨架。功能块识别的目的正确标注出句子的功能块标记信息,覆盖自顶向下进行事件句式拆分而形成的各个基本信息单元,以显示句子在小句层面上的基本结构及骨架,为进一步的事件骨架树分析提供最小的功能块描述序列。本文将汉语功能块的自动识别问题转化为序列标注问题,使用的序列标注器是条件随机域(CRFs, Conditional Random Fields)。CRFs是一个基于无向图的条件概率模型,可以任意添加有效的特征向量,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注偏置等问题。因此本文选择CRFs建立功能块的序列标注模型。为了构建较好的功能块自动识别系统,本文首先通过特征模板优化策略进行汉语功能块的识别,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%,其中主语块、述语块、宾语块和状语块四个典型功能块的F1-measure值分别达到了85.16%、88.22%、81.75%和91.98%。在此基础上,本文首次将语义信息引入汉语功能块的识别系统,将通过词义聚合关系组织词语的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%,与单独使用条件随机域模型的方法相比有了较大程度的提高。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-13
  1.1 研究背景  8-9
  1.2 研究意义  9-10
  1.3 国内外研究现状  10-12
  1.4 本文的主要工作  12-13
2 理论背景及数据资源  13-28
  2.1 条件随机域模型  13-20
    2.1.1 无向图模型  13-14
    2.1.2 条件随机域的图结构  14-16
    2.1.3 条件随机域的势函数表示  16-18
    2.1.4 条件随机域的参数估计  18-19
    2.1.5 动态规划方法  19-20
  2.2 语义资源简介  20-25
  2.3 功能块标注集  25-28
3 基于条件随机域的汉语功能块识别  28-43
  3.1 特征抽取  28-32
  3.2 模型构建  32-37
  3.3 实验  37-43
    3.3.1 实验数据说明  37-38
    3.3.2 性能评价指标  38-39
    3.3.3 实验结果  39-43
4 CRFs结合语义信息识别汉语功能块  43-49
  4.1 结合语义信息的方法  43-45
  4.2 实验结果及分析  45-49
结论  49-50
参考文献  50-53
附录A 中文信息学会句法分析评测词类标记集  53-56
攻读硕士学位期间发表学术论文情况  56-57
致谢  57-58

相似论文

  1. 智能移动机器人地图描述和导航方法研究,TP242.6
  2. 面向自主角色行为规划的虚拟环境层次建模技术研究,TP391.9
  3. 基于语义Web的信息检索技术研究,TP391.3
  4. 局部描述特征结合概率潜在语义模型的场景分类技术研究,TP391.41
  5. 基于本体的语义查询扩展研究,TP391.3
  6. 基于CityGML的城市三维信息描述方法研究,P208
  7. Web页面语义信息提取方法的研究,TP393.09
  8. 基于汉语概念图的词汇语义相似度计算,TP391.1
  9. 中文问答系统中问题分析关键技术的研究,TP391.1
  10. 命名实体与基本名词短语识别研究,H08
  11. 《蒙古语语义信息词典形容词分库》的构建,H212
  12. 面向对象的电力系统异构应用信息共享研究,TM769
  13. 《哈利·波特与魔法石》翻译的文内分析,H315.9
  14. 中文地名的自动识别和标准化,TP391.43
  15. 核心语义角色句法实现的词汇语义制约,H04
  16. 基于知识图的领域本体构建方法研究,TP391.1
  17. 基于规则抽取的汉语语块识别,TP391.1
  18. 异构案例库在应急指挥平台中的研究与应用,TP311.52
  19. 言语信息验证系统,TP319
  20. 基于色彩情感语义和用户侧档的网上图像检索策略研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com