学位论文 > 优秀研究生学位论文题录展示
汉语功能块的自动识别研究
作 者: 刘海霞
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 汉语功能块 条件随机域模型 语义信息 歧义结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 25次
引 用: 0次
阅 读: 论文下载
内容摘要
汉语的功能块是定义在句子层面上的功能性成分,一般占据句子中的主语、谓语、宾语、状语、定语、中心语等功能位置,体现了汉语句子的基本骨架。功能块识别的目的正确标注出句子的功能块标记信息,覆盖自顶向下进行事件句式拆分而形成的各个基本信息单元,以显示句子在小句层面上的基本结构及骨架,为进一步的事件骨架树分析提供最小的功能块描述序列。本文将汉语功能块的自动识别问题转化为序列标注问题,使用的序列标注器是条件随机域(CRFs, Conditional Random Fields)。CRFs是一个基于无向图的条件概率模型,可以任意添加有效的特征向量,具有表达长距离依赖性和交叠性特征的能力,能够较好地解决标注偏置等问题。因此本文选择CRFs建立功能块的序列标注模型。为了构建较好的功能块自动识别系统,本文首先通过特征模板优化策略进行汉语功能块的识别,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%,其中主语块、述语块、宾语块和状语块四个典型功能块的F1-measure值分别达到了85.16%、88.22%、81.75%和91.98%。在此基础上,本文首次将语义信息引入汉语功能块的识别系统,将通过词义聚合关系组织词语的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%,与单独使用条件随机域模型的方法相比有了较大程度的提高。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-13 1.1 研究背景 8-9 1.2 研究意义 9-10 1.3 国内外研究现状 10-12 1.4 本文的主要工作 12-13 2 理论背景及数据资源 13-28 2.1 条件随机域模型 13-20 2.1.1 无向图模型 13-14 2.1.2 条件随机域的图结构 14-16 2.1.3 条件随机域的势函数表示 16-18 2.1.4 条件随机域的参数估计 18-19 2.1.5 动态规划方法 19-20 2.2 语义资源简介 20-25 2.3 功能块标注集 25-28 3 基于条件随机域的汉语功能块识别 28-43 3.1 特征抽取 28-32 3.2 模型构建 32-37 3.3 实验 37-43 3.3.1 实验数据说明 37-38 3.3.2 性能评价指标 38-39 3.3.3 实验结果 39-43 4 CRFs结合语义信息识别汉语功能块 43-49 4.1 结合语义信息的方法 43-45 4.2 实验结果及分析 45-49 结论 49-50 参考文献 50-53 附录A 中文信息学会句法分析评测词类标记集 53-56 攻读硕士学位期间发表学术论文情况 56-57 致谢 57-58
|
相似论文
- 智能移动机器人地图描述和导航方法研究,TP242.6
- 面向自主角色行为规划的虚拟环境层次建模技术研究,TP391.9
- 基于语义Web的信息检索技术研究,TP391.3
- 局部描述特征结合概率潜在语义模型的场景分类技术研究,TP391.41
- 基于本体的语义查询扩展研究,TP391.3
- 基于CityGML的城市三维信息描述方法研究,P208
- Web页面语义信息提取方法的研究,TP393.09
- 基于汉语概念图的词汇语义相似度计算,TP391.1
- 中文问答系统中问题分析关键技术的研究,TP391.1
- 命名实体与基本名词短语识别研究,H08
- 《蒙古语语义信息词典形容词分库》的构建,H212
- 面向对象的电力系统异构应用信息共享研究,TM769
- 《哈利·波特与魔法石》翻译的文内分析,H315.9
- 中文地名的自动识别和标准化,TP391.43
- 核心语义角色句法实现的词汇语义制约,H04
- 基于知识图的领域本体构建方法研究,TP391.1
- 基于规则抽取的汉语语块识别,TP391.1
- 异构案例库在应急指挥平台中的研究与应用,TP311.52
- 言语信息验证系统,TP319
- 基于色彩情感语义和用户侧档的网上图像检索策略研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|