学位论文 > 优秀研究生学位论文题录展示
基于搭配强度的复句关系词自动标识方法研究
作 者: 宋林森
导 师: 胡金柱
学 校: 华中师范大学
专 业: 计算机软件与理论
关键词: 复句 关系词 自动标识 搭配强度 相对词频
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复句的自动标识更加重要,但复句的自动标识及其艰难,目前很少有人涉及。关系词在复句中是一个重要组成部分,一个句子的逻辑语义就主要体现在关系词上,因此,自动标识复句关系词是识别复句的关键环节。但是,复句中的“准关系词”有时充当关系词,有时又不充当关系词,所以要实现计算机自动标识复句关系词也非常困难。搭配强度是指两个词之间相互吸引的程度,搭配强度越大意味着这两个词共现的概率越大。搭配强度大、共现频率高的两个词我们就称作它们具备搭配关系。本文对复句中的关系词自动标注是针对具有搭配关系的关系词来进行的。对于现代汉语复句关系词的自动标识,一般有基于规则的方法、基于统计的方法以及规则和统计相结合的方法。本文提出的方法是基于大规模语料库的,完全基于统计的方法。本文首先基于复句关系词本体知识库,提取已经经过分词标注处理的复句中的准关系词,然后设计一种搭配强度的评估方法先判别从复句中提取出来的多个准关系词是否符合搭配关系。其中,搭配强度的评估方法主要是基于对大规模语料库的统计,统计出关系词的出现频率、搭配关系词的搭配距离、共现频率,基于这些信息计算出搭配关系词的搭配强度,观察其是否满足一定的阂值,然后判定它们之间是否存在搭配关系。在判别了搭配关系后,在搭配环境下对这两个准关系词进行自动标识。先将待标注的准关系词及其上下文语境分为标注为关系词和不标注为关系词的两个序列,利用相对词频,分别计算它们和搭配词的搭配强度,然后进行比较,取较大值的标注结果,从而完成准关系词的自动标识。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-16 1.1 研究的目的与意义 10-13 1.1.1 关系词自动标识的研究意义 10-11 1.1.2 关系词搭配的研究意义 11-12 1.1.3 关系词搭配强度在关系词自动标识中应用的意义 12-13 1.2 关系词搭配的研究现状 13-15 1.3 论文的组织结构 15-16 第2章 对语料库的预处理 16-23 2.1 汉语复句语料库 16-19 2.1.1 “汉语复句语料库”的简介 16-17 2.1.2 “汉语复句语料库”在本文中的利用 17-19 2.2 复句关系词本体知识库 19-20 2.3 对复句进行预处理 20-22 2.4 本章小结 22-23 第3章 利用搭配强度进行搭配关系的判别 23-34 3.1 搭配距离的设定 23-24 3.2 搭配强度算法 24-29 3.2.1 互信息值 24-26 3.2.2 Z值检验 26-29 3.3 关系词的搭配关系自动识别方法 29-33 3.4 本章小结 33-34 第4章 关系词的自动识别 34-52 4.1 复句关系词的分类 34-35 4.2 搭配关系下自动标识准关系词的方法 35-42 4.2.1 自动标识方法的原理 35-36 4.2.2 自动标识方法的简单概括 36-37 4.2.3 基于搭配强度的关系词自动标识方法 37-42 4.3 实验设计及其结果 42-50 4.3.1 例句演示 43-48 4.3.2 整体实验 48-50 4.4 本章小结 50-52 第5章 总结与展望 52-54 5.1 全文总结 52-53 5.2 研究展望 53-54 参考文献 54-57 硕士期间参加的科研项目和研究成果 57-58 致谢 58
|
相似论文
- 日语谚语的结构与语义,H36
- 现代汉语条件范畴研究,H146
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于MMTD的模糊语义量化研究,TP18
- 汉越让步复句对比及越南学生学习汉语步复句偏误分析,H44;H195
- 中韩多重复句翻译研究,H55
- 汉语和老挝语句法比较研究,H411
- 现代汉语假设复句语用研究,H13
- 条件复句分类研究,H146
- 试论以“左”“右”引导的现代汉语并列复句,H146.3
- 句序视角下现代汉语形合目的复句研究,H146
- 汉语复句分类研究新探索,H146
- 主观性视角下的Because-因果复句多义性的研究,H314
- 汉译俄过程中单(?)复句转换研究,H35
- 对外汉语假设复句教学设计,H195
- 韩国留学生递进复句偏误研究,H195
- 今文《尚书》复句研究,H141
- 《文心雕龙》因果类复句研究,H141
- 关于英语专业学生写作中汉语复句结构影响英语复合句结构的调查研究,H319
- 汉韩目的复句对比,H55
- 汉韩让步复句对比,H55
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|