学位论文 > 优秀研究生学位论文题录展示
汉语词类划分与词性标注方法的研究
作 者: 张一哲
导 师: 曲维光
学 校: 南京师范大学
专 业: 计算机应用技术
关键词: 词类划分 词性标注 词聚类 兼类词 兼类词消歧
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 46次
引 用: 0次
阅 读: 论文下载
内容摘要
词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种:基于规则的方法、基于统计的方法以及两者相结合的方法。其中,基于统计的方法又分为监督学习、半监督学习和无监督学习等三种学习方式。本文主要从基于统计的角度去探索词类划分和词性标注的,主要内容如下:1、兼类词词性消歧是中文词性标注的难点之一。本文集成了支持向量机,条件随机场,最大熵等三种分类模型,对兼类词词性进行投票消歧,把得票多的词性作为该词的词性。以1998年1月份已标注《人民日报》为实验语料,对120个常见的兼类词进行开放测试,平均精度达到89.69%,取得了较好的效果。2、词类划分是指词语在语法意义上的分类,即词与词相组合的过程中所体现出来的类别。本文以句法功能信息库为蓝本,以该库中所列的14个属性为特征空间,以其中的句法功能统计数据作为特征值,并对这些空间特征进行归一化处理,利用AP算法,对它收录的3514个词进行聚类,共聚出62类,基本上把语法相同的或相似的词归为了一类。3、对词性进行聚类也是研究兼类词消歧的手段之一。本文从1998年1月份《人民日报》中抽取了12个兼类词,这些兼类词在分类时,效果不好,而且基准精度较低,区别度不大。本文利用AP聚类、k-means聚类、谱聚类等常见聚类算法;分别采用了欧氏距离、Dice系数、夹角余弦作为相似度的衡量方法;采用上下文词频作为特征,并对这些特征进行了提升、归一化等处理,然后进行聚类实验,取得了较好的实验结果。
|
全文目录
摘要 4-5 Abstract 5-10 第一章 引言 10-15 1.1 词类划分的标准 10-11 1.1.1 形态标准 10 1.1.2 意义标准 10-11 1.1.3 分布标准(功能标准) 11 1.2 词性标注的研究方法 11-13 1.2.1 基于规则的研究方法 11-12 1.2.2 基于机器学习的研究方法 12 1.2.3 基于规则与统计相结合的研究方法 12-13 1.3 本文研究的意义 13-14 1.3.1 对词类划分体系再认识的意义 13 1.3.2 对自动标注语料库的意义 13 1.3.3 对语言学发展的意义 13-14 1.3.4 对自然语言应用领域研究的意义 14 1.4 本文的章节安排 14 1.5 本章小结 14-15 第二章 基于监督学习的兼类词消歧研究 15-22 2.1 相关工作 15 2.2 分类器基本原理及实验设计 15-20 2.2.1 支持向量机 15-17 2.2.2 条件随机场 17-18 2.2.3 最大熵 18-19 2.2.4 集成机制 19-20 2.3 实验结果及分析 20-21 2.3.1 分类的评价标准 20 2.3.2 实验结果 20-21 2.3.3 实验结果分析 21 2.4 本章小结 21-22 第三章 无监督学习的相关理论与方法 22-31 3.1 聚类 22-23 3.1.1 聚类原理 22 3.1.2 聚类与分类 22-23 3.2 相似度的计算 23-24 3.2.1 距离 23 3.2.2 夹角余弦 23-24 3.2.3 匹配系数和Dice系数 24 3.3 聚类方法 24-29 3.3.1 k-means算法 25 3.3.2 AP聚类 25-26 3.3.3 谱聚类算法 26-29 3.4 聚类结果的评价指标 29-30 3.4.1 全局精度、召回率和F值 29-30 3.4.2 局部精度、召回率和F值的加权总和 30 3.5 本章小结 30-31 第四章 聚类在词类划分上的应用 31-41 4.1 词类划分的相关研究 31-32 4.1.1 词类划分研究的历史 31-32 4.1.2 词类划分研究的意义 32 4.2 词类划分体系和句法功能信息库 32-34 4.2.1 常见的词类划分体系 32 4.2.2 句法功能信息库 32-34 4.3 AP算法在句法功能信息库上的应用 34-37 4.3.1 实验参数设置 34-35 4.3.2 实验结果 35-37 4.4 结果分析 37-40 4.4.1 词类划分结果的评价方法 37-38 4.4.2 实验结果分析 38-40 4.5 本章小结 40-41 第五章 基于聚类模型的兼类词消歧 41-51 5.1 聚类在歧义消解上的相关研究 41-42 5.1.1 聚类在语义歧义消解上的相关研究 41 5.1.2 聚类在词类标注上的相关研究 41-42 5.2 实验方案 42-43 5.2.1 实验步骤及流程 42 5.2.2 兼类词聚类结果的评价方法 42-43 5.3 特征选择与相似度计算 43-46 5.3.1 特征选择方案一 43-44 5.3.2 特征选择方案二 44-45 5.3.3 相似度的计算 45-46 5.4 实验结果 46-48 5.4.1 伪兼类词实验结果 46 5.4.2 实际兼类词实验结果 46-48 5.5 实验结果评析 48-50 5.6 本章小结 50-51 第六章 结语 51-54 6.1 本文的主要工作 51-52 6.2 未来的工作计划 52-54 参考文献 54-59 附录A:词频大于150的兼类词实验结果 59-63 附录B:北京大学计算机语言研究所的标记体系 63-65 附录C:方案二实验结果细节 65-69 附录D:在读期间发表的学术论文及科研成果 69-70 致谢 70
|
相似论文
- 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
- 《现代汉语词典》(第5版)兼类词研究,H146
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
- 基于HMM的藏语语料库词性自动标注研究,H214
- 近十年我国体育学四个二级学科的研究现状与研究热点,G807.4
- LSA与SOM相结合的文本聚类算法应用研究,TP391.1
- 我国中医护理科研发展状况分析,R248
- 汉英机器翻译中趋向动词的处理,H315.9
- 面向对外汉语教学的现代汉语时间副词研究,H195
- 个性化RSS新闻检索系统设计与实现,TP391.3
- 现代汉语新词语词典研究,H164
- 基于查询词聚类的信息检索系统排序模型,TP391.3
- 线性链条件随机场训练算法优化的研究,TP181
- 词性标注体系对中文分词的影响,TP391.1
- 基于转换学习的词性标注研究,TP391.1
- 领域本体在中文命名实体识别中的应用研究,TP391.1
- 离合词离合形式的调查统计及其应用分析,H146
- 基于HMM的哈萨克语词性标注研究,TP391.1
- 词性在汉语科技文献检索中的作用与影响,G252.7
- 汉语新词语发现及其词性标注方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|