学位论文 > 优秀研究生学位论文题录展示

汉语词类划分与词性标注方法的研究

作　者: 张一哲
导　师: 曲维光
学　校: 南京师范大学
专　业: 计算机应用技术
关键词: 词类划分词性标注词聚类兼类词兼类词消歧
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 46次
引　用: 0次
阅　读: 论文下载

内容摘要

词类划分与词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种：基于规则的方法、基于统计的方法以及两者相结合的方法。其中,基于统计的方法又分为监督学习、半监督学习和无监督学习等三种学习方式。本文主要从基于统计的角度去探索词类划分和词性标注的,主要内容如下：1、兼类词词性消歧是中文词性标注的难点之一。本文集成了支持向量机,条件随机场,最大熵等三种分类模型,对兼类词词性进行投票消歧,把得票多的词性作为该词的词性。以1998年1月份已标注《人民日报》为实验语料,对120个常见的兼类词进行开放测试,平均精度达到89.69%,取得了较好的效果。2、词类划分是指词语在语法意义上的分类,即词与词相组合的过程中所体现出来的类别。本文以句法功能信息库为蓝本,以该库中所列的14个属性为特征空间,以其中的句法功能统计数据作为特征值,并对这些空间特征进行归一化处理,利用AP算法,对它收录的3514个词进行聚类,共聚出62类,基本上把语法相同的或相似的词归为了一类。3、对词性进行聚类也是研究兼类词消歧的手段之一。本文从1998年1月份《人民日报》中抽取了12个兼类词,这些兼类词在分类时,效果不好,而且基准精度较低,区别度不大。本文利用AP聚类、k-means聚类、谱聚类等常见聚类算法;分别采用了欧氏距离、Dice系数、夹角余弦作为相似度的衡量方法；采用上下文词频作为特征,并对这些特征进行了提升、归一化等处理,然后进行聚类实验,取得了较好的实验结果。

全文目录

摘要  4-5
Abstract  5-10
第一章引言  10-15
  1.1 词类划分的标准  10-11
    1.1.1 形态标准  10
    1.1.2 意义标准  10-11
    1.1.3 分布标准(功能标准)  11
  1.2 词性标注的研究方法  11-13
    1.2.1 基于规则的研究方法  11-12
    1.2.2 基于机器学习的研究方法  12
    1.2.3 基于规则与统计相结合的研究方法  12-13
  1.3 本文研究的意义  13-14
    1.3.1 对词类划分体系再认识的意义  13
    1.3.2 对自动标注语料库的意义  13
    1.3.3 对语言学发展的意义  13-14
    1.3.4 对自然语言应用领域研究的意义  14
  1.4 本文的章节安排  14
  1.5 本章小结  14-15
第二章基于监督学习的兼类词消歧研究  15-22
  2.1 相关工作  15
  2.2 分类器基本原理及实验设计  15-20
    2.2.1 支持向量机  15-17
    2.2.2 条件随机场  17-18
    2.2.3 最大熵  18-19
    2.2.4 集成机制  19-20
  2.3 实验结果及分析  20-21
    2.3.1 分类的评价标准  20
    2.3.2 实验结果  20-21
    2.3.3 实验结果分析  21
  2.4 本章小结  21-22
第三章无监督学习的相关理论与方法  22-31
  3.1 聚类  22-23
    3.1.1 聚类原理  22
    3.1.2 聚类与分类  22-23
  3.2 相似度的计算  23-24
    3.2.1 距离  23
    3.2.2 夹角余弦  23-24
    3.2.3 匹配系数和Dice系数  24
  3.3 聚类方法  24-29
    3.3.1 k-means算法  25
    3.3.2 AP聚类  25-26
    3.3.3 谱聚类算法  26-29
  3.4 聚类结果的评价指标  29-30
    3.4.1 全局精度、召回率和F值  29-30
    3.4.2 局部精度、召回率和F值的加权总和  30
  3.5 本章小结  30-31
第四章聚类在词类划分上的应用  31-41
  4.1 词类划分的相关研究  31-32
    4.1.1 词类划分研究的历史  31-32
    4.1.2 词类划分研究的意义  32
  4.2 词类划分体系和句法功能信息库  32-34
    4.2.1 常见的词类划分体系  32
    4.2.2 句法功能信息库  32-34
  4.3 AP算法在句法功能信息库上的应用  34-37
    4.3.1 实验参数设置  34-35
    4.3.2 实验结果  35-37
  4.4 结果分析  37-40
    4.4.1 词类划分结果的评价方法  37-38
    4.4.2 实验结果分析  38-40
  4.5 本章小结  40-41
第五章基于聚类模型的兼类词消歧  41-51
  5.1 聚类在歧义消解上的相关研究  41-42
    5.1.1 聚类在语义歧义消解上的相关研究  41
    5.1.2 聚类在词类标注上的相关研究  41-42
  5.2 实验方案  42-43
    5.2.1 实验步骤及流程  42
    5.2.2 兼类词聚类结果的评价方法  42-43
  5.3 特征选择与相似度计算  43-46
    5.3.1 特征选择方案一  43-44
    5.3.2 特征选择方案二  44-45
    5.3.3 相似度的计算  45-46
  5.4 实验结果  46-48
    5.4.1 伪兼类词实验结果  46
    5.4.2 实际兼类词实验结果  46-48
  5.5 实验结果评析  48-50
  5.6 本章小结  50-51
第六章结语  51-54
  6.1 本文的主要工作  51-52
  6.2 未来的工作计划  52-54
参考文献  54-59
附录A:词频大于150的兼类词实验结果  59-63
附录B:北京大学计算机语言研究所的标记体系  63-65
附录C:方案二实验结果细节  65-69
附录D:在读期间发表的学术论文及科研成果  69-70
致谢  70

汉语词类划分与词性标注方法的研究

内容摘要

全文目录

相似论文