学位论文 > 优秀研究生学位论文题录展示

汉语词类划分与词性标注方法的研究

作 者: 张一哲
导 师: 曲维光
学 校: 南京师范大学
专 业: 计算机应用技术
关键词: 词类划分 词性标注 词聚类 兼类词 兼类词消歧
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 46次
引 用: 0次
阅 读: 论文下载
 

内容摘要


词类划分词性标注都是自然语言处理中重要的基础性研究课题,也是后续研究如浅层句法分析、文本分类、机器翻译等的基础。该课题的研究方法主要有三种:基于规则的方法、基于统计的方法以及两者相结合的方法。其中,基于统计的方法又分为监督学习、半监督学习和无监督学习等三种学习方式。本文主要从基于统计的角度去探索词类划分和词性标注的,主要内容如下:1、兼类词词性消歧是中文词性标注的难点之一。本文集成了支持向量机,条件随机场,最大熵等三种分类模型,对兼类词词性进行投票消歧,把得票多的词性作为该词的词性。以1998年1月份已标注《人民日报》为实验语料,对120个常见的兼类词进行开放测试,平均精度达到89.69%,取得了较好的效果。2、词类划分是指词语在语法意义上的分类,即词与词相组合的过程中所体现出来的类别。本文以句法功能信息库为蓝本,以该库中所列的14个属性为特征空间,以其中的句法功能统计数据作为特征值,并对这些空间特征进行归一化处理,利用AP算法,对它收录的3514个词进行聚类,共聚出62类,基本上把语法相同的或相似的词归为了一类。3、对词性进行聚类也是研究兼类词消歧的手段之一。本文从1998年1月份《人民日报》中抽取了12个兼类词,这些兼类词在分类时,效果不好,而且基准精度较低,区别度不大。本文利用AP聚类、k-means聚类、谱聚类等常见聚类算法;分别采用了欧氏距离、Dice系数、夹角余弦作为相似度的衡量方法;采用上下文词频作为特征,并对这些特征进行了提升、归一化等处理,然后进行聚类实验,取得了较好的实验结果。

全文目录


摘要  4-5
Abstract  5-10
第一章 引言  10-15
  1.1 词类划分的标准  10-11
    1.1.1 形态标准  10
    1.1.2 意义标准  10-11
    1.1.3 分布标准(功能标准)  11
  1.2 词性标注的研究方法  11-13
    1.2.1 基于规则的研究方法  11-12
    1.2.2 基于机器学习的研究方法  12
    1.2.3 基于规则与统计相结合的研究方法  12-13
  1.3 本文研究的意义  13-14
    1.3.1 对词类划分体系再认识的意义  13
    1.3.2 对自动标注语料库的意义  13
    1.3.3 对语言学发展的意义  13-14
    1.3.4 对自然语言应用领域研究的意义  14
  1.4 本文的章节安排  14
  1.5 本章小结  14-15
第二章 基于监督学习的兼类词消歧研究  15-22
  2.1 相关工作  15
  2.2 分类器基本原理及实验设计  15-20
    2.2.1 支持向量机  15-17
    2.2.2 条件随机场  17-18
    2.2.3 最大熵  18-19
    2.2.4 集成机制  19-20
  2.3 实验结果及分析  20-21
    2.3.1 分类的评价标准  20
    2.3.2 实验结果  20-21
    2.3.3 实验结果分析  21
  2.4 本章小结  21-22
第三章 无监督学习的相关理论与方法  22-31
  3.1 聚类  22-23
    3.1.1 聚类原理  22
    3.1.2 聚类与分类  22-23
  3.2 相似度的计算  23-24
    3.2.1 距离  23
    3.2.2 夹角余弦  23-24
    3.2.3 匹配系数和Dice系数  24
  3.3 聚类方法  24-29
    3.3.1 k-means算法  25
    3.3.2 AP聚类  25-26
    3.3.3 谱聚类算法  26-29
  3.4 聚类结果的评价指标  29-30
    3.4.1 全局精度、召回率和F值  29-30
    3.4.2 局部精度、召回率和F值的加权总和  30
  3.5 本章小结  30-31
第四章 聚类在词类划分上的应用  31-41
  4.1 词类划分的相关研究  31-32
    4.1.1 词类划分研究的历史  31-32
    4.1.2 词类划分研究的意义  32
  4.2 词类划分体系和句法功能信息库  32-34
    4.2.1 常见的词类划分体系  32
    4.2.2 句法功能信息库  32-34
  4.3 AP算法在句法功能信息库上的应用  34-37
    4.3.1 实验参数设置  34-35
    4.3.2 实验结果  35-37
  4.4 结果分析  37-40
    4.4.1 词类划分结果的评价方法  37-38
    4.4.2 实验结果分析  38-40
  4.5 本章小结  40-41
第五章 基于聚类模型的兼类词消歧  41-51
  5.1 聚类在歧义消解上的相关研究  41-42
    5.1.1 聚类在语义歧义消解上的相关研究  41
    5.1.2 聚类在词类标注上的相关研究  41-42
  5.2 实验方案  42-43
    5.2.1 实验步骤及流程  42
    5.2.2 兼类词聚类结果的评价方法  42-43
  5.3 特征选择与相似度计算  43-46
    5.3.1 特征选择方案一  43-44
    5.3.2 特征选择方案二  44-45
    5.3.3 相似度的计算  45-46
  5.4 实验结果  46-48
    5.4.1 伪兼类词实验结果  46
    5.4.2 实际兼类词实验结果  46-48
  5.5 实验结果评析  48-50
  5.6 本章小结  50-51
第六章 结语  51-54
  6.1 本文的主要工作  51-52
  6.2 未来的工作计划  52-54
参考文献  54-59
附录A:词频大于150的兼类词实验结果  59-63
附录B:北京大学计算机语言研究所的标记体系  63-65
附录C:方案二实验结果细节  65-69
附录D:在读期间发表的学术论文及科研成果  69-70
致谢  70

相似论文

  1. 《汉语水平词汇等级大纲》甲级词汇词性标注研究,H146
  2. 《现代汉语词典》(第5版)兼类词研究,H146
  3. 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
  4. 基于HMM的藏语语料库词性自动标注研究,H214
  5. 近十年我国体育学四个二级学科的研究现状与研究热点,G807.4
  6. LSA与SOM相结合的文本聚类算法应用研究,TP391.1
  7. 我国中医护理科研发展状况分析,R248
  8. 汉英机器翻译中趋向动词的处理,H315.9
  9. 面向对外汉语教学的现代汉语时间副词研究,H195
  10. 个性化RSS新闻检索系统设计与实现,TP391.3
  11. 现代汉语新词语词典研究,H164
  12. 基于查询词聚类的信息检索系统排序模型,TP391.3
  13. 线性链条件随机场训练算法优化的研究,TP181
  14. 词性标注体系对中文分词的影响,TP391.1
  15. 基于转换学习的词性标注研究,TP391.1
  16. 领域本体在中文命名实体识别中的应用研究,TP391.1
  17. 离合词离合形式的调查统计及其应用分析,H146
  18. 基于HMM的哈萨克语词性标注研究,TP391.1
  19. 词性在汉语科技文献检索中的作用与影响,G252.7
  20. 汉语新词语发现及其词性标注方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com