学位论文 > 优秀研究生学位论文题录展示

基于规则与统计的语气词用法自动识别研究

作　者: 周溢辉
导　师: 穆玲玲；昝红英
学　校: 郑州大学
专　业: 计算机系统结构
关键词: 自然语言处理语气词用法自动识别错误驱动条件随机场规则与统计结合
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 25次
引　用: 1次
阅　读: 论文下载

内容摘要

现代汉语语气词用法的自动识别研究是面向自然语言处理的现代汉语语气词知识库的重要内容之一,本文试图采用统计与规则相结合的方式进行现代汉语语气词用法的自动识别。首先构建了现代汉语语气词用法词典,在确定收词原则时,研究了基于主观认知的语气词和助词区分问题。其次进行了基于规则的现代汉语语气词用法的自动识别,创建了语气词用法规则库。由于人工总结的规则具有局限性,因此又研究了基于错误驱动的语气词用法规则自动提取算法。对于规则识别不好的词语,尝试了基于统计的语气词用法识别。最后结合统计方法与规则方法获取语气词用法自动识别的准确率。实验数据表明,使用统计与规则相结合的方法能使语气词用法的自动识别取得较好的效果。本文的主要工作包括：(1)构建了现代汉语语气词用法词典,确定了语气词用法词典的收词原则,并研究了基于主观认知的现代汉语语气词和助词区分问题。(2)构建了语气词用法规则库,在《人民日报》语料上初步完成了基于规则的语气词用法自动识别。(3)研究了语气词用法在多种语料库中的识别问题,从多种语料库中的语气词实际用法入手,修改和完善了语气词用法词典和语气词用法规则库。(4)研究了基于错误驱动的语气词“了”的规则自动提取算法。在使用人工书写的规则识别语气词用法的基础上,通过研究识别错误句子和正确标注句子之间的关系,自动获得新的规则集。(5)采用基于统计的方法进行语气词用法的自动识别,进一步提高语气词用法自动识别的准确率。(6)对基于规则和基于统计方法的结合进行了初步探讨,将用法识别准确率最高的模型作为该语气词用法自动识别的分类器。最后总结了本文的工作,指出了下一步的研究,提出了基于语气词用法的可行性应用前景。

全文目录

摘要  4-5
ABSTRACT  5-6
目录  6-9
1 引言  9-14
  1.1 研究意义  9-11
  1.2 研究背景  11-12
  1.3 相关研究  12-13
  1.4 论文组织框架  13-14
2 现代汉语语气词用法词典  14-19
  2.1 语气词用法词典的构建  14-16
  2.2 基于主观认知的语气词和助词区分问题  16-18
    2.2.1 语气词和助词的区分原则  16-17
    2.2.2 易混淆常用词语的语、助归属划分  17-18
  2.3 本章小结  18-19
3 基于规则的现代汉语语气词用法自动识别  19-43
  3.1 现代汉语语气词用法规则库及基于规则的自动识别  19-28
    3.1.1 现代汉语语气词用法规则库  19-20
    3.1.2 现代汉语语气词用法语料库  20-22
    3.1.3 基于规则的语气词用法识别  22-28
  3.2 面向多种语料的语气词用法规则问题研究  28-37
    3.2.1 语料预处理  28-30
    3.2.2 不同语料库的语气词识别  30-31
    3.2.3 语气词词典及规则库的完善  31-35
    3.2.4 基于新规则的语气词用法识别  35-37
  3.3 基于错误驱动的语气词"了"的用法规则自动提取研究  37-42
    3.3.1 基于错误驱动的规则自动改进算法  37-41
    3.3.2 实验结果及分析  41-42
  3.4 本章小结  42-43
4 基于统计的现代汉语语气词用法自动识别  43-53
  4.1 模型简介及特征选取  43-44
    4.1.1 CRF模型  43
    4.1.2 特征选取  43-44
  4.2 实验结果  44-52
    4.2.1 实验环境  44-46
    4.2.2 实验结果及分析  46-52
  4.3 本章小结  52-53
5 规则与统计相结合的语气词用法自动识别方法初探  53-61
  5.1 规则与统计方法的比较  53-58
    5.1.1 统计方法的优点  53-56
    5.1.2 规则方法的优点  56-58
  5.2 基于规则的统计模型特征选取和窗口大小设置  58-59
  5.3 语气词的用法识别分类器  59-60
  5.4 本章小结  60-61
6 结论与展望  61-63
  6.1 结论  61
  6.2 展望  61-63
参考文献  63-66
附录  66-68
个人简历在学期间发表的学术论文及研究成果  68-69
致谢  69-70

基于规则与统计的语气词用法自动识别研究

内容摘要

全文目录

相似论文