学位论文 > 优秀研究生学位论文题录展示
基于规则与统计的语气词用法自动识别研究
作 者: 周溢辉
导 师: 穆玲玲;昝红英
学 校: 郑州大学
专 业: 计算机系统结构
关键词: 自然语言处理 语气词用法自动识别 错误驱动 条件随机场 规则与统计结合
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 25次
引 用: 1次
阅 读: 论文下载
内容摘要
现代汉语语气词用法的自动识别研究是面向自然语言处理的现代汉语语气词知识库的重要内容之一,本文试图采用统计与规则相结合的方式进行现代汉语语气词用法的自动识别。首先构建了现代汉语语气词用法词典,在确定收词原则时,研究了基于主观认知的语气词和助词区分问题。其次进行了基于规则的现代汉语语气词用法的自动识别,创建了语气词用法规则库。由于人工总结的规则具有局限性,因此又研究了基于错误驱动的语气词用法规则自动提取算法。对于规则识别不好的词语,尝试了基于统计的语气词用法识别。最后结合统计方法与规则方法获取语气词用法自动识别的准确率。实验数据表明,使用统计与规则相结合的方法能使语气词用法的自动识别取得较好的效果。本文的主要工作包括:(1)构建了现代汉语语气词用法词典,确定了语气词用法词典的收词原则,并研究了基于主观认知的现代汉语语气词和助词区分问题。(2)构建了语气词用法规则库,在《人民日报》语料上初步完成了基于规则的语气词用法自动识别。(3)研究了语气词用法在多种语料库中的识别问题,从多种语料库中的语气词实际用法入手,修改和完善了语气词用法词典和语气词用法规则库。(4)研究了基于错误驱动的语气词“了”的规则自动提取算法。在使用人工书写的规则识别语气词用法的基础上,通过研究识别错误句子和正确标注句子之间的关系,自动获得新的规则集。(5)采用基于统计的方法进行语气词用法的自动识别,进一步提高语气词用法自动识别的准确率。(6)对基于规则和基于统计方法的结合进行了初步探讨,将用法识别准确率最高的模型作为该语气词用法自动识别的分类器。最后总结了本文的工作,指出了下一步的研究,提出了基于语气词用法的可行性应用前景。
|
全文目录
摘要 4-5 ABSTRACT 5-6 目录 6-9 1 引言 9-14 1.1 研究意义 9-11 1.2 研究背景 11-12 1.3 相关研究 12-13 1.4 论文组织框架 13-14 2 现代汉语语气词用法词典 14-19 2.1 语气词用法词典的构建 14-16 2.2 基于主观认知的语气词和助词区分问题 16-18 2.2.1 语气词和助词的区分原则 16-17 2.2.2 易混淆常用词语的语、助归属划分 17-18 2.3 本章小结 18-19 3 基于规则的现代汉语语气词用法自动识别 19-43 3.1 现代汉语语气词用法规则库及基于规则的自动识别 19-28 3.1.1 现代汉语语气词用法规则库 19-20 3.1.2 现代汉语语气词用法语料库 20-22 3.1.3 基于规则的语气词用法识别 22-28 3.2 面向多种语料的语气词用法规则问题研究 28-37 3.2.1 语料预处理 28-30 3.2.2 不同语料库的语气词识别 30-31 3.2.3 语气词词典及规则库的完善 31-35 3.2.4 基于新规则的语气词用法识别 35-37 3.3 基于错误驱动的语气词"了"的用法规则自动提取研究 37-42 3.3.1 基于错误驱动的规则自动改进算法 37-41 3.3.2 实验结果及分析 41-42 3.4 本章小结 42-43 4 基于统计的现代汉语语气词用法自动识别 43-53 4.1 模型简介及特征选取 43-44 4.1.1 CRF模型 43 4.1.2 特征选取 43-44 4.2 实验结果 44-52 4.2.1 实验环境 44-46 4.2.2 实验结果及分析 46-52 4.3 本章小结 52-53 5 规则与统计相结合的语气词用法自动识别方法初探 53-61 5.1 规则与统计方法的比较 53-58 5.1.1 统计方法的优点 53-56 5.1.2 规则方法的优点 56-58 5.2 基于规则的统计模型特征选取和窗口大小设置 58-59 5.3 语气词的用法识别分类器 59-60 5.4 本章小结 60-61 6 结论与展望 61-63 6.1 结论 61 6.2 展望 61-63 参考文献 63-66 附录 66-68 个人简历 在学期间发表的学术论文及研究成果 68-69 致谢 69-70
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于条件随机场的RNA二级结构预测算法,R346
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
- 中文命名实体识别与歧义消解研究,TP391.1
- 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
- 面向自然语言处理的汉语句子语义知识库构建研究,H13
- 筛选规则智能化生成的研究与设计,TP393.08
- 基于统计NLP技术的甲骨卜辞的分析研究,TP391.1
- 中文命名实体识别及若干相关问题的研究,TP391.41
- 面向网络知识服务的医疗信息分类方法,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|