学位论文 > 优秀研究生学位论文题录展示
无监督的中文语义词提取技术研究
作 者: 吴庆耀
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 中文语义词提取 无监督语义词提取 PAT-tree
分类号: H08
类 型: 硕士论文
年 份: 2009年
下 载: 7次
引 用: 0次
阅 读: 论文下载
内容摘要
基于词典的中文分词程序不能正确划分文本中包含的新词(词典中没有涵括的词)。如果需要处理的中文文本中包含很多新词,基于词典的分词效果并不理想。从文本中自动提取语义词,从中识别新词,用于扩充词典,是解决新词问题提高分词正确性的有效方法。基于统计的语义词提取方法可以分为有监督和无监督两大类,,有监督的方法依赖一个已经正确分词好的训练语料库,但是准备训练语料库需要耗费大量时间。相反,无监督的方法不需要训练语料库,而是使用一个语义度量准则(goodness measure)衡量一个候选词是一个语义词的可能性大小。本文研究无监督的中文语义词提取技术,提出了两种新的语义度量准则,重叠变化准则(overlap variety)和重叠评估准则(overlap estimation)。该准则可以解释为“如果候选词是语义词的可能性比它的重叠字符串高,那么候选词很可能是一个有语义的词”。另一种语义度量准则,重叠评估,用于衡量一个候选词包含粘合字的可能性大小。粘合字是经常挨在一个语义词的词首或词尾的单字词,但是粘合字与语义词组成的复合词是无语义的。另外,本文介绍了如何构建文本集的PAT-tree数据结构辅助语义词提取,减少语义词提取算法的时间复杂度。当文档集很大的时候,对文本集构建PAT-tree需要耗费很长的时间。本章提出一种基于多PAT-tree的语义词提取方法,该方法采用分而治之的思想,将文本集分割成n份,独立地建立n棵PAT-tree,并行地提取语义词,极大地减少了构建PAT-tree和提取语义词的时间复杂度。更加适合于在线的互联网应用。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-16 1.1 课题背景 9-10 1.2 国内外相关研究和综述 10-13 1.2.1 语义词提取技术研究现状 10-12 1.2.2 语义词提取应用研究现状 12-13 1.3 研究问题的定义 13 1.4 本文研究内容 13-14 1.5 本文的结构安排 14-16 第2章 语义词提取问题与相关概念 16-20 2.1 引言 16 2.2 语义词提取相关概念 16-18 2.2.1 候选词的定义 16 2.2.2 语义词的定义 16-17 2.2.3 重叠字符串的定义 17-18 2.3 语义词提取问题 18-19 2.4 本章小结 19-20 第3章 基于单 PAT-tree 的语义词提取方法 20-41 3.1 引言 20 3.2 基于重叠字符串模型的语义度量准则 20-29 3.2.1 重叠变化度量准则 20-23 3.2.2 重叠评估度量准则 23-25 3.2.3 语义词提取算法 25-29 3.3 基于单PAT-tree的语义词提取算法 29-33 3.3.1 PAT-tree数据结构 29-31 3.3.2 基于单PAT tree的语义词提取算法 31-33 3.4 实验分析 33-40 3.4.1 数据集和性能评估方法 33-34 3.4.2 阀值比较实验 34-35 3.4.3 比较实验 35-40 3.5 本章小结 40-41 第4章 基于多PAT-tree的语义词提取方法 41-49 4.1 引言 41-42 4.2 基于多PAT-tree的语义词提取算法 42-45 4.2.1 多PAT-tree语义词提取框架 42 4.2.2 简化的重叠变化度量准则 42-44 4.2.3 语义词筛选 44-45 4.3 实验分析 45-48 4.3.1 数据集的准备 46 4.3.2 运行速度比较实验 46-47 4.3.3 不同树频阀值实验结果分析 47-48 4.4 本章小结 48-49 第5章 语义词提取系统 49-57 5.1 系统设计与实现 49 5.1.1 开发目的及意义 49 5.1.2 开发平台及工具 49 5.2 基于单PAT-tree的语义词提取系统总体设计 49-54 5.2.1 数据预处理模块 51-52 5.2.2 PAT-tree模块 52-53 5.2.3 语义词提取模块 53-54 5.3 基于多PAT-tree的语义词提取系统总体设计 54-56 5.3.1 多PAT tree 模块 54-55 5.3.2 语义词筛选模块 55-56 5.4 本章小结 56-57 结论 57-59 参考文献 59-65 攻读学位期间发表的学术论文 65-67 致谢 67
|
相似论文
- 科技论文关键词抽取技术的研究,TP391.1
- 基于Web的英汉双向未登录词翻译方法研究,TP391.2
- 基于Web的内容挖掘技术研究,TP393.09
- 本体构建及其在问答系统中的应用研究,N945
- 新闻言语行为分析及认知识解,H08
- 电视节目“希望英语杂志”中语码转换的研究,H08
- 语言文字网络舆情基础资源建设研究,H08
- 《儿子与情人》中的语码转换研究,H08
- 儿童语言习得早期两种原言语输入材料的对比研究,H08
- 模因视角下的网络语言研究,H08
- 原型范畴理论及模因论视域下的语码混用,H08
- 语言接触和词汇替换,H08
- 家庭谈话中语码转换的社会动因案例分析,H08
- 女性导游语言特点个案研究,H08
- 呼和浩特蒙古族预科大学生的语言使用和语言态度调查,H08
- 命名实体与基本名词短语识别研究,H08
- 认知视角下商业广告语的模糊性,H08
- 现代汉语新词提取研究,H08
- 面向语言学研究的大规模汉语语料库全文检索技术与开发,H08
- 核等值与其它等值方法的比较研究,H08
中图分类: > 语言、文字 > 语言学 > 应用语言学
© 2012 www.xueweilunwen.com
|