学位论文 > 优秀研究生学位论文题录展示

无监督的中文语义词提取技术研究

作 者: 吴庆耀
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 中文语义词提取 无监督语义词提取 PAT-tree
分类号: H08
类 型: 硕士论文
年 份: 2009年
下 载: 7次
引 用: 0次
阅 读: 论文下载
 

内容摘要


基于词典的中文分词程序不能正确划分文本中包含的新词(词典中没有涵括的词)。如果需要处理的中文文本中包含很多新词,基于词典的分词效果并不理想。从文本中自动提取语义词,从中识别新词,用于扩充词典,是解决新词问题提高分词正确性的有效方法。基于统计的语义词提取方法可以分为有监督和无监督两大类,,有监督的方法依赖一个已经正确分词好的训练语料库,但是准备训练语料库需要耗费大量时间。相反,无监督的方法不需要训练语料库,而是使用一个语义度量准则(goodness measure)衡量一个候选词是一个语义词的可能性大小。本文研究无监督的中文语义词提取技术,提出了两种新的语义度量准则,重叠变化准则(overlap variety)和重叠评估准则(overlap estimation)。该准则可以解释为“如果候选词是语义词的可能性比它的重叠字符串高,那么候选词很可能是一个有语义的词”。另一种语义度量准则,重叠评估,用于衡量一个候选词包含粘合字的可能性大小。粘合字是经常挨在一个语义词的词首或词尾的单字词,但是粘合字与语义词组成的复合词是无语义的。另外,本文介绍了如何构建文本集的PAT-tree数据结构辅助语义词提取,减少语义词提取算法的时间复杂度。当文档集很大的时候,对文本集构建PAT-tree需要耗费很长的时间。本章提出一种基于多PAT-tree的语义词提取方法,该方法采用分而治之的思想,将文本集分割成n份,独立地建立n棵PAT-tree,并行地提取语义词,极大地减少了构建PAT-tree和提取语义词的时间复杂度。更加适合于在线的互联网应用。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-16
  1.1 课题背景  9-10
  1.2 国内外相关研究和综述  10-13
    1.2.1 语义词提取技术研究现状  10-12
    1.2.2 语义词提取应用研究现状  12-13
  1.3 研究问题的定义  13
  1.4 本文研究内容  13-14
  1.5 本文的结构安排  14-16
第2章 语义词提取问题与相关概念  16-20
  2.1 引言  16
  2.2 语义词提取相关概念  16-18
    2.2.1 候选词的定义  16
    2.2.2 语义词的定义  16-17
    2.2.3 重叠字符串的定义  17-18
  2.3 语义词提取问题  18-19
  2.4 本章小结  19-20
第3章 基于单 PAT-tree 的语义词提取方法  20-41
  3.1 引言  20
  3.2 基于重叠字符串模型的语义度量准则  20-29
    3.2.1 重叠变化度量准则  20-23
    3.2.2 重叠评估度量准则  23-25
    3.2.3 语义词提取算法  25-29
  3.3 基于单PAT-tree的语义词提取算法  29-33
    3.3.1 PAT-tree数据结构  29-31
    3.3.2 基于单PAT tree的语义词提取算法  31-33
  3.4 实验分析  33-40
    3.4.1 数据集和性能评估方法  33-34
    3.4.2 阀值比较实验  34-35
    3.4.3 比较实验  35-40
  3.5 本章小结  40-41
第4章 基于多PAT-tree的语义词提取方法  41-49
  4.1 引言  41-42
  4.2 基于多PAT-tree的语义词提取算法  42-45
    4.2.1 多PAT-tree语义词提取框架  42
    4.2.2 简化的重叠变化度量准则  42-44
    4.2.3 语义词筛选  44-45
  4.3 实验分析  45-48
    4.3.1 数据集的准备  46
    4.3.2 运行速度比较实验  46-47
    4.3.3 不同树频阀值实验结果分析  47-48
  4.4 本章小结  48-49
第5章 语义词提取系统  49-57
  5.1 系统设计与实现  49
    5.1.1 开发目的及意义  49
    5.1.2 开发平台及工具  49
  5.2 基于单PAT-tree的语义词提取系统总体设计  49-54
    5.2.1 数据预处理模块  51-52
    5.2.2 PAT-tree模块  52-53
    5.2.3 语义词提取模块  53-54
  5.3 基于多PAT-tree的语义词提取系统总体设计  54-56
    5.3.1 多PAT tree 模块  54-55
    5.3.2 语义词筛选模块  55-56
  5.4 本章小结  56-57
结论  57-59
参考文献  59-65
攻读学位期间发表的学术论文  65-67
致谢  67

相似论文

  1. 科技论文关键词抽取技术的研究,TP391.1
  2. 基于Web的英汉双向未登录词翻译方法研究,TP391.2
  3. 基于Web的内容挖掘技术研究,TP393.09
  4. 本体构建及其在问答系统中的应用研究,N945
  5. 新闻言语行为分析及认知识解,H08
  6. 电视节目“希望英语杂志”中语码转换的研究,H08
  7. 语言文字网络舆情基础资源建设研究,H08
  8. 《儿子与情人》中的语码转换研究,H08
  9. 儿童语言习得早期两种原言语输入材料的对比研究,H08
  10. 模因视角下的网络语言研究,H08
  11. 原型范畴理论及模因论视域下的语码混用,H08
  12. 语言接触和词汇替换,H08
  13. 家庭谈话中语码转换的社会动因案例分析,H08
  14. 女性导游语言特点个案研究,H08
  15. 呼和浩特蒙古族预科大学生的语言使用和语言态度调查,H08
  16. 命名实体与基本名词短语识别研究,H08
  17. 认知视角下商业广告语的模糊性,H08
  18. 现代汉语新词提取研究,H08
  19. 面向语言学研究的大规模汉语语料库全文检索技术与开发,H08
  20. 核等值与其它等值方法的比较研究,H08

中图分类: > 语言、文字 > 语言学 > 应用语言学
© 2012 www.xueweilunwen.com