学位论文 > 优秀研究生学位论文题录展示

词义消歧语料库自动获取方法研究

作 者: 郭宇航
导 师: 刘挺
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 自然语言处理 词义消歧 语言模型 点互信息
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 90次
引 用: 0次
阅 读: 论文下载
 

内容摘要


一词多义现象给计算机对自然语言的处理带来了许多困难,有不少自然语言理解领域的问题归根到底是解决词语歧义的问题。从人们最初注意到歧义的影响至今已经过去了60多个年头,在这段时间里,学术界提出了许多词义消歧的方法。随着计算机处理大规模文本能力的日益增强,采用有指导机器学习方法的词义消歧以其突出的高准确率逐渐成为了主流。不过,有指导方法依赖于足够的训练语料。而这些语料的人工标注费时费力,且难以保证一致性。由训练语料不足导致的数据稀疏问题限制了有指导方法的推广。于是,一些以自动获取训练语料为目的的研究因而展开,其中使用同义词扩展训练语料的方法用到的资源代价较低,可扩展性较好。但是,经过实验发现,用这种方法获取的语料噪声较大,偏置较高。为此,本文以解决如何有效自动获取训练语料的问题为着眼点,提出先扩展再验证的两阶段策略,通过验证过程消除扩展训练语料中的噪声。这里着重探讨基于语言模型和基于点互信息的两种方式对扩展语料质量的验证能力。为了后面的对比实验,文章首先实现了一个基于SVM的有指导词义消歧系统。在Semeval-2007英文采样歧义词语料上的对比实验表明了使用线性核函数的SVM性能最佳。接下来利用Senseval-3中文采样歧义词评测语料和Semeval-2007英文采样歧义词评测语料中目标歧义词的同义词,分别从互联网和生语料库上获取了词义消歧的候选扩展语料,然后分别使用语言模型和点互信息方法对这些候选进行过滤,最后应用这些扩展语料于有指导系统中。实验结果显示,这两种验证方法均具有一定的筛选能力,并使系统性能得到改善。在中文评测集上,语言模型验证方法使系统的准确率从62.00%提高到63.06%,在英文评测集上,点互信息验证方法使系统准确率从88.19%提高到88.46%。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 课题背景  9
  1.2 词义消歧的发展  9-11
  1.3 词义消歧的应用  11-12
  1.4 词义消歧的基本方法  12-14
    1.4.1 基于词典的词义消歧  12-13
    1.4.2 基于有标注语料的词义消歧  13-14
    1.4.3 基于无标注语料的词义消歧  14
  1.5 本文的研究内容  14-15
第2章 基于SVM的词义消歧方法研究  15-24
  2.1 引言  15
  2.2 基于SVM的词义消歧系统  15-19
    2.2.1 问题定义  15
    2.2.2 系统结构  15-17
    2.2.3 支撑向量机的原理和实现  17
    2.2.4 特征抽取  17-19
  2.3 评测与实验结果  19-23
  2.4 本章小结  23-24
第3章 基于语言模型的词义消歧语料自动获取  24-37
  3.1 引言  24-25
  3.2 相关工作  25-26
  3.3 语言模型验证  26-29
    3.3.1 从互联网获取词义消歧语料  26-27
    3.3.2 语言模型验证  27-29
  3.4 评测的实验设置  29-31
    3.4.1 语料  29-30
    3.4.2 有指导词义消歧系统  30
    3.4.3 语言模型的实现  30-31
  3.5 实验结果  31-36
    3.5.1 基于人工标注语料的系统  31
    3.5.2 基于互联网语料的系统  31-33
    3.5.3 基于语言模型验证的系统  33-36
  3.6 本章小结  36-37
第4章 基于点互信息的词义消歧语料自动获取  37-47
  4.1 引言  37
  4.2 相关工作  37-38
  4.3 基于点互信息的验证  38-41
    4.3.1 扩展语料的获取  39
    4.3.2 点互信息  39-41
  4.4 实验设置  41-43
    4.4.1 实验数据  41-42
    4.4.2 有指导词义消歧系统  42
    4.4.3 点互信息验证的实现  42-43
  4.5 实验结果  43-46
    4.5.1 基于人工标注语料的系统  43-44
    4.5.2 基于点互信息验证语料的系统  44-46
  4.6 本章小结  46-47
结论  47-49
参考文献  49-57
攻读学位期间发表的学术论文  57-59
致谢  59

相似论文

  1. 统计机器翻译中结构转换技术的研究,TP391.2
  2. 基于属性集合的产品评论挖掘研究,F274
  3. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  4. 基于马尔可夫逻辑网络的语义角色标注,TP391.1
  5. 基于叙词表的领域本体构建方法研究,TP391.1
  6. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  7. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  8. 个性化搜索中用户语义意图自动识别技术研究,TP391.1
  9. 基于知网的汉语词义消歧方法的研究,TP391.1
  10. 基于参考文档的信息检索模型的研究,TP391.3
  11. 图像拼接关键技术研究与实现,TP391.41
  12. 面向混合嵌入式系统建模分析的软件工具链,TP311.52
  13. 基于正向最大匹配算法的优化算法ImpFMMseg的实现,TP391.1
  14. 基于GMM-UBM模型的语种识别,TN912.34
  15. 面向构件部署与配置的模型语义保障机制研究与实现,TP311.52
  16. 基于内容的网站聚类算法研究,TP393.092
  17. 基于模型驱动的动态Web服务组合方法,TP393.09
  18. UML在空调嵌入式系统开发中的应用研究,TP368.12
  19. 语句级联机手写汉字识别方法,TP391.43
  20. 面向网络知识服务的医疗信息分类方法,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com