学位论文 > 优秀研究生学位论文题录展示

基于相对词频的相似度研究

作 者: 张妍
导 师: 孙铁利
学 校: 东北师范大学
专 业: 计算机应用技术
关键词: 分词消歧 相对词频 语义相似度 知网
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 201次
引 用: 3次
阅 读: 论文下载
 

内容摘要


在中文信息处理中,文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域,是一个非常基础而关键的问题,相似度计算的方法目前也有很多种,针对总体研究情况来看,这些方法缺乏对文本的语义分析,本文主要考虑利用知网提供的词语标注从中文语义角度计算词语相似度,从而提高相似度的精度。作为相似度研究的一个基础环节,中文自动分词处理结果的好坏直接影响最后计算结果的准确性。文章介绍中文自动分词消歧技术的相关研究背景及发展状况。文中采用以语料库为手段的相对词频语境计算模型的算法先对中文文本词语分词消歧,从歧义字段的上下文中求得消歧信息,通过计算上下文信息来达到消歧的目的,使得分词效果较以往方法得到改善。经分词消歧后得到的特征词集利用基于知网语义词典,通过计算特征词之间的语义相似度,将原有特征集经过计算后分成若干特征词集。同一特征词集中的特征词语义相似度较大,而不同特征词集的特征词语义相似度较小。在此基础上,将同一特征词集的所有特征项的特征值相加,并将特征词集中的特征项浓缩成为一个独立的特征,把该方法通过应用在文本分类实验来说明其有效性。最后文章给出中文文本分词及相似度计算的计算机系统实现过程,并以大量文本为例进行了测试,对该系统的功能模块进行尝试性的实践,取得一定的效果。实验结果表明,采用的语义相似度计算方法是行之有效的。这一课题的研究及其成果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。

全文目录


摘要  4-5
ABSTRACT  5-9
第1章 绪论  9-14
  1.1 相似度概述  9-11
    1.1.1 相似度的定义  9
    1.1.2 相似度的应用  9-10
    1.1.3 相似度研究面临的问题  10-11
  1.2 国内外相似度研究现状  11-12
    1.2.1 国外发展情况  11
    1.2.2 国内发展现状  11-12
  1.3 本文的研究内容  12-13
  1.4 本文的结构安排  13-14
第2章 语义相似度相关知识  14-21
  2.1 知网  14-17
    2.1.1 知网简介  14-15
    2.1.2 知网的特点  15-16
    2.1.3 知网的描述方法  16-17
  2.2 中文分词  17-18
    2.2.1 中文分词概念  17
    2.2.2 分词中常见问题  17-18
  2.3 歧义的解决  18-20
    2.3.1 歧义字段类型  18-19
    2.3.2 交集型歧义字段切分方法  19
    2.3.3 组合型歧义字段的切分方法  19-20
  2.4 本章小结  20-21
第3章 关键技术概述  21-29
  3.1 语境计算模型  21-22
  3.2 本文采用的歧义识别算法  22-24
    3.2.1 相对词频语境计算模型  22
    3.2.2 相对词频语境计算的统计学模型简介  22-23
    3.2.3 相对词频语境计算模型的消歧过程  23-24
  3.3 本文采用的知网相似度计算  24-28
    3.3.1 义原的层次结构  24-25
    3.3.2 知网语义相似度计算方法  25-28
  3.4 本章小结  28-29
第4章 系统的设计与实现  29-40
  4.1 系统的基本思想  29
  4.2 系统组成模块  29-30
  4.3 系统实现  30-35
    4.3.1 程序设计工具  30
    4.3.2 相对词频分词消歧的实现  30-32
    4.3.3 文本特征词的提取与降维  32-33
    4.3.4 词语相似度计算实现  33-35
  4.4 实验数据及结果  35-40
    4.4.1 实验评估方法  35
    4.4.2 实验数据及实验结果  35-38
    4.4.3 与经典实验结果对比分析  38-40
第5章 结束语  40-42
  5.1 总结  40
  5.2 需要未来完善的工作  40-41
  5.3 今后工作的展望  41-42
参考文献  42-45
致谢  45-46
在学期间公开发表论文及著作情况  46

相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. WordNet和《中国分类主题词表》的映射研究,G254
  3. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  4. 基于链接重要性的动态链接预测算法研究,TP393.03
  5. 基于本体的智能电网知识检索系统,TM76
  6. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  7. 蛋白质关系网络复合物发现与可视化研究,TP391.41
  8. 基于本体和SWRL推理的知识检索方法研究,TP391.3
  9. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  10. 基于概念集合的网页内容过滤方法的研究,TP393.092
  11. 基于语义分析的推荐算法在RSS网络信息服务中的研究,TP393.09
  12. 基于语义的单文档自动摘要研究,TP391.1
  13. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  14. 汉语语义依存分析研究,TP391.1
  15. 交互式问答系统中的省略恢复研究,TP391.1
  16. 基于BP神经网络的本体映射方法研究,TP311.52
  17. 基于HowNet的中文语义倾向性分析技术研究,TP391.1
  18. 基于语义理解的论文相似度研究,TP391.1
  19. CNKI文献关联推荐用户选择行为的实验研究,G354
  20. 大规模汉语语义词典构建,TP391.1
  21. 基于Hownet的汽车领域产品评论挖掘方法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com