学位论文 > 优秀研究生学位论文题录展示

基于语义距离的Web页面关键词获取研究

作 者: 石爱萍
导 师: 张再跃
学 校: 江苏科技大学
专 业: 计算机软件与理论
关键词: 语义距离 关键词获取 词共现 NGD(Normalized G oogle D istance) 聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 34次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的飞速发展和网络的普及,Web上的信息急速膨胀。如何有效地寻找并处理信息成为一项重要的研究课题。而关键词作为文档的一份简洁摘要,可以为组织、管理、检索文档提供解决方法,因此被广泛应用于信息检索和数字图书馆中。然而,Web上的大部分文档都是没有分配关键词的。考虑到手工分配关键词的耗时性,准确简便的关键词自动获取方法成为需要。本文针对这一实际展开研究,具体的研究是建立在词汇间语义关联的基础上,通过语义距离的计算,实现了一种非监督的关键词获取方法,可以方便快捷地处理大量文本,自动获取相应的关键词。本文在研究的过程中,围绕英文新闻报道的获取示例展开陈述,构建了一个基于语义距离的关键词获取系统。在具体实现中分两步,一是词汇间语义距离的计算,通过在给定的文本语义背景和词义本身两种方式来衡量词之间的语义关联度。二是语义聚类的思想,在词之间语义关联的基础上通过聚类实现文本内容的划分,再对各类别进行语义概括,最终生成文本的关键词。本文以英文的新闻报道作为测试语料,展示该方法的获取流程,并给出相应的实验数据。实验表明,作为一种非监督的方法,基于语义距离的关键词获取模型简单、易实现,可以方便有效地获取关键词。

全文目录


摘要  6-7
Abstract  7-12
第一章 绪论  12-19
  1.1 课题的研究背景  12-13
  1.2 本课题的理论基础——自然语言理解  13-16
    1.2.1 自然语言理解的概念及意义  13-14
    1.2.2 自然语言理解研究的发展  14-16
  1.3 课题的研究内容  16-17
    1.3.1 课题的主要工作  16
    1.3.2 课题涉及到的主要技术  16-17
    1.3.3 课题的特色和创新点  17
  1.4 论文的框架结构  17-19
第二章 关键词及关键词获取技术  19-28
  2.1 引言  19
  2.2 关键词  19-20
    2.2.1 关键词的概念  19-20
    2.2.2 关键词的特征  20
  2.3 关键词的获取  20-27
    2.3.1 关键词获取研究的历史和发展现状  20-23
    2.3.2 关键词获取的各种方法比较  23-25
    2.3.3 关键词获取技术的评价方法  25-27
  2.4 本章小结  27-28
第三章 语义距离  28-40
  3.1 语义距离的概念  28-29
  3.2 语义距离的计算  29-39
    3.2.1 基于WordNet 的语义距离计算  29-34
    3.2.2 词共现模型  34-36
    3.2.3 Google 相似距离(Google Similarity Distance)  36-39
  3.3 本章小结  39-40
第四章 基于语义距离的关键词获取  40-58
  4.1 KASD 系统的设计思想及框架结构  40-43
    4.1.1 KASD 系统的设计思想  40-41
    4.1.2 KASD 系统的框架结构  41-43
  4.2 信息预处理  43-48
    4.2.1 网页原始数据的采集  43-44
    4.2.2 网页文本信息的提取  44-45
    4.2.3 候选关键词的产生  45-48
  4.3 语义聚类  48-54
    4.3.1 语义距离计算一(共现距离)  48-50
    4.3.2 文本聚类算法  50-52
    4.3.3 聚类的实现  52-54
  4.4 关键词生成  54-57
    4.4.1 语义距离计算二(Google 距离)  54-56
    4.4.2 类中心的重新选取  56-57
  4.5 本章小结  57-58
第五章 基于语义距离的关键词获取系统的实现  58-65
  5.1 KASD 系统的建立  58-59
  5.2 测试语料的收集  59-60
  5.3 实验结果  60-64
  5.4 本章小结  64-65
总结与展望  65-67
参考文献  67-70
致谢  70-71
攻读硕士学位期间发表的论文  71-72
大摘要  72-77

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  20. 基于变异粒子群的聚类算法研究,TP18
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com