学位论文 > 优秀研究生学位论文题录展示

基于林业主题词表语义关系网的文献聚类

作 者: 李力人
导 师: 王建新
学 校: 北京林业大学
专 业: 计算机应用技术
关键词: 主题词表 文献聚类 相似度 林业
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 60次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文尝试从本体语义的角度,通过使用本体语义知识来改进文献相似性测度,从而将本体语义与文献聚类相结合,目的是为了提高文献的聚类效果。为此本文提出了一种基于主题词表的文献聚类的实现方法,其中主题词表是一种本体。该方法首先通过使用主题词表对文献集合进行特征提取,并使用TF-IDF (Term Frequency-Inverse Document Frequency)对文献进行表示。然后,根据主题词的语义关系计算主题词之间的相似度。接着,通过结合TF-IDF和主题词之间的语义相似度,进一步得到文献之间的相似度。最后,使用K-means算法对文献集合进行聚类。在本文中,对文献聚类中所涉及的关键技术,包括向量空间模型(Vector Space Model)、特征提取和特征词之间的相似度计算和文献之间的相似度计算进行研究和探讨。本文中的实验构建在林业汉英拉主题词表和中国林业科技论文库的数据基础上并与未使用主题词表的文献聚类方法作为实验结果的比较。实验结果表明,与未使用主题词表的文献聚类方法相比,基于主题词表的聚类算法在文献聚类上有明显的提高。

全文目录


摘要  3-4
ABSTRACT  4-7
1 引言  7-11
  1.1 论文的研究背景  7-8
  1.2 论文的研究意义  8-9
  1.3 论文的研究内容和研究方法  9
  1.4 论文的组织结构  9-11
2 文献聚类的总体设计  11-13
3 主题词表  13-19
  3.1 主题词和主题词表  13
  3.2 主题词间的语义关系  13-14
  3.3 语义网络  14-15
  3.4 主题词及语义网示例  15-18
  3.5 本章小结  18-19
4 特征提取及文本表示模块  19-35
  4.1 特征词  19-20
  4.2 特征提取  20-30
    4.2.1 基本理论  20-21
    4.2.2 分词算法  21-23
    4.2.3 词典查询方法  23-25
    4.2.4 技术框架  25-26
    4.2.5 语言处理流程  26-27
    4.2.6 模块流程设计总结  27-30
  4.3 文本表示  30-34
    4.3.1 基本理论  30-31
    4.3.2 TF-IDF  31-33
    4.3.3 模块流程设计总结  33-34
  4.4 本章小结  34-35
5 相似度计算模块  35-42
  5.1 主题词间的相似度计算  35-40
    5.1.1 相似度计算概述  35-36
    5.1.2 相似度算法设计  36-38
    5.1.3 相似度算法实现  38-40
  5.2 文献间的相似度计算  40-41
  5.3 本章小结  41-42
6 文献聚类模块  42-47
  6.1 文献聚类算法介绍  42-44
    6.1.1 层次聚类算法  42
    6.1.2 分割聚类算法  42-43
    6.1.3 基于密度的聚类方法  43
    6.1.4 网络聚类算法  43
    6.1.5 基于模型类方法  43-44
  6.2 文献聚类算法选择  44-45
  6.3 聚类质量评测  45-46
  6.4 本章小结  46-47
7 实验  47-50
  7.1 实验数据  47-48
  7.2 结果及分析  48-50
8 结论  50-51
参考文献  51-53
个人简介  53-54
导师简介  54-55
获得成果目录清单  55-56
致谢  56

相似论文

  1. 基于句法特征的代词消解方法研究,TP391.1
  2. 多邮件自动文摘的关键技术研究,TP391.1
  3. 基于相似度计算的编程题自动评判方法研究,TP312.1
  4. 崇明县城市林业的现状调查和发展趋势分析研究,F326.2
  5. 山东沿海防护林法律保护问题研究,D922.63
  6. Delicious中文标签与汉语主题词表的结合研究,G254.2
  7. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  8. 智能答疑系统中句子相似度计算的研究与应用,TP391.1
  9. 基于WebGIS的大兴安岭地区林业信息查询系统设计与实现,TP311.52
  10. 沈阳市林业局创建学习型机关研究,F326.2
  11. 知识文档的语义检索方法研究与实现,TP391.3
  12. 林业企业信息系统综合评价模型研究,F326.25
  13. 南方红壤丘陵区林业非点源污染特征研究,X52
  14. 埃塞俄比亚提格雷土地荒漠化综合防治研究,X171
  15. 农区集体林权制度改革研究,F326.2
  16. 森林伦理初探,F316.2
  17. 吉林省林业产业化发展路径研究,F326.2
  18. 生态文明视野下林业行政执法体制研究,F326.2
  19. “一村一品”在陕西林业国际合作项目中的推广与应用,F326.2
  20. 湖南省林业产业结构优化及调整对策研究,F326.2
  21. 信阳市现代林业发展水平评价,F326.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com