学位论文 > 优秀研究生学位论文题录展示

利用IRF模型丰富文档的语义代表

作 者: 成少梅
导 师: 陈盛双
学 校: 武汉理工大学
专 业: 应用数学
关键词: 数据挖掘 文档代表 关键字 图书管理 Web2.0
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 8次
引 用: 0次
阅 读: 论文下载
 

内容摘要


Web文本挖掘是发现文本中所包含的内容和意义的过程,在Web信息源爆炸式增长的同时,电子图书数据库中的数据也以很快的速度不断的扩大。电子图书管理的主要任务是使用户快速准确得找到满意的文档。虽然每篇文档中的信息都以不同的权重诠释着文档的主题,但用户想得到的一定是与查询词最相关的文档,所以在不损失文档信息的基础上选择合适的文档代表词无疑增强了文档的检索和分类效果。但以前优化文档代表词的方法集中于优化文章中出现的词条,忽略了文档之间的相关性。用户输入的关键词只有完全匹配时,检索系统才会返回文档中包含此关键词的结果。关键词都是学术性比较强的词并且数量很少,对于一个初学者而言,他很难找到准确的查询词,所以不能很快的搜索到满意的答案。为了突破这个瓶颈,降低查询的门榄,本文引入IRF (Iterative Reinforce-ment Framework)模型,但是该模型的实验背景是delicious网站,该网站充分利用Web2.0的核心理念,使登录该网站的用户对自己感兴趣的网站或者文章用语义浓缩的词条作为标签。这些标签就像文档的关键字一样,可以对图书进行主题标引,但不同的是这些标签由自由平等的网站参与者共同构建,而不仅仅限于作者本人,这些标签无疑丰富了文档的语义信息,并且标签是链接相关文档的语义桥梁,改变了以往文档之间相互独立的现状。IRF模型首先利用TRIDF算法算出文档的初始代表词,然后迭代产生与文档相关的其他文档中的相关词条,这样极大的丰富了文档的代表词,增大了文档的检索范围。为了得到更好的结果,本文将Web2.0的技术理念引入图书管理中,并基于这样的假设阐述自己的观点。现阶段的图书检索系统仅仅向用户推荐几篇与文档相似的文档,是一种相对静态的检索系统,不能使用户与用户之间得到很好的互动。一个用户对文档的阅读心得即不能得到有效的储存更得不到分享,这样造成了极大的资源浪费。本文将Web2.0中的核心理念引入图书管理中,在用户之间建立互动平台,使用户不仅可以用标签标注自己感兴趣的内容和网站而且可以记录自己的阅读心得等,这样其他用户就可以通过阅读他人的心得来判别该文章的大意,有效的节约时间。

全文目录


中文摘要  4-5
Abstract  5-8
第一章 引言  8-14
  1.1 研究意义和背景  8-9
  1.2 研究现状及存在的问题  9-12
    1.2.1 文本的特征项提取的现状和存在的问题  9-11
    1.2.2 文本表示模型的研究现状  11-12
  1.3 论文组织结构  12
  1.4 本文的内容安排  12-14
第二章社区以及Web2.0的介绍  14-19
  2.1 社区以及虚拟社区的介绍  14-15
  2.2 Web2.0的概述  15-17
    2.2.1 语义网的介绍  15-16
    2.2.2 Web2.0的定义  16-17
  2.3 网页的批注的概述  17-19
第三章 文本分类技术概述  19-32
  3.1 文档的预处理  19-20
  3.2 文档的自动分类  20-32
    3.2.1 文本自动分类的概念  20-21
    3.2.2 文本表示模型  21-28
    3.2.3 特征降维  28-32
第四章 实验分析  32-42
  4.1 实验过程分析  32-42
第五章 工作总结与展望  42-43
  5.1 研究工作与成果  42
  5.2 工作展望  42-43
攻读硕士学位期间发表或录用的学术论文  43-44
致谢  44-45
参考文献  45-47

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Web2.0下的网络隐私权与个人数据保护研究,G350
  5. Bicluster数据分析软件设计与实现,TP311.52
  6. 基于变异粒子群的聚类算法研究,TP18
  7. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  8. 基于遗传算法和粗糙集的聚类算法研究,TP18
  9. 基于数据挖掘的税务稽查选案研究,F812.42
  10. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  11. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  12. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  13. 高校图书馆学科型服务体系构建的研究,G258.6
  14. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  15. 教学质量评估数据挖掘系统设计与开发,TP311.13
  16. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  17. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  18. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  19. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  20. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  21. 高校毕业生就业状况监测系统研究,G647.38

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com