学位论文 > 优秀研究生学位论文题录展示

关联规则挖掘算法在web日志挖掘中的应用研究

作 者: 付利红
导 师: 石冰
学 校: 山东大学
专 业: 计算机软件与理论
关键词: Web数据挖掘 Web日志挖掘 关联规则挖掘 Apriori Eclat
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 68次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着网络在人们日常生活中的普及,越来越多的机构、团体和个人在Internet上发布和搜寻信息,使得Web上储存了海量的数据,这些数据为数据挖掘提供了丰富的资源。另一方面,Web数据的一些特性也对数据挖掘提出了巨大的挑战,这些挑战推动了数据挖掘技术在Web数据上的应用研究,即Web数据挖掘。Web数据挖掘是指利用数据挖掘或机器学习的方法从Web上大量的数据资源中发现有用知识。Web日志挖掘主要从web使用数据中发现使用模式,以便更好的理解用户并为基于网络的应用系统提供更好的服务。本文主要研究关联规则挖掘在Web日志挖掘中的应用。首先介绍了Web数据挖掘的含义、流程和分类。其次,本文对Web日志挖掘进行了深入的探讨,这一部分主要讨论了Web日志数据的采集和预处理的各个步骤以及各步骤常用的技术方法,另外本文还给出了Web日志模式发现过程中常用的技术以及Web日志挖掘的应用领域。之后,本文仔细研究了数据挖掘中的关联规则挖掘,文中先是给出了关联规则挖掘的基本概念,然后对两个经典算法AprioriEclat进行研究,重点给出了两个算法的思想和执行过程并分析了它们的优越性和局限性。在两个算法的分析结果上,本文给出了一个Eclat改进算法,并通过在各种数据集上的实验验证改进算法的性能,实验结果表明,本文给出的Eclat改进算法对稀疏数据集有较为理想的改进。最后,本文基于Web日志挖掘理论和关联规则挖掘算法给出了一个基于关联规则挖掘算法的Web日志挖掘原型系统的实现,并利用该系统对NASA HTTP数据集进行了挖掘。

全文目录


摘要  8-9
ABSTRACT  9-11
第1章 绪论  11-17
  1.1 研究背景及意义  11-12
  1.2 国内外研究现状  12-15
  1.3 本文研究内容和结构安排  15-17
第2章 Web数据挖掘Web日志挖掘  17-31
  2.1 Web数据挖掘的含义  17-18
  2.2 Web数据挖掘的分类  18-19
  2.3 Web日志挖掘  19-31
    2.3.1 数据收集和预处理  20-26
      2.3.1.1 数据源及数据收集  20-22
      2.3.1.2 数据预处理  22-26
    2.3.2 模式发现及所用技术  26-28
    2.3.3 模式分析  28-29
    2.3.4 Web日志挖掘的应用  29-31
第3章 关联规则挖掘算法研究  31-47
  3.1 关联规则挖掘  31-32
    3.1.1 相关概念  31-32
    3.1.2 挖掘步骤  32
  3.2 Apriori算法研究  32-37
    3.2.1 Apriori算法思想  32-33
    3.2.2 Apriori算法实现  33-36
    3.2.3 Apriori算法的局限  36-37
  3.3 Eclat算法研究  37-39
  3.4 Eclat改进算法  39-47
    3.4.1 Eclat算法的局限  39-40
    3.4.2 Eclat改进算法  40-43
    3.4.3 Eclat改进算法和Eclat算法的性能对比  43-46
    3.4.4 结论  46-47
第4章 一个Web日志挖掘原型系统的实现  47-61
  4.1 开发环境与数据源  47-48
  4.2 系统设计  48-51
    4.2.1 系统总体架构  48-49
    4.2.2 主要功能  49-51
      4.2.2.1 数据预处理模块  49-51
      4.2.2.2 频繁模式挖掘模块  51
      4.2.2.3 关联规则挖掘模块  51
  4.3 系统实现  51-60
    4.3.1 数据预处理模块的实现  52-57
    4.3.2 频繁模式挖掘模块的实现  57
    4.3.3 关联规则挖掘模块的实现  57-60
  4.4 系统评价  60-61
第5章 总结  61-63
  5.1 本文所做工作  61
  5.2 展望  61-63
参考文献  63-66
致谢  66-67
攻读学位期间发表的学术论文目录  67-68
学位论文评阅及答辩情况表  68

相似论文

  1. 基于数据挖掘的税务稽查选案研究,F812.42
  2. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  3. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  4. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  5. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  6. 基于关联规则的结构化浏览技术及其应用,TP391.41
  7. 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
  8. 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
  9. 通信行为指纹研究,TP311.13
  10. 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
  11. 数据挖掘在学生评价系统中的应用,TP311.13
  12. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  13. 基于闭频繁项集的Web日志挖掘,TP393.092
  14. 关联规则在高校人力资源系统中的应用,TP311.13
  15. 并行Apriori算法的性能优化技术研究,TP311.13
  16. 基于模式识别和数据挖掘的铝工业生产节能降耗研究,TP391.41
  17. 基于少数民族汉语教学的HSK成绩多元数据挖掘应用研究,TP311.13
  18. 数据挖掘中的关联规则挖掘算法研究,TP311.13
  19. 基于垂直数据布局的关联规则挖掘算法研究,TP311.13
  20. Web数据挖掘在个性化服务中的应用研究,TP311.13
  21. 数据挖掘技术在出租车交通事故分析中的应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com