学位论文 > 优秀研究生学位论文题录展示

基于数据仓库的Web日志挖掘研究与应用

作 者: 宁立
导 师: 马传香
学 校: 湖北大学
专 业: 系统分析与集成
关键词: WEB日志挖掘 数据仓库 会话识别 用户会话序列
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随着互联网技术在中国的迅猛发展,人们的日常工作和生活越来越离不开互联网,同时也促进了互联网的进一步发展,但是随之而来的是大量web数据的产生,这些数据广泛存在于web站点中,近些年来越来越多的人们关注于这些数据,希望从中获取有用的信息,比如挖掘出用户访问习惯,和一些潜在可能被大量访问的页面从而修改优化站点结构,增加访问量。数据仓库是基于关系型数据库的大量的数据存储问题而提出的一种解决方案,同时人们逐渐把数据挖掘技术与web技术进行了融合,从而产生web数据仓库和web数据挖掘技术。本文提出数据仓库技术与web日志挖掘技术相结合。首先介绍了Web数据挖掘的产生背景,系统地阐述了Web数据挖掘的思想、理论和方法,对Web日志挖掘过程及其挖掘过程中各环节的关键技术进行了深入的分析探讨,重点分析了Web日志挖掘的数据预处理技术,提出了改进的用户会话识别方法。然后提出了一种适合普遍网站的数据仓库逻辑模型,并在此逻辑模型的前提下,进一步建立相应的物理模型,使用数据预处理得出的用户会话序列作为分析的对象。最后提出改进的Apriori算法,把通过在数据仓库中进过多维分析得出的用户会话序列作为算法的数据,进行挖掘分析出用户的访问习惯,从而改进站点结构增加点击率。本文的创新如下几个方面:(1)提出了改进的用户会话识别算法,使分析出的用户会话序列更加精确。(2)将数据仓库技术引入web日志挖掘中,建立的WEB数据仓库的多维模型,实现能从多角度分析。(3)将数据仓库的分析数据设定为用户会话序列,而非单一的点击量,并且将多维分析出的用户会话序列作为用于挖掘算法的数据,挖掘出的结果更能反映用户习惯。(4)考虑到用户会话序列中的单个项比较多,如果采用关联规则中的Apriori算法,需要大量重复访问数据库,本文提出了改进的Apriori算法,在用户会话序列中的单个项比较多的情况下能够减少数据库访问次数,增加算法运行的效率。

全文目录


摘要  5-7
Abstract  7-11
第一章 绪论  11-15
  1.1 选题的背景和研究意义  11-12
  1.2 国内外研究现状  12-13
  1.3 本文主要研究内容  13-14
  1.4 本文组织结构  14-15
第二章 WEB日志挖掘数据仓库技术  15-22
  2.1 web日志挖掘  15-18
    2.1.1 web挖掘概念  15
    2.1.2 web挖掘分类  15-16
    2.1.3 web日志挖掘概述  16-18
  2.2 数据仓库  18-22
    2.2.1 数据仓库概念  18-19
    2.2.2 数据仓库模型设计  19-20
    2.2.3 数据仓库模型的三种形式  20-22
第三章 WEB日志挖掘数据预处理技术分析  22-27
  3.1 服务器日志格式分析  22
  3.2 数据的导入  22-24
  3.3 数据清理  24-25
  3.4 用户识别  25-27
第四章 改进的会话识别方法  27-35
  4.1 传统会话识别方法介绍  27-28
  4.2 基本定义  28-30
  4.3 数据结构和算法设计  30-33
  4.4 实验结果分析  33-35
第五章 WEB日志数据仓库的建立  35-43
  5.1 WEB日志数据仓库分析分析  35
  5.2 维度模型的一些基本概念  35-36
  5.3 概念模型设计  36
  5.4 逻辑模型设计  36-39
  5.5 物理模型设计  39-43
第六章 WEB日志数据挖掘应用  43-53
  6.1 关联规则介绍  43-45
    6.1.1 关联规则的相关描述  44-45
    6.1.2 关联规则分解成的两个子步骤  45
  6.2 Apriori算法介绍  45-47
    6.2.1 Apriori算法的基本思想  45-46
    6.2.2 Apriori算法的具体步骤分析  46
    6.2.3 Apriori算法举例  46-47
  6.3 改进的Apriori算法分析  47-48
  6.4 应用举例  48-53
第七章 总结  53-54
参考文献  54-58
攻读硕士学位期间发表的论文  58-59
致谢  59

相似论文

  1. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  2. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  3. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  4. 基于社团结构发现的数据仓库主题抽取的研究,TP311.13
  5. 渤海海洋防灾减灾数据仓库的构建与快速访问技术研究,TP311.13
  6. 遂宁市政府个性化门户网站系统的设计与实现,TP311.52
  7. 基金投资决策系统的设计与研究,TP311.52
  8. 南京电信网厅用户行为分析系统的设计实现与应用,TP311.52
  9. 基于闭频繁项集的Web日志挖掘,TP393.092
  10. 基于兴趣分类的用户行为分析系统的研究,TP393.092
  11. 基于WEB日志挖掘的用户兴趣模式研究,TP393.092
  12. 数据仓库、OLAP和数据挖掘在商业智能中的应用研究,TP311.13
  13. 基于Web日志挖掘的个性化推荐系统研究,TP311.13
  14. 敏捷型项目管理在软件项目中的运用,TP311.5
  15. 销售管理系统设计与实现,TP311.52
  16. 数据驱动的证券公司数据中心系统研究与实现,TP311.52
  17. 医疗资源管理决策支持系统的研究与实现,TP311.52
  18. 民航空管局生产信息统计系统的设计与实现,TP311.52
  19. 税务数据仓库系统的设计与应用,TP311.13
  20. 纺织品服装出口的TBT风险监测与预警机理研究,TP311.13
  21. DWMS列存储中执行引擎的优化与实现,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com