学位论文 > 优秀研究生学位论文题录展示

基于后缀数组的Web用户访问模式高效挖掘算法

作　者: 荆涛
导　师: 左万利
学　校: 吉林大学
专　业: 计算机软件与理论
关键词: 后缀数组用户访问模式 Web 挖掘
分类号: TP393.09
类　型: 硕士论文
年　份: 2005年
下　载: 116次
引　用: 2次
阅　读: 论文下载

内容摘要

WEB访问模式是用户沿URL 超链寻找和浏览网页规律的总结。发现用户访问模式,对改进WEB站点结构,个性化用户信息服务,开展有针对性的电子商务活动,建立智能化的WEB站点等方面都有重要意义。用户访问模式挖掘可由如下3 个步骤完成: ①由日志库提取最大前向引用路径, ②由最大前向引用路径发现频繁引用路径序列, ③由频繁引用路径序列得到最大频繁引用路径序列,其中②是问题的核心。迄今已有一些挖掘用户访问模式的研究工作,但多数采用基于生成与测试结合的Apriori算法: 首先产生一组候选集,然后测试候选集中的项是否满足给定最小支持度,反复迭代直至没有新的候选集生成。此方法需多遍扫描数据库,效率不高。本文提出一种新的方法1:由最大前向引用路径集合构造对应的后缀数组,通过对后缀数组的处理,直接生成所需的最大频繁引用路径集。算法对数据只进行一次扫描,复杂度为O(nlogn),且具有增量性质。对合成数据和实际数据的实验结果验证了算法的有效性。

全文目录

第一章绪论  7-11
  1.1 选题的意义  7-8
  1.2 相关工作介绍  8-9
  1.3 本文工作介绍  9-10
  1.4 文章组织  10-11
第二章用户访问模式挖掘研究基础  11-26
  2.1 基本术语  11-13
  2.2 Web用户访问过程与用户行为假定  13
  2.3 用户访问模式概述  13-14
  2.4 用户访问模式挖掘流程  14-15
  2.5 数据预处理  15-22
    2.5.1 数据说明  16-17
    2.5.2 数据清洗  17-19
    2.5.3 用户识别  19-21
    2.5.4 会话识别  21
    2.5.5 路径补全  21-22
    2.5.6 格式化  22
  2.6 事务分割方法  22-26
    2.6.1 引用长度事务分割方法  23-24
    2.6.2 最大前向路径  24-25
    2.6.3 时间窗口  25-26
第三章后缀数组介绍  26-30
  3.1 后缀数组简介  26-27
  3.2 后缀数组相关概念  27-28
  3.3 后缀数组性质  28-30
第四章用户访问模式挖掘算法  30-35
  4.1 算法总体思想  30-31
  4.2 数据准备  31-32
  4.3 挖掘算法TP-SA  32-35
    4.3.1 TP-SA  32-34
    4.3.2 算法复杂度分析  34-35
第五章算法实现及实验  35-41
  5.1 程序实现环境及技术说明  35-38
    5.1.1 数据结构说明  35-36
    5.1.2 数据集说明  36-37
    5.1.3 功能方法说明  37-38
  5.2 实验设计及说明  38-41
    5.2.1 手工数据实验  38
    5.2.2 算法的延展性实验  38-39
    5.2.3 实际数据实验  39-40
    5.2.4 算法的增量性实现讨论  40-41
第六章结束语  41-42
参考文献  42-44
摘要  44-46
Abstract  46-48
致谢  48-49
导师及作者简介  49

基于后缀数组的Web用户访问模式高效挖掘算法

内容摘要

全文目录

相似论文