学位论文 > 优秀研究生学位论文题录展示

基于后缀数组的Web用户访问模式高效挖掘算法

作 者: 荆涛
导 师: 左万利
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 后缀数组 用户访问模式 Web 挖掘
分类号: TP393.09
类 型: 硕士论文
年 份: 2005年
下 载: 116次
引 用: 2次
阅 读: 论文下载
 

内容摘要


WEB访问模式是用户沿URL 超链寻找和浏览网页规律的总结。发现用户访问模式,对改进WEB站点结构,个性化用户信息服务,开展有针对性的电子商务活动,建立智能化的WEB站点等方面都有重要意义。用户访问模式挖掘可由如下3 个步骤完成: ①由日志库提取最大前向引用路径, ②由最大前向引用路径发现频繁引用路径序列, ③由频繁引用路径序列得到最大频繁引用路径序列,其中②是问题的核心。迄今已有一些挖掘用户访问模式的研究工作,但多数采用基于生成与测试结合的Apriori算法: 首先产生一组候选集,然后测试候选集中的项是否满足给定最小支持度,反复迭代直至没有新的候选集生成。此方法需多遍扫描数据库,效率不高。本文提出一种新的方法1:由最大前向引用路径集合构造对应的后缀数组,通过对后缀数组的处理,直接生成所需的最大频繁引用路径集。算法对数据只进行一次扫描,复杂度为O(nlogn),且具有增量性质。对合成数据和实际数据的实验结果验证了算法的有效性。

全文目录


第一章 绪论  7-11
  1.1 选题的意义  7-8
  1.2 相关工作介绍  8-9
  1.3 本文工作介绍  9-10
  1.4 文章组织  10-11
第二章 用户访问模式挖掘研究基础  11-26
  2.1 基本术语  11-13
  2.2 Web用户访问过程与用户行为假定  13
  2.3 用户访问模式概述  13-14
  2.4 用户访问模式挖掘流程  14-15
  2.5 数据预处理  15-22
    2.5.1 数据说明  16-17
    2.5.2 数据清洗  17-19
    2.5.3 用户识别  19-21
    2.5.4 会话识别  21
    2.5.5 路径补全  21-22
    2.5.6 格式化  22
  2.6 事务分割方法  22-26
    2.6.1 引用长度事务分割方法  23-24
    2.6.2 最大前向路径  24-25
    2.6.3 时间窗口  25-26
第三章 后缀数组介绍  26-30
  3.1 后缀数组简介  26-27
  3.2 后缀数组相关概念  27-28
  3.3 后缀数组性质  28-30
第四章 用户访问模式挖掘算法  30-35
  4.1 算法总体思想  30-31
  4.2 数据准备  31-32
  4.3 挖掘算法TP-SA  32-35
    4.3.1 TP-SA  32-34
    4.3.2 算法复杂度分析  34-35
第五章 算法实现及实验  35-41
  5.1 程序实现环境及技术说明  35-38
    5.1.1 数据结构说明  35-36
    5.1.2 数据集说明  36-37
    5.1.3 功能方法说明  37-38
  5.2 实验设计及说明  38-41
    5.2.1 手工数据实验  38
    5.2.2 算法的延展性实验  38-39
    5.2.3 实际数据实验  39-40
    5.2.4 算法的增量性实现讨论  40-41
第六章 结束语  41-42
参考文献  42-44
摘要  44-46
Abstract  46-48
致谢  48-49
导师及作者简介  49

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  3. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  4. 基因组比对中若干改进算法研究,TP301.6
  5. 基因组中最大唯一匹配的查找算法研究,TP301.6
  6. 基于锚点的多基因组序列比对算法,TP301.6
  7. Web数据挖掘及其在网络新闻文本数据中的应用,TP311.13
  8. 基于AJAX的企业自适应网站开发与实现,TP393.092
  9. 基于WEB使用挖掘的电子商务网站结构优化,TP393.092
  10. 一种适用于领域专家的WEB数据提取的方法,TP393.09
  11. 基于链接相似度的Web社区发现算法研究,TP393.01
  12. 基于Web日志的序列模式挖掘及其在电子商务中的应用,TP311.13
  13. 模糊聚类算法研究及在Web日志挖掘中的应用,TP311.13
  14. Web日志挖掘在网站个性化服务中的应用研究,TP393.092
  15. 基于WEB挖掘的双语对获取技术研究,TP391.1
  16. 商业网站营业数据挖掘与分析,TP311.13
  17. 基于术语簇和关联规则的文档聚类方法,TP311.13
  18. Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
  19. 基于Web技术的数据仓库研究与设计,TP311.13
  20. 中文农林信息资源主动推送服务研究,S712
  21. 基于Web挖掘的企业竞争情报系统构建研究,F272

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com