学位论文 > 优秀研究生学位论文题录展示
基于后缀数组的Web用户访问模式高效挖掘算法
作 者: 荆涛
导 师: 左万利
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 后缀数组 用户访问模式 Web 挖掘
分类号: TP393.09
类 型: 硕士论文
年 份: 2005年
下 载: 116次
引 用: 2次
阅 读: 论文下载
内容摘要
WEB访问模式是用户沿URL 超链寻找和浏览网页规律的总结。发现用户访问模式,对改进WEB站点结构,个性化用户信息服务,开展有针对性的电子商务活动,建立智能化的WEB站点等方面都有重要意义。用户访问模式挖掘可由如下3 个步骤完成: ①由日志库提取最大前向引用路径, ②由最大前向引用路径发现频繁引用路径序列, ③由频繁引用路径序列得到最大频繁引用路径序列,其中②是问题的核心。迄今已有一些挖掘用户访问模式的研究工作,但多数采用基于生成与测试结合的Apriori算法: 首先产生一组候选集,然后测试候选集中的项是否满足给定最小支持度,反复迭代直至没有新的候选集生成。此方法需多遍扫描数据库,效率不高。本文提出一种新的方法1:由最大前向引用路径集合构造对应的后缀数组,通过对后缀数组的处理,直接生成所需的最大频繁引用路径集。算法对数据只进行一次扫描,复杂度为O(nlogn),且具有增量性质。对合成数据和实际数据的实验结果验证了算法的有效性。
|
全文目录
第一章 绪论 7-11 1.1 选题的意义 7-8 1.2 相关工作介绍 8-9 1.3 本文工作介绍 9-10 1.4 文章组织 10-11 第二章 用户访问模式挖掘研究基础 11-26 2.1 基本术语 11-13 2.2 Web用户访问过程与用户行为假定 13 2.3 用户访问模式概述 13-14 2.4 用户访问模式挖掘流程 14-15 2.5 数据预处理 15-22 2.5.1 数据说明 16-17 2.5.2 数据清洗 17-19 2.5.3 用户识别 19-21 2.5.4 会话识别 21 2.5.5 路径补全 21-22 2.5.6 格式化 22 2.6 事务分割方法 22-26 2.6.1 引用长度事务分割方法 23-24 2.6.2 最大前向路径 24-25 2.6.3 时间窗口 25-26 第三章 后缀数组介绍 26-30 3.1 后缀数组简介 26-27 3.2 后缀数组相关概念 27-28 3.3 后缀数组性质 28-30 第四章 用户访问模式挖掘算法 30-35 4.1 算法总体思想 30-31 4.2 数据准备 31-32 4.3 挖掘算法TP-SA 32-35 4.3.1 TP-SA 32-34 4.3.2 算法复杂度分析 34-35 第五章 算法实现及实验 35-41 5.1 程序实现环境及技术说明 35-38 5.1.1 数据结构说明 35-36 5.1.2 数据集说明 36-37 5.1.3 功能方法说明 37-38 5.2 实验设计及说明 38-41 5.2.1 手工数据实验 38 5.2.2 算法的延展性实验 38-39 5.2.3 实际数据实验 39-40 5.2.4 算法的增量性实现讨论 40-41 第六章 结束语 41-42 参考文献 42-44 摘要 44-46 Abstract 46-48 致谢 48-49 导师及作者简介 49
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 基因组比对中若干改进算法研究,TP301.6
- 基因组中最大唯一匹配的查找算法研究,TP301.6
- 基于锚点的多基因组序列比对算法,TP301.6
- Web数据挖掘及其在网络新闻文本数据中的应用,TP311.13
- 基于AJAX的企业自适应网站开发与实现,TP393.092
- 基于WEB使用挖掘的电子商务网站结构优化,TP393.092
- 一种适用于领域专家的WEB数据提取的方法,TP393.09
- 基于链接相似度的Web社区发现算法研究,TP393.01
- 基于Web日志的序列模式挖掘及其在电子商务中的应用,TP311.13
- 模糊聚类算法研究及在Web日志挖掘中的应用,TP311.13
- Web日志挖掘在网站个性化服务中的应用研究,TP393.092
- 基于WEB挖掘的双语对获取技术研究,TP391.1
- 商业网站营业数据挖掘与分析,TP311.13
- 基于术语簇和关联规则的文档聚类方法,TP311.13
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- 基于Web技术的数据仓库研究与设计,TP311.13
- 中文农林信息资源主动推送服务研究,S712
- 基于Web挖掘的企业竞争情报系统构建研究,F272
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|