学位论文 > 优秀研究生学位论文题录展示
Web日志频繁序列模式挖掘的研究
作 者: 周亚峰
导 师: 熊忠阳
学 校: 重庆大学
专 业: 计算机系统结构
关键词: Web日志挖掘 数据预处理 会话识别 最大频繁序列 后缀树
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 197次
引 用: 2次
阅 读: 论文下载
内容摘要
随着Internet的迅速发展和不断普及,Web日志资源越来越丰富,如何分析和利用这些海量的数据是当前突出的问题。Web日志挖掘是网络信息处理的一门新技术,也是数据挖掘在Internet领域的一个重要应用。频繁序列模式挖掘是Web日志挖掘的一个重要研究方向,通过它可以用来改善Web站点的组织结构,提高网站的性能。序列模式挖掘(sequence pattern mining)是由R.Agrawal和R.Srikant在1995年提出的,给定一个序列集,其中每一个序列由项集构成,然后给定用户确定的最小支持度阈值,序列模式挖掘就是去发现所有的频繁子序列(即:这些子序列的出现频率不小于给定的最小支持度)。Web日志挖掘的过程包括三个步骤:数据预处理、模式发现和模式分析。本文主要对数据预处理和模式发现两个步骤进行研究。数据预处理是Web日志挖掘的重要环节,它决定着模式发现和模式分析算法的性能。Web日志挖掘的数据预处理主要包括5个阶段:数据净化、用户识别、会话识别、路径完善和事务识别等。本文对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,主要提出了一种基于时间和引用的启发式方法来构造会话。序列模式挖掘同关联规则挖掘具有很大的相似性,但也有不同的地方,本文通过比较序列模式和关联规则,更清楚地体现了序列模式的特点。当前的频繁序列模式的挖掘算法一般都是基于Apriori的改进算法,这种算法由于每生成一个k-频繁项集,都需要扫描整个事务数据库,因此在查找最大频繁项集上花费的时间代价太大,而本文采用了一种基于后缀树的频繁序列模式的挖掘算法有效的解决了Apriori算法的不足。后缀树是一种数据结构,存储了给定字符串的所有后缀的压缩树。建筑后缀树所花费的时间只与字符串的长度有关,而查找最大频繁序列模式是通过对后缀树的深度优先遍历来实现的,由于这两种算法都可以在线性时间内完成,因而大大提高了效率。通过实验验证,本文采用的基于时间和引用的启发式会话方法得出的用户会话序列更真实地反应了实际用户序列,同时,采用基于后缀树遍历的频繁序列模式挖掘算法更加快捷、方便。
|
全文目录
摘要 3-4 ABSTRACT 4-9 1 绪论 9-14 1.1 研究背景与意义 9-10 1.2 国内外的研究现状 10-12 1.2.1 国外的研究现状 10-11 1.2.2 国内的研究现状 11-12 1.3 论文的工作及组织结构 12-14 1.3.1 论文的主要内容 12 1.3.2 全文组织如下 12-14 2 WEB 日志挖掘 14-23 2.1 WEB挖掘 14-16 2.1.1 Web 挖掘的定义 14 2.1.2 web 挖掘的特点 14-15 2.1.3 web 挖掘的分类 15-16 2.2 WEB日志挖掘 16-22 2.2.1 web 日志挖掘的定义 16-17 2.2.2 Web 日志挖掘的应用 17-18 2.2.3 web 日志挖掘的数据源 18-20 2.2.4 web 日志挖掘的步骤 20-22 2.3 本章小节 22-23 3 WEB 日志挖掘的数据预处理 23-34 3.1 预处理的意义及相关概念 23-24 3.2 数据清理 24-25 3.3 用户识别 25-27 3.4 会话识别 27-31 3.5 路径补充 31 3.6 事务识别 31 3.7 实验及结果 31-33 3.8 本章小节 33-34 4 频繁序列模式挖掘 34-50 4.1 序列模式的相关概念 34-36 4.2 序列模式挖掘的特点 36-37 4.2.1 序列模式挖掘与关联规则挖掘 36-37 4.2.2 序列模式挖掘与时间序列模式挖掘 37 4.3 序列模式的传统发现算法 37-39 4.4 一种基于后缀树遍历的挖掘算法 39-47 4.4.1 后缀树 39-41 4.4.2 后缀树的构建 41-43 4.4.3 Web 日志挖掘中的后缀树 43-44 4.4.4 GST 的遍历算法 44-47 4.5 实验结果 47-48 4.6 挖掘结果用于网站体系结构的调整 48 4.7 挖掘结果用于页面预送 48-49 4.8 本章小节 49-50 5 总结与展望 50-52 5.1 总结 50 5.2 今后的工作 50-52 致谢 52-53 参考文献 53-56 附录:作者在攻读硕士学位期间发表的论文 56
|
相似论文
- 基于串核的蛋白质分类算法的研究与实现,TP301.6
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 基于高斯过程的在线建模问题研究,TP181
- 基于投影寻踪回归的网络异常检测机制研究,TP393.08
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 惯性运动捕捉系统中传感数据的传输与处理,TP212
- “嫦娥一号”微波探测仪数据预处理与分析,V446.9
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 道路交通安全微观评价系统研究,U491
- 基于Web使用挖掘的网站优化研究,TP393.092
- 基于SDRI-LWD的随钻测井数据预处理技术研究,P634
- 汽车动态称重数据预处理及模糊补偿算法设计,TH715.1
- 多传感器信息融合技术的研究与应用,TP202
- 基于闭频繁项集的Web日志挖掘,TP393.092
- 基于WEB日志挖掘的用户兴趣模式研究,TP393.092
- 基因组中最大唯一匹配的查找算法研究,TP301.6
- Web中文文本聚类研究,TP391.1
- 基于Web日志挖掘的个性化推荐系统研究,TP311.13
- 湿式硫酸制酸过程数据挖掘技术开发与应用,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|