学位论文 > 优秀研究生学位论文题录展示

基于Web数据挖掘的网页优化设计应用研究

作 者: 黄欢
导 师: 丁庆生;杨建萍
学 校: 电子科技大学
专 业: 软件工程
关键词: Web数据挖掘 数据预处理 关联规则 个性化推荐
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 181次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着Intemet在流量、规模和复杂度等方面的飞速增长,web已成为一个巨大的、分布广泛的、全球性的信息服务中心。在web给人们带来丰富信息和极大便利的同时,也随之产生了一些急需解决的问题,个性化的信息服务便是其中之一。直接或间接的解决这个问题的途径之一就是将web日志挖掘技术应用在网站个性化服务中。通过对web日志数据挖掘,可以帮助我们更好地发现用户频繁访问路径和进行个性化页面推荐等,这对于为用户提供个性化服务是非常关键的。WWW上数据资源的多样性增加了用户寻找有用的信息的难度,如何从海量信息中挖掘隐含的、用户感兴趣的模式是一个重要且有意义的问题。Web日志挖掘就是通过使用数据挖掘技术将对用户和服务器之间在通信过程中产生的大量数据进行挖掘,以发现新颖的、有用的知识,可以得到用户访问页面时的频繁关系和行为模式,通过此可以发现用户的偏好和访问习惯,从而优化Web站点功能及页面间的超链接结构,提高网站的服务质量并改善性能。通过对用户访问的行为分析,以向用户推荐能在最短时间内获取访问路径。首先根据建立的个性化网站模型,综合考虑用户访问网页的停留时间和存取次数,提出基于用户偏好的度量计算方法,其次在此基础上提出一种基于向量内积的web关联规则挖掘算法WARMVI,通过该算法找出与其关联度高的网页,推荐给用户,同时考虑了用户个人的兴趣,实验仿真中通过对用户访问模式的分析,给出网页推荐策略,使用户能提高访问效率。论文的研究工作包括以下几个方面:(1)深入研究了Web挖掘的定义、基本原理、方法和分类,并从四个方面详述了web日志挖掘中的应用。(2)分析了web日志挖掘的特点和难点,并对网站的个性化、单个用户访问模式和群体对页面的浏览模式行为进行了具体分析。(3)描述了web日志挖掘的过程,分别分析了Web日志数据预处理的四个阶段,并给出了相应的改进算法:基于纵横向缩减的数据清洗方法、面向IP地址的用户识别方法、基于时间阈值的会话识别方法和基于深度优先方法的事务识别,并给出了相应的改进算法。(4)通过停留时间和存取次数来综合衡量用户对该网页的偏好程度,并建立了用户对网页的偏好程度模型,在此基础上提出了一种基于向量内积的Web关联规则挖掘算法,该算法能有效地挖掘用户群的访问模式,具有较好的网页推荐效果,减少了搜索相关页面的时间。(5)为验证web关联规则挖掘方法的正确性,设计了一个实验系统,包括web服务器、访问记录数据库、访问记录组成,系统应具备数据采集、数据预处理、模式挖掘、挖掘结果评价等功能。通过对Web的挖掘,我们就可以从Web页面中提取所需的知识,通过对用户访问行为、频度、内容的分析,获取关于用户访问行为的兴趣模式,用以改进Web服务设计。

全文目录


摘要  4-6
ABSTRACT  6-10
第一章 绪论  10-16
  1.1 研究背景  10-11
  1.2 研究目的和意义  11-12
  1.3 国内外研究现状  12-13
  1.4 研究的作用及主要内容  13-14
  1.5 论文架构  14-16
第二章 web 数据挖掘概述  16-25
  2.1 数据挖掘的一般过程  16-17
  2.2 web 数据挖掘的基本原理  17-18
  2.3 web 数据挖掘的分类  18-20
  2.4 web 数据挖掘的方法及研究动态  20-22
  2.5 web 数据挖掘的应用  22-24
  2.6 本章小结  24-25
第三章 基于Web 的数据挖掘应用优化分析  25-32
  3.1 Web 数据挖掘特点和难点  25-27
  3.2 探讨关于网站个性化  27-28
  3.3 web 站点的用户模式分析及应用  28-29
  3.4 对网络浏览行为模式的分析  29-31
  3.5 本章小结  31-32
第四章 基于web 网页推荐的关联规则方法研究  32-44
  4.1 问题描述  33
  4.2 数据过滤  33-36
  4.3 分析用户偏好  36-38
  4.4 对网页关联性的分析  38-42
  4.5 确定网页推荐  42
  4.6 结果验证  42-43
  4.7 本章小结  43-44
第五章 Web 日志数据的预处理技术研究  44-55
  5.1 web 日志挖掘过程  44-46
  5.2 web 日志数据预处理概述  46
  5.3 基于纵横向缩减的数据清洗方法  46-48
  5.4 面向IP 地址的用户识别方法  48-50
  5.5 基于时间阈值的会话识别方法  50-51
  5.6 基于深度优先方法的事务识别  51-54
  5.7 本章小结  54-55
第六章 web 应用系统设计与实验分析  55-70
  6.1 实验系统架构  55
  6.2 系统设计  55-60
  6.3 实验环境  60
  6.4 模拟网站设计  60-61
  6.5 系统运行实现  61-65
  6.6 实验数据与分析  65-68
  6.7 结果分析与讨论  68-69
  6.8 本章小结  69-70
第七章 结论与未来研究方向  70-72
  7.1 结论  70-71
  7.2 未来研究方向  71-72
致谢  72-73
参考文献  73-75

相似论文

  1. 基于粗糙集的城市区域交通绿时控制系统研究,TP18
  2. 基于数据挖掘的税务稽查选案研究,F812.42
  3. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  4. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  5. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  6. 关联规则挖掘算法及其在职校教学评价系统中的应用研究,TP311.13
  7. FP-Tree算法在自适应学习系统学习者特征模型建立中的应用研究,TP311.13
  8. 数据挖掘在电大开放教育学习指导体系中的应用研究,TP311.13
  9. 面向专科院校的图书管理与智能分析系统,TP311.13
  10. 基于关联规则的结构化浏览技术及其应用,TP391.41
  11. 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
  12. 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
  13. 基于高斯过程的在线建模问题研究,TP181
  14. 基于关联挖掘的学生成绩分析系统的研究,TP311.13
  15. 遂宁市政府个性化门户网站系统的设计与实现,TP311.52
  16. 数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究,TP311.13
  17. 基于投影寻踪回归的网络异常检测机制研究,TP393.08
  18. 通信行为指纹研究,TP311.13
  19. 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
  20. 动态关联规则的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com