学位论文 > 优秀研究生学位论文题录展示

网络日志中用户兴趣的挖掘及利用

作 者: 郭岩
导 师: 白硕
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机软件与理论
关键词: 网络日志挖掘 用户兴趣 信息检索 因子分析 Web缓存替换策略
分类号: TP311.13
类 型: 博士论文
年 份: 2004年
下 载: 1634次
引 用: 18次
阅 读: 论文下载
 

内容摘要


网络日志挖掘旨在通过对网络日志进行有效的数据挖掘,发掘隐藏在日志数据背后的Web用户访问模式。这个目标基于这样的假设:网络日志中确实蕴含了用户访问Web的某些规律性特性,这些特性反映在某些模式中,这些模式可以被挖掘出来并加以利用。绝大多数的网络日志挖掘研究都基于这一假设发掘出了各种有用的Web用户访问模式。但是网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?如何利用这些特性?论文的核心工作就是围绕这些问题,使用统计分析、聚类和依赖关系的建模等挖掘技术,针对Web访问特性、Web信息检索、Web站点辅助设计和系统优化等领域作了较深入的研究。论文的工作与贡献主要有四个方面:(1)网络日志中是否确实蕴含了用户访问Web的规律性特性?如果有,这些特性能否用语言描述出来?论文针对这些问题对实际网络日志进行了实证性的规模统计分析。研究了网络日志规模与用户数、Web页面数以及单位用户访问的Web页面数的关系,并研究了用户访问Web的动机。得出了一些有用的结论。这些结论为网络日志挖掘提供了一定的研究根据和基础。(2)基于(1)所得结论,论文提出了基于Web用户行为的相关页面检索模型WUBIRM(Web Usage Based IR Model)和搜索引擎系统SIS(ISimilar Interests, Similar access on Internet)原型。目前的信息检索技术主要是基于文本分析和链接分析。文中认为页面是否相关的最终判定者应该是用户。为了尽可能地模拟人对页面相关性的判断,论文从真正的网页使用者——网络用户的角度探讨了信息检索技术。文中试图利用网络日志中蕴含的用户在页面相关判定上的潜在意识来挖掘相关页面。这对于改进传统的信息检索技术,从海量信息中快速而准确的检索相关页面具有不可替代的重要意义。(3)基于(1)所得结论,以及用户空间(用户访问频率矩阵)的变换,论文提出了用户兴趣空间的概念,并提出两种用户兴趣空间的构造方法:一是利用因子分析理论;二是利用用户空间中用户聚类和Web文档聚类在权重之间的对偶关系。与用户空间相比较,用户兴趣空间突出了用户的共同兴趣,是一个正交空间。分别在用户空间和两种用户兴趣空间中作Web页面聚类,实验结果表明,用户兴趣空间的Web页面聚类效果优于用户空间的聚类,且从用户空间向用户兴趣空间的转换达到了数据压缩的效果,其中在利用因子分析理论构造的用户兴趣空间中的Web页面聚类效果最好。(4)论文分析了隐藏在Web缓存行为背后的Web用户行为,认为缓存的替换策略应该充分考虑用户访问Web的特性。论文提出了Web缓存替换策略SULRU(Size&User LRU)。SULRU充分利用了用户访问Web的特性,并具有一定的自适应能力,提高了缓存的智能特性。模拟实验结果表明SULRU取得了较好的页面命中率和页面字节命中率。SULRU实现起来也比较容易,是一个较好的缓存替换策略。

全文目录


第1章 绪论  9-27
  1.1 Web 使用信息挖掘的研究背景及意义  9-11
  1.2 Web 使用信息挖掘的研究现状  11-23
    1.2.1 数据预处理  12-16
    1.2.2 模式发现  16-19
    1.2.3 模式分析及应用  19-22
    1.2.4 隐私问题  22-23
  1.3 论文的工作与组织结构  23-24
    1.3.1 论文的主要工作  23-24
    1.3.2 论文的组织结构  24
  1.4 实验数据集的选择  24-25
  1.5 本章小结  25-27
第2章 网络日志的规模分析和用户对Web 的访问动机分析  27-41
  2.1 引言  27-28
  2.2 日志规模与用户数、Web 页面数、单位用户访问的Web 页面数的关系  28-30
  2.3 用户对Web 的访问动机分析  30-39
    2.3.1 Web 访问动机的静态分析  30-35
    2.3.2 Web 访问动机的动态分析  35-38
    2.3.3 Web 访问动机的结论  38-39
  2.4 本章小结  39-41
第3章 基于Web 用户行为的检索模型WUBIRM 和搜索引擎系统SISI  41-65
  3.1 引言  41-46
    3.1.1 信息检索技术简介  41-46
    3.1.2 从Web 用户的角度探讨信息检索技术  46
  3.2 基于Web 用户行为的相关页面检索模型WUBIRM  46-55
    3.2.1 WUBIRM 概述  46-48
    3.2.2 WUBIRM 的几个关键问题  48-52
    3.2.3 WUBIRM 的算法描述  52-54
    3.2.4 WUBIRM 的实验示例  54-55
  3.3 基于Web 用户行为的搜索引擎系统SISI  55-62
    3.3.1 SISI 概述  55-56
    3.3.2 SISI 的系统结构  56-57
    3.3.3 SISI 的系统评价  57-62
  3.4 本章小结  62-65
第4章 用户兴趣空间的概念和用户兴趣空间中Web 页面的聚类  65-85
  4.1 引言  65-66
  4.2 利用因子分析理论构造用户兴趣因子空间  66-71
    4.2.1 因子分析理论简介  66-70
    4.2.2 用户兴趣因子空间中Web 页面聚类的算法描述  70-71
  4.3 利用对偶策略构造用户对偶兴趣空间  71-78
    4.3.1 聚类权重计算中的对偶策略  71-75
    4.3.2 用户对偶兴趣空间的构成  75-77
    4.3.3 用户对偶兴趣空间中Web 页面聚类的算法描述  77-78
  4.4 实验与结果  78-84
    4.4.1 对T1 的用户访问频率矩阵作主成分因子分析  78-79
    4.4.2 基于实际的网络日志做页面聚类  79-82
    4.4.3 Web 访问理想情况下的页面聚类  82-84
  4.5 本章小结  84-85
第5章 用户访问Web 的特性在智能缓存中的应用  85-97
  5.1 引言  85-87
    5.1.1 Web 缓存简介  85-86
    5.1.2 Web 缓存替换策略简介  86-87
    5.1.3 Web 缓存替换策略的评价简介  87
  5.2 利用Web 用户访问特性的缓存替换策略SULRU  87-91
    5.2.1 缓存替换策略S2  87-90
    5.2.2 缓存替换策略SULRU  90-91
  5.3 实验与结果  91-96
  5.4 本章小结  96-97
第6章 结束语  97-105
  6.1 论文的主要贡献与创新  97-99
  6.2 未来的工作展望  99-105
参考文献  105-111
致谢  111-113
作者简介  113

相似论文

  1. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 生物医学领域检索系统查询扩展技术研究,TP391.3
  4. 面向海量邮件的检索系统研究与实现,TP393.098
  5. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  6. 中国肉猪产业(品)国际竞争力研究,F752.6;F224
  7. Buss-Perry攻击问卷在2757名大学生中的应用研究,G645.5
  8. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  9. 基于因子分析法的化工行业外贸上市公司财务绩效评价研究,F224
  10. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  11. 我国民营科技企业竞争力测量的实证研究,F224
  12. 控股股东行为对会计盈余质量影响的实证研究,F832.51;F224
  13. 制造业绿色产品研发的风险识别与评价研究,F205;F224
  14. 基于因子分析法的房地产上市公司经营绩效评价,F224
  15. 河北省外商直接投资影响因素实证分析,F832.6
  16. 涉农类上市公司财务竞争力的评价研究,F832.51;F224
  17. 基于因子分析和BP神经网络的风机状态诊断研究,F426.61
  18. 因子分析在豆浆机感性设计中的应用研究,TB472
  19. 江西城镇职工SPIF收支均衡及其区域发展水平研究,F842.6
  20. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  21. 影响音乐厅声环境主观评价的因素研究,TU112

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com