学位论文 > 优秀研究生学位论文题录展示

隐式用户兴趣挖掘的研究与实现

作 者: 吕新波
导 师: 关毅
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: Web挖掘 Web使用信息挖掘 用户兴趣模型 文本聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 160次
引 用: 3次
阅 读: 论文下载
 

内容摘要


数据挖掘作为一种知识发现的手段,得到了广泛的应用,是数据库最活跃的领域之一。Web挖掘就是将传统的数据挖掘技术应用到Web环境中,从Web中抽取信息或知识的过程。在Web挖掘中,基于Web用户的使用信息挖掘的应用最为广泛,应用领域涉及电子商务、网络广告、智能推荐系统、网络营销、智能决策领域。一个好的挖掘模型是Web使用信息挖掘成功的关键。本文主要关注隐式用户兴趣的挖掘。通过对用户访问文档使用数据挖掘技术,我们可以为用户建立一个兴趣模型。进一步的,用户的兴趣模型可以为用户提供个性化的服务。Web使用信息挖掘是Web挖掘的一种,本文首先对Web使用信息挖掘的发展和主要技术进行介绍,尤其关注用户兴趣模型的建立。通过对比文本分类技术和文本聚类技术在用户兴趣建模的应用,我们将提出一个基于文本聚类的用户兴趣模型。数据预处理是为Web挖掘进行数据预处理的阶段。本文将介绍本阶段的一些主要技术,包括日志的过滤和网页正文提取。接下来我们展示了一种基于流水线技术的新的系统集成方法。研究适用于用户兴趣挖掘的文本聚类技术是本文的核心内容。本文首先调研一些主要的聚类算法并展示了它们的各自特点。通过分析用户兴趣挖掘对文本聚类算法的要求,我们最终选择了BIRCH算法对用户访问文档进行聚类,最终建立用户兴趣模型。最后,我们展示了一个基于Myspace中国的用户日志而开发的用户兴趣挖掘系统,并对我们采用的文本聚类算法进行了一些实验。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-15
  1.1 课题的目的和意义  8-10
    1.1.1 研究目的  8-9
    1.1.2 研究意义  9-10
  1.2 国内外研究现状  10-13
    1.2.1 国外研究进展  10-12
    1.2.2 国内研究进展  12-13
  1.3 课题来源及本文主要研究内容  13-15
第2章 Web 数据挖掘技术  15-26
  2.1 Web 挖掘简介  15-16
  2.2 Web 使用信息挖掘的基本步骤  16-20
    2.2.1 数据预处理  16-18
    2.2.2 模式发现  18-20
    2.2.3 模式分析  20
  2.3 用户兴趣建模  20-25
    2.3.1 用户兴趣模型的定义  20-21
    2.3.2 显式用户兴趣建模与隐式用户兴趣建模  21-22
    2.3.3 文本分类、聚类技术在用户建模中的应用  22-25
  2.4 本章小结  25-26
第3章 用户兴趣挖掘的数据预处理  26-42
  3.1 概述  26
  3.2 数据预处理的基本流程  26-28
  3.3 日志过滤  28-34
    3.3.1 Web 日志简介  28-30
    3.3.2 Web 日志分析  30-31
    3.3.3 日志过滤器的设计与实现  31-34
  3.4 网页正文提取  34-38
    3.4.1 网页正文抽取的相关研究  34-35
    3.4.2 本文采用的正文抽取方法  35-38
  3.5 数据预处理各模块的流水线式集成  38-41
  3.6 本章小结  41-42
第4章 面向用户兴趣挖掘的聚类方法的研究  42-57
  4.1 聚类分析  42-46
    4.1.1 聚类的定义  42
    4.1.2 主要聚类方法  42-46
  4.2 文本聚类的处理流程  46-47
  4.3 特征提取及文本表示  47-50
    4.3.1 特征提取  48-49
    4.3.2 文本表示  49-50
  4.4 利用BIRCH 算法进行文本聚类  50-56
    4.4.1 隐式用户兴趣挖掘中聚类算法的选择依据  50-51
    4.4.2 DC 的定义  51-52
    4.4.3 DC-Tree  52-56
  4.5 本章小结  56-57
第5章 面向Myspace 的用户兴趣建模系统及实验  57-64
  5.1 简介  57-58
  5.2 系统架构  58-59
  5.3 聚类实验与分析  59-63
    5.3.1 实验方案  59-60
    5.3.2 词向量维度对聚类效果的影响  60-62
    5.3.3 词向量维度对聚类时间的影响  62-63
  5.4 本章小结  63-64
结论  64-65
参考文献  65-71
致谢  71

相似论文

  1. 演化聚类算法及其应用研究,TP311.13
  2. 基于本体的食品投诉文档文本聚类研究,TP391.1
  3. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  4. 面向短消息文本的聚类技术研究与应用,TP391.1
  5. 教育新闻热点话题发现系统的设计与实现,TP391.1
  6. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  7. Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
  8. Web新闻热点发现系统的设计与实现,TP393.09
  9. 个性化医疗信息推荐系统的研究与实现,R319
  10. 基于Agent元搜索引擎的个性化研究,TP391.3
  11. LSA与SOM相结合的文本聚类算法应用研究,TP391.1
  12. 中文文本聚类算法的研究与实现,TP391.1
  13. 基于术语簇和关联规则的文档聚类方法,TP311.13
  14. Web数据挖掘及其在网络新闻文本数据中的应用,TP311.13
  15. 基于边界距离的文本聚类方法研究,TP391.1
  16. 基于社会网络分析方法的Web资源挖掘研究,TP311.13
  17. 基于语义的文本聚类搜索研究,TP311.13
  18. 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
  19. 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
  20. 基于协同过滤算法的个性化推荐系统的研究,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com