学位论文 > 优秀研究生学位论文题录展示
隐式用户兴趣挖掘的研究与实现
作 者: 吕新波
导 师: 关毅
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: Web挖掘 Web使用信息挖掘 用户兴趣模型 文本聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 160次
引 用: 3次
阅 读: 论文下载
内容摘要
数据挖掘作为一种知识发现的手段,得到了广泛的应用,是数据库最活跃的领域之一。Web挖掘就是将传统的数据挖掘技术应用到Web环境中,从Web中抽取信息或知识的过程。在Web挖掘中,基于Web用户的使用信息挖掘的应用最为广泛,应用领域涉及电子商务、网络广告、智能推荐系统、网络营销、智能决策领域。一个好的挖掘模型是Web使用信息挖掘成功的关键。本文主要关注隐式用户兴趣的挖掘。通过对用户访问文档使用数据挖掘技术,我们可以为用户建立一个兴趣模型。进一步的,用户的兴趣模型可以为用户提供个性化的服务。Web使用信息挖掘是Web挖掘的一种,本文首先对Web使用信息挖掘的发展和主要技术进行介绍,尤其关注用户兴趣模型的建立。通过对比文本分类技术和文本聚类技术在用户兴趣建模的应用,我们将提出一个基于文本聚类的用户兴趣模型。数据预处理是为Web挖掘进行数据预处理的阶段。本文将介绍本阶段的一些主要技术,包括日志的过滤和网页正文提取。接下来我们展示了一种基于流水线技术的新的系统集成方法。研究适用于用户兴趣挖掘的文本聚类技术是本文的核心内容。本文首先调研一些主要的聚类算法并展示了它们的各自特点。通过分析用户兴趣挖掘对文本聚类算法的要求,我们最终选择了BIRCH算法对用户访问文档进行聚类,最终建立用户兴趣模型。最后,我们展示了一个基于Myspace中国的用户日志而开发的用户兴趣挖掘系统,并对我们采用的文本聚类算法进行了一些实验。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-15 1.1 课题的目的和意义 8-10 1.1.1 研究目的 8-9 1.1.2 研究意义 9-10 1.2 国内外研究现状 10-13 1.2.1 国外研究进展 10-12 1.2.2 国内研究进展 12-13 1.3 课题来源及本文主要研究内容 13-15 第2章 Web 数据挖掘技术 15-26 2.1 Web 挖掘简介 15-16 2.2 Web 使用信息挖掘的基本步骤 16-20 2.2.1 数据预处理 16-18 2.2.2 模式发现 18-20 2.2.3 模式分析 20 2.3 用户兴趣建模 20-25 2.3.1 用户兴趣模型的定义 20-21 2.3.2 显式用户兴趣建模与隐式用户兴趣建模 21-22 2.3.3 文本分类、聚类技术在用户建模中的应用 22-25 2.4 本章小结 25-26 第3章 用户兴趣挖掘的数据预处理 26-42 3.1 概述 26 3.2 数据预处理的基本流程 26-28 3.3 日志过滤 28-34 3.3.1 Web 日志简介 28-30 3.3.2 Web 日志分析 30-31 3.3.3 日志过滤器的设计与实现 31-34 3.4 网页正文提取 34-38 3.4.1 网页正文抽取的相关研究 34-35 3.4.2 本文采用的正文抽取方法 35-38 3.5 数据预处理各模块的流水线式集成 38-41 3.6 本章小结 41-42 第4章 面向用户兴趣挖掘的聚类方法的研究 42-57 4.1 聚类分析 42-46 4.1.1 聚类的定义 42 4.1.2 主要聚类方法 42-46 4.2 文本聚类的处理流程 46-47 4.3 特征提取及文本表示 47-50 4.3.1 特征提取 48-49 4.3.2 文本表示 49-50 4.4 利用BIRCH 算法进行文本聚类 50-56 4.4.1 隐式用户兴趣挖掘中聚类算法的选择依据 50-51 4.4.2 DC 的定义 51-52 4.4.3 DC-Tree 52-56 4.5 本章小结 56-57 第5章 面向Myspace 的用户兴趣建模系统及实验 57-64 5.1 简介 57-58 5.2 系统架构 58-59 5.3 聚类实验与分析 59-63 5.3.1 实验方案 59-60 5.3.2 词向量维度对聚类效果的影响 60-62 5.3.3 词向量维度对聚类时间的影响 62-63 5.4 本章小结 63-64 结论 64-65 参考文献 65-71 致谢 71
|
相似论文
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- Web新闻热点发现系统的设计与实现,TP393.09
- 个性化医疗信息推荐系统的研究与实现,R319
- 基于Agent元搜索引擎的个性化研究,TP391.3
- LSA与SOM相结合的文本聚类算法应用研究,TP391.1
- 中文文本聚类算法的研究与实现,TP391.1
- 基于术语簇和关联规则的文档聚类方法,TP311.13
- Web数据挖掘及其在网络新闻文本数据中的应用,TP311.13
- 基于边界距离的文本聚类方法研究,TP391.1
- 基于社会网络分析方法的Web资源挖掘研究,TP311.13
- 基于语义的文本聚类搜索研究,TP311.13
- 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
- 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
- 基于协同过滤算法的个性化推荐系统的研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|