学位论文 > 优秀研究生学位论文题录展示
基于点击的用户聚类的研究
作 者: 顾振宇
导 师: 马旭飚;运海红
学 校: 电子科技大学
专 业: 软件工程
关键词: 个性化信息检索 抓取技术 兴趣挖掘 用户聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet上信息量飞速增长,搜索引擎已成为互联网信息检索必不可少的工具,但这并不能满足人们对于个性化信息的检索需求,于是基于用户兴趣的个性化搜索服务便成为了人们研究与开发的热点。本文主要介绍了基于个性化检索的语料库建设。本文首先分析了用于个性化信息检索的自建语料库的发展现状,阐述了自建语料库对于信息检索研究的重要性。目前,由于多种原因,信息检索语料获取困难,大多数个性化信息检索实验的数据规模较小,研究成果说服力不足,从而使得建设大规模的语料库对于信息检索具有重要意义。对网上信息语料库搜集的实现原理和关键技术进行了讨论和分析,介绍了基于Web的自动获取信息的原理及网络爬虫工具。较为详实地阐述了网页抓取技术,剖析了两种抓取方式的实现原理以及相关应用。具体介绍了Wget爬虫工具的特点以及使用方法。之后介绍聚类。聚类,是将一个数据单位的集合分割成几个称为类或类别的子集,每个类内的对象之间是相似的。所谓用户聚类就是指按照兴趣自动聚类用户,形成兴趣相关的用户群组。本文介绍了传统用户聚类的方法,通过用户兴趣模型对用户进行聚类,分析了传统方法的不足,并提出了我们研究的基于点击的用户聚类技术,利用用户的点击记录对用户进行聚类,而不是通过建立用户兴趣模型。最后本文详尽描述了基于搜狗语料库的个性化检索数据的采集过程,包括匹配过滤、网页抓取、标记日志、格式化处理等步骤。说明了实验中遇到的问题并就此提出了解决方案和关于进一步改进的想法。本文是在某知名公司提供的数据的基础上进行了系统的研发工作,按照该公司对系统的要求,实现了用户的聚类模型,形成了兴趣相关的群组,为今后的工作打下了基础。实验结果验证了所设计的方法的正确性和良好性能。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 引言 9-14 1.1 课题研究的背景和意义 9-10 1.2 国内外研究现状 10-12 1.3 本文主要研究内容 12-14 第二章 建设语料库所需技术及其软件 14-20 2.1 语料库简介 14-16 2.1.1 概述 14-15 2.1.2 建设Web 语料库的环节 15 2.1.3 原理和实现 15-16 2.2 网页获取技术 16-17 2.3 网络爬虫工具 17-19 2.3.1 Wget 爬虫工具的优点 17 2.3.2 Wget 使用的语法及基本参数 17-19 2.4 本章小结 19-20 第三章 个性化数据采集过程及其方法 20-37 3.1 建立语料库 20-22 3.2 数据采集流程 22-23 3.3 匹配过滤 23-25 3.4 网页抓取 25-29 3.5 标记日志 29-32 3.6 格式化处理 32-36 3.7 本章小结 36-37 第四章 传统用户兴趣模型的研究 37-45 4.1 用户兴趣模型的创建 37-38 4.1.1 基于内容的方法 37 4.1.2 基于分类的方法 37-38 4.1.3 基于概率的方法 38 4.2 用户兴趣模型的更新 38 4.3 流程实现 38-39 4.4 用户兴趣挖掘系统功能的实现 39-43 4.4.1 系统构成 39-40 4.4.2 日志清理 40-41 4.4.3 建立索引与下载网页 41 4.4.4 正文抽取 41-42 4.4.5 特征提取 42-43 4.4.6 文档聚类生成用户兴趣模型 43 4.5 本章小结 43-45 第五章 基于点击的用户兴趣聚类 45-54 5.1 传统兴趣模型的缺点 45-47 5.1.1 模型更新问题 45-46 5.1.2 兴趣分类问题 46-47 5.1.3 评价方法问题 47 5.2 基于点击的用户聚类 47-52 5.2.1 聚类分析在用户分类中的应用 48-50 5.2.2 基于点击的个性化信息服务方案 50-51 5.2.3 基于点击方法的分类 51-52 5.3 前期工作小结 52-53 5.4 本章小结 53-54 第六章 实验结果与软件测试 54-62 6.1 实验环境 54 6.2 数据采集报告 54-55 6.3 系统功能要求 55-56 6.3.1 系统输入 55 6.3.2 系统输出 55-56 6.4 软件测试 56-60 6.4.1 原始数据的处理 56 6.4.2 数据分类 56-57 6.4.3 数据再处理 57 6.4.4 建立索引 57-59 6.4.5 用户聚类 59-60 6.5 测试结果 60-61 6.6 本章小结 61-62 第七章 结论 62-64 致谢 64-65 参考文献 65-69
|
相似论文
- 基于协同过滤的用户兴趣发现,TP391.3
- 基于模糊理论的Web用户聚类的研究,TP311.13
- 基于Web日志的用户访问模式挖掘的研究,TP311.13
- 基于AJAX的个性化图书馆信息系统的设计与实现,TP311.52
- 基于本体的个性化信息系统的应用研究,F49
- 基于协同过滤算法的个性化推荐系统的研究,TP393.09
- 个性化信息服务中的用户兴趣迁移研究,TP311.13
- 移动个性化信息服务中用户兴趣建模的研究,TN929.5
- 基于ACO的WEB日志挖掘研究,TP393.09
- 协同过滤算法在电子商务推荐系统的研究,TP391.3
- 基于Web挖掘的信息提取与推荐相关研究,TP393.09
- 个性化搜索中用户兴趣挖掘技术方法研究,TP311.13
- 基于潜在语义索引和免疫学习的BIRCH聚类算法研究,TP391.1
- 基于Web的用户兴趣及需求技术的研究,TP393.09
- 基于模范用户的协同过滤算法研究,TP301.6
- 基于参考文档的信息检索模型的研究,TP391.3
- 基于语义网的个性化信息检索的研究与实现,TP391.3
- 基于用户模型的中文个性化检索系统研究,G354
- 搜索引擎个性化检索技术的研究,TP391.3
- Web用户使用模式与兴趣挖掘方法研究,F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|