学位论文 > 优秀研究生学位论文题录展示
CLARANS改进算法在音乐网站智能推荐系统中的应用
作 者: 魏佳
导 师: 李占山
学 校: 吉林大学
专 业: 软件工程
关键词: 智能推荐系统 数据挖掘 协同过滤 聚类算法 遗传算法 GA-CLARANS算法 并行计算 MPI
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 121次
引 用: 0次
阅 读: 论文下载
内容摘要
自Internet诞生起,各种基于Internet的服务层出不穷,当前随着通信网络带宽的不断增加,在线收听音乐已成为网民上网的主要娱乐活动之一。据中国互联网络信息中心(CNNIC,2009)所发布的第23次《中国互联网络发展状况统计报告》显示,截至2008年12月31日,中国网民规模达到2.98亿人,是继2008年6月中国网民规模首次超过美国成为全球第一后的又一重要飞跃。面对如此庞大的用户群体,各大音乐网站纷纷使用各种方法吸引用户访问自己的网站,提高网站访问量以便为网站带来巨大的商业利益。然而当今互联网上各种资源的数据量与日俱增,用户所需信息难以直接、有效的获得,信息系统与用户之间互动性不强,不能向用户主动推荐信息,而是被动的由用户来搜索、选择信息,人们越来越多的淹没在数据的海洋里,而找不到自己感兴趣的信息,盲目的迷航式浏览已经成为人们访问网络的常态。当前国内外各大网络公司如Google、Amazon、百度、阿里巴巴等公司均在各自的网站中应用各种数据挖掘技术进行Web挖掘。本文中通过引入数据挖掘技术设计音乐网站音乐智能推荐系统来解决用户从大量音乐中直接、有效的挑选自己所喜爱的音乐问题。其中使用基于用户访问行为分析的协同过滤技术生成用户访问行为模型,并由TOP-N算法依据此模型生成音乐推荐列表,定向推荐给用户。传统方法中TOP-N算法需要从整个用户群体中选择与目标用户最为相似的若干个用户,并选择这些用户打分最高的前N首音乐推荐给用户。从整个用户群体中选择与目标用户最为相似的若干用户需要较高的计算代价,不具有实时性。因此本文所设计的系统中预先对用户访问行为进行聚类计算,将相似用户划分至相同簇中,这样避免传统方法中计算代价较高的问题。计算过程中由于访问关系型数据库效率较低,本文中将关系型数据库中数据导出至Berkeley DB中,以便提高数据访问速度。使用基于划分的聚类算法时需要指定划分簇数K,在对数据没有较好认知的情况下很难正确选择簇数K。遗传算法是一种具有良好并行性,广泛用于优化计算的算法。本文将遗传算法与CLARANS聚类算法相互结合提出一种新型的聚类算法GA-CLARANS用于未知簇数K的聚类计算。由于遗传算法具有良好并行性这一特点,本文中将GA-CLARANS算法部署在MPI集群环境上进一步提高算法的运行效率,有效的进行了用户访问行为数据聚类计算。通过实验结果表明GA-CLARANS算法能够快速、准确的进行聚类计算,满足音乐网站音乐智能推荐系统的实际需求。
|
全文目录
摘要 4-6 Abstract 6-11 第1章 绪论 11-20 1.1 引言 11-12 1.2 相关概念 12-13 1.2.1 网络 12 1.2.2 用户行为 12-13 1.3 课题的国内外研究与应用现状 13-14 1.3.1 国内现状 13 1.3.2 国外现状 13-14 1.4 智能推荐系统一般的设计方案 14-18 1.4.1 数据预处理 14-15 1.4.2 数据挖掘 15-18 1.4.3 推荐产生 18 1.5 本文的设计方案 18 1.6 论文组织结构 18-19 1.7 本章小结 19-20 第2章 音乐网站音乐智能推荐系统构成 20-36 2.1 概论 20-21 2.2 WWW 服务器 21-22 2.2.1 访问日志 21-22 2.3 数据仓库设计 22-27 2.3.1 数据仓库概述 22-24 2.3.2 Oracle 数据仓库概述 24-25 2.3.3 音乐智能推荐系统中数据仓库设计 25-27 2.4 数据预处理 27-29 2.4.1 音乐维表音乐信息填充 27 2.4.2 用户行为维表数据导入 27-29 2.4.3 用户访问行为数据提取 29 2.5 数据挖掘 29-34 2.5.1 音乐评价矩阵生成 30-31 2.5.2 用户相异度矩阵生成 31-32 2.5.3 用户聚类计算 32-34 2.6 推荐引擎 34-35 2.7 本章小结 35-36 第3章 CLARANS 聚类算法与遗传算法描述 36-44 3.1 CLARANS 聚类算法简介 36-37 3.2 遗传算法简介 37-43 3.2.1 染色体编码 39-40 3.2.2 初始种群生成 40-41 3.2.3 染色体适应度评估计算 41 3.2.4 染色体选择操作 41-42 3.2.5 染色体交叉操作 42 3.2.6 染色体变异操作 42 3.2.7 遗传算法举例 42-43 3.3 本章小结 43-44 第4章 GA-CLARANS 算法设计与实现 44-50 4.1 概述 44 4.2 算法详细实现 44-49 4.2.1 MPI 简介 45-47 4.2.2 算法实现 47-49 4.3 本章小结 49-50 第5章 实验结果及分析 50-52 第6章 总结与展望 52-53 参考文献 53-55 致谢 55
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- K-均值聚类算法的研究与改进,TP311.13
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基于遗传—牛顿算法的公交优化调度,TP18
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- Bicluster数据分析软件设计与实现,TP311.52
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- K-means聚类优化算法的研究,TP311.13
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|