学位论文 > 优秀研究生学位论文题录展示

基于多核集群的电子商务应用并行化研究

作 者: 马琳
导 师: 郑晓薇
学 校: 辽宁师范大学
专 业: 课程与教学论
关键词: 并行计算 云计算 Hadoop集群 MATLAB集群 海量数据表关联 电子商务客户分类
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 22次
引 用: 0次
阅 读: 论文下载
 

内容摘要


并行计算的出现为单机时代计算瓶颈带来了划时代的解决方案,同时带动了并行集群的发展。如今随着计算机集群的逐步发展,并行平台的种类也逐渐增多,各个平台有特有的并行优势。云计算是一种基于因特网的超级计算模式,它将计算任务分割分布在大量计算机构成的集群上,获取超强计算能力、存储空间和信息服务,是目前最为流行的计算模式。近年来,电子商务市场从卖家市场转向买家市场,促使电商之间激烈的竞争。客户关系维系是企业发展的立足点,是企业盈利的前提。企业想要对客户进行准确的分析就要对客户进行分类,传统的分类方法是基于经验归类或简单统计的方法,然而在面对海量数据时,单机计算能力举步维艰。本文针对此,将并行计算的思想引入到电子商务客户分类研究领域来解决上述问题。设计了多数据表关联算法对数据进行预处理,把从电子商务网站上获得的商品信息和历史交易记录中的数据关联在一起,转换成适合数据挖掘的形式。同时设计了客户分类方法,选取FCM模糊聚类算法对预处理后的客户数据分析。数据表关联的传统方式是使用本地并行数据库,但面临多个因特网下的海量数据表关联时力不从心。云计算模式的Hadoop集群能解决因特网下的海量数据表关联问题,Hadoop集群的高效性适用于大型数据密集型任务的计算,应用于诸多领域。本文基于Hadoop集群实现了多个海量数据表的关联,并对实验数据进行详尽对比,对比结果表明Hadoop集群的高性能性在处理海量数据表连接方面有明显的并行效率。数据预处理之后的数据分析中,选取了多元统计分析中应用广泛的FCM模糊聚类分析算法对客户数据分类。与传统的基于经验或简单统计的分类方法相比,拓宽了指标体系,由单一指标拓宽到客户消费模式多个指标。以凡客诚品的交易数据为例进行试验,按照客户消费模式将客户分为四类:优质客户、一般客户、小客户及潜在客户。实验结果验证了FCM算法对数据聚类效果及MATLAB多核并行集群在并行处理复杂算法的高效性。本文设计的方法可以运用到金融领域的大规模数据处理及客户分类分析中,具有一定的应用价值。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-12
  1.1 研究背景及意义  9-10
  1.2 电子商务网站用户分类的研究现状  10
  1.3 本文的研究工作  10-11
  1.4 本文的组织结构  11-12
2 并行计算技术  12-18
  2.1 并行计算简介  12-13
    2.1.1 并行技术介绍  12
    2.1.2 并行性能测试指标  12-13
  2.2 分布式计算  13
  2.3 云计算  13-14
  2.4 集群并行计算  14-18
    2.4.1 多核处理器介绍  14-15
    2.4.2 多核集群介绍  15-16
    2.4.3 五种多核集群的对比介绍  16-18
3 Hadoop 的集群构建  18-27
  3.1 HDFS 分布式文件系统  18-19
  3.2 MapReduce 并行计算模型  19-22
    3.2.1 MapReduce 介绍  19-20
    3.2.2 MapReduce 核心功能  20-21
    3.2.3 MapReduce 计算流程  21-22
  3.3 Hbase 数据仓库  22-23
  3.4 Hadoop 集群配置  23-27
    3.4.1 集群配置  23
    3.4.2 集群搭建  23-24
    3.4.3 Hadoop 集群的网络监控  24-27
4 MATLAB 的集群构建  27-32
  4.1 MATLAB 并行工具  27-28
    4.1.1 并行工具箱  27-28
    4.1.2 分布式计算服务器 MDCE  28
  4.2 MATLAB 集群搭建  28-32
5 MR_Join 表关联算法  32-40
  5.1 MR_Join 算法思想  32-33
  5.2 MR_Join 算法应用实例  33-36
    5.2.1 算法处理流程  33-34
    5.2.2 算法核心操作  34-36
  5.3 MR_Join 算法实验结果及分析  36-39
  5.4 本章小结  39-40
6 电子商务客户分类设计  40-48
  6.1 数据聚类原理  40-42
    6.1.1 算法核心操作  40-42
    6.1.2 用户分类原理  42
  6.2 实验结果和分析  42-47
    6.2.1 举例实验  42-43
    6.2.2 举例实验分析  43-45
    6.2.3 聚类结果分析  45-46
    6.2.4 MATLAB 集群实验  46-47
  6.3 本章小结  47-48
结论  48-49
参考文献  49-52
攻读硕士学位期间发表学术论文情况  52-53
致谢  53

相似论文

  1. 云计算平台下的动态信任模型的研究,TP309
  2. 基于CUDA的图像数字水印技术的研究,TP309.7
  3. 基于Eucalyptus的教育知识服务模型设计与实现,TP393.09
  4. 云网络实验平台研究与实现,TP393.09
  5. 基于MPI的三维地层建模和可视化方法研究,TP391.41
  6. 基于GPU并行加速的正射影像生成研究,TP391.41
  7. 基于云计算的数字图书馆服务模式研究,G250.76
  8. 数据流特征选择策略的研究,TP311.13
  9. 光学衍射场次级衍射的研究,O436.1
  10. 并发系统的并行计算及性能分析,TP338.6
  11. 面向云计算的动态模糊测度方法研究,TP274
  12. 基于GPU的BLAST程序的并行计算的研究,TP338.6
  13. 基于Hadoop的移动学习系统设计与实现,G434
  14. 遥感影像并行计算策略研究,TP751
  15. 基于Google平台促销模块与商品模块的设计与实现,TP311.52
  16. 面向资源区域化及流量本地化的网络优化,TP393.06
  17. 水稻分蘖断层图像重建加速研究,TP391.41
  18. 基于多核计算平台的视频压缩算法研究,TN919.81
  19. 高速网络环境下的入侵检测系统的研究,TP393.08
  20. 云计算平台上的增量学习研究,TP311.13
  21. 基于遗传算法与并行计算的电磁场逆问题研究,O441.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com