学位论文 > 优秀研究生学位论文题录展示
基于MapReduce编程模型的航空日志分析研究
作 者: 李彬
导 师: 罗省贤
学 校: 成都理工大学
专 业: 计算机应用技术
关键词: 数据挖掘 日志分析 并行计算 Hadoop MapReduce
分类号: TP274
类 型: 硕士论文
年 份: 2012年
下 载: 124次
引 用: 3次
阅 读: 论文下载
内容摘要
随着商业和互联网的高速发展,其大型商业系统和业务系统也随之呈现快速发展的趋势。航空公司的自助值机系统伴随着航空业务的高速发展而得到了广泛的应用,每天使用自助值机系统办理乘机服务的旅客大量增加,随着业务处理的复杂化和用户数量的规模化,系统每天都产生海量的日志文件。这些日志文件往往包含了宝贵的客户数据,通过对日志数据文件的分析可以将潜在的客户数据转变成客户价值。然而传统的单机处理方式分析大规模日志数据已经越来越力不从心,因此分布式并行化日志分析方法的研究工作便至关重要。分布式计算平台Hadoop下的MapReduce编程模型由于拥有简单、易用、适用性强、处理数据规模大等优点,成为大规模日志分析的首要选择。Hadoop分布式计算平台主要由MapReduce编程模型和HDFS(分布式文件管理系统)组成,通过Hadoop可以轻松地组织计算机资源,搭建分布式计算平台,充分利用集群的计算和存储能力,完成对海量数据的分析处理工作。数据挖掘技术是从大量的、不完全的、有噪声的实际应用数据中,提取潜在有用的信息和知识的过程,是实现日志分析的理论基础和方法。本文在深入研究数据挖掘技术的基础上,从自助值机系统产生的日志文件的特点出发,提出了一套基于日志文件的数据预处理方法和适合分布式并行处理的分析方法。数据预处理方法通过对原始日志文件进行数据清理、集成、变换、规约等操作,调整分析数据格式和内容,从而有效地减小数据进行分布式处理的规模,提高日志分析的效率。分布式并行化处理方法则高效地完成对海量日志文件的分析处理工作,并从分析结果中得到有价值的客户数据和商业数据,为业务的制定和发展提供有力的支持。本文重点对分布式日志分析方法进行了研究。在深入研究日志分析处理方法、分布式并行计算技术的基础上,设计并实现了基于B/S框架和分布式处理平台Hadoop的日志分析系统。通过实验表明,在对大规模日志文件的分析处理上,该系统与传统的串行计算日志分析系统相比在分析效率上有显著的提升。本文开发的分布式日志分析系统,实现了日志分析处理的整个过程。用户通过FTP服务上传日志文件到服务器,通过选择相应的分析要素进行数据预处理。系统自动将经过预处理后的日志文件发送到分布式计算节点做分布式并行化分析处理,数据分析结果通过图表化的方式展示在系统页面上。用户还可导出分析结果数据到Excel表格并通过电子邮件发送给相关开发人员和业务人员,为航空公司制定新的业务提供决策依据。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 前言 10-14 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-12 1.3 研究内容 12 1.4 论文结构 12-14 第2章 Hadoop 分布式计算平台技术 14-22 2.1 MapReduce 编程模型 14-16 2.1.1 MapReduce 处理流程 14-15 2.1.2 MapReduce 作业运行方式 15-16 2.2 分布式文件系统 HDFS 16-19 2.2.1 HDFS 数据管理的优点 18 2.2.2 HDFS 的设计目标 18-19 2.3 Hadoop 的优点 19-20 2.4 Hadoop 并行计算处理过程 20-22 第3章 数据挖掘技术与日志文件分析方法 22-30 3.1 数据挖掘技术 22-23 3.2 数据挖掘任务 23-25 3.3 日志分析处理方法 25-30 3.3.1 自助值机系统日志文件的特点 26-28 3.3.2 日志文件的预处理方法 28-30 第4章 分布式并行日志分析系统的设计和实现 30-50 4.1 系统需求分析 30-31 4.2 日志分析系统的层次结构设计 31-34 4.2.1 数据访问模块 32 4.2.2 数据处理 32-33 4.2.3 应用交互模块 33-34 4.3 日志分析功能详细设计与实现 34-50 4.3.1 系统功能结构及处理流程 34-35 4.3.2 系统类图设计 35-37 4.3.3 数据获取和数据预处理的实现 37-39 4.3.4 日志分析的设计和实现 39-47 4.3.4.1 分布式并行日志分析工作流程 39-40 4.3.4.2 数据库结构设计 40-41 4.3.4.3 日志分析的并行处理 41-44 4.3.4.4 并行日志分析性能分析 44-47 4.3.5 数据展示模块的设计和实现 47 4.3.6 数据管理模块的设计和实现 47-50 第5章 分布式日志分析系统运行实例 50-60 5.1 集群环境的搭建 50-52 5.2 系统功能说明 52-53 5.3 日志数据载入和预处理实例 53-54 5.3.1 日志数据载入 54 5.3.2 日志数据预处理 54 5.4 分布式日志数据统计分析 54-55 5.5 分析结果展示 55-57 5.5.1 折线图展示 55-56 5.5.2 饼状图展示 56-57 5.6 分析结果查询 57-58 5.7 分析结果导出与发送 58-60 结论 60-62 致谢 62-64 参考文献 64-67 攻读学位期间取得学术成果 67
|
相似论文
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于CUDA的图像数字水印技术的研究,TP309.7
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 数据集市在电信经营分析中的应用研究,TP311.13
- 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
- 基于MPI的三维地层建模和可视化方法研究,TP391.41
- 基于GPU并行加速的正射影像生成研究,TP391.41
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|