学位论文 > 优秀研究生学位论文题录展示
基于Hadoop平台的实体识别系统的研究与实现
作 者: 毕玉龙
导 师: 李建中
学 校: 黑龙江大学
专 业: 计算机应用技术
关键词: 实体识别 数据质量 云计算 Hadoop 条件函数关系依赖
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 115次
引 用: 0次
阅 读: 论文下载
内容摘要
近些年随着科技的发展,人们从生产、生活中积累并抽象产生出更多的数据,使得传统的信息系统不再适合处理、计算现有的数据,并且通过研究表明计算机的物理性能已经基本达到极限,摩尔定律正在渐渐失效。针对这类问题,研究人员提出了各种各样的解决方法。例如将现有的计算机扩展为一机多核等,通过改造cpu来达到提高计算机性能的目的,并且在实际应用取得成功,但是仅仅这些还满足不了对海量数据的计算。2007年,Google首先提出了商业云计算概念,进一步带动计算机领域对云计算的研究。现有的云计算系统主要是通过将一组廉价的计算机组织起来,相互连接协同操作,其所能达到的性能堪比价格昂贵的超级服务器。本文以云计算中的实体识别技术为背景,在Hadoop平台中设计并实现了在大数据集上使用条件函数依赖约束进行数据过滤的实体识别系统。本文主要研究内容及贡献如下:(1)首先研究了云计算的发展,并针对云计算环境中对数据质量研究工作较少的现状提出了在云计算环境中基于过滤条件函数依赖约束的实体识别问题。(2)针对基于MapReduce框架的Hadoop平台,以及其分布式文件存储系统进行了分析。通过研究在Hadoop平台下执行计算任务的工作流程以及数据中条件函数依赖约束的特点,利用共享输入数据和共享Map中间结果两种方法,提出了解决在Hadoop平台下基于条件函数依赖的实体识别任务的优化合并。通过使用任务合并技术可以高效的对在大数据集上的条件函数依赖约束进行检查,而且可以优化合并输入任务,达到缩小输入任务个数,减少对输入数据的读取代价,并且控制了任务执行过程中产成的中间结果的大小等目的。(3)在虚拟机环境中搭建Hadoop平台,对真实的基因和蛋白质数据进行了条件函数依赖约束的检查。验证了本文算法的有效性和本文所设计的系统的有效性。
|
全文目录
中文摘要 3-4 Abstract 4-9 第1章 绪论 9-18 1.1 云计算概述 9-12 1.1.1 云计算的概念及产生 9-10 1.1.2 国内外云计算发展 10-12 1.2 研究问题及意义 12-13 1.3 相关课题国内外研究现状 13-16 1.3.1 传统数据质量相关课题研究 14-16 1.3.2 大数据集中的数据质量相关课题研究 16 1.4 本文主要研究工作 16-17 1.5 本文章节安排 17-18 第2章 Hadoop框架结构及条件函数依赖的研究 18-27 2.1 MapReduce基本原理 18-20 2.2 实现了MapReduce框架的Hadoop开源项目 20-25 2.2.1 Hadoop平台框架 20-23 2.2.2 Hadoop工作流程 23-25 2.3 条件函数依赖约束 25-26 2.4 本章小结 26-27 第3章 基于Hadoop平台的实体识别系统中的任务合并技术的研究 27-50 3.1 Hadoop框架中任务间共享机制 27-34 3.1.1 输入共享机制 28-30 3.1.2 Map中间结果共享机制 30-32 3.1.3 共享Map函数机制 32-34 3.2 MapReduce任务共享的代价模型 34-40 3.2.1 单任务单独执行代价 35-38 3.2.2 多任务合并执行代价 38-40 3.3 基于输入共享机制的分组算法 40-45 3.3.1 问题定义 40-42 3.3.2 合并分组算法 42-43 3.3.3 改进分组算法 43-45 3.4 基于Map中间结果共享机制的分组算法 45-49 3.4.1 问题定义 45-47 3.4.2 基于Map中间结果共享机制的分组算法的改进 47-49 3.5 本章小结 49-50 第4章 基于Hadoop平台的实体识别系统的实现 50-57 4.1 任务优化分组中的子任务标记 50-53 4.1.1 共享输入机制中的子任务区分 50-51 4.1.2 Map中间结果共享机制中的子任务区分 51-53 4.2 Map函数实现 53-55 4.3 Reduce函数实现 55 4.4 Combine函数实现 55-56 4.5 本章小结 56-57 第5章 系统性能分析 57-66 5.1 系统环境 57-58 5.1.1 系统运行环境介绍 57 5.2.2 实验数据 57-58 5.2 系统参数设定 58-59 5.3 合并条件函数依赖约束中的tableau实例 59-60 5.4 基于共享输入数据机制的合并分组策略的性能分析 60-64 5.4.1 合并所有输入任务作为单一任务 60-62 5.4.2 合并分组算法IterMergeJobs性能分析 62-64 5.5 基于Map中间结果共享机制的合并分组策略的性能分析 64-65 5.6 本章小结 65-66 结论 66-68 参考文献 68-74 致谢 74
|
相似论文
- 云计算平台下的动态信任模型的研究,TP309
- 兖州矿区典型地物波谱数据库建设与应用研究,P208
- 移动通信企业数据整合与数据质量控制研究,TP274
- 基于Eucalyptus的教育知识服务模型设计与实现,TP393.09
- 云网络实验平台研究与实现,TP393.09
- 基于云计算的数字图书馆服务模式研究,G250.76
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于模糊综合评价的靶场实时光测数据质量评估,TJ06
- 汉语嵌套命名实体识别方法研究,TP391.1
- 基于GIS的农业地质调查数据库管理系统的设计与研究,TP311.52
- 面向云计算的动态模糊测度方法研究,TP274
- 基于云计算的图书馆信息服务研究,G252
- 文献计量学和文本挖掘在生命科学中的应用,TP391.1
- 基于云计算的Web教育爬虫,TP391.3
- 云计算客户端应用系统的研究与开发,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于Hadoop的移动学习系统设计与实现,G434
- 云计算在权限管理中的应用研究,TP309
- 基于MPSO算法的云计算任务调度策略研究,TP3
- 构建基于云计算的企业信息系统关键技术研究,TP315
- 基于Google平台促销模块与商品模块的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|