学位论文 > 优秀研究生学位论文题录展示
基于Hadoop的图片地理定位研究
作 者: 李佳
导 师: 林坤辉
学 校: 厦门大学
专 业: 计算机软件与理论
关键词: 图片地理定位 Hadoop 海量图片存储
分类号: TP333
类 型: 硕士论文
年 份: 2014年
下 载: 9次
引 用: 0次
阅 读: 论文下载
内容摘要
随着多媒体技术和互联网的发展,图片分享网站逐渐兴起。由于用户的广泛参与,图片分享网站中存储了海量的多媒体信息,其中有大量的图片、文本标签和用户信息,部分图片还具有GPS坐标,文本标签也通常含有地理位置描述信息。而与用户相关的GPS坐标具有很重要的研究价值,基于地理位置的搜索也逐渐流行,因此具有地理位置的图片有着广泛的应用前景。海量的具有地理位置的图片数据能提供有价值的信息,但具有准确地理位置的图片在网络图片中占得比例很低,人工标注的地理位置又往往不准确,因此需要利用已有的具有准确地理位置的图片确定其它图片的地理位置。同时,海量图片数据的处理需求对图片处理应用的数据存储与处理能力提出了更高的要求,依靠传统的数据处理技术已经不能满足大量数据的处理要求。云计算的快速崛起为图片处理应用提供了新的选择。本文在分析国内外研究背景和现状的基础上,研究了基于Hadoop的图片文件存储方案,深入了解和分析了Hadoop在处理小文件时存在的问题以及现有的解决方案,通过采用文件合并的方式优化了图片小文件的存储,并提出了一种改进的图片存储方案,设计了相应的存储访问接口。本文还分析了基于文本标签和基于内容的图片地理定位方案,研究了方案中用到的GPS坐标聚类、文本标签分类、图片特征提取及相似度计算等关键技术,并提出了一种基于Hadoop的改进的图片地理定位方案,同时结合Java编程语言、SQL Server2012数据库技术和百度地图API实现了基于Hadoop的图片地理定位系统。改进后的图片文件存储方案支持文件的合并和追加操作,极大地方便了图片文件的管理和处理,改进后的图片地理定位方案利用GPS坐标聚类和文本标签分类技术划分图片区域,同时将文本标签相似度与图片相似度相结合,有效地利用了图片及其文本标签信息。本文的实验结果表明,改进的图片文件存储方案具有较好的存储访问性能,改进的图片地理定位方案具有相对较高的准确率,系统运行也达到了预期的效果。
|
全文目录
摘要 4-5 Abstract 5-13 第一章 绪论 13-20 1.1 研究背景及意义 13-15 1.2 国内外研究现状 15-18 1.2.1 Hadoop小文件处理研究 15-16 1.2.2 图片地理定位研究 16-18 1.3 本文的研究内容 18 1.4 本文的组织结构 18-20 第二章 相关技术研究 20-37 2.1 Hadoop分布式平台结构 20-23 2.1.1 HDFS分布式文件系统 21-22 2.1.2 MapReduce分布式计算 22-23 2.2 Hadoop小文件处理问题分析 23-25 2.3 Trie树和三叉搜索树 25-27 2.3.1 Trie树 25-26 2.3.2 三叉搜索树 26-27 2.4 基于内容的图片检索 27-31 2.4.1 图片特征描述 27-31 2.4.2 Bag-of-Features模型 31 2.5 聚类算法 31-34 2.5.1 k-均值聚类算法 32-33 2.5.2 Canopy聚类算法 33-34 2.6 分类器 34-36 2.6.1 朴素贝叶斯分类器 34-35 2.6.2 k-近邻分类器 35-36 2.7 本章小结 36-37 第三章 海量图片存储方案分析与设计 37-49 3.1 Hadoop归档文件和序列文件 37-40 3.1.1 Hadoop归档文件 37-38 3.1.2 序列文件 38-40 3.2 图片文件存储改进方案 40-47 3.2.1 文件存储结构设计 40-41 3.2.2 存储访问接口设计 41-45 3.2.3 图片文件检索设计 45-47 3.3 方案可行性分析 47-48 3.4 本章小结 48-49 第四章 图片地理定位方案研究 49-62 4.1 基于文本标签的图片地理定位 49-53 4.1.1 GPS坐标聚类 50-51 4.1.2 文本标签分类 51-52 4.1.3 目标图片地理定位 52-53 4.1.4 方案有效性分析 53 4.2 基于内容的图片地理定位 53-60 4.2.1 FCTH特征 54-56 4.2.2 Bag-of-Features模型构建 56-58 4.2.3 图片相似度计算 58-59 4.2.4 目标图片地理定位 59-60 4.3 基于Hadoop的改进的图片地理定位 60-61 4.4 本章小结 61-62 第五章 系统设计与实现 62-78 5.1 系统总体设计 62-66 5.1.1 图片库生成模块 63-64 5.1.2 检索模型构建模块 64-65 5.1.3 图片地理定位模块 65-66 5.2 数据库设计 66-68 5.3 系统实现 68-74 5.3.1 相关环境 68 5.3.2 HMPI实现 68-70 5.3.3 GPS坐标聚类 70-72 5.3.4 图片检索模型 72-74 5.4 实验结果与分析 74-76 5.4.1 存储方案性能比较 74-75 5.4.2 图片地理定位准确性比较 75-76 5.5 系统运行效果 76-77 5.6 本章小结 77-78 第六章 总结与展望 78-80 6.1 总结 78 6.2 展望 78-80 参考文献 80-84 攻读硕士学位期间发表的论文 84-85 致谢 85
|
相似论文
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于Hadoop的移动学习系统设计与实现,G434
- 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
- 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
- 基于云计算的软件资源服务平台研究,TP311.52
- 海量数据的快速查询算法研究,TP311.13
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 云计算平台上的增量学习研究,TP311.13
- 云队列:一个基于Hadoop的大规模消息基础平台,TP311.52
- 基于Hadoop的文本分类研究,TP391.1
- 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
- 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
- 基于Hadoop的视频转码系统设计与实现,TN919.81
- 云环境下MapReduce容错技术的研究,TP302.8
- 基于云存储的手机数据备份系统,TP309.3
- 基于Hadoop/Hive的海量web日志处理系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 基于云计算的海量视频转换平台的设计与实现,TP311.52
- MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
- 数据密集型计算系统中的作业调度技术研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 电子数字计算机(不连续作用电子计算机) > 存贮器
© 2012 www.xueweilunwen.com
|