学位论文 > 优秀研究生学位论文题录展示

大规模非结构数据索引和可视化的研究

作 者: 曹磊
导 师: 张加万; 郭红旗
学 校: 天津大学
专 业: 软件工程
关键词: R树 非结构数据 索引 并行化
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 6次
引 用: 0次
阅 读: 论文下载
 

内容摘要


特征降维是文本分类过程中的重要一环。针对传统文本分类中的特征降维方法无法快速处理大数据的情况,本文提出了卡方统计(chi-square statistics,CHI),信息增益(information gain,IG)和互信息(mutual information,MI)等特征降维算法的MapReduce并行化模型,并且在Apache Hadoop平台下进行了实验。随着科技进步,包括网络图片和视频监控在内的图像数据出现了迅速的增长。如何有效管理图像数据成为一个挑战。图像聚类是图像数据管理的重要一环。本文实现了Hadoop平台下尺度不变特征转换算法(Scale Invariant Feature Transform, SIFT)和K-means聚类的MapReduce并行化,并且取得了不错的效果。随着互联网技术的迅速发展,人们所接触的信息已不再局限于传统的结构数据。而传统的文本检索或者图像检索等技术只能专门处理某一种类型的非结构数据。如何采用统一的方法表示和访问非结构数据已经成为一个研究热点。本文在R树索引的基础上实现了不同类型非结构数据的混合索引,并且取得了不错的效果。随着信息技术的迅速发展,我们每天所能够接触到的信息呈现了爆炸式增长的态势。信息的过载使得人们希望通过各种有效的方式从海量的数据中找到自己感兴趣的内容。信息检索可以在一定程度上解决上述问题。但是信息检索本身不能直观的把用户感兴趣的内容所隐藏的规律展示出来。所以,如何根据每个用户的特点帮助用户从海量数据中又快又准的找到自己感兴趣的信息和规律,已经成为一个很棘手的问题,而信息可视化技术可以很好的解决这个问题。本文研究了如何利用信息可视化技术直观的展示数据背后的规律,并且取得了不错的效果。

全文目录


摘要  3-4
ABSTRACT  4-7
第一章 绪论  7-10
  1.1 研究背景  7-8
  1.2 本文的研究内容  8-9
  1.3 本文的组织结构  9-10
第二章 综述和相关工作  10-19
  2.1 文本挖掘  10-14
    2.1.1 文本分词  11-13
    2.1.2 中文特征降维  13-14
  2.2 图像处理  14-17
    2.2.1 图像特征  15
    2.2.2 图像的字典匹配聚类  15-17
  2.3 多维数据索引  17-18
  2.4 信息可视化  18
  2.5 本章小结  18-19
第三章 非结构数据的降维和聚类研究  19-28
  3.1 MapReduce 并行计算模型  19-20
  3.2 文本特征降维算法的 MapReduce 并行化  20-22
    3.2.1 数据集数据预处理 job  20
    3.2.2 统计信息 job  20-21
    3.2.3 辅助统计 Job  21
    3.2.4 特征降维计算 job  21-22
  3.3 图像聚类算法的 MapReduce 并行化  22-25
    3.3.1 训练过程特征提取 job  22-23
    3.3.2 训练过程初始化图像特征字典 job  23
    3.3.3 训练过程生成图像特征字典 job  23-24
    3.3.4 测试过程图像特征提取 job  24-25
    3.3.5 测试过程图像聚类 job  25
  3.4 实验和分析  25-27
    3.4.1 实验配置  25-26
    3.4.2 实验数据  26
    3.4.3 实验结果和分析  26-27
  3.5 本章小结  27-28
第四章 基于 R 树的非结构数据索引  28-35
  4.1 基于 R 树的非结构数据索引总体设计  28-29
  4.2 非结构信息提取  29
  4.3 R 树索引研究  29-31
    4.3.1 查找叶节点(search_leaf)算法  30
    4.3.2 插入非结构数据(insert_ unstructured_data)算法  30-31
    4.3.3 删除非结构数据(delete_ unstructured_data)算法  31
  4.4 基于 XML 的非机构信息关联存储  31-32
  4.5 实验和分析  32-34
    4.5.1 检索系统设计  32
    4.5.2 实验配置  32-33
    4.5.3 实验数据  33
    4.5.4 实验结果  33-34
  4.6 本章小结  34-35
第五章 信息可视化在非结构数据挖掘中的应用  35-44
  5.1 TreeMap 在非结构数据挖掘中的应用  35-39
    5.1.1 TreeMap 算法  35-36
    5.1.2 TreeMap 算法的应用  36-39
  5.2 标签云在非结构数据挖掘中的应用  39-40
    5.2.1 标签云算法  39
    5.2.2 标签云算法的应用  39-40
  5.3 平行轴在非结构数据挖掘中的应用  40-43
    5.3.1 平行轴算法  40-41
    5.3.2 平行轴算法的应用  41-43
  5.4 本章小结  43-44
第六章 总结与展望  44-45
参考文献  45-48
发表论文和参加科研情况说明  48-49
致谢  49

相似论文

  1. 卫星光通信粗瞄控制系统的设计及故障诊断,V443.1
  2. 病险水库溃坝概率分析方法研究,TV697
  3. 支持XML数据查询的F&B索引结构的研究,TP311.13
  4. 大规模稀疏关系数据索引技术研究,TP311.132.3
  5. 多邮件自动文摘的关键技术研究,TP391.1
  6. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  7. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  8. 新疆油田地面工程造价指标和管理信息系统的研究与应用,F284
  9. 树鼩和猕猴精子冷冻保存工艺的创建和优化的研究,S865.1
  10. 高校人力资源管理外包研究,G647
  11. 基于FMEA与FTA的通风系统可靠性分析,TD724
  12. 乌饭树系列食品的研制,TS205
  13. 城市道路网络分析及路线优化问题研究,P208
  14. 大型定距螺旋桨多轴数控加工刀具轨迹规划,TG659
  15. 数据挖掘在上海市职业能力考试院招录考试优化管理项目中的运用研究,TP311.13
  16. 广州古树名木保护与利用研究,S788
  17. 卧螺离心机的可靠性研究,TQ051.8
  18. 基于移动通信网络业务分析系统的设计与实现,TP311.52
  19. 面向区域成矿预测的案例推理方法研究,P612
  20. 全文检索及相关技术研究,TP391.3
  21. 网络支撑客服平台的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com