学位论文 > 优秀研究生学位论文题录展示

基于Hadoop的高性能文本聚类算法的设计与实现

作 者: 林纪坡
导 师: 杜小妮
学 校: 西北师范大学
专 业: 软件工程
关键词: 文本聚类 数据挖掘 Hadoop 分布式并行运算 MapReduce
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 12次
引 用: 0次
阅 读: 论文下载
 

内容摘要


信息技术的飞速发展带来互联网上的数据信息急剧增长,大部分数据以文本信息的形式存在。挖掘网页上的海量文本信息以及快速准确地对这些信息进行分析处理,获取有用的信息,已经成为各大公司组织和个人急待解决的问题。在分布式环境下通过数据挖掘中的文本聚类技术对海量文本数据进行并行处理是解决这一问题的最有效途径之一。文本聚类技术是数据挖掘领域的一个重要的课题,是一种无监督的机器学习方法,其基本思想是首先将文本预处理成计算机可以处理的数据,然后进行文本相似度计算并形成聚类结果。本文通过分析聚类技术的基本原理,总结已经存在的聚类方法中在海量数据处理中的优缺点,并把分布式并行技术引入文本聚类领域,设计并实现了一个基于分布式并行运算的短文本聚类算法。不仅解决了传统聚类算法在处理海量数据方面由于数据的高维和稀疏等方面存在的不足,而且解决了由数据规模过大引起的运行速度慢、效率低的问题。本文的主要工作在于:介绍文本聚类算法的思想和相关理论知识,对当前已经存在的各个分类的聚类算法思想及其代表性算法进行深入分析和研究,并总结出各个分类的聚类算法的优缺点和适用范围;对开源分布式平台Hadoop的基本架构及其关键技术-HDFS分布式文件系统和MapReduce编程模型进行深入研究,并在此基础上设计了一种基于Hadoop分布式平台的分布式并行文本聚类算法;通过实验证明设计的分布式并行文本聚类算法在处理海量的、高维度数据集的可行性。

全文目录


摘要  8-9
Abstract  9-10
1 绪论  10-14
  1.1 课题的研究背景和意义  10-11
  1.2 课题研究的动机和目的  11-12
  1.3 论文的主要内容  12
  1.4 论文的组织和结构  12-14
2 文本聚类算法综述  14-24
  2.1 聚类的定义  14
  2.2 聚类算法的性能要求  14-15
  2.3 文本聚类及其一般流程  15-16
  2.4 文本聚类相关技术  16-19
    2.4.1 中文分词  16-17
    2.4.2 文本表示  17-18
    2.4.3 文本相似度计算  18-19
    2.4.4 类间距离度量  19
  2.5 文本聚类算法  19-23
    2.5.1 基于划分的聚类算法  20
    2.5.2 基于层次的聚类算法  20-21
    2.5.3 基于密度的聚类算法  21-22
    2.5.4 基于网格的聚类算法  22
    2.5.5 基于模型的聚类算法  22-23
  2.6 本章小结  23-24
3 Hadoop 平台概述  24-33
  3.1 云计算平台概述  24
  3.2 分布式系统概述  24
  3.3 Hadoop 分布式系统  24-25
  3.4 Hadoop 总体架构  25-26
  3.5 Hadoop 分布式文件系统—HDFS  26-30
    3.5.1 HDFS 的体系结构  26-28
    3.5.2 HDFS 的基本操作  28-29
    3.5.3 HDFS 的数据管理方面的功能  29-30
  3.6 MapReduce 编程模型  30-32
  3.7 本章小结  32-33
4 分布式文本聚类算法的设计  33-39
  4.1 分布式文本聚类需求分析  33-34
  4.2 算法设计的整体思想  34
  4.3 功能模块设计  34-37
    4.3.1 数据预处理模块  34-35
    4.3.2 构建空间向量模型模块  35
    4.3.3 构建倒排表和反倒排表模块  35-36
    4.3.4 基于划分的初步聚类模块  36-37
    4.3.5 基于层次的二次聚类模块  37
  4.4 本章小结  37-39
5 分布式文本聚类算法的实现  39-50
  5.0 MapReduce 程序模型  39-41
  5.1 文本数据预处理  41-42
  5.2 构建向量空间模型  42-44
  5.3 构建倒排表  44-45
  5.4 构建反倒排表  45-46
  5.5 基于划分的初步聚类  46-48
  5.6 基于层级的聚类  48-49
  5.7 本章小结  49-50
6 分布式文本聚类算法的应用与评估  50-60
  6.1 基于 Hadoop 分布式平台的搭建  50-54
    6.1.1 平台搭建环境  50
    6.1.2 Hadoop 分布式平台的搭建  50-51
    6.1.3 Hadoop 分布式平台环境配置  51-54
  6.2 集群的初步测试  54-55
  6.3 应用数据来源  55
  6.4 应用测试结果和分析  55-59
  6.5 本章小结  59-60
总结与展望  60-62
参考文献  62-65
致谢  65

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于数据挖掘技术的保健品营销研究,F426.72
  3. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  4. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  5. Bicluster数据分析软件设计与实现,TP311.52
  6. 基于变异粒子群的聚类算法研究,TP18
  7. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  8. 演化聚类算法及其应用研究,TP311.13
  9. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  10. 基于本体的食品投诉文档文本聚类研究,TP391.1
  11. 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
  12. 基于云计算的Web教育爬虫,TP391.3
  13. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  14. 基于Hadoop的移动学习系统设计与实现,G434
  15. 数据挖掘在无纸化考试系统中的应用与研究,TP311.52
  16. 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
  17. 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
  18. 基于云计算的软件资源服务平台研究,TP311.52
  19. 面向短消息文本的聚类技术研究与应用,TP391.1
  20. 教育新闻热点话题发现系统的设计与实现,TP391.1
  21. 海量数据的快速查询算法研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com