学位论文 > 优秀研究生学位论文题录展示

互联网访问数据预处理研究与应用-基于Hadoop

作　者: 黄航辉
导　师: 夏小玲
学　校: 东华大学
专　业: 计算机应用技术
关键词: 数据挖掘日志预处理用户识别自然语言处理 Hadoop
分类号: TP393.09
类　型: 硕士论文
年　份: 2014年
下　载: 136次
引　用: 0次
阅　读: 论文下载

内容摘要

随着Web技术的逐渐成熟以及快速发展,越来越多的用户可以通过互联网访问自己想要的信息。因此,用户通过互联网所能获取的信息量呈指数级的速度增长。互联网中的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效获取有价值的信息带来了不小的挑战。如何通过对用户访问互联网的数据的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来为用户提供个性化、智能化的信息服务已成为人们的迫切需求。互联网Web日志挖掘(Web Log Mining)正是在这种背景下产生的。但是随着数据的大量积累,面对无比庞大的海量数据,目前的单机处理模式已然不能满足大数据(Big Data)处理的需求。因此,面向大数据处理的Hadoop平台也随之出现。本文的主要研究内容是：基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用。首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状；然后,对Web口志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括。其次,介绍了当前热门的大数据分布式处理平台——Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中。在研究的基础上,提出一种基于并查集的会话识别算法,并根据日志Cookie中用户的相关账号信息进行用户识别。为后期的数据挖掘提供较为准确的用户信息数据。最后,在用户识别的基础上,对用户浏览日志中的搜索记录进行自然语言处理,提取出用户的搜索关键词以及关键词的分类信息。通过这些搜索关键字将来就可以归纳出用户一段时间内的兴趣点。论文在已有研究的基础上,主要做了以下几个方面的创新研究工作：首先探讨了互联网Web日志挖掘中的一个关键问题,即Web日志的数据预处理问题；针对目前单机大数据处理模式的不足,成功将其移植到分布式处理平台Hadoop中；根据用户浏览页面的链接关系提出了一种并查集的会话识别算法,并根据用户相关账户信息进行用户识别；又通过用户搜索记录的自然语言处理,归纳出用户的搜索关键词及分类信息,为后期用户兴趣爱好,行为习惯的挖掘工作做好了充分准备。通过本文的研究工作,将为今后的Web日志预处理研究打下坚实基础。

全文目录

摘要  5-7
ABSTRACT  7-11
第一章绪论  11-16
  1.1 选题背景  11-12
  1.2 研究意义  12-13
  1.3 相关研究现状  13-14
  1.4 本文的工作  14-15
  1.5 本文的组织结构  15-16
第二章 Web日志挖掘和Web日志预处理  16-24
  2.1 Web日志挖掘  16-19
    2.1.1 Web日志挖掘概述  16
    2.1.2 Web日志挖掘的数据源  16-17
    2.1.3 Web日志挖掘的过程  17-19
  2.2 Web日志预处理  19-23
    2.2.1 数据清理  19-20
    2.2.2 会话识别  20
    2.2.3 用户识别  20-21
    2.2.4 自然语言处理  21-23
  2.3 本章小结  23-24
第三章 Hadoop平台概述  24-34
  3.1 Hadoop平台背景  24-27
    3.1.1 云计算概述  24
    3.1.2 Google云计算平台介绍  24-25
    3.1.3 Hadoop平台的产生  25-26
    3.1.4 Hadoop的master/slave架构  26-27
  3.2 Hadoop分布式文件系统HDFS  27-31
    3.2.1 HDFS的结构  28-29
    3.2.2 HDFS的工作流程  29-30
    3.2.3 HDFS的特点  30-31
  3.3 Hadoop的MapReduce计算构架  31-33
    3.3.1 一般的MapReduce模型  31
    3.3.2 Hadoop MapReduce的实现  31-33
    3.3.3 Hadoop MapReduce的特点  33
  3.4 本章小结  33-34
第四章预处理在Hadoop中的分析设计  34-45
  4.1 Web日志预处理流程设计  34
  4.2 数据清理  34-35
  4.3 用户识别设计  35-42
    4.3.1 会话识别  37-39
    4.3.2 Cookie提取  39-41
    4.3.3 会话合并  41-42
    4.3.4 用户标记  42
  4.4 关键词提取设计  42-44
    4.4.1 搜索内容提取  42-43
    4.4.2 关键词提取  43-44
  4.5 本章小结  44-45
第五章预处理在Hadoop中的实现  45-56
  5.1 运行环境配置  45-47
    5.1.1 运行平台搭建  45
    5.1.2 Hadoop环境配置  45-47
  5.2 Hadoop实现  47-54
    5.2.1 代码框架  47-49
    5.2.2 用户识别实现  49-53
    5.2.3 关键词提取实现  53-54
  5.3 实验结果  54-55
    5.3.1 实验数据  54
    5.3.2 实验结果  54-55
  5.4 本章小结  55-56
第六章总结与展望  56-58
  6.1 全文总结  56-57
  6.2 研究展望  57-58
参考文献  58-61
攻读硕士学位期间发表的学术论文和参与的项目  61-62
致谢  62

互联网访问数据预处理研究与应用-基于Hadoop

内容摘要

全文目录

相似论文