学位论文 > 优秀研究生学位论文题录展示

互联网访问数据预处理研究与应用-基于Hadoop

作 者: 黄航辉
导 师: 夏小玲
学 校: 东华大学
专 业: 计算机应用技术
关键词: 数据挖掘 日志预处理 用户识别 自然语言处理 Hadoop
分类号: TP393.09
类 型: 硕士论文
年 份: 2014年
下 载: 136次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Web技术的逐渐成熟以及快速发展,越来越多的用户可以通过互联网访问自己想要的信息。因此,用户通过互联网所能获取的信息量呈指数级的速度增长。互联网中的海量信息一方面为用户提供了获取信息的源泉,另一方面也为用户高效获取有价值的信息带来了不小的挑战。如何通过对用户访问互联网的数据的挖掘来获取用户潜在的兴趣或其他有用的信息,以此来为用户提供个性化、智能化的信息服务已成为人们的迫切需求。互联网Web日志挖掘(Web Log Mining)正是在这种背景下产生的。但是随着数据的大量积累,面对无比庞大的海量数据,目前的单机处理模式已然不能满足大数据(Big Data)处理的需求。因此,面向大数据处理的Hadoop平台也随之出现。本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用。首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状;然后,对Web口志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括。其次,介绍了当前热门的大数据分布式处理平台——Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中。在研究的基础上,提出一种基于并查集的会话识别算法,并根据日志Cookie中用户的相关账号信息进行用户识别。为后期的数据挖掘提供较为准确的用户信息数据。最后,在用户识别的基础上,对用户浏览日志中的搜索记录进行自然语言处理,提取出用户的搜索关键词以及关键词的分类信息。通过这些搜索关键字将来就可以归纳出用户一段时间内的兴趣点。论文在已有研究的基础上,主要做了以下几个方面的创新研究工作:首先探讨了互联网Web日志挖掘中的一个关键问题,即Web日志的数据预处理问题;针对目前单机大数据处理模式的不足,成功将其移植到分布式处理平台Hadoop中;根据用户浏览页面的链接关系提出了一种并查集的会话识别算法,并根据用户相关账户信息进行用户识别;又通过用户搜索记录的自然语言处理,归纳出用户的搜索关键词及分类信息,为后期用户兴趣爱好,行为习惯的挖掘工作做好了充分准备。通过本文的研究工作,将为今后的Web日志预处理研究打下坚实基础。

全文目录


摘要  5-7
ABSTRACT  7-11
第一章 绪论  11-16
  1.1 选题背景  11-12
  1.2 研究意义  12-13
  1.3 相关研究现状  13-14
  1.4 本文的工作  14-15
  1.5 本文的组织结构  15-16
第二章 Web日志挖掘和Web日志预处理  16-24
  2.1 Web日志挖掘  16-19
    2.1.1 Web日志挖掘概述  16
    2.1.2 Web日志挖掘的数据源  16-17
    2.1.3 Web日志挖掘的过程  17-19
  2.2 Web日志预处理  19-23
    2.2.1 数据清理  19-20
    2.2.2 会话识别  20
    2.2.3 用户识别  20-21
    2.2.4 自然语言处理  21-23
  2.3 本章小结  23-24
第三章 Hadoop平台概述  24-34
  3.1 Hadoop平台背景  24-27
    3.1.1 云计算概述  24
    3.1.2 Google云计算平台介绍  24-25
    3.1.3 Hadoop平台的产生  25-26
    3.1.4 Hadoop的master/slave架构  26-27
  3.2 Hadoop分布式文件系统HDFS  27-31
    3.2.1 HDFS的结构  28-29
    3.2.2 HDFS的工作流程  29-30
    3.2.3 HDFS的特点  30-31
  3.3 Hadoop的MapReduce计算构架  31-33
    3.3.1 一般的MapReduce模型  31
    3.3.2 Hadoop MapReduce的实现  31-33
    3.3.3 Hadoop MapReduce的特点  33
  3.4 本章小结  33-34
第四章 预处理在Hadoop中的分析设计  34-45
  4.1 Web日志预处理流程设计  34
  4.2 数据清理  34-35
  4.3 用户识别设计  35-42
    4.3.1 会话识别  37-39
    4.3.2 Cookie提取  39-41
    4.3.3 会话合并  41-42
    4.3.4 用户标记  42
  4.4 关键词提取设计  42-44
    4.4.1 搜索内容提取  42-43
    4.4.2 关键词提取  43-44
  4.5 本章小结  44-45
第五章 预处理在Hadoop中的实现  45-56
  5.1 运行环境配置  45-47
    5.1.1 运行平台搭建  45
    5.1.2 Hadoop环境配置  45-47
  5.2 Hadoop实现  47-54
    5.2.1 代码框架  47-49
    5.2.2 用户识别实现  49-53
    5.2.3 关键词提取实现  53-54
  5.3 实验结果  54-55
    5.3.1 实验数据  54
    5.3.2 实验结果  54-55
  5.4 本章小结  55-56
第六章 总结与展望  56-58
  6.1 全文总结  56-57
  6.2 研究展望  57-58
参考文献  58-61
攻读硕士学位期间发表的学术论文和参与的项目  61-62
致谢  62

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 基于数据挖掘技术的保健品营销研究,F426.72
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  6. 基于遗传算法和粗糙集的聚类算法研究,TP18
  7. 基于数据挖掘的税务稽查选案研究,F812.42
  8. 基于行业参数优化模型的投资项目决策支持系统,F283
  9. 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
  10. 关联规则挖掘在交通事故成因分析中的应用,U491.31
  11. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  12. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  13. 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
  14. 基于智能计算的网络学习评价模型研究与系统设计,TP18
  15. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  16. 中文名词性谓词的语义角色标注研究,TP391.1
  17. 基于改良蚁群算法的神经网络分类规则提取,TP183
  18. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  19. 基于Hadoop的移动学习系统设计与实现,G434
  20. 基于关联规则算法的高职院校教学评价系统的设计与实现,TP311.52
  21. 基于数据挖掘的融资信息管理及辅助决策平台的设计,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com