学位论文 > 优秀研究生学位论文题录展示

基于互联网访问日志的用户特征分析研究

作 者: 郑亮亮
导 师: 陈德华
学 校: 东华大学
专 业: 计算机软件与理论
关键词: 用户特征 WEB日志 文本挖掘 用户识别 Hadoop
分类号: TP391.3
类 型: 硕士论文
年 份: 2014年
下 载: 75次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,互联网已经成为人们不可或缺的信息来源。网络信息资源的爆炸性增长导致信息过载问题日益严重,互联网上的信息量大大超出互联网用户的需要,大量无关的信息严重干扰了用户对有户用信息的准确选择。海量的信息资源供给和有限的用户需求之间的矛盾,使得我们必须寻求一种能够快速、准确地从浩瀚的信息资源中找到所需信息的方法。正是在这样的需求驱动下,个性化服务技术应运而生,个性化服务是一种有针对性的服务方式,依据各种渠道对资源进行收集、整理和分类,向用户提供和推荐兴趣信息,以满足用户的需求。作为个性化服务技术的核心内容之一,用户特征分析的目标是分析用户的兴趣爱好、行为等特征信息,用户特征分析是否准确在很大程度上影响和决定个性化服务系统所提供的服务质量。运营商在为用户提供互联网访问服务时,往往会存储用户的访问日志数据。这些访问日志蕴藏着丰富的用户特征信息。本文以某运营商的互联网访问日志数据为基础,通过对其进行分析挖掘,从中得到用户的兴趣特征。本文的工作成果主要有如下四个方面:(1)提出了基于MapReduce的用户特征项提取并行化算法。该算法以用户的访问页面内容为基础,依据词条在文档中权重提取出用户特征关键词。本文详细介绍了该算法的并行化设计,并且在Hadoop上进行了实现。(2)给出了具有相似特征的用户的挖掘算法。该算法首先对用户的访问页面进行聚类,然后根据聚类的结果计算用户兴趣特征相似度。本文用MapReduce、Mahout以及Hive提出了算法的并行化实现策略,在Hadoop平台上实现了该算法。(3)提出了基于互联网访问日志的独立用户识别算法。该算法综合利用访问日志中IP、UserAgent、Cookie等字段分析用户访问规律,采用先细分再合并的思路对访问口志进行分析。依据该思路,本文首先识别出独立浏览器的日志,然后通过帐号关联将浏览器日志合并成独立用户的日志,实现了对用户的识别。(4)给出了基于互联网访问日志的用户特征分析系统设计方案和实现。在本文的设计方案中,用户特征分析系统由日志预处理、文本预处理、用户特征分析等三大模块组成。本文详细设计了其中各个模块及其子模块的功能及其实现。

全文目录


摘要  5-7
ABSTRACT  7-11
第一章 绪论  11-17
  1.1 课题的研究背景  11-12
  1.2 用户特征分析的国内外研究现状  12-14
    1.2.1 国外研究状况  13
    1.2.2 国内研究状况  13-14
  1.3 本文的主要研究内容  14-15
  1.4 本文的组织结构  15-16
  1.5 本章小结  16-17
第二章 相关技术研究  17-29
  2.1 WEB挖掘概述  17-23
    2.1.1 WEB挖掘的概念及特点  17-18
    2.1.2 WEB挖掘分类  18-22
    2.1.3 WEB日志挖掘的主要方法  22-23
  2.2 Hadoop相关技术  23-28
    2.2.1 Hadoop  23-26
    2.2.2 Hive  26-27
    2.2.3 Mahout  27-28
  2.3 本章小结  28-29
第三章 基于MapReduce的用户特征项提取  29-39
  3.1 互联网访问日志预处理  29-30
    3.1.1 访问日志清洗  29
    3.1.2 用户识别  29-30
    3.1.3 网页内容抓取与清洗  30
  3.2 用户特征项相关介绍  30-32
    3.2.1 文本的特征项  30-32
    3.2.2 用户的特征项  32
  3.3 基于MapReduce的用户特征项提取算法设计  32-38
  3.4 本章小结  38-39
第四章 基于Hadoop平台的相似特征用户挖掘  39-46
  4.1 文本聚类简介  39-41
    4.1.1 常用的文本聚类算法  39-40
    4.1.2 K-means聚类  40-41
  4.2 相似特征用户挖掘算法  41-45
    4.2.1 用户特征相似性度量  41-42
    4.2.2 基于Hadoop平台的相似特征用户挖掘算法设计  42-45
  4.3 本章小结  45-46
第五章 用户特征分析系统设计与实现  46-60
  5.1 系统整体架构  46-47
  5.2 日志预处理模块详细设计与实现  47-54
    5.2.1 互联网访问日志采集  47-48
    5.2.2 访问日志数据清洗  48-49
    5.2.3 用户识别  49-54
  5.3 文档预处理模块详细设计与实现  54-55
    5.3.1 网页抓取与清洗  54-55
    5.3.2 文本分词  55
  5.4 用户特征分析模块设计与实现  55-59
    5.4.1 用户特征分析模块整体架构  56
    5.4.2 基于MapReduce的用户特征提取算法的实现  56-59
  5.5 本章小结  59-60
第六章 总结与展望  60-62
  6.1 总结  60-61
  6.2 展望  61-62
参考文献  62-66
攻读学位期间的研究成果目录  66-67
致谢  67

相似论文

  1. 基于Web日志的用户挖掘研究与实现,TP311.13
  2. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  3. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  4. 基于网络的教务办公管理系统设计与实现,TP311.52
  5. 文献计量学和文本挖掘在生命科学中的应用,TP391.1
  6. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  7. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  8. 基于Hadoop的移动学习系统设计与实现,G434
  9. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  10. 遂宁市政府个性化门户网站系统的设计与实现,TP311.52
  11. 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
  12. 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
  13. 基于云计算的软件资源服务平台研究,TP311.52
  14. 联合聚类算法研究及应用,TP311.13
  15. 海量数据的快速查询算法研究,TP311.13
  16. 高速网络环境下的入侵检测系统的研究,TP393.08
  17. 云计算平台上的增量学习研究,TP311.13
  18. 云队列:一个基于Hadoop的大规模消息基础平台,TP311.52
  19. 基于Hadoop的文本分类研究,TP391.1
  20. 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
  21. 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com