学位论文 > 优秀研究生学位论文题录展示

基于点击的用户聚类的研究

作　者: 顾振宇
导　师: 马旭飚；运海红
学　校: 电子科技大学
专　业: 软件工程
关键词: 个性化信息检索抓取技术兴趣挖掘用户聚类
分类号: TP311.13
类　型: 硕士论文
年　份: 2011年
下　载: 19次
引　用: 0次
阅　读: 论文下载

内容摘要

随着Internet上信息量飞速增长,搜索引擎已成为互联网信息检索必不可少的工具,但这并不能满足人们对于个性化信息的检索需求,于是基于用户兴趣的个性化搜索服务便成为了人们研究与开发的热点。本文主要介绍了基于个性化检索的语料库建设。本文首先分析了用于个性化信息检索的自建语料库的发展现状,阐述了自建语料库对于信息检索研究的重要性。目前,由于多种原因,信息检索语料获取困难,大多数个性化信息检索实验的数据规模较小,研究成果说服力不足,从而使得建设大规模的语料库对于信息检索具有重要意义。对网上信息语料库搜集的实现原理和关键技术进行了讨论和分析,介绍了基于Web的自动获取信息的原理及网络爬虫工具。较为详实地阐述了网页抓取技术,剖析了两种抓取方式的实现原理以及相关应用。具体介绍了Wget爬虫工具的特点以及使用方法。之后介绍聚类。聚类,是将一个数据单位的集合分割成几个称为类或类别的子集,每个类内的对象之间是相似的。所谓用户聚类就是指按照兴趣自动聚类用户,形成兴趣相关的用户群组。本文介绍了传统用户聚类的方法,通过用户兴趣模型对用户进行聚类,分析了传统方法的不足,并提出了我们研究的基于点击的用户聚类技术,利用用户的点击记录对用户进行聚类,而不是通过建立用户兴趣模型。最后本文详尽描述了基于搜狗语料库的个性化检索数据的采集过程,包括匹配过滤、网页抓取、标记日志、格式化处理等步骤。说明了实验中遇到的问题并就此提出了解决方案和关于进一步改进的想法。本文是在某知名公司提供的数据的基础上进行了系统的研发工作,按照该公司对系统的要求,实现了用户的聚类模型,形成了兴趣相关的群组,为今后的工作打下了基础。实验结果验证了所设计的方法的正确性和良好性能。

全文目录

摘要  4-5
ABSTRACT  5-9
第一章引言  9-14
  1.1 课题研究的背景和意义  9-10
  1.2 国内外研究现状  10-12
  1.3 本文主要研究内容  12-14
第二章建设语料库所需技术及其软件  14-20
  2.1 语料库简介  14-16
    2.1.1 概述  14-15
    2.1.2 建设Web 语料库的环节  15
    2.1.3 原理和实现  15-16
  2.2 网页获取技术  16-17
  2.3 网络爬虫工具  17-19
    2.3.1 Wget 爬虫工具的优点  17
    2.3.2 Wget 使用的语法及基本参数  17-19
  2.4 本章小结  19-20
第三章个性化数据采集过程及其方法  20-37
  3.1 建立语料库  20-22
  3.2 数据采集流程  22-23
  3.3 匹配过滤  23-25
  3.4 网页抓取  25-29
  3.5 标记日志  29-32
  3.6 格式化处理  32-36
  3.7 本章小结  36-37
第四章传统用户兴趣模型的研究  37-45
  4.1 用户兴趣模型的创建  37-38
    4.1.1 基于内容的方法  37
    4.1.2 基于分类的方法  37-38
    4.1.3 基于概率的方法  38
  4.2 用户兴趣模型的更新  38
  4.3 流程实现  38-39
  4.4 用户兴趣挖掘系统功能的实现  39-43
    4.4.1 系统构成  39-40
    4.4.2 日志清理  40-41
    4.4.3 建立索引与下载网页  41
    4.4.4 正文抽取  41-42
    4.4.5 特征提取  42-43
    4.4.6 文档聚类生成用户兴趣模型  43
  4.5 本章小结  43-45
第五章基于点击的用户兴趣聚类  45-54
  5.1 传统兴趣模型的缺点  45-47
    5.1.1 模型更新问题  45-46
    5.1.2 兴趣分类问题  46-47
    5.1.3 评价方法问题  47
  5.2 基于点击的用户聚类  47-52
    5.2.1 聚类分析在用户分类中的应用  48-50
    5.2.2 基于点击的个性化信息服务方案  50-51
    5.2.3 基于点击方法的分类  51-52
  5.3 前期工作小结  52-53
  5.4 本章小结  53-54
第六章实验结果与软件测试  54-62
  6.1 实验环境  54
  6.2 数据采集报告  54-55
  6.3 系统功能要求  55-56
    6.3.1 系统输入  55
    6.3.2 系统输出  55-56
  6.4 软件测试  56-60
    6.4.1 原始数据的处理  56
    6.4.2 数据分类  56-57
    6.4.3 数据再处理  57
    6.4.4 建立索引  57-59
    6.4.5 用户聚类  59-60
  6.5 测试结果  60-61
  6.6 本章小结  61-62
第七章结论  62-64
致谢  64-65
参考文献  65-69

基于点击的用户聚类的研究

内容摘要

全文目录

相似论文