学位论文 > 优秀研究生学位论文题录展示
基于数据挖掘的社区网站用户行为分析系统
作 者: 黄碗明
导 师: 孙知信
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: 数据挖掘 行为分析 高维数据索引
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 392次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息化逐步改善生活,衍生出如人人网、开心网、腾讯朋友网等的各类社区网络服务,它们向人们提供整合知识、咨询疑难、新闻关注、互通友谊等崭新功能,而通过分析用户行为来提供适合不同用户的特定服务将能够极大的增强用户体验。本文的目的正是为社区网站构建一套个性化智能推荐引擎,通过分析社区网站用户的特征,挖潜其用户的兴趣关注点,充分加强社区网站的用户体验,并为处于门户网站阶段、搜索引擎阶段的网站改造为智能推荐阶段提供一个原型参考。通过参考数据挖掘及行为分析的国内外相关文献,本文先设计了基于数据挖掘的用户行为分析系统的总体架构及其主要业务流程,而后参照数据挖掘系统的构建基本步骤,本文从特征收集、特征预处理、相关性特征数据挖掘算法、特征数据高效索引等几个流程对基于社区网站用户行为分析系统进行详细设计,同时对该系统的时间调度机制进行了阐述。为解决海量用户的高效行为分析,本文借鉴已有的研究成果,通过改进的正则表达式多模匹配算法实现高性能数据预处理模块,并通过建模将用户行为分析转换为排名问题进而采用Ranking算法进行数据挖掘,最后本系统将挖掘出的数据特征映射到高维空间,采用LSH算法构建模糊搜索来进行高性能的匹配与邻近查询。经过实验仿真,多样化的分词引擎配合较为全面的词库不仅可以将用户的输入文本进行快速分词,同时具有较高的准确性;而正则表达式多模匹配算法经优化后可一定程度上降低内存消耗,实现可用的高效用户关注点匹配引擎;经过不同维度及不同数据规模的测试,改进的LSH算法可以满足海量用户兴趣特征的存储索引,不仅能在特征数量维度增加的时候保持建库及查询时间的线性增长,同时不会由于用户量的增加而明显增加检索匹配时间。因此本系统可基本满足社区网站的行为分析需求,为社区网站的用户行为分析提供了一套可行方案。
|
全文目录
中文摘要 4-5 ABSTRACT 5-8 第一章 引言 8-11 1.1. 课题背景 8-9 1.2. 课题来源及本文组织 9-11 第二章 相关研究综述 11-19 2.1 数据挖掘相关研究综述 11-13 2.1.1 数据挖掘简介及其应用价值 11-12 2.1.2 数据挖掘的国内外相关研究 12-13 2.1.3 数据挖掘面临的主要问题 13 2.2 高维数据索引相关研究综述 13-15 2.2.1 多维数据索引简介及其应用价值 13-14 2.2.2 多维数据索引的国内外相关研究 14-15 2.2.3 高维数据索引面临的主要问题 15 2.3 用户行为分析相关研究综述 15-17 2.3.1 主要的用户行为分析相关研究 15-16 2.3.2 针对社区网站的用户行为分析相关研究 16-17 2.3.3 目前社区网站用户行为分析技术存在的不足 17 2.4 本章小结 17-19 第三章 社区网站用户行为分析系统的总体设计 19-30 3.1 系统总体架构 19-20 3.2 用户特征定义 20-21 3.3 特征收集与预处理 21-24 3.4 特征数据分析 24-28 3.5 调度机制 28-29 3.6 本章小结 29-30 第四章 用户行为数据分析系统的关键技术研究与实现 30-45 4.1 基于正则表达式的多模匹配 30-37 4.1.1 算法目的与意义 30 4.1.2 正则表达式 30-33 4.1.3 DFA有穷状态机 33-34 4.1.4 匹配特征转换为DFA及其优化 34-37 4.2 基于LSH的高维数据检索 37-40 4.2.1 算法目的与意义 37-38 4.2.2 位置敏感哈希LSH 38-39 4.2.3 模型建立及算法实现 39-40 4.3 基于Ranking SVM排名算法的用户行为分析 40-44 4.3.1 算法目的与意义 40-41 4.3.2 RankingSVM算法 41-42 4.3.3 模型建立及算法实现 42-44 4.8 本章小结 44-45 第五章 行为分析系统测试 45-55 5.1 分词程序测试 45-48 5.2 改进的多模匹配测试 48-52 5.3 LSH算法测试 52-54 5.4 本章小结 54-55 第六章 总结与展望 55-57 6.1 总结 55 6.2 展望 55-57 致谢 57-58 参考文献 58-62 攻读硕士学位期间的学术论文与专利 62-63 攻读硕士学位期间参加的科研项目 63
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于数据挖掘的信用卡客户激活与响应度研究,F832.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|