学位论文 > 优秀研究生学位论文题录展示
博客朋友推荐技术的研究
作 者: 牛庆鹏
导 师: 张斌
学 校: 东北大学
专 业: 计算机应用技术
关键词: 博客 博客好友推荐 Web挖掘 主题挖掘 社区发现 博主聚类
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 91次
引 用: 1次
阅 读: 论文下载
内容摘要
随着Web2.0网络社区的发展,博客网络已经成为一个巨大的研究信息源,并以非常迅速的速度在扩展。针对这样不断变化并且增长的信息源,在众多博客中寻找博主有着寻找和自己共同兴趣的博主,也就找到博主想要的信息源。同时好友推荐也是各个博客中需要解决的问题。本文对目前现有的博主聚类方法和好友推荐方法进行回顾,在现有研究基础上分析博客页面特征提出博客好友推荐模型和流程。本文在推荐方法提出之前首先给出朋友的明确定义,并给出好友推荐中应用博主聚类的原因。其后给出基于文本博客相似度计算方法,又提出博主集合的合并和相似度计算方法,在此基础上对经典的K均值算法、K中心点算法进行改进设计两种基于文本的博主聚类方法。在基于文本和链接信息结合的聚类方法中本文阐述链接信息和文本信息结合的博客邻接图的计算方法,并设计博主集合链接强度的计算方法,之后将邻接图应用于经典的ROCK算法进行博主聚类。本文着眼于提高好友推荐的效率,首先对博主集合进行聚类,在聚类之后的小集合中根据本文的博文相似度计算方法,进行好友推荐。基于链接信息和文本信息结合的博主聚类方法既考虑的博主之间的直接链接,链接信息在一定程度上反映兴趣相关,又考虑博主潜在兴趣关系。在实验部分,本文提出两种好友推荐的评价标准:一种评价标准是基于博主相似度统计的方法,这种方法适合计算机自动进行评测;另一种评价标准是人工参与的评价标准,计算好友推荐的查准率进行评价。在实验中对三种博主聚类方法进行实现,采用第一种评价标准进行针对不同的数据集进行效果比较,确定在不同数据集下最好的方法和参数。最后以最好的方法和其他研究者的方法在不通数据集中进行对比实验。
|
全文目录
摘要 5-6 Abstract 6-11 第1章 绪论 11-17 1.1 研究背景 11-14 1.2 研究内容 14-16 1.3 本文组织结构 16-17 第2章 研究基础 17-31 2.1 博客 17-20 2.1.1 博客概述 17-18 2.1.2 博客的分类 18-19 2.1.3 博客中的核心技术 19-20 2.2 聚类分析和社区发现 20-25 2.2.1 聚类算法分类 21-22 2.2.2 传统Web社区发现 22 2.2.3 Blog社区发现技术 22-25 2.3 博客内容挖掘 25-28 2.3.1 博客内容挖掘概述 25-26 2.3.2 文本信息挖掘 26-27 2.3.3 Web挖掘 27-28 2.4 相关开发技术 28-29 2.4.1 .Net技术 28-29 2.4.2 正则表达式 29 2.5 本章小结 29-31 第3章 博客好友推荐框架和模型 31-37 3.1 博客分析 31-33 3.1.1 博客中的概念和对象 31-33 3.1.2 博客信息的层次关系 33 3.2 博客好友推荐模型 33-34 3.2.1 朋友的定义 33-34 3.2.2 博客推荐模型 34 3.3 博客好友推荐过程 34-36 3.4 本章小结 36-37 第4章 博客好友推荐方法 37-51 4.1 基于博主聚类结果的好友推荐 37-42 4.1.1 在朋友推荐中应用博主聚类的原因 37 4.1.2 博主聚类 37-39 4.1.3 基于文本的博客相似度计算 39-41 4.1.4 基于文本相似度和聚类结果的朋友推荐方法 41-42 4.2 基于文本的博主聚类方法 42-45 4.2.1 Blog集合的合并和相似度计算 42-43 4.2.2 基于博文相似度的博主聚类算法 43-44 4.2.3 基于博主集合相似度和合并的博主聚类算法 44-45 4.3 基于链接和文本结合的博主聚类方法 45-48 4.3.1 在文本信息中结合链接信息的原因 45 4.3.2 基于链接信息和文本信息的无权邻接图 45-46 4.3.3 博主集合链接强度的计算 46 4.3.4 ROCK聚类算法 46-48 4.3.5 本文中ROCK算法的应用 48 4.5 本章小结 48-51 第5章 实验设计和结果分析 51-73 5.1 实验数据采集过程 51-59 5.1.1 实验原始数据 51 5.1.2 数据获取 51-52 5.1.3 基于爬虫的博客地址收集 52-54 5.1.4 博客数据采集 54-57 5.1.5 文章分词和词性过滤 57-58 5.1.6 实现多线程数据采集的核心类及方法 58-59 5.2 博客属性数据库存储和提取接口 59-62 5.2.1 博文article数据库表结构 60 5.2.2 博主Blogger数据库表结构 60-61 5.2.3 实现数据库接口的核心类 61-62 5.3 博主聚类方法的实现 62-66 5.3.1 ROCK聚类算法中数据结构分析 62-63 5.3.2 ROCK聚类算法中的数据结构 63-64 5.3.3 基于文本的博客相似度计算类设计 64-66 5.4 实验结果分析 66-71 5.4.1 好友推荐方法的机器评价标准 66 5.4.2 好友推荐方法的人工评价标准 66-67 5.4.3 适用性实验 67-70 5.4.4 对比实验 70-71 5.5 本章小结 71-73 第6章 结束语 73-75 6.1 结论 73-74 6.2 未来工作展望 74-75 参考文献 75-79 致谢 79
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 博客应用于中职英语阅读教学的研究,G633.41
- 博客发展现状及其盈利模式研究,F49
- 混合重叠社区发现研究及应用,D669.3
- 论微博客中的网络公众聚集现象,G206
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 基于MVC设计模式的博客系统的设计与实现,TP311.52
- 博客标题语言探析,G213
- 互联网舆情信息挖掘与群体行为分析,F49
- 基于AJAX的校园博客管理系统的设计与实现,TP311.52
- 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
- 基于社区发现的网络舆论导向系统研究与应用,TP393.09
- 基于核心成员识别的网络社区发现及跟踪方法,TP393.094
- 金融领域的博客信息采集与排序算法研究,TP393.092
- 电子商务中专业领域货源信息检索系统的设计与实现,TP391.3
- 基于复杂网络的社团发现研究,O157.5
- 高校教师社会网络的自动构建技术研究,TP181
- 短信通信复杂网络结构特性研究,O157.5
- 主题驱动的Blog社区发现技术研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|