学位论文 > 优秀研究生学位论文题录展示
基于微博的主题社区发现
作 者: 何翔
导 师: 顾春华
学 校: 华东理工大学
专 业: 计算机应用技术
关键词: 领域领袖 微博营销 最大流 社区发现 信息检索
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 295次
引 用: 0次
阅 读: 论文下载
内容摘要
微博,作为一种新兴的互联网交流与分享平台,已经获得巨大数量用户的亲睐,Twitter、FaceBook、Sina、Tencent等微博网站已成为海量信息的发布体。微博平台中蕴含着大量有价值的信息有待挖掘。在数据挖掘领域,尽管传统的基于文本、基于内容的挖掘分析方法已经得到了广泛的研究并取得了很大的成功。但对于微博文本的特殊性,每条文本信息短小、口语化且带有一些结构化社会网络方面的信息,传统的文本挖掘算法不能很好的对它进行建模。而由于海量用户及信息的存在,使微博的数据挖掘不能仅仅依靠用户关系的分析。为了满足微博营销寻找投放目标的需求,本文综合考虑了面向微博文本内容及微博用户社会化链接关系,提出了一种微博主题社区的发现方法。文中创造性的结合了领袖发现、文本分类以及最大流社区发现的基于内容、链接关系的分析技术,同时采用多种剪枝策略,设计出了一个比较高效准确的微博主题爬虫。实验经过真实数据的采集,并且从不同的维度对结果数据进行了实验分析。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-13 1.1 研究背景 9 1.2 课题来源 9-10 1.3 国内外发展与研究现状 10-11 1.4 本文工作 11-13 1.4.1 主要研究内容及意义 11 1.4.2 论文结构 11-13 第2章 相关技术介绍 13-22 2.1 信息检索模型 13-14 2.1.1 布尔模型 13 2.1.2 向量空间模型 13-14 2.1.3 文档相似度的计算 14 2.2 分类算法研究 14-17 2.2.1 朴素贝叶斯分类 14-16 2.2.2 支持向量机 16-17 2.3 链接分析算法研究 17-22 2.3.1 社会关系网分析 17-18 2.3.2 HITS算法 18-20 2.3.3 社区发现 20-22 第3章 网络爬虫 22-31 3.1 网络爬虫的原理 22-24 3.2 网页处理 24-28 3.2.1 网页获取 24-25 3.2.2 网页解析 25-26 3.2.3 分词 26 3.2.4 倒排索引 26-28 3.3 网络爬虫的设计 28-29 3.4 本章小结 29-31 第4章 基于微博的主题社区发现关键技术研究 31-40 4.1 微博的介绍 31-32 4.2 领袖发现 32-34 4.2.1 微博用户广义影响力 32-33 4.2.2 微博用户领域影响力 33 4.2.3 综合用户影响力 33-34 4.2.4 领袖发现在主题社区发现中的应用 34 4.3 最大流过程及最大流模型 34-36 4.3.1 最大流模型社区寻找的基本思路 34-35 4.3.2 一次迭代中的最大流模型及过程 35 4.3.3 最大流中的增广路径 35 4.3.4 边容量的调优 35-36 4.4 最大流过程的剪枝迭代问题 36-37 4.4.1 用户访问策略 36-37 4.4.2 用户筛选策略 37 4.5 基于微博主题社区发现的整体流程 37-39 4.6 本章小结 39-40 第5章 基于微博的主题社区发现系统设计与实现 40-46 5.1 系统整体架构设计 40-41 5.2 核心代码实现 41-45 5.2.1 爬虫检测器 41 5.2.2 爬虫线程 41-42 5.2.3 HttpClient获取HTML源码 42-43 5.2.4 基于邻接表的增广路径寻找算法 43-44 5.2.5 寻找与源点有通路的节点 44-45 5.3 本章小结 45-46 第6章 实例分析及实验评估 46-50 6.1 实例分析 46-48 6.2 实验效果评估 48-50 第7章 总结和展望 50-51 参考文献 51-54 致谢 54-55 攻读期间发表的学术论文 55
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 面向海量邮件的检索系统研究与实现,TP393.098
- 趋向自然:唯信息论世界观下的生态工业系统演化,X321
- 基于Web的未登录词翻译技术研究,TP391.2
- 基于社会网络分析的藏文web链接结构研究,TP393.09
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于图割理论的图像匹配问题研究,TP391.41
- 混合重叠社区发现研究及应用,D669.3
- 移动自组网中基于能量的路由协议研究,TN929.5
- 英汉可比较语料库的构建与应用研究,TP391.1
- 大规模软件中社区结构的发现与研究,TP311.52
- 基于FCA的社区发现算法,TP301.6
- 外文数据库无障碍信息检索的策略研究,G354
- 基于因特网的动态规范词表的系统构建研究,G354
- SZ公司微博营销策略研究,F274
- 基于Struts2框架的安全教育管理信息系统研究,TP311.52
- 粗糙集与蚁群算法在网络社区结构发现中的应用研究,TP393.02
- 面向军事知识的自动问答系统的设计与实现,TP311.52
- 博客潜在朋友推荐技术的研究,TP391.3
- T公司经销商培训管理案例研究,F426.72
- 数据库中基于多索引段的全文索引研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|