学位论文 > 优秀研究生学位论文题录展示
中文微博的热点话题发现
作 者: 檀娟伢
导 师: 郑诚
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 微博 热点话题 文本聚类 关键词
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 6次
引 用: 0次
阅 读: 论文下载
内容摘要
近些年,微博已然成为社会网络一个很重要的的应用,人们通过微博可以在任何地点,任何时间发布自己的所见,所闻,所想。这种较为简易的消息发布方式很大程度上降低了信息发布的壁垒,这也是微博得到广泛应用的重要因素之一。在这些用户发布的微博数据中,多数的微博信息都和现实生活中的事件有所关联。有些微博网站也会在网站主页中列出最近一段时间的热门关键词,但是这些微博主题词通常都很简短、分散,而且与某个话题有关的微博信息是由不同微博发布者在不同时间内发布的。用户不能通过这些孤立信息对事件有一个全面的了解,相关部门也不能完整掌握事态的发展,对微博上的舆论不能进行正确的引导。正是在这种情形下,针对微博数据的热点话题发现逐渐成为一个研究热点。微博热点话题发现就是通过相关的话题检测技术把分散的微博信息组织起来有条理地呈现给人们。本文提出了一个完整的微博热点话题发现方法。该方法主要包括了微博数据的预处理、微博数据的文本表示、特征词提取、文本聚类和事件关键词提取等步骤。文中仔细分析了微博数据自身的特点,结合这些微博数据特征对TF-IDF算法进行改进,提高了微博热点话题发现的效果。本文在微博文本聚类时采用了多属性无向加权图聚类算法,不仅考虑了图的拓扑结构还引入了节点的属性,与目前常用的一些聚类算法相比较提高了聚类的效果。文中给出的一些实验结果表明本文提出的微博热点事件检测算法是有效的。
|
全文目录
摘要 3-4 Abstract 4-5 目录 5-7 第一章 绪论 7-16 1.1 研究背景与意义 7-8 1.2 国内外研究现状 8-10 1.3 目前存在的问题 10-14 1.3.1 中文分词问题 10-14 1.3.2 特征词提取 14 1.3.3 聚类算法 14 1.4 论文结构安排 14-16 第二章 话题检测相关知识 16-24 2.1 话题检测任务 16-17 2.1.1 新事件检测任务 16-17 2.1.2 在线话题检测 17 2.1.3 事件回顾检测 17 2.1.4 层次话题检测 17 2.2 话题检测相关技术 17-19 2.2.1 报道-报道策略 18 2.2.2 报道-聚集策略 18-19 2.2.3 基于报道-聚集-报道策略 19 2.3 话题检测评价标准 19-20 2.4 聚类算法有效性评价标准 20-23 2.4.1 内部质量指标 20-21 2.4.2 外部质量指标 21-23 2.5 本章小结 23-24 第三章 微博热点话题检测算法 24-33 3.1 微博热点话题检测算法流程图 24-25 3.2 预处理 25-26 3.2.1 过滤噪音数据 25-26 3.2.2 分词及去停用词 26 3.3 微博数据的文本表示 26-27 3.4 特征选择法 27-30 3.4.1 信息增益法 28-29 3.4.2 互信息法 29 3.4.3 x~2统计计量法 29-30 3.4.4 文档频率法 30 3.5 基于文档频率优化的特征提取法 30-31 3.6 隐含语义分析 31-32 3.6.1 隐含语义的概念 31 3.6.2 奇异值分解 31-32 3.6.3 特征选择与LSA 32 3.7 本章小结 32-33 第四章 基于TF-IDF改进的词汇权重计算 33-41 4.1 布尔权重计算法 33 4.2 信息熵权重算法 33 4.3 TF-IDF权重计算法 33-35 4.4 微博数据上TF-IDF算法的不适用性分析 35 4.5 改进的词汇权重的计算 35-37 4.6 改进的词汇权重的计算方法的效果 37-40 4.7 小结 40-41 第五章 微博聚类算法 41-48 5.1 中文文本聚类算法 41-43 5.1.1 基于层次的聚类方法 41-42 5.1.2 基于划分的聚类方法 42-43 5.1.3 基于密度的聚类方法 43 5.2 针对微博数据的聚类算法 43-46 5.2.1 图聚类概念 44 5.2.2 边权重的计算 44-45 5.2.3 边权重的归一化处理 45 5.2.4 两节点间的相似度计算 45 5.2.5 两节点关联度计算 45-46 5.3 多属性无向加权图聚类算法 46-47 5.4 事件关键词的提取 47 5.5 本章小结 47-48 第六章 实验与结果分析 48-52 6.1 实验数据 48 6.2 评测标准 48-49 6.3 实验结果 49-51 6.4 对比试验 51 6.5 实验结果分析 51-52 第七章 总结和展望 52-54 7.1 本文总结 52 7.2 未来工作展望 52-54 致谢 54-55 参考文献 55-59 在读期间发表的学术论文 59
|
相似论文
- 风险视角下新浪微博融资行为研究,F49
- 当代广告舆论化现象研究,G206
- 微博:草根话语权的假象,G206
- 基于微博构建的公共领域研究,G206
- 论微博的公民话语权,G206
- 论微博客中的网络公众聚集现象,G206
- 从都市报微博看都市报的数字化转型,G216.2
- 基于校园网的用户行为分析系统的设计与实现,TP393.18
- 基于标记样本和相似度调整的k均值算法在文本聚类中的应用,TP181
- 微博的受众心理研究,G206
- 中国网络自媒体时代下的交往行动研究,G206
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 关键词广告商标侵权问题研究,D922.294
- Web数据挖掘技术在网络教育论坛中的应用研究,G434
- 基于微博的企业营销模式创新研究,F49
- 基于文本聚类和语料库的信誉维度发现研究,TP391.1
- 微博在危机事件中的传播特点和效果研究,G206
- 外包数据库模式下中文文档密文检索研究,TP391.3
- “围脖”:用什么温暖大众?,G206
- 微博客的虚拟社群及其“人际化”传播分析,G206
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|