学位论文 > 优秀研究生学位论文题录展示

基于聚类的网络热点事件挖掘技术研究

作 者: 许佳音
导 师: 宋颖慧
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网络舆情 网络新词发现 CEW关键词挖掘算法 数据聚类 多载体
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 60次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,全球网络化进程不断加深,互联网作为新兴媒体,以其开放自由的特性,用户数量及影响力都迅速赶超传统媒体。特别是近几年,我国通过网络爆发的重大舆情事件激增,而且涉及的范围从原来的教育、娱乐正逐步拓展到国际国内经济、政治、民生等更高层次的领域,并且都不同程度地掀起了网络舆情浪潮。在这样的背景下,舆情核心词挖掘技术和信息聚类技术会越发的凸现出重要性,成为一个值得深入研究的方向。本文主要完成以下工作:首先,在分析传统舆情分析相关技术基础上,提出了具有较强适应性的数据组织结构,使得被研究对象不仅局限于单一的网络舆论传播载体,为不同载体上的语料数据能在同一个平台上被分析研究打下了一定的基础。其次,针对当前网络新词泛滥和爆发性网络群体事件中核心关键词未必符合汉语语法的问题,设计了网络舆情核心词挖掘算法——CEW(ContinuousEffective Words)算法,即“有效连续词挖掘”算法。并利用此算法对ICTCLAS分词系统进行一些改进,使得该系统具备了动态挖掘网络新词的能力。再次,在研究原有经典的聚类算法的基础上,针对网络舆情数据量大、且不相关孤立点众多的特点,提出了快速且高效的舆情语料聚类分析算法,能够以较高的准确率和较低的召回率来对舆情数据进行聚类。最后,通过大量的语料测试结果进行人工检验,我们验证了本课题中设计的算法在处理多载体语料数据集时有较好的效果。并且,通过对程序结构的优化,我们将两个算法的时间复杂度均优化至线性水平,为以后在大型数据集上应用打下了良好基础。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题来源与背景  8-9
  1.2 论文研究目的及研究意义  9
  1.3 国内外在该方向的研究现状及分析  9-13
    1.3.1 核心关键词挖掘技术的研究现状  9-11
    1.3.2 聚类技术的研究现状  11-13
  1.4 论文研究内容及章节安排  13-14
第2章 多载体语料特性分析及实验工具编写说明  14-27
  2.1 多载体语料特性介绍及分析  14-17
  2.2 汉语词法分析系统 ICTCLAS 介绍  17-20
  2.3 本课题的系统环境及实验工具编写说明  20-24
    2.3.1 实验工具开发环境及编码方式  20-22
    2.3.2 MFC 与 STL 的简介及在本课题中的使用  22-24
  2.4 本课题中使用的其他定义  24-26
    2.4.1 关于字符串的运算符  24-25
    2.4.2 筛选函数(Filter Function)  25
    2.4.3 关联度与关联函数(Relation Function)  25-26
  2.5 本章小结  26-27
第3章 CEW 算法的设计与实现  27-41
  3.1 设计 CEW 算法的意义  27-28
  3.2 CEW 算法的理论设计  28-29
  3.3 CEW 算法的实现以及时间复杂度与空间复杂度分析  29-35
    3.3.1 读取语料文本并转化为数据元  29-31
    3.3.2 构造分词函数  31-32
    3.3.3 对特征串进行分词操作  32-33
    3.3.4 CEW 挖掘网络新词操作  33-35
    3.3.5 小结  35
  3.4 CEW 算法的实验结果  35-39
    3.4.1 针对人工搜索组织语料集的实验结果  35-37
    3.4.2 网络爬虫采集语料集合的实验结果  37-39
  3.5 关于 CEW 算法的一些拓展思考  39-40
  3.6 本章小结  40-41
第4章 聚类方法与网络热点事件核心关键词挖掘  41-55
  4.1 基于密度聚类算法简介  41-43
  4.2 本课题的数据元聚类算法设计  43-49
    4.2.1 数据元聚类算法的理论设计  43-45
    4.2.2 聚类算法具体设计与时间复杂度分析  45-49
  4.3 聚类算法实验结果  49-55
    4.3.1 针对人工搜索组织语料集的聚类结果  49-51
    4.3.2 针对网络爬虫采集语料集的聚类结果  51-53
    4.3.3 实验结果分析  53-55
结论  55-56
参考文献  56-60
致谢  60

相似论文

  1. 中国区域性网上社区的舆情研究,G206
  2. 网络舆情的形成机制研究,G206
  3. 基因表达时序数据聚类和比对分析方法研究,TP311.13
  4. 网络新闻发言人制度构建,G219.2
  5. 网络群体性事件及应对策略研究,D630
  6. 网络舆情的司法监督功能,D926
  7. 网络舆情对刑事司法的影响及其应对,G206
  8. 网络舆情对政治生态环境的影响研究,G206
  9. 基于系统动力学的网络舆情预警机制模型研究,C912.6
  10. 基于系统动力学的网络舆情应对问题分析,G206
  11. 高校突发事件网络舆情预警机制探究,G647
  12. 基于网络舆情的企业危机管理研究,G206
  13. 上市公司网络舆情管控研究,F276.6
  14. 社会焦点事件网络舆情演变研究,G206
  15. 网络舆情热点事件中的网民行为研究,G206
  16. 基因表达数据分析的聚类算法研究,TP311.13
  17. 网络舆情信息采集系统的设计与实现,TP393.09
  18. 潍坊市网络舆情监控系统的设计与实现,TP311.52
  19. 高校学生网络舆情问题分析及其对策研究,G206
  20. 群体性事件的网络舆情及其治理,G206
  21. 政府网络新闻发布理论与实践探析,G219.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com