学位论文 > 优秀研究生学位论文题录展示

基于聚类分析的网络论坛热点话题检测

作 者: 张柱山
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网络论坛 信息抽取 特征选择 文本聚类 热点话题检测
分类号: TP393.094
类 型: 硕士论文
年 份: 2010年
下 载: 376次
引 用: 0次
阅 读: 论文下载
 

内容摘要


话题检测技术作为话题检测与追踪的重要组成部分,目的是要解决从文本信息流中自动识别各个未知的话题,并且能够在线发现新话题。在话题检测技术中,热点话题检测是为了识别特定时间段内报道频繁、适时、重要的话题。传统的话题检测技术大多面向新闻网站语料进行所有话题的检测,而本文主要研究面向网络论坛的热点话题检测。本文对网络论坛的文本组织形式进行深入分析,重点研究面向网络论坛话题检测的文本预处理方法和网络论坛热点话题检测算法,取得了以下几个方面的研究成果:(1)提出一种基于文档树的帖子信息抽取算法。通过研究常用的信息抽取算法,并分析了网络论坛帖子的页面结构,给出了帖子文档树的构建方法和帖子信息抽取的规则描述。实验结果表明,该算法能够有效地提取帖子内容信息和结构特征。(2)提出一种面向网络论坛短文本的特征选择算法。针对网络论坛短文本的特点,提出了基于TF*PDF的特征选择算法。实验结果表明,相对于传统的特征提取方法,本文的算法能够得到更好的网络论坛短文本聚类效果。(3)提出一种基于时间线分析的增量聚类算法。与传统的聚类算法相比,该算法在文本聚类的过程中结合了话题生存周期模型。实验结果表明,该算法能够有效地优化话题检测的结果集,提高话题检测的质量。(4)提出一种基于话题关注度和用户参与度的热度评分算法。通过在热度评分算法中融入了话题关注度和用户参与度的计算,有效地与文本聚类算法进行结合。实验结果表明,该算法能够综合评估话题热度,形成热点话题排序。基于上述研究成果,本文设计了网络论坛热点话题检测系统,能够有效地对网络论坛进行舆情监控、及时掌握各个时期民众关心的热点话题。

全文目录


摘要  4-5
Abstract  5-10
第1章 绪论  10-17
  1.1 课题研究背景和意义  10-11
    1.1.1 研究背景  10
    1.1.2 研究意义  10-11
  1.2 国内外相关研究和综述  11-15
    1.2.1 话题检测与追踪的研究现状  11-13
    1.2.2 网络论坛话题检测的研究现状  13-15
  1.3 课题研究内容  15-16
  1.4 本文的结构安排  16-17
第2章 网络论坛话题检测的相关基础知识  17-26
  2.1 引言  17
  2.2 网络论坛话题检测的基本概念  17-19
    2.2.1 网络论坛  17-18
    2.2.2 话题检测  18-19
  2.3 网络论坛文本数据特征分析  19-21
    2.3.1 网络论坛文本数据特性  19-20
    2.3.2 文本表示模型  20
    2.3.3 特征权重的表示方法  20-21
  2.4 常用的文本聚类算法  21-25
    2.4.1 层次聚类算法  22-23
    2.4.2 基于划分的聚类方法  23
    2.4.3 增量聚类方法  23-25
  2.5 本章小结  25-26
第3章 面向网络论坛话题检测的文本预处理方法  26-40
  3.1 引言  26
  3.2 基于文档树的帖子信息抽取算法  26-31
    3.2.1 文档树的定义  27-28
    3.2.2 构建论坛帖子页面文档树  28-29
    3.2.3 信息抽取规则描述  29-30
    3.2.4 信息抽取算法  30-31
  3.3 网络论坛短文本特征选择算法  31-35
    3.3.1 基于评估函数的特征筛选算法  31-32
    3.3.2 特征选择算法的比较  32-33
    3.3.3 网络论坛短文本的特性分析  33
    3.3.4 基于TF*PDF的特征选择算法  33-35
  3.4 实验与分析  35-39
    3.4.1 实验数据集  35
    3.4.2 信息抽取评价指标  35-36
    3.4.3 信息抽取实验结果及分析  36-37
    3.4.4 文本特征选择结果及分析  37-39
  3.5 本章小结  39-40
第4章 网络论坛热点话题检测  40-56
  4.1 引言  40
  4.2 网络论坛话题模型的定义  40-41
  4.3 基于时间线分析的增量聚类算法  41-46
    4.3.1 算法基本原理  42-43
    4.3.2 算法优化策略  43-44
    4.3.3 算法流程  44-46
  4.4 基于话题关注度和用户参与度的话题热度算法  46-49
    4.4.1 网络论坛热点话题的特征  47
    4.4.2 话题关注度计算  47
    4.4.3 用户参与度计算  47-48
    4.4.4 话题热度算法  48-49
  4.5 实验与分析  49-55
    4.5.1 实验数据描述  49
    4.5.2 评测标准  49-50
    4.5.3 话题检测结果分析  50-53
    4.5.4 话题热度排序结果分析  53-55
  4.6 本章小结  55-56
第5章 网络论坛热点话题检测系统的设计与实现  56-64
  5.1 引言  56
  5.2 系统的功能和目标  56-57
  5.3 系统总体设计  57
  5.4 系统详细设计  57-62
    5.4.1 数据库交互模块  58
    5.4.2 爬虫模块  58-59
    5.4.3 信息抽取模块  59-60
    5.4.4 文本预处理模块  60
    5.4.5 话题检测模块  60-61
    5.4.6 话题热度评分模块  61-62
  5.5 系统展示  62-63
    5.5.1 开发平台及工具  62
    5.5.2 可视化功能  62-63
  5.6 本章小结  63-64
结论  64-66
参考文献  66-71
攻读硕士学位期间发表的论文  71-73
致谢  73

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 时间表达式识别与归一化研究,TP391.1
  4. 基于仿生模式识别的文本分类技术研究,TP391.1
  5. 唇读中的特征提取、选择与融合,TP391.41
  6. 语音情感识别的特征选择与特征产生,TP18
  7. 演化聚类算法及其应用研究,TP311.13
  8. 传统媒体议程与网络议程的对比研究,G206
  9. 基于网络论坛的社会公共事件传播研究,G206
  10. 基于数据分布特征的文本分类研究,TP391.1
  11. 基于本体的食品投诉文档文本聚类研究,TP391.1
  12. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  13. 基于AdaBoost算法的人脸识别研究,TP391.41
  14. 网页属性抽取的方法研究,TP391.1
  15. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  16. 面向短消息文本的聚类技术研究与应用,TP391.1
  17. 教育新闻热点话题发现系统的设计与实现,TP391.1
  18. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  19. 构件垂直搜索引擎的关键技术研究,TP391.3
  20. 面向教育新闻的主题爬虫设计与实现,TP391.3
  21. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 远程登录(Telnet)
© 2012 www.xueweilunwen.com