学位论文 > 优秀研究生学位论文题录展示

网络舆情检测与控制关键技术研究

作 者: 宋保江
导 师: 宋颖慧
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网络舆情 增量采集 信息抽取 舆情控管
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 439次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着中国网民数量的不断增长,论坛、博客、微博等网络媒体作为民意表达最为集中、信息传播最为畅通的一个“场所”,越来越受到网民的热衷。网络舆情检测与控制涉及到的关键技术,例如,信息的采集与抽取,话题的聚类与分析以及舆情控管等技术,是学术界研究的热点。论文中,将以109所高校论坛作为研究对象,通过对当前信息采集技术以及信息抽取技术的应用与改进,获取能够反映大学生最新思想动态的舆情信息;通过对舆情控管过程中遇到的相关问题进行讨论,提出了一套完整的舆情控制解决方案。论文中,将对网络舆情检测与控制中涉及到的三种关键技术:信息采集、信息抽取以及舆情控管展开详细的讨论。信息采集部分将采集过程分为了两部分:离线部分和在线部分。离线部分,首先,通过对样本网页的采集,获取到采集器的采集路径以及网页属性信息;然后,通过对关键资源的识别,得到了能够抽取它们的路径。另外,通过与信息抽取技术结合,将得到的发言时间及有效信息含量应用到了基于泊松模型的时间模型中,得到增量采集的合理时机。在线部分,将使用离线部分的结果指导采集器的工作,极大地提高了信息采集的准确率以及降低了采集器的负担。信息抽取部分,通过利用帖子中存在的网页结构相似性,结合用户创建信息的特点,提出了索引路径定位标题、主题和回复信息的算法,并对回复信息可能存在的干扰,进行深度噪音去除。舆情控管部分,充分利用论坛提供的操作接口,通过对验证码、身份隐藏等问题的讨论,最终得到一个可以针对不同论坛实施舆情干预的统一解决方案。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-16
  1.1 课题背景  9-10
  1.2 研究的目的和意义  10
  1.3 国内外研究现状  10-14
  1.4 论文组织结构  14-16
第2章 信息采集技术研究  16-34
  2.1 增量网页采集技术  16-18
    2.1.1 涉及到的名词  16-17
    2.1.2 增量网页采集技术概述  17-18
  2.2 关键链接识别  18-26
    2.2.1 构建初始sitemap  18-19
    2.2.2 网页去重算法  19-20
    2.2.3 有效信息量评价  20-22
    2.2.4 改进的链接文本比率方法  22-23
    2.2.5 翻页链接识别  23-24
    2.2.6 关键链接识别算法  24-26
  2.3 基于改进泊松模型地增量采集算法  26-31
    2.3.1 泊松模型  26-27
    2.3.2 时间戳的获取  27-28
    2.3.3 改进泊松模型调度策略  28-31
  2.4 增量采集的实现  31-33
  2.5 本章小结  33-34
第3章 信息抽取技术研究  34-44
  3.1 信息抽取技术  34-35
    3.1.1 涉及到的名词  34
    3.1.2 基于网页结构的信息抽取技术概述  34-35
  3.2 用户回复内容抽取  35-42
    3.2.1 候选信息块获取  36-37
    3.2.2 发言内容定位  37-39
    3.2.3 最小文本树算法  39-42
  3.3 主题标题及主题内容提取  42-43
    3.3.1 主题标题的提取  42
    3.3.2 主题内容的提取  42-43
  3.4 本章小结  43-44
第4章 论坛在线控管技术  44-51
  4.1 论坛在线控管技术概述  44-45
  4.2 可使用的舆情干预手段  45-47
    4.2.1 灌水稀释  45-46
    4.2.2 舆论引导  46
    4.2.3 强制管制  46-47
    4.2.4 功能扩展  47
  4.3 舆情干预实施方案  47-49
  4.4 验证码解决方案  49-50
  4.5 舆情干预身份隐藏  50
  4.6 本章小结  50-51
第5章 实验与结论  51-62
  5.1 增量信息采集技术  51-55
    5.1.1 实验设计及评价  51
    5.1.2 实验结果  51-55
  5.2 信息抽取技术  55-58
    5.2.1 实验设计及评价  55-56
    5.2.2 实验结果  56-58
  5.3 控管技术  58-62
    5.3.1 实验设计及评价  58-59
    5.3.2 实验结果  59-62
结论  62-63
参考文献  63-68
致谢  68

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 中国区域性网上社区的舆情研究,G206
  4. 网络舆情的形成机制研究,G206
  5. 网页属性抽取的方法研究,TP391.1
  6. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  7. 基于网络舆情的企业危机管理研究,G206
  8. 社会焦点事件网络舆情演变研究,G206
  9. 网络舆情热点事件中的网民行为研究,G206
  10. 构件垂直搜索引擎的关键技术研究,TP391.3
  11. 面向教育新闻的主题爬虫设计与实现,TP391.3
  12. 群体性事件的网络舆情及其治理,G206
  13. 政府网络新闻发布理论与实践探析,G219.2
  14. 网络舆情主体特征及其成因分析,G206
  15. 网络舆情的伦理研究,G206
  16. 语言文字网络舆情基础资源建设研究,H08
  17. 汉字简繁之争的网络舆情研究,H124
  18. 我国网络舆情的政府管理研究,G206
  19. 网络舆情与政府电子治理研究,D630
  20. 虚拟世界的意见集合,G206
  21. 网络口碑传播对企业形象影响的研究,G206

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com