学位论文 > 优秀研究生学位论文题录展示
网络舆情数据获取与话题分析技术研究
作 者: 王允
导 师: 李弼程
学 校: 解放军信息工程大学
专 业: 信号与信息处理
关键词: 网络舆情 网络爬虫 Web信息抽取 话题检测 层次聚类 数据立方体
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 764次
引 用: 2次
阅 读: 论文下载
内容摘要
网络舆情数据获取与话题分析是网络舆情态势分析与预警中的关键技术,已成为智能信息处理领域的研究热点。该技术从互联网上自动获取大量舆情数据,从中检测出网络舆情话题并借助数据立方体模型对其进行多角度、深层次的挖掘分析,客观地反映出网络舆情发展变化特点,对网络舆情信息监测和信息安全具有重要意义。本文主要研究网络舆情数据获取与话题分析技术,包括:网络舆情数据采集技术、网络舆情数据抽取技术、网络舆情话题检测技术和网络舆情话题分析技术。论文主要研究成果如下:(1)设计并实现了面向网络舆情数据采集的网络爬虫。一方面,分析了通用网络爬虫的不足,采用异步Socket、DNS缓存和多队列下载来改进其底层框架,提高了采集速度;另一方面,分析了网络舆情传播的主要途径,将重点锁定在论坛、博客、新闻这些网络文本,制定专用网络爬虫对目标站点进行分站式采集。各网络爬虫根据站点类型采用相应的采集策略以实现精确采集,并支持脚本执行、RSS解析。实验结果表明,通过两个方面的改进,本文设计的网络爬虫在有效性和效率上均优于通用的网络爬虫。(2)通过分析论坛网页的布局结构特点,提出了一种基于网页布局相似度的Web论坛数据抽取方法。该方法采用分级处理的方式,先识别出主题信息块,再利用待抽取数据的统计规律,在主题信息块中完成网络舆情元数据抽取,不需要任何人工干预。实验结果表明,该方法对不同的论坛站点有较好的通用性,并且在准确率和召回率上均高于同类的自动抽取方法。(3)针对目前话题检测中算法复杂度高、准确率低的问题,提出了一种基于层次聚类的舆情话题检测方法。该方法先对一定数量的文档进行层次聚类,得到若干话题,然后以此对后来的文档进行检测,并在适当的时候对未划分到任何话题的文档再进行层次聚类。该方法能检测出话题的层次性,同时运算速度快,可以达到准实时检测的要求。实验结果表明,相对于传统方法,本文方法在保证高准确率的同时,漏检率和错检率上都有所降低。(4)通过详细分析网络舆情组成要素,利用数据仓库技术,建立网络舆情话题数据立方体模型。该模型涵盖了网络舆情的大部分组成要素,而且可以根据实际需要方便地进行扩展。实际案例分析表明,应用该模型可以对网络舆情话题进行多角度、深层次的挖掘分析,分析结果能比较客观地反映网络舆情变化发展的规律和趋势,有助于全面地了解网络舆情话题,并为网络舆情预警提供必要的信息。
|
全文目录
相似论文
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 中国区域性网上社区的舆情研究,G206
- 网络舆情的形成机制研究,G206
- 对于系统发育谱法聚类算法的改进,TP311.13
- 网页属性抽取的方法研究,TP391.1
- 面向消费者感性需求的手持GPS设计探讨,TN967.1
- 基于网络舆情的企业危机管理研究,G206
- 社会焦点事件网络舆情演变研究,G206
- 网络舆情热点事件中的网民行为研究,G206
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- 群体性事件的网络舆情及其治理,G206
- 政府网络新闻发布理论与实践探析,G219.2
- 网络舆情主体特征及其成因分析,G206
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于两层次聚类的车辆配载调度方法,U492.22
- 网络舆情的伦理研究,G206
- 语言文字网络舆情基础资源建设研究,H08
- 汉字简繁之争的网络舆情研究,H124
- 我国网络舆情的政府管理研究,G206
- 网络舆情与政府电子治理研究,D630
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|