学位论文 > 优秀研究生学位论文题录展示
网络舆情信息采集系统的设计与实现
作 者: 吴静
导 师: 谢梅;史正松
学 校: 电子科技大学
专 业: 软件工程
关键词: 网络舆情 信息采集 网络爬虫 元搜索引擎
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 248次
引 用: 1次
阅 读: 论文下载
内容摘要
舆论是指在一定的社会空间内,随着某一事件现象的发生、发展、变化,民众对该事件的态度。舆情是舆论的放大体,指民众对社会现象的看法、想法态度及意见的总和,也是民众的社会政治态度对执政者决策行为有影响和指导作用的那一部分。随着互联网的发展,作为继报纸、广播、电视三大传统媒体之后的第四媒体,网络的特殊作用日益显现,网络舆论逐渐成为社会舆论的发源地和放大器。在互联网时代,网络舆情作为社会舆情的网络反映,成为社会舆情的最主要的构成之一。如何正确引导网络舆情,避免不良态势的蔓延,这些给执政党和各级政府带来了前所未有的挑战。为了合理引导民众对热点社会问题的关注,需要有效提高网络舆情监控的能力。为了对互联网上的舆情信息进行有效管控,首先就要获取重要网络媒体的发布信息,即对互联网上发布的舆情信息进行信息采集。然而由于网络信息的形式多样,涉及到的信息量极其庞大,各种网络舆情信息的来源也不尽相同,传统的收集分析机制很难有效的完成舆情采集工作,因此必须构建一个高效的舆情收集信息系统来完成这样的工作。这是基于这样的背景,本文将理论研究与实证研究相结合,首先研究了网络舆情构成和特征,结合当前国内互联网应用的实际情况,认为网络舆情信息采集的信息来源主要是各大论坛、网络社区和网民博客等能够集中反映公众对某一具体议题的情绪、意愿、态度和意见的地方。然后研究和比较了当前适用于网络舆情信息定向采集的各种理论、技术和信息采集方案,提出了通过通用搜索引擎和网络爬虫相结合的网络舆情信息采集模型,以满足对各种层次的网络舆情的采集需求。为了保证系统的实时性和减少数据的冗余度,研究了网络爬虫的搜索策略、重新访问策略和礼貌策略,提出通过采取正则表达式过滤的方式,淘汰网络爬虫爬行过程中不符合要求的URL,防止系统偏离目标站点并收集多余数据。最后,本文从舆情网络信息采集和分析的需求出发,开发了网络舆情信息采集系统,实现了从URL抓取、网页源文件抓取、标题和正文抽取、网页去重等一系列工作流程,为今后继续对网络舆情信息的分析和处理打下了基础。
|
全文目录
相似论文
- 路面平整度检测系统中的数据采集和定位技术研究,U416.2
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- 中国区域性网上社区的舆情研究,G206
- 网络舆情的形成机制研究,G206
- 网络舆情对司法过程的影响,D926
- 网络新闻发言人制度构建,G219.2
- 网络舆情的司法监督功能,D926
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- 网络舆情对刑事司法的影响及其应对,G206
- Deep Web接口集成及查询结果排序方法研究,TP274
- 网络舆情对政治生态环境的影响研究,G206
- 用电信息采集一体化建设研究,F426.61
- 垂直搜索引擎关键技术的研究与实现,TP311.52
- 基于人工生命的蜂群行为的仿真与研究,TP391.3
- WEB个性化信息采集与管理关键技术研究,TP393.09
- 南涧县政府门户网站管理中心信息管理系统设计与实现,TP311.52
- 酒店无线数据信息采集管理系统的研究与开发,TP311.52
- 高校突发事件网络舆情预警机制探究,G647
- 基于Agent的分布式元搜索引擎架构研究与实现,TP391.3
- WEB主题信息采集系统的设计与实现,TP274.2
- 基于网络舆情的企业危机管理研究,G206
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|