学位论文 > 优秀研究生学位论文题录展示

网络舆情分析关键技术研究与实现

作　者: 吴娱
导　师: 佘堃
学　校: 电子科技大学
专　业: 计算机软件与理论
关键词: 舆情分析网页文本分类文本倾向性分析网络爬虫
分类号: TP393.09
类　型: 硕士论文
年　份: 2011年
下　载: 199次
引　用: 0次
阅　读: 论文下载

内容摘要

随着计算机技术和通信技术的飞速发展,互联网己成为了人们生活的不可缺少的组成部分。据国际电联统计,截止至2010年12月,全球互联网用户总数已经超过20亿。其中,我国的互联网用户数量已经超过3.9亿。网络被公认为是继报纸、广播、电视之后的“第四媒体”,民众知情权、表达权、参与权、监督权在互联网上已基本得到落实。网民对企业、民生、政府管理、反腐败、社会道德等热点问题在互联网上踊跃发表意见,这些意见形成一种强大的舆论压力,其影响已经大大超过了传统媒体。网络已经成为反映社会舆情的最主要载体。在网络舆情迅猛发展的同时,对网络舆情分析监控工作显得愈发重要。网络具有的开放性和相对自由的宽松度,使得民众发言摆脱了社会权利体制的管制和限制,可以畅所欲言无所顾忌的表达个人的观点、立场、情绪,民意表达更为畅通。网络也由于其虚拟性也带来了很大的安全隐患,发言者身份隐蔽,并且缺少规则限制和有效监督,因此网络很容易成为一些网民发泄不良情绪的空间。而且由于目前我国正处于社会转型期,存在诸多矛盾,再加上少数社会管理者对于舆论习惯性的回避或堵塞,因此,非常需要使用舆情分析系统对网络舆情进行分析监控,及时防范误导性舆论造成的社会危害,把握和保障正确舆论的前进导向,为构建和谐社会的舆情保驾护航。本论文对网络舆情分析系统进行需求分析,提出了系统的设计方案,并实现了系统中网页文本分类和文本倾向性分析等关键技术。本论文的先进性表现在:1)针对现有的通用爬虫技术存在的局限性,提出了一种基于爬行策略和过滤策略的数据采集方法,过滤大量无用信息;同时制定了针对舆情分析系统的网页库更新策略,保证本地网页库的时新性。2)通过对基于朴素贝叶斯的网页文本分类技术进行研究,提出了一种基于粗糙集改进的朴素贝叶斯分类方法,并将该方法运用到舆情分析系统的舆情分类中。3)通过对现有的基于语义和基于机器学习的文本倾向性分析技术分别进行了探讨,并结合两类方法的优点,提出了一种基于语义改进的机器学习文本倾向性分析方法,并将该方法成功的应用到舆情分析系统中。

全文目录

摘要  4-5
ABSTRACT  5-11
第一章引言  11-16
  1.1 研究背景及意义  11-12
  1.2 国内外现状分析  12-15
    1.2.1 相关定义  12
    1.2.2 国内外舆情分析技术现状  12-14
    1.2.3 国内外系统原型与产品现状  14-15
  1.3 本论文主要工作及内容安排  15-16
第二章网络舆情分析系统需求分析  16-25
  2.1 网络舆情分析系统概述  16-17
  2.2 网络舆情分析系统功能需求分析  17-23
    2.2.1 网络舆情分析系统功能用例图  17
    2.2.2 信息采集  17-20
    2.2.3 网络资源分析  20-21
    2.2.4 网页预处理  21-22
    2.2.5 信息检索  22
    2.2.6 归档管理  22
    2.2.7 舆情统计  22-23
    2.2.8 系统管理  23
  2.3 网络舆情分析系统性能需求  23-24
    2.3.1 响应需求  23
    2.3.2 可用性需求  23-24
    2.3.3 并发性需求  24
  2.4 网络舆情分析系统其他需求  24-25
    2.4.1 可用性需求  24
    2.4.2 操作需求  24
    2.4.3 安全需求  24-25
      2.4.3.1 系统安全  24
      2.4.3.2 审计需求  24-25
第三章网络舆情分析系统设计  25-41
  3.1 系统总体设计  25-30
    3.1.1 系统功能模块  25-26
    3.1.2 逻辑架构  26-27
      3.1.2.1 逻辑图  26
      3.1.2.2 架构说明  26-27
    3.1.3 技术架构  27-29
      3.1.3.1 系统技术架构  27
      3.1.3.2 技术框架  27-28
      3.1.3.3 技术工具  28-29
    3.1.4 物理结构  29-30
  3.2 系统模块设计  30-38
    3.2.1 信息采集模块  30-31
    3.2.2 信息预处理模块  31-33
    3.2.3 舆情分析模块  33-35
      3.2.3.1 中文分词  34
      3.2.3.2 文本分类  34
      3.2.3.3 文本聚类  34
      3.2.3.4 文本倾向性分析  34-35
      3.2.3.5 热点发现  35
      3.2.3.6 自动摘要  35
      3.2.3.7 人名/地名/机构名识别  35
    3.2.4 资源检索模块  35-36
    3.2.5 舆情统计模块  36-37
    3.2.6 归档管理  37
    3.2.7 系统管理  37-38
  3.3 数据库设计  38-41
第四章网络舆情分析系统中关键技术的设计与实现  41-64
  4.1 信息采集技术  41-47
    4.1.1 网页抓取  41-45
      4.1.1.1 网页抓取与过滤策略介绍  41-42
      4.1.1.2 基于策略的网页采集功能的实现  42-45
    4.1.2 网页更新  45-47
      4.1.2.1 页面库更新的相关概念  45-46
      4.1.2.2 网页库的更新策略  46
      4.1.2.3 更新策略在本系统中的实现  46-47
  4.2 舆情分类技术  47-56
    4.2.1 理论基础  47-49
      4.2.1.1 朴素贝叶斯分类器  47-48
      4.2.1.2 粗糙集理论  48-49
    4.2.2 网页预处理及特征值提取  49-52
      4.2.2.1 HTML 文本预处理  49-50
      4.2.2.2 特征值提取  50-52
    4.2.3 基于粗糙集和朴素贝叶斯分类器实现  52-56
      4.2.3.1 基于粗糙集与朴素贝叶斯的分类模型  52-53
      4.2.3.2 Web 页面文本预处理  53-54
      4.2.3.3 构造决策表  54-55
      4.2.3.4 改进后的粗糙集属性提取过程  55
      4.2.3.5 朴素贝叶斯分类  55-56
  4.3 文本倾向性分析技术  56-64
    4.3.1 文本倾向性技术介绍  56-59
      4.3.1.1 基于机器学习的文本倾向性分析技术  57-58
      4.3.1.2 基于语义的文本倾向性分析技术  58-59
    4.3.2 基于语义的特征选择方法  59-62
      4.3.2.1 问题描述  59
      4.3.2.2 知网中的感情词汇  59-60
      4.3.2.3 句义分析  60-61
      4.3.2.4 基于语义的特征选择方法描述  61-62
    4.3.3 基于语义的文本倾向性分类器实现  62-64
第五章网络舆情分析系统的测试  64-70
  5.1 功能测试  64-67
  5.2 性能测试  67-70
    5.2.1 评价指标  67-68
    5.2.2 舆情分类测试结果及分析  68
    5.2.3 文本倾向性分析测试结果及分析  68-70
第六章总结与展望  70-72
  6.1 本论文总结  70-71
  6.2 未来工作  71-72
致谢  72-73
参考文献  73-76
攻硕期间取得的研究成果  76-77

相似论文

基于比对技术的非法网站探测系统的实现与研究,TP393.08
基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
面向互联网中文舆情信息的情感倾向分析,TP391.1
网络舆情数据获取与话题分析技术研究,TP393.09
垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
面向企业竞争情报的主题搜索研究与实现,TP391.3
基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
个性化搜索引擎的研究与设计,TP391.3
搜索引擎中网络爬虫技术研究,TP391.3
主题搜索与Web挖掘的研究及系统实现,TP391.3
基于DOM的HTML网页正文信息抽取模块的设计与实现,TP393.092
基于客户反馈的FTP搜索引擎的研究与设计,TP391.3
可爬取Ajax数据的搜索引擎爬虫研究与设计,TP391.3
基于JavaEE平台与Lucene的信息文档搜索引擎系统的设计与实现,TP391.3
基于Web内容挖掘的医药类广告监控系统的实现,TP393.09
网络舆情分析关键技术的研究与实现,TP393.09
网络舆情监控系统的研究与实现,TP393.09
基于本体的话题情感分析研究,TP391.1
面向Web的图书信息抽取方法与实现,TP311.52
基于ontology的Blog信息抽取技术研究,TP393.092