学位论文 > 优秀研究生学位论文题录展示

一种舆情信息预处理平台的研究与实现

作 者: 胡少荣
导 师: 孟嗣仪
学 校: 北京交通大学
专 业: 通信与信息系统
关键词: 舆情 网页信息抽取 中文分词 文档对象
分类号: TP393.09
类 型: 硕士论文
年 份: 2010年
下 载: 182次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络信息化的不断发展,舆论的传播方式和传播速度都发生了巨大的变化,互联网已成为我国的主要舆论聚集地,并且无时不刻的影响着人们的生活。因此通过网络分析研究舆情信息可以了解大众心态和民意,对经济、社会、政治的发展都具有重要的意义。但是网络传播的信息具有数据量大、半结构化、异构性等特点,使得人们在获取相关信息和进行研究工作都面临很大的困难,因此需要建立一种舆情信息预处理平台来完成互联网信息的分析预处理。本论文首先对国内外舆情信息预处理的相关技术进行了研究及分析,总结了它们的优缺点,深入分析了舆情信息预处理平台的设计和技术实现等方面的问题,然后在现有技术的基础之上提出了用于舆情信息预处理的技术方案,实现了将海量网页信息进行处理分析以及重复利用的功能。本文的研究内容和主要成果有:深入分析了URL结构的特点,采用了URL比较分析的方法对海量网页进行处理,完成了对用户指定网站的筛选过滤;提出了对文档对象建模的网页信息抽取算法,并且设计了基于抽取规则的文档对象匹配模板库,对网页中的无关信息进行滤除,并且将提取到的关键信息录入关系型数据库,以备日后的分析和使用;提出了基于四字索引分词词典的实现方案,采用最大正向匹配算法对中文内容进行扫描切分,较准确地完成了对中文信息的分词处理和词频统计等功能;在对多线程机制深入研究的基础上,提出了利用线程池来管理多线程的技术方案,使系统效率得到了较好的改善。通过实验验证了本文所提出的信息处理方案,实验结果表明,本文设计的方案高效可行,有很高的准确率和使用价值。本文基于以上的工作,根据平台的总体设计原则,规划了舆情信息预处理平台的总体框架结构,完成了平台的模块划分,设计了各模块的功能以及数据库结构,最终开发出了一种运行稳定,效率良好的舆情信息预处理平台,希望通过本论文的研究能够对舆论分析的理论研究做出微薄的贡献。

全文目录


致谢  5-6
中文摘要  6-7
ABSTRACT  7-11
1 引言  11-15
  1.1 研究背景及意义  11-12
  1.2 国内外研究现状  12-13
  1.3 论文主要工作及结构  13-15
    1.3.1 研究工作和目标  13-14
    1.3.2 内容安排和结构  14-15
2 相关技术的研究  15-23
  2.1 基于XML的异构数据源访问中间件技术  15-17
    2.1.1 中间件简介  15-16
    2.1.2 可扩展标记语言XML简介  16-17
    2.1.3 异构数据源访问的解决方案  17
  2.2 中文分词技术及方法概述  17-20
    2.2.1 中文分词概念及难点  18
    2.2.2 中文分词常用方法  18-19
    2.2.3 中文分词常用方法比较及优缺点  19-20
  2.3 数据库优化技术  20-22
    2.3.1 数据库优化定义及优化策略  20-21
    2.3.2 表设计优化  21-22
    2.3.3 查询优化  22
  2.4 本章小结  22-23
3 舆情信息预处理平台总体设计  23-33
  3.1 舆情信息预处理平台介绍  23-24
    3.1.1 平台总体设计原则  23
    3.1.2 平台开发环境及开发工具  23-24
  3.2 舆情信息预处理的重点领域及信息来源  24-25
    3.2.1 新闻咨询类网站  24
    3.2.2 热点论坛  24-25
    3.2.3 中文博客  25
  3.3 舆情信息预处理平台设计  25-32
    3.3.1 平台总体业务流程  25-26
    3.3.2 平台模块组成及功能设计  26-30
    3.3.3 平台架构设计  30-31
    3.3.4 数据库设计  31-32
  3.4 本章小结  32-33
4 关键技术实现  33-57
  4.1 网页信息抽取算法与实现  33-45
    4.1.1 算法综述  33-34
    4.1.2 基于URL结构的特征比较法  34-36
    4.1.3 基于文档对象模型匹配的网页信息抽取方法  36-42
    4.1.4 网页信息抽取程序设计实现  42-44
    4.1.5 实验结果分析及算法评价  44-45
  4.2 中文分词技术及其实现  45-52
    4.2.1 分词词典概述  46-47
    4.2.2 四字索引分词词典  47-49
    4.2.3 基于分词词典的分词算法实现  49-50
    4.2.4 词频统计实现方法  50-51
    4.2.5 中文分词实验结果分析  51-52
  4.3 基于线程池的优化技术及其实现  52-56
    4.3.1 Java线程池  52-53
    4.3.2 线程池优化方案及实现  53-55
    4.3.3 优化结果分析及效果演示  55-56
  4.4 本章小结  56-57
5 结论与展望  57-59
  5.1 论文总结  57-58
  5.2 应用前景及展望  58-59
参考文献  59-61
作者简历  61-63
学位论文数据集  63

相似论文

  1. 网络舆情的政府治理研究,G206
  2. 中国区域性网上社区的舆情研究,G206
  3. 网络舆情的形成机制研究,G206
  4. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  5. 主观题自动评分技术研究,TP391.1
  6. 基于网络舆情的企业危机管理研究,G206
  7. 水利工程舆情分析模型及指标体系设计,F426.91
  8. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  9. 企业邮件监管系统的设计与实现,TP393.098
  10. 互联网舆情预警系统设计与实现,TP393.09
  11. 群体性事件的网络舆情及其治理,G206
  12. 大学生舆情与高校思想政治教育研究,G641
  13. 网络舆情主体特征及其成因分析,G206
  14. 模板独立的网页信息抽取研究,TP393.092
  15. BBS舆情智能分析系统研究与实现,TP393.094
  16. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  17. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  18. 虚拟世界的意见集合,G206
  19. 网络口碑传播对企业形象影响的研究,G206
  20. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  21. 中文网页热门主题获取系统的研究与实现,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com