学位论文 > 优秀研究生学位论文题录展示

中文网页热门主题获取系统的研究与实现

作 者: 郝丽维
导 师: 徐建民;王煜
学 校: 河北大学
专 业: 计算机应用技术
关键词: 网络舆情 数据流挖掘 频繁项集 滑动窗口 中文分词
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 42次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。论文针对互联网舆情信息挖掘技术进行研究,具体包括:(1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。(2)中文分词技术:针对网页标题的结构特点,论文采用基于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。(3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系统参数对系统性能的影响,为提高系统性能提供了依据。

全文目录


摘要  5-6
Abstract  6-9
第1章 引言  9-15
  1.1 研究背景  9
  1.2 研究内容和意义  9-10
  1.3 国内外研究现状  10-13
    1.3.1 WEB挖掘的研究现状  11-12
    1.3.2 数据流挖掘的研究现状  12-13
  1.4 本文工作  13
  1.5 论文组织  13-15
第2章 数据流挖掘概述  15-23
  2.1 数据流  15-17
    2.1.1 数据流的概念  15-16
    2.1.2 数据流模型  16-17
  2.2 数据流挖掘  17-18
    2.2.1 数据流挖掘的特点  17
    2.2.2 数据流挖掘模型  17-18
  2.3 数据流挖掘算法  18-22
    2.3.1 数据流聚类  18-20
    2.3.2 数据流分类  20-21
    2.3.3 数据流频繁项集挖掘  21-22
  2.4 数据流挖掘的应用  22-23
第3章 中文标题的分词和表示  23-33
  3.1 中文分词技术  23-27
  3.2 面临的难题  27-28
  3.3 基于名词的分词方法  28-33
    3.3.1 词典的设计  28-30
    3.3.2 分词算法  30-31
    3.3.3 实验结果  31-33
第4章 基于滑动窗口的数据流频繁项集挖掘算法  33-40
  4.1 问题描述与定义  33-34
  4.2 算法描述  34-38
    4.2.1 数据库的表示法  34-35
    4.2.2 FIM-SW算法  35-38
  4.3 算法分析  38-40
第5章 系统实现  40-48
  5.1 系统模块组成  40-45
    5.1.1 获取网页主题模块  40-44
    5.1.2 中文分词模块  44
    5.1.3 统计频繁主题模块  44-45
  5.2 系统测试  45-48
    5.2.1 实验数据  45-46
    5.2.2 实验结果及分析  46-48
第6章 总结与展望  48-49
参考文献  49-54
攻读硕士学位期间发表论文情况  54-55
致谢  55

相似论文

  1. 中国区域性网上社区的舆情研究,G206
  2. 网络舆情的形成机制研究,G206
  3. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  4. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  5. 基于P4P的流媒体点播系统研究与实现,TN948.64
  6. 主观题自动评分技术研究,TP391.1
  7. 基于网络舆情的企业危机管理研究,G206
  8. 社会焦点事件网络舆情演变研究,G206
  9. 网络舆情热点事件中的网民行为研究,G206
  10. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  11. 中文XML压缩技术研究,TP311.11
  12. 企业邮件监管系统的设计与实现,TP393.098
  13. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  14. 群体性事件的网络舆情及其治理,G206
  15. 网络舆情主体特征及其成因分析,G206
  16. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  17. 基于词典和概率统计的中文分词算法研究,TP391.1
  18. 网络舆情的伦理研究,G206
  19. 语言文字网络舆情基础资源建设研究,H08
  20. 汉字简繁之争的网络舆情研究,H124
  21. 我国网络舆情的政府管理研究,G206

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com