学位论文 > 优秀研究生学位论文题录展示
中文网页热门主题获取系统的研究与实现
作 者: 郝丽维
导 师: 徐建民;王煜
学 校: 河北大学
专 业: 计算机应用技术
关键词: 网络舆情 数据流挖掘 频繁项集 滑动窗口 中文分词
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的快速发展,使得网络成为民众表达舆情民意的重要平台,随之产生的问题是政府如何及时掌握舆情动态、积极引导社会舆论,以维护社会的稳定与和谐。因此,网络舆情的研究具有重要意义。论文针对互联网舆情信息挖掘技术进行研究,具体包括:(1)网页信息采集技术:论文分析了网络传输过程中的协议类型和网页结构,通过对获得的IP数据包进行过滤,实现对网页标题的截取。(2)中文分词技术:针对网页标题的结构特点,论文采用基于名词的分词方法,将分词结果表示成数字序列的形式,以提高处理速度,减少算法的内存开销。(3)数据流频繁项集挖掘技术:根据数据流无限性和流动性的特点,提出了一种在滑动窗口中挖掘频繁项集的算法FIM-SW。FIM-SW算法主要是采用垂直的数据库表示方法,使用二进制向量表示每个数据项,并利用Apriori性质产生频繁项集。实验结果表明,这种算法显著地提高了挖掘效率。结合以上的研究,实现了中文网页热门主题获取系统,包括获取网页主题模块、中文分词模块和统计频繁主题模块。实验表明,系统能够发现网络数据流中的热门主题。另外,在对系统进行测试的过程中,发现并分析了系统参数对系统性能的影响,为提高系统性能提供了依据。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 引言 9-15 1.1 研究背景 9 1.2 研究内容和意义 9-10 1.3 国内外研究现状 10-13 1.3.1 WEB挖掘的研究现状 11-12 1.3.2 数据流挖掘的研究现状 12-13 1.4 本文工作 13 1.5 论文组织 13-15 第2章 数据流挖掘概述 15-23 2.1 数据流 15-17 2.1.1 数据流的概念 15-16 2.1.2 数据流模型 16-17 2.2 数据流挖掘 17-18 2.2.1 数据流挖掘的特点 17 2.2.2 数据流挖掘模型 17-18 2.3 数据流挖掘算法 18-22 2.3.1 数据流聚类 18-20 2.3.2 数据流分类 20-21 2.3.3 数据流频繁项集挖掘 21-22 2.4 数据流挖掘的应用 22-23 第3章 中文标题的分词和表示 23-33 3.1 中文分词技术 23-27 3.2 面临的难题 27-28 3.3 基于名词的分词方法 28-33 3.3.1 词典的设计 28-30 3.3.2 分词算法 30-31 3.3.3 实验结果 31-33 第4章 基于滑动窗口的数据流频繁项集挖掘算法 33-40 4.1 问题描述与定义 33-34 4.2 算法描述 34-38 4.2.1 数据库的表示法 34-35 4.2.2 FIM-SW算法 35-38 4.3 算法分析 38-40 第5章 系统实现 40-48 5.1 系统模块组成 40-45 5.1.1 获取网页主题模块 40-44 5.1.2 中文分词模块 44 5.1.3 统计频繁主题模块 44-45 5.2 系统测试 45-48 5.2.1 实验数据 45-46 5.2.2 实验结果及分析 46-48 第6章 总结与展望 48-49 参考文献 49-54 攻读硕士学位期间发表论文情况 54-55 致谢 55
|
相似论文
- 中国区域性网上社区的舆情研究,G206
- 网络舆情的形成机制研究,G206
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于P4P的流媒体点播系统研究与实现,TN948.64
- 主观题自动评分技术研究,TP391.1
- 基于网络舆情的企业危机管理研究,G206
- 社会焦点事件网络舆情演变研究,G206
- 网络舆情热点事件中的网民行为研究,G206
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 企业邮件监管系统的设计与实现,TP393.098
- 关联规则算法及其在智能药房系统中的应用研究,TP311.13
- 群体性事件的网络舆情及其治理,G206
- 网络舆情主体特征及其成因分析,G206
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 网络舆情的伦理研究,G206
- 语言文字网络舆情基础资源建设研究,H08
- 汉字简繁之争的网络舆情研究,H124
- 我国网络舆情的政府管理研究,G206
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|