学位论文 > 优秀研究生学位论文题录展示
基于分类树的增量Web数据挖掘系统
作 者: 王士健
导 师: 鲁宏伟
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 数据挖掘 分类树 增量挖掘 插件模式
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展和日益普及,互联网上的信息和资源呈几何倍数爆炸式的增长,面对如此庞大的资源,如何有效利用互联网的公共资源确实一个难题。Web信息和资源大多以HTML(Hypertext Markup Language)文档形式存在。HTML文档的性质决定了这些信息和资源无法直接被使用,那么如何有效地、高效的挖掘互联网上资源就是该系统重点要解决的问题。为了高效地将影视资源网站中的影视资源完全挖掘出来,并且保存到结构化数据库中,Web数据挖掘包含三个重要的部分:分类树挖掘,资源列表挖掘,增量挖掘判断。首先是挖掘Web站点的分类结构,然后管理员通过管理系统进行分类映射,对需要挖掘的分类进行管理。分类树挖掘是整个系统的主干,后续的挖掘都按照这个主干进行。资源列表的挖掘,通过挖掘到的分类树获取分类的入口地址,以页为单位获取分类下的资源列表集合。增量挖掘判断,从资源列表中循环解析资源,并从中获取资源的更新时间和ID(IDentity),通过增量判断算法,判断该资源是否有更新,如果为新增或有更新资源,则继续挖掘该资源的详情页面。在系统实现时,结合具体的例子,多次试验,基于分类树从一个影视资源网站,深度、增量挖掘该网站上的所有的影视资源,试验效果良好,效率非常高。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-12 1.1 课题背景 8 1.2 国内外研究现状 8-9 1.3 课题主要研究工作 9-10 1.4 论文组织结构 10-12 2 系统分析与设计 12-32 2.1 需求分析 12-13 2.2 概要设计 13-22 2.3 系统详细设计 22-30 2.4 小结 30-32 3 系统模块功能实现 32-45 3.1 任务模块 32 3.2 异常处理与日志模块 32-33 3.3 管理系统模块 33-35 3.4 插件模块 35-44 3.5 小结 44-45 4 Web 数据挖掘实验与分析 45-54 4.1 实验过程 45-46 4.2 实验结果 46-47 4.3 结果分析 47-51 4.4 解决办法 51-53 4.5 小结 53-54 5 总结与展望 54-56 5.1 全文总结 54-55 5.2 展望 55-56 致谢 56-57 参考文献 57-59
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 数据集市在电信经营分析中的应用研究,TP311.13
- 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
- 基于数据挖掘的个性化在线教学辅助系统的研究与设计,TP311.13
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则挖掘在交通事故成因分析中的应用,U491.31
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|