学位论文 > 优秀研究生学位论文题录展示

基于一种半结构化数据模型的频繁模式挖掘研究

作 者: 王文艳
导 师: 孙长嵩
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 数据挖掘 Web 半结构化数据模型 频繁模式挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 50次
引 用: 1次
阅 读: 论文下载
 

内容摘要


近年来,随着Web技术的不断发展,怎样从Web产生的海量数据中发现隐含的规律性内容,充分利用有用的数据成了现今研究的热点。而Internet上信息量的巨大性,信息内容结构的复杂性,以及没有特定的模型描述数据,使得处理这些信息具有很多困难。为了解决这个矛盾,半结构化数据模型的建立和Web数据挖掘成为解决这个问题的有效手段。再者,频繁模式挖掘是数据挖掘领域的一个基本问题,其方法被广泛应用于许多数据挖掘任务中。由于问题本身的基础性和内在复杂性,频繁模式挖掘方法成为许多研究者关注的课题。本文介绍了数据挖掘、Web数据挖掘、XML的相关概念和研究现状。分析了半结构化数据的特点以及目前主要的半结构数据模型。通过半结构化数据模型与XML数据的对比,发现它们之间有些相似性,但是XML的提出最初是作为文档标识语言,而不是作为一种数据模型。所以,根据XML数据内容自身的特性和频繁模式挖掘的的基本要求,给出了一种基于XML的树型对象模型ATE,目的是使用该数据模型来进行数据挖掘。在ATE半结构化数据模型的基础上,给出了BATEMINER算法来挖掘XML数据中的频繁模式。由于ATE模型在一定程度上简化了XML中的数据量,减少了存储空间,这也使算法在开发过程上减少了大量的步骤,因此降低了算法在挖掘过程中的开销,从而提高了算法的效率。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-25
  1.1 引言  9-10
  1.2 Web数据挖掘简介  10-15
    1.2.1 Web挖掘原理  11-12
    1.2.2 Web挖掘的特点  12-13
    1.2.3 Web挖掘的分类  13-14
    1.2.4 Web挖掘的难点及解决方法  14-15
  1.3 相关技术  15-23
    1.3.1 XML相关概念  15-18
    1.3.2 数据挖掘技术  18-23
  1.4 本文研究内容  23-24
  1.5 本文组织  24-25
第2章 半结构化数据模型与频繁模式  25-40
  2.1 半结构化数据  25-28
    2.1.1 半结构化数据概述  26-27
    2.1.2 半结构化数据的特点  27-28
    2.1.3 解决半结构化的数据源问题  28
  2.2 半结构化数据模型  28-34
    2.2.1 OEM模型  29-32
    2.2.2 标记有序树  32-33
    2.2.3 标记无序树  33
    2.2.4 数据模型扩展  33-34
  2.3 频繁模式挖掘和分析  34-39
    2.3.1 挖掘频繁项集的经典算法  35-39
    2.3.2 频繁项集挖掘存在的问题  39
  2.4 本章小结  39-40
第3章 ATE数据模型  40-48
  3.1 XML与半结构化数据模型  40-44
    3.1.1 规范存储 XML中的属性  41-43
    3.1.2 XML中属性转换  43
    3.1.3 半结构化数据模型描述XML数据的缺陷  43-44
  3.2 ATE数据模型  44-47
    3.2.1 ATE模型定义  45-46
    3.2.2 ATE模型的一个实例  46-47
  3.3 本章小结  47-48
第4章 频繁模式发现算法  48-58
  4.1 相关概念和术语  48-51
  4.2 基于ATE模型的频繁模式发现算法  51-54
    4.2.1 频繁子树连接扩展操作  51-52
    4.2.2 基于ATE模型的频繁模式发现算法 BATEMINER  52-54
  4.3 实验验证  54-56
    4.3.1 数据预处理  54-55
    4.3.2 实验结果分析  55-56
  4.4 本章小结  56-58
结论  58-60
参考文献  60-64
攻读硕士学位期间发表的论文和取得的科研成果  64-65
致谢  65

相似论文

  1. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 基于WEB的仿真互操作性测试工具研究,TP391.9
  4. LXI仪器Web接口开发,TP274
  5. LXI计数器研制,TP274
  6. 基于数据挖掘技术的保健品营销研究,F426.72
  7. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  8. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  9. 面向服务的多主体协作机制的研究与实现,TP393.09
  10. 基于模型的Web测试技术研究与应用,TP311.53
  11. Bicluster数据分析软件设计与实现,TP311.52
  12. 面向RIA开发模型的研究,TP311.5
  13. 基于变异粒子群的聚类算法研究,TP18
  14. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  15. 基于遗传算法和粗糙集的聚类算法研究,TP18
  16. 面向业务过程的服务动态组合方法研究,TP393.09
  17. 基于本体的语义检索研究,TP391.3
  18. 面向服务的Web报表的研究与设计,TP393.09
  19. 基于数据挖掘的税务稽查选案研究,F812.42
  20. 基于面向服务架构的公众信息系统在新农村信息化建设中的应用研究,TP393.09
  21. 面向社区教育的个性化学习系统的研究与实现,TP391.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com