学位论文 > 优秀研究生学位论文题录展示

数据挖掘的新技术研究

作　者: 王彤
导　师: 何丕廉
学　校: 天津大学
专　业: 计算机应用技术
关键词: 用户维 Web日志编码逆-AprioriAll算法网页驻留时间交叉熵函数准则激活函数生物信息识别
分类号: TP311.13
类　型: 博士论文
年　份: 2007年
下　载: 1905次
引　用: 1次
阅　读: 论文下载

内容摘要

随着Internet的发展,网上购物、电子政务、网上信息检索等活动日益频繁,人们对网络服务的需求成为网络发展的巨大动力。但面对网上巨大的数据量和众多的网站,人们在选择网络服务、检索信息时往往感到无从下手,如何使网络服务适应不同用户的个性化需求已成为网络服务提供者急切关心的问题。要满足用户的个性化需求,关键的问题是如何发现用户的访问模式,对Web进行数据挖掘的目标之一就是要发现用户的访问模式。Web数据挖掘可分为三种类型,即:Web使用挖掘、Web结构挖掘和Web内容挖掘,而挖掘用户的频繁访问序列是发现用户的访问模式的主要方法,也是Web使用挖掘的一项重要任务。Web使用挖掘可以从Web日志或访问者的行为中发现知识,并且可以从不同用户的访问中发现不同用户的行为之间的内在关系。挖掘的结果可以用于改进Web站点的设计和向用户提供服务的方式,以尽可能地满足不同用户的需求。本文在深入研究了OLTP、OLAP数据库的设计特点和Web日志挖掘的已有算法及其相关知识的基础上,对原AprioriAll算法进行了改进。在Web日志挖掘过程中,通过对Web日志数据按“用户维”进行切片,不仅可以将所有用户看作一个整体进行挖掘,而且还实现了对不同的用户个体的行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一改进同时实现了对Web日志的增量挖掘,使对Web日志的动态挖掘成为可能。实验表明,改进后的算法较原算法减少了挖掘过程中候选集的大小和对数据库的扫描次数,使时空效率得以提高。针对表示和存储Web事务要占用大量内存,以及Apriori类算法在挖掘过程中要产生大量候选集和对数据库进行频繁扫描的缺点,本文提出了Web事务编码技术和逆-Apriori算法。Web事务编码技术使用一个数字表示一个Web事务,可以对Web事务数据库进行压缩,减少内存的占用;而逆-Apriori算法可以反向获取用户的最大频繁访问序列,并在此基础上发现关联规则,避免了Apriori类算法逐次产生候选频繁项集的烦琐过程。通过分析用户浏览网页的行为和网站对用户请求的反应,本文还提出了利用用户访问网页的驻留时间进行Web日志挖掘的方法。驻留时间反映了用户浏览网页的行为,通过在挖掘前设定用户访问网页的驻留时间的区间值,使挖掘者可以选择和缩减挖掘的范围,提高了挖掘算法与使用者之间的交互能力。基于这一思想的新算法,首先通过对Web日志的预处理,产生带有驻留时间的Web访问记录集,然后以驻留时间为限制条件,构建驻留时间频繁访问序列树,用以存储和压缩带有驻留时间的数据库,并记录网页的支持数量。最后以驻留时间频繁访问序列树为挖掘对象,在最小支持度的限制下,通过采用深度优先的方法对驻留时间频繁访问序列树进行遍历,发现用户访问网站的驻留时间最大频繁访问序列,对比实验表明该算法对Web日志挖掘有较高的效率。模糊神经网络是数据挖掘研究领域的又一大热点问题。本文依据最大似然原则,推导出用于模糊神经网络分类算法的交叉熵函数准则,同时构建了新的激活函数。基于交叉熵准则和新的激活函数的模糊神经网络分类算法与基于误差平方和准则的BP算法相比,有更快的学习速率而又不致使学习过程失稳,不易陷入局部极小点。新的激活函数的优点在于不仅可以取到0、1值,而且还具有根据总误差调节函数曲线斜率的能力,加快了算法的收敛速度,提高了算法的效率,改善了算法的动态性能。最后,本文提出了引入生物信息技术解决Web挖掘中的用户识别问题的设想,并提出了基于隐马尔科夫模型构建虹膜识别系统的方法,该方法仅需要虹膜的方向域作为输入参数,与需要许多虹膜细节的常规方法相比,它对虹膜图像的噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点;另一方面该匹配方法简化了预处理过程,具有较高的效率。通过准确识别用户,克服了现有Web体系无状态的缺陷,可以实现对Web日志数据按“用户维”进行切片,因此不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同用户的个体行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一设想实施后,还能够实现对Web的增量挖掘,从而使对Web日志的动态挖掘成为可能。

全文目录

中文摘要  2-4
ABSTRACT  4-11
第一章绪论  11-35
  1.1 研究背景  11-12
  1.2 在线事务处理（OLTP）  12-14
    1.2.1 在线事务处理的特点  12-13
    1.2.2 OLTP 报表  13-14
  1.3 在线分析处理（OLAP）  14-18
    1.3.1 数据仓库与 OLAP 的关系  15
    1.3.2 OLAP 的作用  15-17
    1.3.3 OLAP 的特性  17-18
  1.4 决策支持数据和传统操作型数据的比较  18-22
    1.4.1 目的和特性  20
    1.4.2 数据结构和内容  20-21
    1.4.3 数据量  21-22
    1.4.4 数据特征  22
  1.5 数据仓库与数据集市  22-24
  1.6 数据挖掘  24-25
  1.7 OLAP 和数据挖掘的比较  25
  1.8 数据挖掘模型  25-26
    1.8.1 ROLAP  26
    1.8.2 MOLAP  26
    1.8.3 HOLAP  26
  1.9 数据预处理方法  26-31
    1.9.1 数据的收集和准备  27
    1.9.2 数据清洗  27-29
    1.9.3 数据集成  29-30
    1.9.4 数据归约  30-31
    1.9.5 微软数据转换服务  31
  1.10 本文的主要工作  31-33
  1.11 论文结构  33-35
第二章面向用户的 Web 日志挖掘  35-62
  2.1 WEB 挖掘与WEB 信息检索  37
  2.2 WEB 数据的分类  37-38
  2.3 WEB 用户访问信息挖掘  38-40
    2.3.1 Web 用户访问过程  38-39
    2.3.2 Web 日志挖掘步骤  39-40
  2.4 预处理 WEB 日志数据  40-45
    2.4.1 数据源的获取  40-42
    2.4.2 Web 日志的预处理  42-45
  2.5 对WEB LOG 的序列模式挖掘  45-46
  2.6 WEB 数据挖掘面临的一些问题  46-49
    2.6.1 用户的分类问题  46-47
    2.6.2 网站内容的分类问题  47
    2.6.3 网站内容的时效性对用户的影响  47-48
    2.6.4 用户在网页上停留时间反映用户的兴趣度  48
    2.6.5 网页更新频率的影响  48
    2.6.6 网页的链入与链出数反映网页的重要程度  48-49
  2.7 目前常用的算法  49-53
    2.7.1 PageRank 算法  49-50
    2.7.2 HITS 算法  50-52
    2.7.3 LOGSOM 算法  52
    2.7.4 常用算法的不足  52-53
  2.8 基于用户使用模式的发现算法及其改进  53-60
    2.8.1 基本原理  53-54
    2.8.2 原有的 AprioriAll 算法  54-56
    2.8.3 改进后的算法  56-59
    2.8.4 实验与结论  59-60
  2.9 进一步的工作  60-61
  2.10 本章小结  61-62
第三章数据库编码技术及逆-Apriori 算法  62-70
  3.1 数据库编码  63-65
  3.2 频繁项集挖掘  65-66
  3.3 关联规则挖掘  66-67
  3.4 算法优化  67-68
  3.5 实验结果  68-69
  3.6 本章小结  69-70
第四章基于网页驻留时间的最大频繁访问序列挖掘  70-80
  4.1 问题的提出  70-71
  4.2 访问网站的会话与网页的驻留时间  71-72
    4.2.1 访问网站的会话  71
    4.2.2 网页的驻留时间  71-72
  4.3 FTS 和MFTS 的定义  72
  4.4 驻留时间频繁访问序列树的构建  72-74
  4.5 驻留时间最大频繁访问序列挖掘算法  74-79
    4.5.1 算法设计  74-77
    4.5.2 算法分析与性能评估  77-79
  4.6 本章小结  79-80
第五章基于交叉熵和新激活函数的模糊神经网络分类算法  80-88
  5.1 问题的提出  80-81
  5.2 神经网络分类器结构  81-82
  5.3 交叉熵函数准则及训练算法  82-84
  5.4 激活函数  84-85
  5.5 实际应用及比较  85-86
  5.6 本章小结  86-88
第六章生物信息技术在 Web 挖掘中的应用  88-101
  6.1 问题的提出  88
  6.2 WEB 访问中的生物信息识别  88-90
  6.3 生物信息识别技术  90-91
  6.4 生物信息的类型  91-94
    6.4.1 指纹  91-92
    6.4.2 面部特征识别  92
    6.4.3 语音识别  92-93
    6.4.4 掌形识别  93
    6.4.5 手写体验证  93
    6.4.6 DNA 识别技术  93-94
    6.4.7 虹膜识别  94
  6.5 虹膜识别系统的组成  94-95
  6.6 虹膜图像的获取及其预处理  95-96
  6.7 特征抽取与观测向量构建  96-97
  6.8 训练隐马尔科夫模型与虹膜匹配  97-99
  6.9 实验结果  99
  6.10 结论  99-101
第七章结论与展望  101-104
  7.1 全文总结  101-102
  7.2 研究工作展望  102-104
参考文献  104-111
发表论文和参加科研情况说明  111-112
致谢  112

相似论文

基于BP和SOM神经网络的股票价格预测的研究,F830.91
基于非参数统计方法的人工神经网络研究与讨论,TP183
经硬脑膜对视皮层电刺激的数字仿真,TP391.9
安全两方的神经网络计算和学习,TP183
量子神经网络模型及其算法研究,TP183
基于虹膜识别的识别效果评估系统的研究与实现,TP391.41
盲源分离算法研究,TN911.7
盲源分离算法研究,TN911.2
磁刺激系统的优化与仿真研究,R318.6
闭区间上神经数值计算模型与方法研究,TP18
关于梯形、脉冲激活函数的细胞神经网络研究,TP183
BP神经网络在股票预测中的应用研究,F224;TP183
时滞神经网络模型的动力学研究,O175
支持XML数据查询的F&B索引结构的研究,TP311.13
海量多数据库集成系统的查询处理研究,TP311.13
海量数据压缩、操作和处理方法的研究,TP311.13
频繁图结构并行挖掘算法的研究与实现,TP311.13
海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
隐式用户兴趣挖掘的研究与实现,TP311.13
基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13