学位论文 > 优秀研究生学位论文题录展示

Deep Web数据集成系统中数据标注研究

作 者: 常勇
导 师: 袁方
学 校: 河北大学
专 业: 计算机应用技术
关键词: Deep Web 数据标注 领域知识 决策树
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着人们对网络环境下信息检索研究的不断深入,Deep Web数据集成系统的相关研究越来越多地受到了人们的关注。Deep Web是与Surface Web相对应的概念,它是指那些不能被主流的搜索引擎搜索到、动态地根据用户提交的关键词所生成的Web数据信息。数据标注作为Deep Web数据集成系统中一个重要的组成部分,它的主要工作是对抽取的查询返回结果数据进行标注,使其成为有语义信息的数据,使得计算机可识别、可处理。本文在分析了Deep Web网站查询结果页面及其数据表现形式的基础上,介绍了结果模式、标注领域的对象模型并给出了它们的形式化表示,同时给出了数据标注思想的描述。本文将Deep Web网站查询返回结果内容分为三种类型:(1)内容中含有领域知识;(2)内容中不含有领域知识;(3)部分内容含有领域知识,其余内容不含有领域知识的混合类型。针对这三种类型使用了两种基本标注方法:领域知识标注方法和决策树标注方法,用它们单独以及联合标注这三种类型。为了避免对同一Deep Web网站查询结果数据的反复处理,在前面两种基本标注方法的基础上,使用了模板标注方法。同时使用了两种辅助标注方法:实体标注方法和启发式规则标注方法。这两种方法主要是用来检验和修正其他标注方法的标注结果。本文对各种标注方法采用的主要信息做了说明,对各种标注方法的模型做了介绍并给出了形式化表示,对各种标注方法处理中遇到的相关问题做了具体分析。实验结果表明,本文使用的标注方法对查询结果数据具有较好的标注效果。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-15
  1.1 Deep Web数据集成系统研究的意义及现状  10-11
  1.2 数据标注研究的意义及现状  11-13
  1.3 主要研究内容和论文结构  13-14
  1.4 本章小结  14-15
第2章 相关知识介绍  15-20
  2.1 Deep Web数据集成系统框架  15-17
  2.2 XML  17
  2.3 启发式规则  17-18
  2.4 决策树  18-19
  2.5 本章小结  19-20
第3章 数据标注方法  20-31
  3.1 标注方法的相关内容说明  20-22
    3.1.1 结果模式  20
    3.1.2 标注领域的对象模型  20-21
    3.1.3 抽取的标注对象  21-22
    3.1.4 本文的标注思想  22
  3.2 领域知识标注  22-23
    3.2.1 领域知识的使用说明  22
    3.2.2 领域知识标注模型的建立  22-23
  3.3 决策树标注  23-24
    3.3.1 决策树的使用说明  23-24
    3.3.2 决策树标注模型的建立  24
  3.4 模板标注  24-26
    3.4.1 模板的使用说明  24
    3.4.2 模板标注模型的建立  24-25
    3.4.3 模板的建立和存储  25
    3.4.4 模板的使用和更新  25-26
  3.5 实体标注  26-28
    3.5.1 实体的使用说明  26
    3.5.2 实体标注模型的建立  26
    3.5.3 实体选择的标准和方式  26-27
    3.5.4 实体标注的处理方式  27
    3.5.5 实体的存储说明  27-28
  3.6 启发式规则标注  28-30
    3.6.1 启发式规则的使用说明  28
    3.6.2 启发式规则标注模型的建立  28-29
    3.6.3 启发式规则的表示  29-30
  3.7 本章小结  30-31
第4章 实验与分析  31-46
  4.1 实验总体说明  31-32
    4.1.1 实验标注的领域  31
    4.1.2 实验结果分析采用的主要指标  31
    4.1.3 实验数据集  31-32
  4.2 领域知识标注实验与分析  32-34
    4.2.1 领域知识的选取处理  32-33
    4.2.2 实验结果与分析  33-34
  4.3 决策树标注实验与分析  34-36
    4.3.1 数据特征的说明  34
    4.3.2 决策树训练集和测试集  34-35
    4.3.3 实验结果与分析  35-36
  4.4 模板标注实验与分析  36-38
    4.4.1 模板在实际建立中的问题  36-37
    4.4.2 实验结果与分析  37-38
  4.5 实体标注的内容  38-40
    4.5.1 实体选择与核心匹配  38-39
    4.5.2 实体标注方法的使用分析  39-40
  4.6 启发式规则标注的内容  40-41
    4.6.1 规则的制定  40-41
    4.6.2 启发式规则标注方法的使用分析  41
  4.7 综合标注  41-45
    4.7.1 综合标注1  41-43
    4.7.2 综合标注2  43-45
  4.8 本章小结  45-46
第5章 总结与展望  46-48
参考文献  48-51
攻读硕士学位期间科研工作情况  51-52
致谢  52

相似论文

  1. 基于支持向量机的故障诊断方法研究,TP18
  2. 教学质量评估数据挖掘系统设计与开发,TP311.13
  3. 多媒体个性化建模与检索,TP391.3
  4. 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
  5. 基于粗糙集理论的决策树分类算法与应用研究,TP18
  6. 基于核心示例集的属性约简方法研究,O159
  7. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  8. 人体运动序列数据的语义化分析方法研究,TP391.1
  9. 基于改进的ID3算法的蛋白质纯化方法研究,Q51
  10. 五种决策树算法的比较研究,TP311.13
  11. 信用卡风险管理技术及利润预测模型,F224
  12. 汉语语音合成系统的改进与实现,TN912.33
  13. 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
  14. 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
  15. 基于数据挖掘的故障诊断方法研究,TP311.13
  16. 数据挖掘在研究生调剂中的应用研究,TP311.13
  17. 基于决策树分类算法的Web文本分类研究,TP391.1
  18. Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
  19. 基于决策树的短期负荷预测系统研究与实现,TM715
  20. 航次知识发现及其应用研究,F552.6
  21. 某型主动雷达制导导弹的通用自动测试设备研究,TJ760.6

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com