学位论文 > 优秀研究生学位论文题录展示
Deep Web数据集成系统中数据标注研究
作 者: 常勇
导 师: 袁方
学 校: 河北大学
专 业: 计算机应用技术
关键词: Deep Web 数据标注 领域知识 决策树
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
随着人们对网络环境下信息检索研究的不断深入,Deep Web数据集成系统的相关研究越来越多地受到了人们的关注。Deep Web是与Surface Web相对应的概念,它是指那些不能被主流的搜索引擎搜索到、动态地根据用户提交的关键词所生成的Web数据信息。数据标注作为Deep Web数据集成系统中一个重要的组成部分,它的主要工作是对抽取的查询返回结果数据进行标注,使其成为有语义信息的数据,使得计算机可识别、可处理。本文在分析了Deep Web网站查询结果页面及其数据表现形式的基础上,介绍了结果模式、标注领域的对象模型并给出了它们的形式化表示,同时给出了数据标注思想的描述。本文将Deep Web网站查询返回结果内容分为三种类型:(1)内容中含有领域知识;(2)内容中不含有领域知识;(3)部分内容含有领域知识,其余内容不含有领域知识的混合类型。针对这三种类型使用了两种基本标注方法:领域知识标注方法和决策树标注方法,用它们单独以及联合标注这三种类型。为了避免对同一Deep Web网站查询结果数据的反复处理,在前面两种基本标注方法的基础上,使用了模板标注方法。同时使用了两种辅助标注方法:实体标注方法和启发式规则标注方法。这两种方法主要是用来检验和修正其他标注方法的标注结果。本文对各种标注方法采用的主要信息做了说明,对各种标注方法的模型做了介绍并给出了形式化表示,对各种标注方法处理中遇到的相关问题做了具体分析。实验结果表明,本文使用的标注方法对查询结果数据具有较好的标注效果。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-15 1.1 Deep Web数据集成系统研究的意义及现状 10-11 1.2 数据标注研究的意义及现状 11-13 1.3 主要研究内容和论文结构 13-14 1.4 本章小结 14-15 第2章 相关知识介绍 15-20 2.1 Deep Web数据集成系统框架 15-17 2.2 XML 17 2.3 启发式规则 17-18 2.4 决策树 18-19 2.5 本章小结 19-20 第3章 数据标注方法 20-31 3.1 标注方法的相关内容说明 20-22 3.1.1 结果模式 20 3.1.2 标注领域的对象模型 20-21 3.1.3 抽取的标注对象 21-22 3.1.4 本文的标注思想 22 3.2 领域知识标注 22-23 3.2.1 领域知识的使用说明 22 3.2.2 领域知识标注模型的建立 22-23 3.3 决策树标注 23-24 3.3.1 决策树的使用说明 23-24 3.3.2 决策树标注模型的建立 24 3.4 模板标注 24-26 3.4.1 模板的使用说明 24 3.4.2 模板标注模型的建立 24-25 3.4.3 模板的建立和存储 25 3.4.4 模板的使用和更新 25-26 3.5 实体标注 26-28 3.5.1 实体的使用说明 26 3.5.2 实体标注模型的建立 26 3.5.3 实体选择的标准和方式 26-27 3.5.4 实体标注的处理方式 27 3.5.5 实体的存储说明 27-28 3.6 启发式规则标注 28-30 3.6.1 启发式规则的使用说明 28 3.6.2 启发式规则标注模型的建立 28-29 3.6.3 启发式规则的表示 29-30 3.7 本章小结 30-31 第4章 实验与分析 31-46 4.1 实验总体说明 31-32 4.1.1 实验标注的领域 31 4.1.2 实验结果分析采用的主要指标 31 4.1.3 实验数据集 31-32 4.2 领域知识标注实验与分析 32-34 4.2.1 领域知识的选取处理 32-33 4.2.2 实验结果与分析 33-34 4.3 决策树标注实验与分析 34-36 4.3.1 数据特征的说明 34 4.3.2 决策树训练集和测试集 34-35 4.3.3 实验结果与分析 35-36 4.4 模板标注实验与分析 36-38 4.4.1 模板在实际建立中的问题 36-37 4.4.2 实验结果与分析 37-38 4.5 实体标注的内容 38-40 4.5.1 实体选择与核心匹配 38-39 4.5.2 实体标注方法的使用分析 39-40 4.6 启发式规则标注的内容 40-41 4.6.1 规则的制定 40-41 4.6.2 启发式规则标注方法的使用分析 41 4.7 综合标注 41-45 4.7.1 综合标注1 41-43 4.7.2 综合标注2 43-45 4.8 本章小结 45-46 第5章 总结与展望 46-48 参考文献 48-51 攻读硕士学位期间科研工作情况 51-52 致谢 52
|
相似论文
- 基于支持向量机的故障诊断方法研究,TP18
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 多媒体个性化建模与检索,TP391.3
- 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 基于核心示例集的属性约简方法研究,O159
- 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
- 人体运动序列数据的语义化分析方法研究,TP391.1
- 基于改进的ID3算法的蛋白质纯化方法研究,Q51
- 五种决策树算法的比较研究,TP311.13
- 信用卡风险管理技术及利润预测模型,F224
- 汉语语音合成系统的改进与实现,TN912.33
- 中国15岁以上人群乙型肝炎免疫预防的决策分析模型研究,R392.1
- 广州市乙肝相关疾病经济负担及1~14岁人群乙肝疫苗接种策略研究,R186
- 基于数据挖掘的故障诊断方法研究,TP311.13
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 基于决策树分类算法的Web文本分类研究,TP391.1
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- 基于决策树的短期负荷预测系统研究与实现,TM715
- 航次知识发现及其应用研究,F552.6
- 某型主动雷达制导导弹的通用自动测试设备研究,TJ760.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|