学位论文 > 优秀研究生学位论文题录展示
面向Deep Web的对象检索关键技术研究
作 者: 林超
导 师: 崔志明
学 校: 苏州大学
专 业: 计算机应用技术
关键词: Deep Web 聚焦爬虫 泊松过程 对象匹配 对象排序 数据集成
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 156次
引 用: 5次
阅 读: 论文下载
内容摘要
随着Web规模日益扩大,网络已经成为一个巨大的信息资源库。网络中包含了各种类型的对象信息,其中很大一部分信息被“深藏”于各类在线数据库中,用户只能通过向接口提交查询来获取信息,这类信息被称为Deep Web。如果这些对象信息能够被集成起来,提供对象级的检索服务,用户就能够快速、准确地找到所需信息。本文对面向Deep Web的对象检索关键技术进行了分析研究,并提出了相关的算法和模型。主要研究工作包括:(1)采用聚焦爬虫技术处理Deep Web数据源发现问题,提出了一个面向查询接口的聚焦爬虫框架及算法。(2)研究了基于URL模式和基于关键词查询的Web数据库内容获取方法。介绍了利用文档对象模型和正则表达式来抽取网页中的对象信息。(3)对Web对象的变化规律进行了建模,提出要根据对象的平均变化频率,确定本地数据的同步频率。(4)提出了一种混合对象匹配模型,该模型考虑了数据抽取中的多级错误,将对象属性抽取准确率作为参数来平衡结构化和非结构化的相似度计算方法。(5)参与设计并实现了一个面向Deep Web的对象检索平台。此外,本文还对文中提出的方法和技术进行了实验,通过对实验结果的分析进一步证明本文提出的技术方法是行之有效的。
|
全文目录
中文摘要 3-4 ABSTRACT 4-9 第1章 引言 9-12 1.1 研究背景和意义 9 1.2 国内外研究现状 9-10 1.3 本文组织 10-12 第2章 面向查询接口的聚焦爬虫 12-18 2.1 聚焦爬虫技术 12 2.2 查询接口聚焦爬虫设计 12-16 2.2.1 系统框架 13-14 2.2.2 链接分类器 14 2.2.3 页面分类器 14 2.2.4 表单分类器 14 2.2.5 聚焦爬虫算法 14-16 2.3 实验及分析 16-17 2.3.1 收集训练数据 16 2.3.2 实验结果 16-17 2.4 本章小结 17-18 第3章 Web 数据库内容获取及信息抽取技术 18-30 3.1 Web 数据库内容获取方法 18-21 3.1.1 基于URL 模式的方法 18-19 3.1.2 基于关键词查询的方法 19-21 3.2 对象信息抽取技术 21-25 3.2.1 Web 信息抽取概述 21-22 3.2.2 文档对象模型 22 3.2.3 正则表达式 22-23 3.2.4 基于DOM 模型和正则表达式的数据抽取方法 23 3.2.5 实验结果 23-25 3.3 本地对象信息的同步 25-29 3.3.1 数据同步的策略 25-26 3.3.2 泊松过程 26 3.3.3 验证Web 对象变化规律 26-28 3.3.4 确定数据同步频率 28-29 3.4 本章小结 29-30 第4章 基于混合匹配模型的对象匹配技术 30-37 4.1 相关研究工作 30-31 4.2 问题描述 31-33 4.3 对象匹配模型 33-34 4.3.1 记录级对象匹配模型 33 4.3.2 属性级对象匹配模型 33-34 4.3.3 混合对象匹配模型 34 4.4 实验分析 34-36 4.4.1 数据集 34-35 4.4.2 实验分析 35-36 4.5 本章小结 36-37 第5章 查询结果排序技术 37-41 5.1 相关研究工作 37 5.2 Web 数据库重要性评价 37-38 5.3 对象相关性计算方法 38-39 5.3.1 向量空间模型 38-39 5.3.2 对象与查询相关度计算 39 5.4 查询结果中对象排序方法 39-40 5.5 本章小结 40-41 第6章 面向Deep Web 的对象检索平台设计 41-48 6.1 系统框架介绍 41 6.2 功能模块介绍 41-46 6.2.1 聚焦爬虫模块 41-42 6.2.2 数据抽取模块 42-43 6.2.3 数据集成模块 43-44 6.2.4 对象检索模块 44-45 6.2.5 服务定制模块 45-46 6.3 图书检索引擎 46 6.4 本章小结 46-48 第7章 总结与展望 48-51 7.1 工作总结 48-49 7.2 特色与创新 49 7.3 工作展望 49-51 参考文献 51-56 攻读学位期间公开发表的论文与科研项目 56-57 致谢 57-58 详细摘要 58-60
|
相似论文
- SOA高校迎新系统中的SDO模型的研究与实现,G647
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 基于聚焦爬虫技术的教学资源搜集与自动整理方法研究,TP301.6
- 面向服务的数据集成模型的研究与实现,TP311.52
- 公安信息系统中数据集成的,TP311.52
- 武警黄金部队多源空间数据集成管理技术研究,P208
- 基于SOA的离散数据集成技术研究,TP311.52
- 基于数据集成的人事系统设计与实现,TP311.52
- 基于XML模式的异构数据集成中间件研究,TP311.52
- Deep Web集成系统中同类主题数据源选择方法研究,TP311.13
- 多源空间数据集成方法研究,P208
- 钢铁服务企业生产管理方法研究与信息系统设计,F426.31
- Deep Web数据清洗方法研究及应用,TP393.09
- Deep Web查询接口集成及搜索策略研究,TP393.09
- 基于领域知识的Deep Web接口发现研究,TP393.09
- Deep Web数据集成系统中数据标注研究,TP393.09
- Deep Web数据抽取及语义标注研究,TP393.09
- Deep Web数据库的选择研究,TP311.13
- 数据资源汇聚的可视化建模技术研究与应用,TP311.52
- 一种企业数据空间可视化汇聚流程建模方法与查询优化策略,TP311.13
- 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|