学位论文 > 优秀研究生学位论文题录展示
Deep Web数据源发现和分类研究
作 者: 王海龙
导 师: 崔志明
学 校: 苏州大学
专 业: 计算机应用技术
关键词: Deep Web,数据源发现 表单分类 查询探测 分层模糊集合
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 26次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的飞速发展使Web信息量不断膨胀,网络正在迅速深化。由于大量的信息都隐藏在查询接口之后,无法利用传统的搜索引擎技术获取,这类信息被称为DeepWeb。高速增长的DeepWeb信息已成为人们进行信息获取的重要来源,但由于DeepWeb信息的异构性和动态性,使用起来非常不方便,因此,面向Deep Web的数据集成系统便应运而生。本文对Deep Web数据源发现和分类所涉及到的相关技术进行了深入研究,并提出了相关模型和机制,有效的解决了传统方法的局限性。主要研究工作包括:1.讨论了一种利用搜索引擎来发现数据源的方法。为了能够向搜索引擎提交高质量的关键词,将本体作为等级化组织词汇的架构引入到初始词构建过程中。对所有词汇按照在当前领域中出现频率高低进行分类,并根据搜索引擎返回接口集元素数量进行二次分类,确保关键词是对发现数据源查询接口贡献较大的词汇。2.提出了一种利用模糊集和概率模型分类数据源的方法。对各领域中的词汇按照其对当前领域的贡献程度分为特征词和常用词。为了能够在网页文本中找出更加精确的词汇,将模糊集作为归一化词汇的工具引入到特征词集和常用词集精简的过程中,并且将归一化后的词汇在各领域上建立概率模型,通过计算数据源表单向量与各领域向量之间距离来分类。3.研究了一种网络表单分类器改进机制,该机制主要将pre-query和post-query技术结合来使各种分类错误的表单进行二次分类,使这些表单能重新分类到正确的领域中。在分类前利用各领域间的相互关系建立图模型,使表单同时分类到当前领域相关的多个领域集合中,再将各领域表单集合的交集进一步通过探测查询进行分类,使得表单分类更加精确化。本文进行了大量的实验,验证提出的各种理论和方法,同时提出了有待进一步深入的问题,实验结果表明本文提出的方法技术是可行有效的。
|
全文目录
相似论文
- 增量式Deep Web数据获取技术研究,TP393.09
- Deep Web接口集成及查询结果排序方法研究,TP274
- 使用表单分类器识别特定领域的深度网入口,TP391.3
- Deep Web数据源发现相关技术研究,TP393.09
- Deep Web数据源发现与分类研究,TP393.09
- 面向Web服务的QoS故障管理技术的研究,TP393.09
- 云网络实验平台研究与实现,TP393.09
- 增量式Deep Web数据获取技术研究,TP393.09
- 基于语义的Web服务发现研究,TP393.09
- 面向组合的语义Web服务发现技术的研究与实现,TP393.09
- 基于Baosteel电子商务的CRM研究及应用,TP393.09
- QoS感知的语义Web服务发现,TP393.09
- EPC网络中的名称服务研究与开发,TP393.09
- 基于服务访问日志的服务发现方法研究与应用,TP393.09
- 面向服务的多主体协作机制的研究与实现,TP393.09
- 面向服务的MES系统的研究与应用,TP393.09
- 基于QoS与信誉模型的服务选择研究及应用,TP393.09
- 基于语义的Web信息抽取方法的研究与应用,TP393.09
- 基于SOA的网络广告商业系统研究与实现,TP393.09
- 三维虚拟魔方游戏软件的设计与实现,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|