学位论文 > 优秀研究生学位论文题录展示
面向领域的Deep Web信息抽取研究
作 者: 高原
导 师: 顾韵华
学 校: 南京信息工程大学
专 业: 计算机应用技术
关键词: Deep Web 领域本体 DIV块模板 表格模板 模板匹配
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
Deep Web相对于Surface Web而言,蕴含着更加丰富而专业的数据资源。随着其信息量的快速增长,Deep Web的研究越来越受到人们的关注。Deep Web页面具有半结构化特征。如何抽取出这些信息并赋予语义,成为了倍受关注的Deep Web研究课题之一。本论文针对Deep Web信息抽取的应用需求,运用中文分词、本体建模、机器学习等多种技术,对网页预处理、领域本体构建、双重模板构建以及模板匹配等过程进行了深入的研究,并选取天气和图书领域进行Deep Web信息抽取实验。论文的工作主要包括:(1)网页预处理。主要研究了将HTML文档呈现为带有DIV块元素、属性和文本的层次树,以及将DIV块文本转换成字符串流、中文分词、统计词频等网页预处理过程。目标是将HTML文档处理成以DIV块为基本单元,并含有分词结果的数据集合。(2)领域本体构建。领域本体作为某个领域内不同主体之间进行交流的语义基础,在模板构建过程中能够起到优化的作用,减少模板中出现与领域不相关的内容。(3)双重模板构建。考虑到现有网页通常在整体上利用"DIV+CSS"结构设计,在细节处利用表格布局的特点,采用DIV块模板和表格模板结合的方法。利用网页预处理的结果,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以定位到数据块。接着利用XML技术,机器辅助构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。实验表明,利用C4.5决策树算法训练出的分类模型准确率达到了95.2%,在实际的应用中,能准确地进行DIV块的分类。利用双重模板进行Deep Web信息抽取的平均准确率和召回率都可以达到95%以上,取得了较好的抽取效果。同时,双重模板比单一模板更稳定和更利于维护。(4)模板匹配。传统的基于URL的模板匹配方法误差较大。本论文在传统方法的基础上,结合网页相似度的计算方法,进行模板匹配。首先利用URL字符串进行粗略的匹配,再利用网页相似度进行更精确的匹配。实验表明,在不降低匹配效率的同时,模板匹配的正确率达到了93%,相比于传统方法提高了32.9%。
|
全文目录
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于查询接口的Deep Web模式匹配方法研究,TP311.13
- Deep Web数据源发现和分类研究,TP393.09
- 基于领域本体的专利地图研究,TP391.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的食品投诉文档事件追踪研究,TP391.1
- 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
- 增量式Deep Web数据获取技术研究,TP393.09
- 基于骨架化和模板匹配的交通指挥手势识别,TP391.41
- 基于运动趋势估计的人脸跟踪技术研究,TP391.41
- 基于Deep Web的图书信息集成与查询系统,TP311.52
- Deep Web接口集成及查询结果排序方法研究,TP274
- 驾驶员眼睛开闭状态计算机图像识别技术开发,TP391.41
- Deep Web环境下数据源选择和结果缓存的研究,TP333
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 跟踪印花系统视觉检测算法研究,TP391.41
- 基于支撑向量机与模板匹配的眼底图像分割,TP391.41
- 呼吸与肺部肿瘤位移关系的研究,TP391.41
- 基于并联机构的视觉伺服技术,TP391.41
- 用于视频编解码的快速运动估计研究,TN919.81
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|