学位论文 > 优秀研究生学位论文题录展示

面向领域的Deep Web信息抽取研究

作 者: 高原
导 师: 顾韵华
学 校: 南京信息工程大学
专 业: 计算机应用技术
关键词: Deep Web 领域本体 DIV块模板 表格模板 模板匹配
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 3次
引 用: 0次
阅 读: 论文下载
 

内容摘要


Deep Web相对于Surface Web而言,蕴含着更加丰富而专业的数据资源。随着其信息量的快速增长,Deep Web的研究越来越受到人们的关注。Deep Web页面具有半结构化特征。如何抽取出这些信息并赋予语义,成为了倍受关注的Deep Web研究课题之一。本论文针对Deep Web信息抽取的应用需求,运用中文分词、本体建模、机器学习等多种技术,对网页预处理、领域本体构建、双重模板构建以及模板匹配等过程进行了深入的研究,并选取天气和图书领域进行Deep Web信息抽取实验。论文的工作主要包括:(1)网页预处理。主要研究了将HTML文档呈现为带有DIV块元素、属性和文本的层次树,以及将DIV块文本转换成字符串流、中文分词、统计词频等网页预处理过程。目标是将HTML文档处理成以DIV块为基本单元,并含有分词结果的数据集合。(2)领域本体构建。领域本体作为某个领域内不同主体之间进行交流的语义基础,在模板构建过程中能够起到优化的作用,减少模板中出现与领域不相关的内容。(3)双重模板构建。考虑到现有网页通常在整体上利用"DIV+CSS"结构设计,在细节处利用表格布局的特点,采用DIV块模板和表格模板结合的方法。利用网页预处理的结果,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以定位到数据块。接着利用XML技术,机器辅助构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段。实验表明,利用C4.5决策树算法训练出的分类模型准确率达到了95.2%,在实际的应用中,能准确地进行DIV块的分类。利用双重模板进行Deep Web信息抽取的平均准确率和召回率都可以达到95%以上,取得了较好的抽取效果。同时,双重模板比单一模板更稳定和更利于维护。(4)模板匹配。传统的基于URL的模板匹配方法误差较大。本论文在传统方法的基础上,结合网页相似度的计算方法,进行模板匹配。首先利用URL字符串进行粗略的匹配,再利用网页相似度进行更精确的匹配。实验表明,在不降低匹配效率的同时,模板匹配的正确率达到了93%,相比于传统方法提高了32.9%。

全文目录


相似论文

  1. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  2. 基于查询接口的Deep Web模式匹配方法研究,TP311.13
  3. Deep Web数据源发现和分类研究,TP393.09
  4. 基于领域本体的专利地图研究,TP391.1
  5. 基于本体的食品投诉文档文本分类研究,TP391.1
  6. 基于本体的食品投诉文档事件追踪研究,TP391.1
  7. 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
  8. 增量式Deep Web数据获取技术研究,TP393.09
  9. 基于骨架化和模板匹配的交通指挥手势识别,TP391.41
  10. 基于运动趋势估计的人脸跟踪技术研究,TP391.41
  11. 基于Deep Web的图书信息集成与查询系统,TP311.52
  12. Deep Web接口集成及查询结果排序方法研究,TP274
  13. 驾驶员眼睛开闭状态计算机图像识别技术开发,TP391.41
  14. Deep Web环境下数据源选择和结果缓存的研究,TP333
  15. 基于领域本体的海洋环境数据仓库设计,TP311.13
  16. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  17. 跟踪印花系统视觉检测算法研究,TP391.41
  18. 基于支撑向量机与模板匹配的眼底图像分割,TP391.41
  19. 呼吸与肺部肿瘤位移关系的研究,TP391.41
  20. 基于并联机构的视觉伺服技术,TP391.41
  21. 用于视频编解码的快速运动估计研究,TN919.81

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com