学位论文 > 优秀研究生学位论文题录展示
基于语义的Web信息抽取方法的研究与应用
作 者: 张洪恩
导 师: 文俊浩
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: HTML 本体 语义 XML 信息抽取
分类号: TP393.09
类 型: 硕士论文
年 份: 2011年
下 载: 59次
引 用: 0次
阅 读: 论文下载
内容摘要
万维网是世界上最大的公共信息知识库之一,包含了海量的信息。如何高效地从大量网页中抽取出用户期望的信息,是信息工程领域的研究重点。目前在Web上的信息抽取基本上是基于关键字或HTML样式进行判断,找出含有该关键字或符合目标样式的结果集进行计算、索引和排序。这些方法都是基于语法的模式匹配,在关键字或HTML样式发生变化时,无法自适应的更改搜索规则;另一方面,搜索引擎难以理解搜索项的语义及每个网页中所包含信息的含义,它只能找出可能的相关信息,最后依然需要人工筛选和处理。搜索引擎很难通过语义搜索Web信息,主要是因为Web上大多数信息是以人类用户可读和可理解的形式存在的。因此设计出正确有效的信息抽取方法,已成为解决上述问题的关键。对信息抽取方法研究,本文完成了如下工作:①对HTML文档到XML文档转换方法作了对比分析,在转换中引入了语义相似度计算,改进了的基于链表的转换方法,提高了文档转换的准确率。②针对信息提取中易出现的语义歧义问题,利用本体学习方法和Protégé建模工具,构建了一个期货领域本体。③在传统语义相似度算法的基础上,对语义相似度算法做了改进,提出了基于层次系数和的相似度算法,提高了相似度计算的准确度。④基于上述方法,提出了基于语义的Web信息抽取方法,并验证了其方法的正确性。⑤设计并实现了基于语义的Web信息抽取系统,通过应用于期货持仓的良好效果验证了本文抽取方法的可行性和有效性。
|
全文目录
摘要 3-4 英文摘要 4-7 1 绪论 7-11 1.1 选题背景及意义 7 1.2 国内外研究现状 7-9 1.3 本文主要工作 9 1.4 论文结构 9-11 2 相关技术分析 11-19 2.1 Web 信息抽取技术 11-12 2.2 XML 相关技术 12-15 2.3 本体 15-17 2.4 本体描述语言OWL 17 2.5 本章小结 17-19 3 基于语义的 Web 信息抽取算法研究 19-39 3.1 问题描述与算法思想 19-20 3.2 HTML 到XML 转换算法 20-27 3.2.1 HTML 与XML 的结构分析 20-21 3.2.2 HTML 到XML 的转换原理 21-22 3.2.3 XML 转换算法的分析与设计 22-25 3.2.4 表格数据转换算法分析 25-27 3.3 领域本体构建的研究 27-33 3.3.1 期货领域本体的构建方法分析 27-29 3.3.2 领域需求分析 29 3.3.3 期货领域本体建立 29-33 3.4 语义相似度计算方法研究 33-38 3.4.1 现有相似度计算方法分析 33-35 3.4.2 改进后的层次相似度计算方法 35-38 3.5 本章小结 38-39 4 基于语义的 Web 信息的抽取系统的设计 39-51 4.1 系统框架原型 39-41 4.2 XML 处理模块设计 41-43 4.2.1 XML 文档解析方法分析 41-42 4.2.2 基于DOM4J 的XML 文档解析模块设计 42-43 4.3 本体解析模块设计 43-46 4.3.1 Jena 框架结构分析 43-45 4.3.2 基于Jena 的本体文件的解析模块设计 45-46 4.4 基于领域本体的语义信息抽取模块设计 46-50 4.4.1 XML 树模型和RDF 图模型分析 46-47 4.4.2 语义抽取算法设计 47-49 4.4.3 语义信息的存储模块设计 49-50 4.5 本章小结 50-51 5 系统的实现以及在持仓分析模块中的应用 51-66 5.1 转换功能的实现 51-54 5.2 信息抽取功能的实现 54-55 5.3 实验结果分析 55-63 5.3.1 算法实验结果分析 55-57 5.3.2 应用实验结果分析 57-63 5.4 在持仓分析中的应用 63-65 5.5 本章小结 65-66 6 结论与展望 66-67 6.1 结论 66 6.2 工作展望 66-67 致谢 67-68 参考文献 68-71 附录 71
|
相似论文
- 基因调控网络模型描述语言研究,Q78
- 《左传》名词陈述化研究,H146
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- LXI自动测试系统集成技术研究,TP274
- 基于网络的服装款式设计系统的研究与实现,TS941.2
- 基于MDA的界面自动生成方法的研究,TP311.5
- 哲学思想在指导中学数学教学中的作用,G633.6
- 面向业务过程的服务动态组合方法研究,TP393.09
- 基于本体的语义检索研究,TP391.3
- 乔治·米勒的认知意义论,B842.1
- C++代码缺陷检测系统的研究与设计,TP311.53
- 不同人群本体感觉差异性比较及脑机制研究,B845
- 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
- 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
- 基于Web的科学计算遗留应用共享技术研究,TP393.09
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于文本挖掘的学者简历自动生成,TP391.1
- 基于XML的异构数据交换系统的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|