学位论文 > 优秀研究生学位论文题录展示

基于概念树的Web信息抽取技术研究

作 者: 谷文
导 师: 王红梅
学 校: 长春工业大学
专 业: 计算机软件与理论
关键词: 信息抽取 概念树 语义模板 抽取规则
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 77次
引 用: 1次
阅 读: 论文下载
 

内容摘要


由于互联网的迅速发展,人们生活在数据信息的世界中。每天都会有大量的Web信息在互联网上发布转载,每天都会有大量的信息资料在互联网上上传下载。互联网上的信息犹如大海一般无边无际。人们越来越需要一种技术和工具来帮助他们快速的找到自己所需的信息。人们希望这种方法和工具能够具有准确率高、效率快和人工智能的特点。Web信息抽取技术成为关注的焦点。目前,已经研究出多种Web信息抽取技术和系统,在信息抽取领域也取得了重要的成就,但是他们之间也表现出一些差异和不足。其主要是抽取机制的不同和最终抽取结果形式的差异。根据采用的原理可以将Web信息抽取分为六种方式,例如基于包装器语言的信息抽取、基于HTML结构的信息抽取、基于自然语言处理方式的信息抽取等等。在建立抽取模板方面,一部分系统只能生成单槽抽取规则,这样导致结果非常单一,而且效果不理想;还有一些是多槽抽取规则,但是需要专业人员人工编制,这样需要对相关抽取内容非常熟悉,实施起来相对复杂一些;另外一些系统对抽取对象内容非常苛刻,只适用某一种类型的或某一内容的文本进行抽取,这样就减弱了信息抽取的适用性。针对上述问题,本文采用基于概念扩充的方式建立信息抽取模板和基于概念的抽取规则。本文研究目的就是要研究一种有效的学习算法来自动生成抽取规则,这样即使是非专业人士也能顺利的指导抽取规则的生成并从相似结构的网页中抽取到自己需要的信息。本文采用基于语义概念扩充的机制,通过适当的人为设置,提高系统的稳定性和有效性。语义概念扩充采用的是概念树机制,本文主要针对概念树的建立和概念树的编码进行研究。信息抽取过程中充分利用了概念扩充机制,从抽取模板的建立,到抽取文本的信息过滤和信息映射机制,到最后的文本数据库的查询机制都体现了概念扩充的作用。当然,信息抽取中抽取文本的处理也很重要,本文针对三个主要问题进行研究讨论,分别是命名实体的识别,指代的消解和时间信息的处理。本文研究的基于概念的Web信息抽取技术与以往的技术相比较,形成了多槽模板,扩大了抽取结果的范围;在抽取规则中应用了概念机制,也体现了人工智能的特点,更加体现了人性化的抽取信息。

全文目录


摘要  2-3
Abstract  3-6
第一章 绪论  6-12
  1.1 选题背景和意义  6-7
  1.2 国内外研究现状  7-10
  1.3 本文的主要工作  10-11
  1.4 本文的组织结构  11-12
第二章 Web信息抽取概述  12-17
  2.1 Web信息抽取概念  12-14
  2.2 Web信息抽取系统的评价指标  14-15
  2.3 影响信息抽取的因素  15
  2.4 Web信息抽取存在的问题  15-17
第三章 基于概念的Web信息抽取方法  17-41
  3.1 概述  17-18
  3.2 Web网页文本获取  18-21
  3.3 抽取规则的定义  21-24
  3.4 概念树  24-30
  3.5 基于概念的相关问题  30-35
  3.6 一些关键问题的解决  35-41
第四章 实验与结果分析  41-49
  4.1 命名实体的识别  41-43
  4.2 人称代词指代消解  43-44
  4.3 网页信息获取  44-46
  4.4 模板形成及信息抽取  46-49
第五章 本文总结  49-51
致谢  51-52
参考文献  52-56
攻读学位期间的研究成果  56-57

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 网页属性抽取的方法研究,TP391.1
  4. 构件垂直搜索引擎的关键技术研究,TP391.3
  5. 基于自然语言打印机人机交互方法研究与实现,TP11
  6. 基于数据处理中心的企业竞争情报系统研究,F272
  7. 一种舆情信息预处理平台的研究与实现,TP393.09
  8. 基于云理论的高光谱遥感图像分类研究,TP751
  9. 基于本体及概念模式的Deep Web查询结果处理技术,TP393.09
  10. 基于领域本体的Web信息抽取技术研究,TP391.1
  11. 领域本体中的术语和上下位、同位关系抽取的研究,TP391.1
  12. 面向Web的图书信息抽取方法与实现,TP311.52
  13. 深层网信息挖掘技术的研究在化工领域的应用,TQ015.9
  14. 基于向量空间模型的web文本自动摘要系统的研究,TP391.1
  15. 本体导向的对象信息抽取关键技术研究及实现,TP391.1
  16. 基于垂直搜索及语义标注的安全缺陷库更新方法研究,TP391.1
  17. 网格服务质量评价与服务组合的研究,TP393.09
  18. 语言学特征在中文命名实体间语义关系抽取中的应用研究,TP391.1
  19. 面向药品安全领域的Web信息采集研究与应用,TP393.09
  20. 基于XML的Web信息抽取技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com