学位论文 > 优秀研究生学位论文题录展示
农业垂直搜索引擎语义化若干问题的研究与实现
作 者: 胡宜敏
导 师: 宋良图; 陈鹏
学 校: 中国科学技术大学
专 业: 模式识别与智能系统
关键词: 垂直搜索引擎 名称属性抽取 实体解析 关系抽取 语义标注 概念映射 语义扩展 用户模型 查询扩展
分类号: TP391.3
类 型: 博士论文
年 份: 2012年
下 载: 205次
引 用: 0次
阅 读: 论文下载
内容摘要
大量的农业技术、供求信息、市场信息、政策法规和农业新闻等信息资源分布在互联网上农业网站中。然而由于互联网信息资源具有信息异质、异构、分散、重复现象严重的特点,缺少统一的形式化表达,形成各种各样的“信息孤岛”,很难对农业信息资源进行整合和利用。针对这个问题,在国家自然基金(“农业复杂自适应搜索模型研究”)的支持下,面向农业的搜索模型—搜农应运而生。然而该模型还是基于文本关键字匹配的数据处理方式,不能充分理解信息包含的语义信息,在准确率和召回率这两大信息检索系统性能指标上还有很大提升空间。针对这个问题,本文根据网络农业资源的特点,在农业领域本体构建的基础上,将本体作为领域知识库应用于垂直搜索引擎的数据预处理、数据索引和用户检索三个环节,将本体的语义添加到搜索引擎的数据处理过程中。相对于原有模型,数据预处理环节的语义改进主要包括:信息的空间属性的抽取、信息地理名称的实体解析和价格动态变化的关系抽取;索引环节的语义改进主要包括:文档的语义标注和语义扩展;用户检索环节的改进包括:在语义标注环境下普通用户的检索策略和基于用户模型的语义扩展方法。论文的主要研究内容总结如下:1.针对网络上农业资源空间属性表达的多样性、显性表达的缺失等问题,本文提出一种借助领域本体和WEB搜索引擎构建知识库抽取并判别信息的空间属性的方法,将语义添加到信息的空间属性抽取过程中。2.针对农业地理名称实体解析的问题,本文提出一种将空间属性抽取算法和Markov逻辑网络进行结合进行地理名称实体解析的方法,将空间属性抽取中的语义信息带入到地理名称的实体解析过程中。3.针对从大量非结构化的文本中抽取价格变化关系的问题,本文设计了一种基于条件随机场进行关系抽取,并用领域本体对抽取的结果进行语义上的统计合并的农产品价格变化关系抽取方法。4.针对农业领域资源的特点,本文提出一种结合领域本体和句法分析相结合的核心词汇抽取方法,并依据本体对文档主题进行推断,与本体中的概念进行语义关联;另一方面对文档中抽取的核心词汇基于领域本体进行语义扩张。5.在用户检索环节,针对索引中文档和本体概念的语义关联状况,设计了普通用户双索引检索的机制;对注册用户基于本体构建用户模型,并基于用户模型对查询进行语义扩展。6.最后,本文给出了面向农业的垂直搜索引擎的整体的语义化设计。
|
全文目录
摘要 5-7 ABSTRACT 7-12 第1章 绪论 12-24 1.1 研究背景 12 1.2 研究综述 12-20 1.2.1 搜索引擎 12-13 1.2.2 面向农业的搜索引擎 13-14 1.2.3 语义搜索引擎 14-16 1.2.4 本体的基本概念 16 1.2.5 面向农业的领域本体 16-18 1.2.6 信息抽取 18-19 1.2.7 实体解析 19 1.2.8 语义标注 19-20 1.3 研究内容和意义 20-22 1.4 本文的章节安排 22-24 第2章 基于本体和网络语料库的空间属性抽取算法 24-38 2.1 引言 24-26 2.2 一种实体属性抽取算法 26 2.3 信息空间属性抽取算法及其改进 26-34 2.3.1 网络上农业信息包含的地理名称的特点 26-27 2.3.2 空间信息标注的总体流程 27-28 2.3.3 NGAO显性地理属性抽取 28-30 2.3.4 NGDA隐性地理属性抽取 30-32 2.3.5 NGCS卡方检验空间属性抽取算法 32-34 2.4 实验结果及其分析 34-36 2.5 本章小结 36-38 第3章 基于属性抽取和MARKOV逻辑网络的名称解析 38-52 3.1 引言 38-39 3.2 MARKOV逻辑网络 39-41 3.3 名称解析 41-45 3.3.1 地理名称解析算法 41-45 3.3.1.1 地理名称实体解析的问题描述 41-42 3.3.1.2 基于统计的地理名称实体解析方法(ST NER) 42-43 3.3.1.3 基于Markov逻辑网和名称属性抽取结合的解析算法(MLN_AE NER) 43-45 3.4 实验及结果分析 45-50 3.4.1 实验语料 45-46 3.4.2 评价指标 46 3.4.3 地理名称解析的实验 46-50 3.4.3.1 MLN_AE NER算法实验 47-48 3.4.3.2 MLN_AE NER和其他相关算法实验比较 48-50 3.4.3.3 MLN_AE NER算法存在的问题 50 3.5 本章小结 50-52 第4章 基于条件随机场的价格动态关系抽取 52-64 4.1 信息抽取和关系抽取 52-53 4.2 条件随机场 53-55 4.3 问题描述 55-56 4.4 系统设计 56-61 4.5 实验和结果分析 61-63 4.5.1 数据集及评价标准 61 4.5.2 实验结果 61-63 4.6 本章小结 63-64 第5章 垂直搜索索引和检索的语义化 64-88 5.1 索引数据的语义标注和语义扩张 64-78 5.1.1 引言 64-66 5.1.2 待索引农业数据的特点 66-67 5.1.3 语义标注 67-76 5.1.3.1 核心词汇抽取 69-74 5.1.3.2 概念映射和主题推理 74 5.1.3.3 主题约减 74-76 5.1.4 基于本体的核心词汇语义扩展 76-78 5.2 检索和个性化设计 78-86 5.2.1 向量空间模型 78-79 5.2.2 普通用户的检索策略 79-81 5.2.3 基于用户模型的查询扩展 81-86 5.2.3.1 基于用户模型查询扩展的整体架构 82 5.2.3.2 用户兴趣数据库 82-83 5.2.3.3 用户模型 83-85 5.2.3.4 本节讨论 85-86 5.3 本章小结 86-88 第6章 面向农业的垂直搜索引擎的语义化设计和实现 88-102 6.1 设计思想 88-89 6.2 系统结构 89-91 6.3 索引层 91-92 6.4 检索和信息展示层 92-99 6.4.1 文本检索模块 92-96 6.4.2 可视化搜索模块 96-99 6.5 本章小结 99-102 第7章 总结与展望 102-104 7.1 本文主要工作和创新点 102-103 7.2 未来研究工作展望 103-104 参考文献 104-112 致谢 112-114 在读期间发表的学术论文与取得的其他研究成果 114
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 基于语义网络的智能搜索引擎研究,TP391.3
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 特定领域的Deep Web数据抽取与语义标注研究,TP311.13
- 汉语“家”的词汇语用学解释,H136
- 蛋白质关系抽取中平面特征和结构化信息的研究,TP181
- 不完全信息下在线学习用户特征建模及其在知识推荐中的应用研究,TP391.6
- 垂直搜索引擎关键技术的研究与实现,TP311.52
- 基于分布式的垂直搜索引擎的研究与实现,TP391.3
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于SNS的教育视频细粒度标注研究与实现,TP391.6
- 基于特征向量的实体间语义关系抽取研究,TP391.1
- 基于本体的教学资源语义检索研究,TP391.3
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 基于本体的智能电网知识检索系统,TM76
- 基于自学习的社会关系抽取的研究,TP391.1
- 图像语义标注中的块—全局特征提取方法研究,TP391.41
- 人体运动序列数据的语义化分析方法研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|