学位论文 > 优秀研究生学位论文题录展示

垂直搜索引擎分类索引系统的设计与实现

作 者: 齐鹏
导 师: 张俊
学 校: 大连海事大学
专 业: 计算机科学与技术
关键词: 本体 文本分类 垂直搜索引擎 分类体系 分类索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 186次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网技术和应用的迅速发展使得网络上的资源呈爆炸式增长,搜索引擎已经成为人们获取网络信息的最主要方式,以百度、Google为代表的通用搜索引擎,其搜索范围近乎涵盖了各个领域。但是,即使这些知名的通用搜索引擎在检索某一特定领域的信息时,无论在检索效率上还是在检索效果上也都无法完全满足人们的需要。为了满足人们对特定领域信息检索的需求和进一步挖掘某一专业领域的网络信息,具有领域特点的垂直搜索引擎应运而生。垂直搜索引擎克服了通用搜索引擎存在的弊端,但完全针对关键词检索的垂直搜索引擎使得用户在某些情况下还是得不到理想的结果,返回的结果仍然存在查全率低和相关性排序效果不佳的缺点。本文提出基于本体的垂直搜索引擎分类索引方法,通过引入基于领域本体的文本分类增加索引的语义信息,可以有效提高垂直搜索引擎检索的查全率,改善检索结果的相关性排序效果。首先,本文设计了一种基于领域本体的分类体系,实现细粒度多类文本分类。然后,本文设计了一种新的分类索引结构,使类别信息和关键词信息合理融合,从而形成分类索引,该索引是在Lucene基础上重新设计的一种新的索引逻辑结构和物理结构。最后,本文设计了分类索引的生成算法和基于分类索引的检索算法,并提出分类索引的压缩、优化方法。本文以海事领域本体和海事领域网页为例,在索引和检索阶段进行了大量实验。实验结果表明,本文设计的分类索引系统具有较高的索引速度和较低的索引膨胀率;基于该分类索引进行检索,可以有效提高检索结果的查全率,同时也改善了检索结果相关性排序效果。

全文目录


摘要  5-6
ABSTRACT  6-9
第1章 绪论  9-14
  1.1 研究背景及意义  9-11
  1.2 国内外研究现状  11-12
  1.3 主要研究内容  12-13
  1.4 论文章节安排  13-14
第2章 垂直搜索引擎技术  14-27
  2.1 垂直搜索引擎概述  14-19
    2.1.1 通用搜索引擎  14-16
    2.1.2 垂直搜索引擎  16-18
    2.1.3 搜索引擎的评价指标  18-19
  2.2 全文索引技术  19-22
    2.2.1 全文索引技术概述  19-20
    2.2.2 全文索引中索引的组织形式  20-21
    2.2.3 搜索引擎的倒排索引结构  21-22
  2.3 中文分词技术  22-23
  2.4 开源全文检索引擎Lucene概述  23-26
    2.4.1 Lucene索引的实现机制  23-24
    2.4.2 Lucene索引逻辑结构  24-25
    2.4.3 Lucene索引物理结构  25-26
  2.5 分类技术在垂直搜索引擎中的应用  26-27
第3章 领域网页分类器构建  27-38
  3.1 文本分类概述  27-28
  3.2 类别体系生成  28-31
    3.2.1 类别编号的设定  29
    3.2.2 类别概念集的生成  29-31
  3.3 领域网页分类器设计  31
  3.4 领域网页分类器实现  31-38
    3.4.1 文本预处理  31-32
    3.4.2 特征向量提取  32
    3.4.3 本体解析  32-33
    3.4.4 领域概念提取  33
    3.4.5 相似度计算  33-35
    3.4.6 分类算法  35-38
第4章 垂直搜索引擎分类索引系统设计  38-51
  4.1 分类索引系统的总体结构设计  38-39
  4.2 分类索引逻辑结构设计  39-40
  4.3 分类索引物理结构设计  40-43
  4.4 分类索引生成与压缩设计  43-45
    4.4.1 分类索引生成  43-44
    4.4.2 分类索引的压缩  44-45
  4.5 分类索引的维护和优化  45-47
    4.5.1 索引维护  45-46
    4.5.2 索引的优化  46-47
  4.6 分类索引在检索中的应用  47-51
第5章 垂直搜索引擎分类索引系统实现  51-57
  5.1 开发环境配置  51
    5.1.1 开发语言——Java  51
    5.1.2 集成开发环境——Eclipse  51
    5.1.3 语义Web应用开发工具包——Jena  51
  5.2 原型系统实现  51-57
    5.2.1 中文分词模块  51-54
    5.2.2 文本分类模块  54-56
    5.2.3 索引创建模块  56-57
第6章 实验评估  57-62
  6.1 实验数据  57
  6.2 评估方法  57-58
    6.2.1 文本分类评估方法  57
    6.2.2 索引评估方法  57-58
  6.3 实验结果与分析  58-62
    6.3.1 文本分类的结果与分析  58-59
    6.3.2 索引结果与分析  59-62
第7章 总结与展望  62-64
  7.1 论文总结  62-63
  7.2 作展望  63-64
参考文献  64-67
攻读学位期间公开发表论文  67-68
致谢  68-69
研究生履历  69-70

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 哲学思想在指导中学数学教学中的作用,G633.6
  4. 基于本体的语义检索研究,TP391.3
  5. 不同人群本体感觉差异性比较及脑机制研究,B845
  6. 卢卡奇《关于社会存在本体论》中的劳动范畴,B515
  7. 基于分布式描述逻辑的本体模块化构建方法研究,TP391.1
  8. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  9. WordNet和《中国分类主题词表》的映射研究,G254
  10. 拉图尔的行动者网络理论研究,N02
  11. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  12. 基于数据分布特征的文本分类研究,TP391.1
  13. 220kV输电线路除冰机器人机械本体研究,TP242
  14. 基于本体的食品投诉文档文本聚类研究,TP391.1
  15. 关系数据库到RDF(S)映射方法的研究,TP311.13
  16. 基于语义的Web服务发现研究,TP393.09
  17. 本体在智能小区中的应用研究,TP391.1
  18. 基于领域本体的海洋环境数据仓库设计,TP311.13
  19. 数据空间中数据资源之间关联关系发现模型研究,TP311.13
  20. 普适计算下智能空间的哲学探究,N02
  21. 企业级软件组件质量保障与快速部团策略的研究,TP311.53

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com