学位论文 > 优秀研究生学位论文题录展示

基于综合倒排索引的个性化搜索技术研究

作 者: 林洁
导 师: 李丹宁;孟传良
学 校: 贵州大学
专 业: 计算机应用技术
关键词: 个性化搜索 综合倒排索引 词频 渠道 文档关注度
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 224次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着搜索引擎技术的不断发展,个性化搜索已经成为了人们研究的热点。本文针对目前搜索引擎存在的不足,充分研究了搜索引擎和个性化搜索的发展现状,并且提出在建立普通倒排索引的基础上,再建立一个个性化综合倒排索引。普通倒排索引通过对文档进行自动分词后产生,个性化综合倒排索引主要是结合用户的主观能动性,记录用户对文档进行手工标引的关键词、主题词和评语等信息,同时采用渠道奖励词频算法和文档关注度算法动态更新综合倒排索引。本文利用Lucene实现了一个功能较为简单的个性化搜索引擎,设定搜索时先在个性化综合倒排索引中检索,当检索信息不能满足用户需求时再到普通倒排索引中查找,这样当用户查找信息时尽可能将用户感兴趣的信息显示在最前面。本文的主要工作如下:对搜索引擎、个性化搜索和倒排索引的研究现状和存在问题进行了简要综述。对基于关键词的个性化文档处理系统中的相关技术进行了研究。对综合倒排索引及其词频渠道奖励算法和文档关注度算法进行研究并提出了改进算法。利用开源代码Lucene设计了一个简单的系统,该系统能实现索引的建立、添加、更新和文档搜索。本文的研究与探索为进一步研究搜索引擎的个性化技术提供了新的思路。

全文目录


摘要  4-5
Abstract  5-6
第1章 序言  6-9
  1.1 研究背景  6-7
  1.2 研究的内容和目标  7
  1.3 论文的组织结构  7-9
第2章 搜索技术研究现状  9-19
  2.1 搜索引擎概述  9-13
    2.1.1 搜索引擎的分类  9-11
    2.1.2 全文搜索引擎的工作原理  11
    2.1.3 评价搜索引擎的主要指标  11
    2.1.4 开源搜索引擎简介  11-13
  2.2 个性化搜索研究现状  13-15
    2.2.1 个性化服务系统  13-14
    2.2.2 用户兴趣模型研究  14-15
  2.3 倒排索引研究现状  15-18
    2.3.1 倒排索引基本原理  15-17
    2.3.2 倒排索引相关技术研究  17-18
    2.3.3 倒排索引的搜索算法  18
  2.4 本章小结  18-19
第3章 基于关键词的个性化文档处理系统概述  19-25
  3.1 相关定义  19
  3.2 系统组织结构  19-22
  3.3 信息组织部件的结构与功能  22-23
  3.4 研究重点  23-24
  3.5 本章小结  24-25
第4章 个性化综合倒排索引的关键技术  25-33
  4.1 综合倒排索引概述  25-26
  4.2 改进的综合倒排索引  26-28
    4.2.1 普通倒排索引和个性化综合倒排索引的有效结合  26-27
    4.2.2 对综合倒排索引的改进  27-28
    4.2.3 对文档关注度表的改进  28
  4.3 个性化综合倒排索引的添加  28-30
    4.3.1 单渠道词频奖励  29-30
    4.3.2 多渠道词频奖励  30
  4.4 个性化综合倒排索引的更新  30-32
    4.4.1 遗忘算法基本思想  31
    4.4.2 遗忘算法应用  31-32
  4.5 本章小结  32-33
第5章 基于综合倒排索引的个性化搜索技术在Lucene中的实现  33-52
  5.1 Lucene简介  33-39
    5.1.1 Lucene系统的结构组织  33-34
    5.1.2 Lucene与搜索引擎的关系  34-35
    5.1.3 Lucene索引的建立  35-36
    5.1.4 Lucene索引性能的提高  36-37
    5.1.5 Lucene索引中文档的删除和更新  37-38
    5.1.6 Lucene中对文档的搜索  38-39
  5.2 个性化综合倒排索引的实现  39-47
    5.2.1 个性化综合倒排索引的建立  40
    5.2.2 添加索引词标注信息  40-44
    5.2.3 文档关注度更新  44-47
  5.3 个性化搜索的实现  47-51
  5.4 本章小结  51-52
第6章 总结和展望  52-54
  6.1 总结  52
  6.2 下一步工作  52-54
致谢  54-55
参考文献  55-59
附录  59-60
  攻读学位期间公开发表的论文  59-60

相似论文

  1. 我国民办高校融资问题探讨,G648.7
  2. 隆力奇直销策略研究,F426.72
  3. SH家用地毯国际市场营销渠道策略研究,F426.81
  4. 当前形势下我国高校资金管理研究,G647.5
  5. 基于代理商报酬合约设计的渠道控制研究,F224
  6. 阿克苏红枣种植户农业社会化服务渠道选择与满意度分析,F326.12
  7. M家电有限公司分销渠道策略研究,F426.6
  8. RK医疗集团的渠道管理策略,F274
  9. 东莞移动数据业务营销渠道的研究,F626
  10. 河北省高速公路融资方式研究,F542
  11. 基于综合客户价值评价的外贸企业渠道商客户分类研究,F752;F224
  12. 考虑促销努力因素的双渠道定价问题研究,F224
  13. 《元朝秘史》词频研究,H134
  14. 基于词频统计的《徐霞客游记·粤西游日记》词汇研究,H134
  15. 基于云计算的海量数据存储技术的研究及应用,TP333
  16. 新西北双鹤医药公司营销渠道设计研究,F426.72
  17. 中化化肥湖北分公司营销渠道优化策略研究,F426.72
  18. 中国政府危机管理中的公众参与研究,D630
  19. 基于移动搜索用户关联的信息检索研究,TP391.3
  20. 以博客内容为对象的个性化搜索研究,TP391.3
  21. 吉林省产业集群金融支持问题研究,F832.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com