学位论文 > 优秀研究生学位论文题录展示

Web网页的时态文本索引研究

作 者: 陈鸿
导 师: 金培权
学 校: 中国科学技术大学
专 业: 计算机应用技术
关键词: Web搜索 时态信息 混合索引结构 时态文本查询
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 30次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网技术的快速发展,搜索引擎已成为许多人生活和工作中的重要工具。但是,由于网络信息的快速增长和用户搜索要求的不断提高,通用搜索引擎已经不能满足用户对于信息检索服务的需求。在许多网页中,网页内容具有时间敏感性,比如商业新闻、出版信息、网上商店的折扣信息等。根据用户提出的时态检索请求准确查找到相应网页对用户很有价值。但是主流搜索引擎只能提供针对网页更新时间的查询,缺乏对网页内容时间的查询能力,由此降低了查询结果的有效性。因此建立一个时态信息与文本信息相结合的网络搜索引擎是未来搜索引擎发展的重要方向之一。本文以时态文本搜索引擎为背景,重点研究了结合Web网页中的时间信息与关键字信息的时态文本索引问题。论文通过对通用的关键字索引结构和时态索引结构进行分析和改进,提出了几种时态文本索引结构设计思路,并进行了理论和实验上的比较,最终得出了性能评测较优的一种索引。在此基础上,对性能较优的索引进行再次改进,进一步提高索引性能,提高搜索引擎的查询效率。本文的主要贡献如下:(1)提出了基于时态文本搜索引擎的混合索引结构。针对时态文本搜索引擎中的网页的时间信息的特征,本文将网页的时间信息分成两部分,一个是更新时间,一个是内容时间。在此基础上,我们提出了首要时间的概念,将它加入到索引处理中。我们以B+树、倒排文件和MAP21树为基础,研究并比较了五种混合索引结构。通过在仿真数据集与真实数据集上的实验,在索引大小、磁盘I/O时间以及查询时间的性能比较,得出“先倒排索引后MAP21树”的索引结构具有较好的性能。(2)提出了基于哈希的时态文本索引结构。基于哈希的时态文本索引结构是对先前验证的较好的“先倒排文件后MAP21树”的时态文本索引结构的改进。针对网络的时间特征,特别地,对于时间信息的内容时间的特征的具体分析,尤其是对于首要时间的研究,将内容时间区间转换成内容时间点,将MAP21树用哈希表进行替换,构造出新型的时态文本索引结构,提高查询性能。通过真实数据集上的实验,在索引大小,重建时间以及五种类型查询的查询时间的比较,得到哈希的时态文本索引结构比“先倒排文件后MAP21树”的索引结构更优,更适合作为时态文本搜索引擎的索引结构。

全文目录


摘要  4-5
Abstract  5-11
第一章 绪论  11-17
  1.1 研究背景与意义  11-12
  1.2 国内外研究现状  12-15
    1.2.1 搜索引擎技术  12-13
    1.2.2 时态信息  13-14
    1.2.3 索引技术  14-15
  1.3 本文的目标和研究内容  15
  1.4 本文的主要贡献  15-16
  1.5 本文的结构  16-17
第二章 时态文本搜索引擎的国内外相关工作  17-25
  2.1 前言  17
  2.2 时态检索信息的相关研究  17-19
  2.3 时态文本搜索的索引技术  19-23
    2.3.1 文本索引技术  19-20
    2.3.2 时间索引技术  20-22
    2.3.3 时态文本索引技术  22-23
  2.4 信息抽取技术  23-24
  2.5 本章小结  24-25
第三章 时态文本搜索的混合索引结构  25-49
  3.1 引言  25-26
  3.2 相关工作  26-28
    3.2.1 时态信息的检索与抽取  26
    3.2.2 时态文本索引  26-28
  3.3 时态文本搜索引擎  28-31
    3.3.1 网页的时间本体  28-29
    3.3.2 时态文本搜索引擎的框架  29-31
  3.4 索引  31-40
    3.4.1 倒排文件、B+树和MAP21 树三个索引  32-34
    3.4.2 首先倒排文件,然后MAP21 树,最后是B+树  34-35
    3.4.3 先倒排文件然后MAP21 树  35-37
    3.4.4 扩展的倒排文件  37-38
    3.4.5 首先MAP21 树然后倒排文件  38-40
  3.5 实验  40-47
    3.5.1 仿真实验  40-45
    3.5.2 真实数据集上的实验  45-47
  3.6 本章小结  47-49
第四章 改进的时态文本索引结构  49-57
  4.1 引言  49
  4.2 基于哈希的“先倒排文件后MAP21 树”混合索引结构改进  49-53
    4.2.1 先倒排文件后MAP21 树的时态文本索引结构  50-51
    4.2.2 哈希的时态文本索引结构  51-53
  4.3 实验与分析  53-56
    4.3.1 配置与数据集  54
    4.3.2 两种索引结构的比较  54-56
  4.4 本章小结  56-57
第五章 总结与展望  57-59
  5.1 本文工作总结  57-58
  5.2 下一步工作展望  58-59
参考文献  59-65
致谢  65-67
在读期间发表的学术论文与取得的研究成果  67

相似论文

  1. 全功能检索系统搜索引擎设计,TP391.3
  2. 基于时态信息的主题搜索引擎的研究与实现,TP391.3
  3. 基于MPEG-7的Web图像搜索引擎研究,TP391.41
  4. 策略可扩展的搜索引擎研究和实现,TP393.092
  5. 时空数据模型及其在地籍信息系统中的应用研究,P273
  6. 基于小世界网络的搜索引擎算法研究,TP393.09
  7. 语义Web搜索中的本体映射研究,TP391.3
  8. 基于CBR的协同Web搜索研究,TP391.3
  9. 语义Web下的知识搜索及其核心技术,TP182
  10. Web搜索与Web缓存的若干关键问题研究,TP393.09
  11. 位置相关Web搜索的检索技术研究,TP391.3
  12. 网页设计元素解析与探究,TP393.092
  13. 面向主题型的网页分类技术的研究与实现,TP393.092
  14. 网页主题概念的抽取处理及可视化实现,TP393.092
  15. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  16. 基于微博嵌入小伙伴阅读网的分析与设计,TP393.092
  17. 基于界面设计的旅行预订网站UGC的诚信研究,TP393.092
  18. 高校公共课程《计算机应用基础》教学网站开发与效果评价,TP393.092
  19. 基于UML的SNS网站平台研究与实现,TP393.092
  20. 基于XML和JAVA的通用课程教学网站设计与开发,TP393.092
  21. 基于ASP.NET AJAX技术的国家精品课程网站设计与实现,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com