学位论文 > 优秀研究生学位论文题录展示
移动搜索中的查询优化和主题分类策略
作 者: 林华兵
导 师: 傅清祥
学 校: 福州大学
专 业: 计算机应用
关键词: 查询优化 主题分类 搜索引擎 物化视图 概念描述
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 261次
引 用: 2次
阅 读: 论文下载
内容摘要
在搜索引擎技术日益普及的今天,人们希望从自己感兴趣的主题内快速地检索所需的信息,因此主题分类检索成为搜索引擎发展的一个新方向。移动通讯技术的迅速发展,推动着互联网服务向无线网络扩张,使得在手机上进行搜索成为可能。基于这些应用背景,我们提出建立一个移动搜索系统,为手机用户提供具有简短返回信息的查询服务。本文的研究工作集中在移动搜索的本地缓存部分。在分析了用户查询行为的基础上,本文提出缓存高频查询词对应的网页快照的策略,并根据缓存的结构和用户查询的特征,结合物化视图技术给出一种查询优化策略; 另一方面,为了满足分类检索的需要,本文挖掘出中频特征词在结果文档集中的作用,设计出一种简单高效的实时文档聚类和相应的概念描述算法。实验表明上述策略和算法的运用较好地改善了移动搜索中高频查询的效率,并在主题分类方面取得了较好的效果。此外,只需对所设计的实时聚类和概念描述算法做简单修改,也可用于网络中的全文搜索引擎,为主题分类检索提供了一种新思路。
|
全文目录
第一章 引言 6-10 1.1 课题的背景 6-7 1.2 课题的研究内容 7-8 1.3 取得的成果 8-10 第二章 文档的表示方法 10-17 2.1 文本的常见表示方法 10-13 2.1.1 向量空间模型 11-12 2.1.2 N-Gram 表示法 12 2.1.3 高级文本表示法 12-13 2.2 特征项的选取 13-14 2.3 本文采用的文本表示方法 14-17 第三章 查询优化策略 17-28 3.1 网络搜索引擎的查询响应 17-19 3.2 移动搜索系统体系结构 19-23 3.2.1 系统架构 19-21 3.2.2 缓存子系统流程 21-22 3.2.3 检索子系统流程 22-23 3.3 查询优化策略 23-28 3.3.1 物化视图简介 23-24 3.3.2 查询优化策略设计 24-25 3.3.3 利用物化视图实现查询优化策略 25-28 第四章 文档聚类与概念描述 28-40 4.1 聚类分析的有关知识 28-34 4.1.1 聚类分析的概念 29 4.1.2 聚类和分类的区别 29-30 4.1.3 聚类的一般过程 30-34 4.2 文档类的概念描述 34-36 4.2.1 概念描述的两种理论 34-35 4.2.2 查询关键词对概念描述的启发 35-36 4.3 本文采用的聚类/分类与概念描述算法 36-40 4.3.1 网页聚类/分类算法 36-39 4.3.2 区别性概念描述方法 39-40 第五章 实现及实验结果 40-51 5.1 开发环境的选择 40-41 5.2 文档的存储与缓存检索 41-44 5.2.1 文档的存储 41-44 5.2.2 基于查询关键词的缓存检索 44 5.3 查询优化策略的实现 44-49 5.3.1 查询优化的实现 44-47 5.3.2 查询优化后的检索改进 47-49 5.4 网页聚类/分类与概念描述的实现 49-51 结束语 51-52 1 工作成果概括 51 2 需要进一步研究的问题 51-52 致谢 52-53 参考文献 53-55 个人简历 55
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 多核环境下内存数据库查询优化的研究,TP311.13
- 达梦嵌入式数据库的执行计划缓存研究,TP311.13
- 面向非结构化数据查询优化的存储系统,TP333
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
- RFID复杂事件实时查询处理及其优化策略,TP391.44
- 基于社会标注的主题分类及排序优化方法研究,TP391.1
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 20世纪中美城市文学比较研究,I206.7
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|