学位论文 > 优秀研究生学位论文题录展示
基于主题信息服务的垂直搜索引擎的设计与实现
作 者: 董超
导 师: 杨文川
学 校: 北京邮电大学
专 业: 计算机应用技术
关键词: 主题信息服务 垂直搜索 城市管理决策 个性化搜索 主题相关搜索算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 218次
引 用: 6次
阅 读: 论文下载
内容摘要
随着网络的普及,互联网应用正逐渐渗透到经济,社会,生活的各个领域,特别是搜索引擎技术的出现,促进了信息的整合。垂直搜索是针对某一个固定行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类信息进行一次整合,即搜索领域的行业化分工。主题信息服务是指用户可以对一类信息的集合进行搜索。城市管理包括政治的、经济的、社会的和市政的管理,它贯穿于城市规划、指挥、建设、运行、安全监督和协调的全过程之中。将垂直搜索技术和主题信息服务应用到城市管理科学决策中,会有效提高效率和准确度。本文来源于和某研究中心的合作项目,主要完成了以下工作:(1)分析了搜索引擎特别是垂直搜索引擎的发展现状,阐述了相关技术的优点和缺点,介绍了本系统的工作原理和工作流程;(2)根据城市管理实际工作需求,改进了当前主题信息搜索的设计思想,并根据城市管理基本词典设计了一套主题词元数据标准,引入了主题词库和主题相关词库的概念;(3)设计并实现了一个基于网页数据和期刊论文数据的全文搜索引擎系统,实现了词频统计,用户个性化搜索,网页去重,缓存机制等功能;(4)针对城市管理过程中的海量数据,运用数据挖掘的相关理论,设计了主题相关搜索算法,并将此算法应用到城市管理全文搜索引擎中,实现了面向主题的搜索服务。(5)最后统计了一段时期内系统应用的实际工作情况。城市管理全文搜索引擎已经在某研究中心投入使用,目前系统运行效果良好。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-16 1.1 搜索引擎简介 9-11 1.1.1 什么是搜索引擎 9-10 1.1.2 搜索引擎的发展趋势 10-11 1.2 垂直搜索引擎 11-13 1.2.1 垂直搜索引擎概念 11-12 1.2.2 垂直搜索引擎的现状和发展方向 12-13 1.3 面向主题的垂直搜索引擎 13 1.4 城市管理中的问题及垂直搜索的应用 13-14 1.5 本文的工作 14-16 第二章 系统概要设计 16-37 2.1 系统结构 16-18 2.2 工作原理 18-22 2.2.1.工作流程 18-19 2.2.2.工作原理 19-20 2.2.3.体系结构 20-22 2.3 网络爬虫设计 22-25 2.4 主题搜索设计 25-28 2.4.1 主题特征提取 25-26 2.4.2 主题信息搜集 26-27 2.4.3 数据处理流程 27-28 2.5 全文搜索框架 28-34 2.5.1.相关技术简介 28-29 2.5.2.相关技术优势 29 2.5.3.框架功能 29-31 2.5.4.倒排索引 31-33 2.5.5.为什么选用Lucene 33-34 2.6 WEB应用框架 34-37 第三章 系统详细设计 37-54 3.1 系统选型 37-38 3.2 分词算法的选择 38-40 3.3 词频统计模块 40-44 3.4 文档去重模块 44-48 3.5 用户个性化模块 48-52 3.6 缓存机制 52-54 第四章 主题信息服务设计与实现 54-68 4.1 主题词元数据标准 54-55 4.2 主题词典 55-56 4.3 主题相关词词典 56-57 4.4 主题相关搜索算法 57-65 4.4.1 搜索性能指标 57-58 4.4.2 主题相关搜索算法基本思想 58-59 4.4.3 一些基本概念 59-63 4.4.4 主题相关搜索算法 63-65 4.5 主题相关搜索算法示例 65-68 第五章 系统应用 68-74 5.1 知识库检索 68-69 5.1.1 基本检索 68 5.1.2 高级检索 68-69 5.1.3 检索结果 69 5.2 论文库检索 69-70 5.2.1 基本检索 69 5.2.2 高级检索 69-70 5.2.3 检索结果 70 5.3 高频词汇统计应用 70-72 5.3.1 热门词汇 70-72 5.3.2 用户关注热点 72 5.4 热门文章 72-73 5.5 国内外会议通知 73-74 第六章 总结 74-76 参考文献 76-79 致谢 79-80 攻读学位期间发表的学术论文目录 80
|
相似论文
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于移动搜索用户关联的信息检索研究,TP391.3
- 以博客内容为对象的个性化搜索研究,TP391.3
- 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
- 基于Lucene的汽车信息垂直搜索引擎的设计与实现,TP391.3
- 基于查询扩展的垂直搜索研究,TP391.3
- 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
- 个性化搜索中用户语义意图自动识别技术研究,TP391.1
- 面向移动搜索的PUSH平台的设计与实现,TP391.3
- 面向农业领域的垂直搜索技术的研究,TP391.3
- 基于本体的个性化元搜索引擎研究,TP391.3
- 面向领域的语义检索研究,TP391.3
- 深度网爬虫及更新策略研究,TP391.3
- 农业搜索引擎中的异常数据检测,TP391.3
- Web2.0环境下内容提取与信息发布系统研究与实现,TP393.09
- 专家信息垂直搜索引擎关键技术研究与实现,TP391.3
- Deep Web数据抽取和语义标注技术研究,TP391.1
- 可定制的垂直搜索引擎研究与实现,TP391.3
- 个性化搜索中用户兴趣挖掘技术方法研究,TP311.13
- 基于垂直搜索及语义标注的安全缺陷库更新方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|