学位论文 > 优秀研究生学位论文题录展示
智能中文搜索引擎若干关键技术的研究与实现
作 者: 潘照明
导 师: 陈纯;王强
学 校: 浙江大学
专 业: 计算机应用技术
关键词: 中文搜索引擎 中文分词 trie树 概念集群 网页排名
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 519次
引 用: 17次
阅 读: 论文下载
内容摘要
随着Internet的快速发展,Web信息的迅速增加,人们越来越依赖于搜索引擎来获取互联网上有用的信息。目前传统中文搜索引擎系统一般都采用关键词匹配模式,没有很好地解决关键词跟网页之间的相关性;同时在搜索推荐词的生成方法上,也往往只是在用户搜索关键词上加入前缀、后缀字符串作为相应的推荐词,没有深入到语义理解层次,不能很好地反映用户真正意图,智能化程度较低。因此,如何更好地理解中文网页信息、改进搜索关键词与网页的相关性、提供基于语义联想的搜索推荐词已成为新一代智能中文搜索引擎系统亟待解决的若干核心问题。 该文对智能中文搜索引擎系统中的若干关键技术进行了较深入的研究,其研究内容主要包含以下几点: 1) 设计了一种类trie树的高效词典组织结构。把中文分词过程分成两个阶段,在第一阶段采用bigram模型并辅以一定的规则,在第二阶段采用基于词的最大正向匹配算法,最后把这两个阶段的结果合并,较好地解决了汉词切分中一直存在的歧义现象难以排除、新词识别困难等难题。实验结果显示词典模块达到了较快的切分速度和较高的切分准确率,这为高质量概念词的产生和后续网页处理提供了前提; 2) 给出了一种基于语义联想的搜索推荐词生成方法,该方法基于概念集群的思想,能够有效地引导用户搜索,有别于传统搜索引擎系统的搜索推荐词生成方法,扩大了搜索的深度和外延;提出了一种新的网页排序算法,该算法基于系统的概念集群和关键词对网页的RANK值(权重值),较好地反映了用户搜索关键词与网页的相关性;同时使用《同义词词林》中文语料库,对用户查询进行优化,实现了同义或近义词提示功能,丰富了用户的搜索体验,从而提升了搜索引擎系统的智能性; 3) 设计了智能中文搜索引擎系统的总体框架,给出了具体的实现方案,并对海量数据环境下PageRank的计算、概念集群的形成、索引的生成提出了一些改进方法,最后在实际运营的大型服务器集群上实现了一个原型系统,并给出了详细的实验结果。
|
全文目录
第一章 绪论 8-10 1.1 研究背景 8 1.2 研究意义与目的 8-9 1.3 论文组织 9-10 第二章 搜索引擎分类及其关键技术概述 10-16 2.1 搜索引擎分类 10-11 2.2 中文搜索引擎关键技术概述 11-13 2.3 中文搜索引擎现状分析 13-14 2.4 智能中文搜索引擎概述 14-15 2.5 本章小结 15-16 第三章 词典模块的设计与实现 16-29 3.1 词典研究现状概述 16-17 3.2 词典组织结构的设计与实现 17-21 3.2.1 词典组织结构概述 17-18 3.2.2 一种高效的词典组织结构 18-21 3.3 汉词切分算法的设计与实现 21-26 3.3.1 汉词切分算法概述 21-23 3.3.2 一种新的汉词切分方案 23 3.3.3 歧义现象排除阶段 23-25 3.3.4 新词智能识别阶段 25-26 3.4 词典性能评价指标 26 3.5 实验结果 26-28 3.6 本章小结 28-29 第四章 概念集群和索引的建立 29-42 4.1 概念集群的建立 29-32 4.1.1 概念词同现率计算 29-31 4.1.2 概念相关词的生成 31-32 4.2 搜索推荐词的生成 32-33 4.3 概念集群的维护 33-34 4.4 概念集群实验结果 34-35 4.5 索引技术介绍 35-38 4.6 索引模块设计 38-41 4.6.1 用 Bitmap文件实现倒排索引 38-39 4.6.2 一种高效的 Bitmap文件压缩算法 39-40 4.6.3 查询策略设计 40-41 4.7 本章小结 41-42 第五章 CCR技术和查询优化的设计 42-52 5.1 PageRank算法介绍 42-45 5.1.1 PageRank的基本概念 42 5.1.2 PageRank的计算 42-45 5.2 HillTop算法介绍 45 5.3 关键词对网页的 Rank值计算 45-46 5.4 CCR的设计与实现 46-49 5.4.1 CCR的提出 46-47 5.4.2 CCR的计算 47-48 5.4.3 CCR的实验结果及分析 48 5.4.4 CCR的改进 48-49 5.5 查询优化的设计 49-51 5.5.1 《同义词词林》概述 49-50 5.5.2 查询优化的处理流程 50-51 5.6 本章小结 51-52 第六章 智能中文搜索引擎原型系统的实现 52-63 6.1 系统总体框架设计 52-54 6.2 系统具体处理流程 54-56 6.2.1 后台预处理模块处理流程 54-55 6.2.2 前台处理查询模块处理流程 55-56 6.3 海量数据环境下若干算法的改进 56-60 6.3.1 概念集群生成算法的改进 56-59 6.3.2 索引生成算法的改进 59-60 6.4 系统界面 60-61 6.5 系统测试结果 61-62 6.6 本章小结 62-63 第七章 总结与展望 63-65 7.1 总结 63-64 7.2 展望 64-65 参考文献 65-68 致谢 68
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 软交换平台下电话号码分类方法研究,TN915.05
- 中文网页热门主题获取系统的研究与实现,TP393.092
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 基于拼音标注的中文分词算法研究,TP391.1
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 面向软件测试领域的自动问答系统,TP311.53
- 中文搜索引擎的关键技术研究,TP391.3
- 高性能加工知识管理嵌入技术研究,TH16
- 中文搜索引擎对比研究,G354.4
- 一个基于分类规则发现的汉语消歧方法的设计与实现,TP391.1
- 中文文本分类方法研究,TP391.1
- 基于Winnow算法的反垃圾邮件引擎的设计与实现,TP393.098
- 集群真的是灵丹妙药吗?,F270
- 基于粒子群优化算法的中文全文检索系统研究与开发,TP391.3
- 中文智能搜索引擎关键技术研究,TP391.3
- 规则与统计相结合的中文分词方法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|