学位论文 > 优秀研究生学位论文题录展示
基于P2P的搜索引擎的关键技术研究
作 者: 陆宵宏
导 师: 翁惠玉;郭力子
学 校: 上海交通大学
专 业: 计算机技术
关键词: P2P 分布式搜索引擎 P2P算法 中文分词 倒排索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 117次
引 用: 0次
阅 读: 论文下载
内容摘要
Peer-to-peer(P2P)技术的一个优势便是开发出强大的搜索工具。随着互联网的快速发展,搜索引擎作为一个网络用户所需的信息检索工具,其作用性越来越受到人们的重视。就中文用户而言,提高搜索引擎的效率的关键因素是中文分词匹配效率与搜索引擎索引检索效率的提高。本文首先对P2P技术进行了阐述,包括P2P的定义、P2P模式与C/S模式的比较、P2P的特点以及P2P技术在搜索方面的应用及优势;其次对P2P搜索算法进行了分类探讨,重点研究和分析了几种P2P搜索算法,并指出它们的优缺点。对以传统索引方和倒排索引方这两种索引方式为核心的基于P2P的搜索引擎和其他几种典型的搜索引擎也进行了各方面的比较。接着,为了克服传统的集中式搜索引擎的缺点,针对中文分词本文提出了基于树状词库进行中文分词,这种经过优化的分词方法使传统的匹配算法效率得到大大地提高,并结合XML技术为中文分词提出并实现了可行的解决方案:本文设计了基于XML与B+树的倒排索引算法建立索引器的索引解决了传统的正、倒排索引模型实时更新性能差的缺点。将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。基于树状词库与XML的中文分词方法使得搜索引擎对中文文段进行分词时更为准确。基于XML的倒排索引建立解决方案从新的角度探索了中英文混合检索的底层机制,使得搜索引擎在索引器中进行索引检索、寻找其相关的文档更为快捷。当前,这方向的研究还处于试验、探索阶段,某些方面在理论上还需要有所突破,逐步使搜索引擎更好地服务于用户。
|
全文目录
摘要 5-7 ABSTRACT 7-10 第一章 引言 10-15 1.1 背景及问题的提出 10-11 1.2 国内外研究现状 11-13 1.2.1 P2P 国外研究现状 11-12 1.2.2 P2P 国内研究现状 12 1.2.3 搜索引擎国内外研究现状 12-13 1.3 研究的目标及其主要的内容 13-14 1.4 本文章节编排 14-15 第二章 P2P 技术 15-22 2.1 P2P 定义 15-16 2.2 P2P 工作模式与C/S 工作模式比较 16-18 2.3 P2P 技术特点 18-19 2.4 P2P 搜索技术的应用 19-20 2.5 本章小结 20-22 第三章 搜索引擎 22-27 3.1 搜索引擎 22-23 3.2 搜索引擎原理 23-25 3.3 传统搜索引擎与基于P2P 的搜索引擎 25 3.4 基于P2P 的中文搜索引擎研究涉及的问题 25-26 3.5 本章小结 26-27 第四章 基于XML 的中文分词技术 27-55 4.1 基于P2P 的搜索引擎 27-40 4.1.1 搜索引擎的流程 27-28 4.1.2 词典和分词 28-29 4.1.3 结果缓存 29-31 4.1.4 两种索引方式 31-38 4.1.5 RANK 值计算 38-39 4.1.6 几种搜索引擎的比较 39-40 4.2 中文分词 40 4.3 词与分词单位 40-41 4.4 中文分词方法分类 41-45 4.4.1 基于词典的分词方法 41-43 4.4.2 基于统计的分词方法 43-44 4.4.3 基于人工智能(AI)的分词方法 44-45 4.5 中文分词中的难题 45-46 4.6 基于XML 的中文分词技术 46-54 4.6.1 最大匹配法分词的缺陷 46-47 4.6.2 改进的中文分词算法 47-48 4.6.3 中文分词算法设计 48-49 4.6.4 中文分词算法实现 49-52 4.6.5 基于XML 的数据转换 52-54 4.7 本章小结 54-55 第五章 基于XML 的倒排索引算法 55-68 5.1 P2P 搜索算法分类 55-59 5.1.1 集中式搜索 55-56 5.1.2 分布式搜索 56-59 5.2 几种P2P 搜索算法分析 59-63 5.2.1 泛洪算法 59-61 5.2.2 迭代泛洪算法 61-63 5.3 基于XML 的倒排索引算法 63-67 5.3.1 搜索引擎的索引建立 63-64 5.3.2 搜索引擎的索引机制 64-65 5.3.3 解析XML 相关算法 65 5.3.4 倒排索引文档的创建 65-66 5.3.5 性能对比 66-67 5.4 本章小结 67-68 第六章 总结与展望 68-71 6.1 本文工作回顾 68 6.2 成果及意义 68-69 6.3 存在的问题及进一步的工作 69-71 参考文献 71-73 致谢 73-74 作者攻读学位期间发表的论文 74
|
相似论文
- 基于NS2的PeerCast模拟平台设计与实现,TP311.52
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于P2P流媒体系统的设计与实现,TN919.8
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于自组织网络的分布式广域后备保护研究,TM774
- 泛在环境下虚拟终端系统的组织机制研究与实现,TN915.02
- 基于P4P的流媒体点播系统研究与实现,TN948.64
- 主观题自动评分技术研究,TP391.1
- 基于Winsock的C/S模式即时通信系统的设计及实现,TN914
- P2P流媒体特征提取技术研究与实现,TN919.8
- 大流量环境下实时P2P流媒体行为识别系统设计与实现,TN919.8
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 一种IPV4/IPV6混合网络下P2P直播系统资源共享方法,TP393.02
- 基于CDN和P2P技术的混合流媒体内容分发机制研究,TN919.8
- 一种无主控制的云存储架构的研究,TP333
- DTN网络中多媒体传输及仿真模型的研究,TN929.5
- 企业邮件监管系统的设计与实现,TP393.098
- 基于UDT的实时流媒体加密传输技术研究,TN918.4
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|