学位论文 > 优秀研究生学位论文题录展示

基于小世界理论的P2P文本检索研究

作 者: 赵显亮
导 师: 王亚民
学 校: 西安电子科技大学
专 业: 情报学
关键词: P2P 小世界现象 文本检索 向量空间模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 53次
引 用: 0次
阅 读: 论文下载
 

内容摘要


对等网是一种采用对等模式计算的网络,与传统的客户端/服务器比较,有低成本、高可扩展性、容错性好、自治性和自组织性等优点,随着对等网络的广泛应用,网络中共享的文本、视频、音频、图像的数量呈现出惊人的增长速度。因此,对于检索这些内容的需求越来越多要求也越来越高。本文研究的对象是非结构化的P2P网络。非结构化的P2P网络指的是以Gnutella为典型代表的一类网络。在这类网络中,节点没有指定的逻辑地址,采用随机方法或者启发策略加入网络,网络拓扑随着节点的变迁和网络通信的进行而发生演变。本文对复杂网络的幂规律和小世界特征进行了分析研究,并对现在的对等网络的拓扑结构和搜索下载方式进行了分析比较,针对Gnutella网络中消息转发的泛洪问题,提出了一种基于小世界模型的非结构化P2P网络中文本检索方法。在本方法中,网络中的每个节点都维护一定数量的邻居节点作为短程连接,同时每个节点还要维护一些长程连接来提高文本检索效率和减少节点之间的通信开销。邻居节点的更新策略是在查询后根据反馈信息进行邻居节点调整:即计算邻居节点的重要度并进行排序,然后选择重要度高的节点做为邻居节点,而被替换的重要度低的节点有一定几率成为长程连接节点。这样,节点能够快速的了解其他节点的文档内容并使得兴趣相似的节点紧密连接。实验结果证明,对比于Gnutella网络的搜索算法,本文提出的基于小世界理论的非结构化P2P网络中的文本检索算法具有较好的性能,而且随着搜索的继续进行这种效果会越来越明显。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-13
  1.1 选题背景及其研究意义  7-8
  1.2 对等网研究现状  8-10
  1.3 本文研究内容和论文结构  10-13
第二章 对等网简述  13-27
  2.1 P2P网络简介  13
  2.2 P2P网络拓扑结构  13-19
    2.2.1 中心化拓扑  14-15
    2.2.2 全分布式非结构化拓扑  15-17
    2.2.3 全分布式结构化拓扑  17-18
    2.2.4 半分布式拓扑  18-19
  2.3 P2P与C/S结构比较  19-21
  2.4 P2P技术的应用  21-22
  2.5 P2P技术存在的问题  22-23
    2.5.1 侵犯版权问题  22
    2.5.2 缺乏管理机制  22
    2.5.3 吞噬网络带宽问题  22-23
    2.5.4 P2P网络安全问题  23
    2.5.5 P2P标准制定问题  23
  2.6 网络搜索机制  23-27
    2.6.1 传统搜索技术  23-24
    2.6.2 P2P搜索技术  24-27
第三章 小世界理论和文本分类技术  27-41
  3.1 小世界理论  27-32
    3.1.1 P2P网络的小世界特性  27-28
    3.1.2 小世界模型概述  28-29
    3.1.3 WS小世界模型  29-30
    3.1.4 复杂网络里的幂规律  30-32
  3.2 文本分类技术  32-41
    3.2.1 文本分类工作原理  32
    3.2.2 文本预处理  32-34
    3.2.3 文本的向量表示  34-35
    3.2.4 特征项选择  35-37
    3.2.5 文本分类  37-41
第四章 一种基于小世界理论的非结构化P2P文本检索算法  41-51
  4.1 引言  41
  4.2 向量空间模型  41-44
    4.2.1 文档向量表示  41-42
    4.2.2 特征向量降维  42-43
    4.2.3 向量空间模型工作原理  43-44
  4.3 系统结构  44
  4.4 搜索机制描述  44-46
    4.4.1 算法思想  44-45
    4.4.2 算法描述  45-46
  4.5 邻居节点更新策略  46-47
  4.6 实验模拟  47-51
    4.6.1 PeerSim简介  47-48
    4.6.2 实验评估标准  48-49
    4.6.3 实验结果分析  49-51
第五章 总结与展望  51-53
致谢  53-55
参考文献  55-59
研究成果  59

相似论文

  1. 基于NS2的PeerCast模拟平台设计与实现,TP311.52
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 基于停用词处理的汉语语音检索方法,TP391.1
  4. 面向Gnutella和eMule网络拓扑测量和安全性分析,TP393.08
  5. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  6. 基于SVM分类算法的主题爬虫研究,TP391.3
  7. 音像广播远程教育系统中直播服务器的设计与实现,TP311.52
  8. 基于P2P流媒体系统的设计与实现,TN919.8
  9. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  10. 面向汽车行业的主题爬虫研究与实现,TP391.3
  11. 面向短消息文本的聚类技术研究与应用,TP391.1
  12. 基于人工免疫的病毒检测技术研究,TP393.08
  13. 基于自组织网络的分布式广域后备保护研究,TM774
  14. 泛在环境下虚拟终端系统的组织机制研究与实现,TN915.02
  15. 基于P4P的流媒体点播系统研究与实现,TN948.64
  16. 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
  17. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  18. 基于Winsock的C/S模式即时通信系统的设计及实现,TN914
  19. P2P网络信任模型及其相关技术的研究,TP393.08
  20. P2P流媒体特征提取技术研究与实现,TN919.8
  21. 大流量环境下实时P2P流媒体行为识别系统设计与实现,TN919.8

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com