学位论文 > 优秀研究生学位论文题录展示

面向海量邮件的检索系统研究与实现

作 者: 施兴
导 师: 刘秉权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 海量邮件 分布式 信息检索 索引
分类号: TP393.098
类 型: 硕士论文
年 份: 2008年
下 载: 93次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子邮件来进行日常生活和工作上的联系。然而,非法商家和不法分子利用电子邮件推送广告、病毒、不健康图文以及破坏国家安定团结的非法信息,对个人、企业和国家造成不同程度的安全隐患。现有的比较成熟的技术是邮件过滤,它能屏蔽一些垃圾信息,但不能阻止那些利用网络伪造的破坏国家安全的信息随处传播。如何在浩瀚的信息海洋检索到一些敏感信息,从而追踪到可疑邮件以及可疑用户成为现代信息安全的一个方向。因此迫切需要对海量邮件进行有效的管理和安全监控。针对此问题,本文分析了邮件的文档特性及其格式,提出并设计了一个面向海量邮件的检索系统。该系统能高效地检索到用户感兴趣的邮件正文,收件人发件人等信息,从而有效地解决邮件信息的监控管理。为了提高海量邮件的处理效率,本文重点研究了分布式解析,索引及查询过程。首先介绍了邮件这一特殊文档的相关理论背景,分析了邮件格式和邮件文档的向量空间模型。接着,邮件索引采用传统的倒排索引文档。同时,与普通的检索系统不同,本系统实现了增量式索引,有效节省了索引更新的时间。在系统架构上,为了快速处理海量规模邮件文档数据,本文采用了分布式处理技术。在邮件的前期处理,系统实现了相关的分布式算法,使得多节点并行运行同一任务,从而快速地完成邮件解析与索引;在查询过程中,分布式技术确保了检索的快速稳定。论文最后给出了系统的测试结果,比较了单机系统与分布式系统的解析、索引速度的差距,并得出检索时间主要与邮件规模、查询复杂度相关的结论。系统实现了海量邮件的解析、索引、查询等一系列用户操作,并把这些操作有效地和分布式并行等关键技术结合在一起。系统采用倒排索引技术来存储和组织邮件索引,利用邮件向量空间模型计算查询与文档之间的相似度,使最终返回的结果最大程度上满足用户的查询需求。同时,系统提供了统一的接口和方法,为海量邮件信息处理的应用提供了良好的计算能力和应用开发环境。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-15
  1.1 选题背景和研究意义  9-10
  1.2 海量邮件检索研究现状  10-13
    1.2.1 信息检索概述  10-11
    1.2.2 海量邮件检索现状  11-12
    1.2.3 信息检索系统评价  12-13
  1.3 本文的主要研究内容与结构  13-15
第2章 邮件检索模型及相关技术研究  15-28
  2.1 邮件检索模型  15-21
    2.1.1 信息检索模型  15-17
    2.1.2 基于VSM的邮件检索模型  17-21
  2.2 面向MIME格式的邮件信息提取  21-25
    2.2.1 MIME邮件格式概述  22
    2.2.2 邮件信息提取  22-25
  2.3 增量式倒排索引  25-26
    2.3.1 倒排索引  25-26
    2.3.2 索引的增量化处理  26
  2.4 本章小结  26-28
第3章 基于MapReduce的分布式邮件检索方法  28-36
  3.1 分布式系统技术  28-29
  3.2 基于文献集分割的分布式信息检索  29-31
  3.3 基于MapReduce 的邮件分布式索引  31-34
    3.3.1 分布式计算  31
    3.3.2 MapReduce编程模型  31-32
    3.3.3 邮件分布式处理框架  32-33
    3.3.4 分布式邮件数据流  33-34
  3.4 分布式邮件查询  34-35
  3.5 本章小结  35-36
第4章 面向海量邮件的检索系统的实现  36-51
  4.1 系统结构  36-38
  4.2 底层分布式系统  38-39
  4.3 海量邮件解析  39-42
    4.3.1 基于JavaMail的邮件解析  39-41
    4.3.2 分布式解析算法  41-42
  4.4 面向实时系统的可扩展邮件索引  42-47
    4.4.1 基于邮件域的邮件索引  42-45
    4.4.2 分布式索引算法  45
    4.4.3 增量式索引  45-47
  4.5 邮件查询及结果反馈  47-50
    4.5.1 节点容错方案的实现  48-49
    4.5.2 查询结果反馈  49-50
  4.6 本章小结  50-51
第5章 系统实验与分析  51-56
  5.1 测试环境  51
  5.2 测试数据集  51-52
  5.3 解析与索引测试  52-54
    5.3.1 与单机系统对比测试  52-53
    5.3.2 与其他分布式系统对比  53-54
  5.4 查询测试  54-55
  5.5 本章小结  55-56
结论  56-58
参考文献  58-63
致谢  63

相似论文

  1. Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
  2. 分布式系统的故障注入方法研究,TP338.8
  3. 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
  4. 支持XML数据查询的F&B索引结构的研究,TP311.13
  5. 大规模稀疏关系数据索引技术研究,TP311.132.3
  6. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  7. 生物医学领域检索系统查询扩展技术研究,TP391.3
  8. 含分布式电源的微电网控制策略研究,TM61
  9. 基于移动Agent的分布式网络通信机制的研究,TP393.02
  10. Bicluster数据分析软件设计与实现,TP311.52
  11. 网络搜索引擎的相关技术研究,G354
  12. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  13. 基于分布式环境压力测试问题的研究,TP311.52
  14. 一种可视化的分布式数据集成模型的研究与实现,TP311.52
  15. 虹膜识别算法的研究与实现,TP391.41
  16. 压缩感知在无线通信网络异常事件检测中的应用研究,TN929.5
  17. 分布式视频存储系统设计与实现,TP333
  18. 基于SMP的内存数据库查询处理优化研究,TP311.13
  19. 数据空间下的索引策略研究,TP311.13
  20. 低成本RFID系统安全协议研究,TP391.44

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com