学位论文 > 优秀研究生学位论文题录展示
面向海量邮件的检索系统研究与实现
作 者: 施兴
导 师: 刘秉权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 海量邮件 分布式 信息检索 索引
分类号: TP393.098
类 型: 硕士论文
年 份: 2008年
下 载: 93次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子邮件来进行日常生活和工作上的联系。然而,非法商家和不法分子利用电子邮件推送广告、病毒、不健康图文以及破坏国家安定团结的非法信息,对个人、企业和国家造成不同程度的安全隐患。现有的比较成熟的技术是邮件过滤,它能屏蔽一些垃圾信息,但不能阻止那些利用网络伪造的破坏国家安全的信息随处传播。如何在浩瀚的信息海洋检索到一些敏感信息,从而追踪到可疑邮件以及可疑用户成为现代信息安全的一个方向。因此迫切需要对海量邮件进行有效的管理和安全监控。针对此问题,本文分析了邮件的文档特性及其格式,提出并设计了一个面向海量邮件的检索系统。该系统能高效地检索到用户感兴趣的邮件正文,收件人发件人等信息,从而有效地解决邮件信息的监控管理。为了提高海量邮件的处理效率,本文重点研究了分布式解析,索引及查询过程。首先介绍了邮件这一特殊文档的相关理论背景,分析了邮件格式和邮件文档的向量空间模型。接着,邮件索引采用传统的倒排索引文档。同时,与普通的检索系统不同,本系统实现了增量式索引,有效节省了索引更新的时间。在系统架构上,为了快速处理海量规模邮件文档数据,本文采用了分布式处理技术。在邮件的前期处理,系统实现了相关的分布式算法,使得多节点并行运行同一任务,从而快速地完成邮件解析与索引;在查询过程中,分布式技术确保了检索的快速稳定。论文最后给出了系统的测试结果,比较了单机系统与分布式系统的解析、索引速度的差距,并得出检索时间主要与邮件规模、查询复杂度相关的结论。系统实现了海量邮件的解析、索引、查询等一系列用户操作,并把这些操作有效地和分布式并行等关键技术结合在一起。系统采用倒排索引技术来存储和组织邮件索引,利用邮件向量空间模型计算查询与文档之间的相似度,使最终返回的结果最大程度上满足用户的查询需求。同时,系统提供了统一的接口和方法,为海量邮件信息处理的应用提供了良好的计算能力和应用开发环境。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-15 1.1 选题背景和研究意义 9-10 1.2 海量邮件检索研究现状 10-13 1.2.1 信息检索概述 10-11 1.2.2 海量邮件检索现状 11-12 1.2.3 信息检索系统评价 12-13 1.3 本文的主要研究内容与结构 13-15 第2章 邮件检索模型及相关技术研究 15-28 2.1 邮件检索模型 15-21 2.1.1 信息检索模型 15-17 2.1.2 基于VSM的邮件检索模型 17-21 2.2 面向MIME格式的邮件信息提取 21-25 2.2.1 MIME邮件格式概述 22 2.2.2 邮件信息提取 22-25 2.3 增量式倒排索引 25-26 2.3.1 倒排索引 25-26 2.3.2 索引的增量化处理 26 2.4 本章小结 26-28 第3章 基于MapReduce的分布式邮件检索方法 28-36 3.1 分布式系统技术 28-29 3.2 基于文献集分割的分布式信息检索 29-31 3.3 基于MapReduce 的邮件分布式索引 31-34 3.3.1 分布式计算 31 3.3.2 MapReduce编程模型 31-32 3.3.3 邮件分布式处理框架 32-33 3.3.4 分布式邮件数据流 33-34 3.4 分布式邮件查询 34-35 3.5 本章小结 35-36 第4章 面向海量邮件的检索系统的实现 36-51 4.1 系统结构 36-38 4.2 底层分布式系统 38-39 4.3 海量邮件解析 39-42 4.3.1 基于JavaMail的邮件解析 39-41 4.3.2 分布式解析算法 41-42 4.4 面向实时系统的可扩展邮件索引 42-47 4.4.1 基于邮件域的邮件索引 42-45 4.4.2 分布式索引算法 45 4.4.3 增量式索引 45-47 4.5 邮件查询及结果反馈 47-50 4.5.1 节点容错方案的实现 48-49 4.5.2 查询结果反馈 49-50 4.6 本章小结 50-51 第5章 系统实验与分析 51-56 5.1 测试环境 51 5.2 测试数据集 51-52 5.3 解析与索引测试 52-54 5.3.1 与单机系统对比测试 52-53 5.3.2 与其他分布式系统对比 53-54 5.4 查询测试 54-55 5.5 本章小结 55-56 结论 56-58 参考文献 58-63 致谢 63
|
相似论文
- Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
- 分布式系统的故障注入方法研究,TP338.8
- 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 含分布式电源的微电网控制策略研究,TM61
- 基于移动Agent的分布式网络通信机制的研究,TP393.02
- Bicluster数据分析软件设计与实现,TP311.52
- 网络搜索引擎的相关技术研究,G354
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 基于分布式环境压力测试问题的研究,TP311.52
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 虹膜识别算法的研究与实现,TP391.41
- 压缩感知在无线通信网络异常事件检测中的应用研究,TN929.5
- 分布式视频存储系统设计与实现,TP333
- 基于SMP的内存数据库查询处理优化研究,TP311.13
- 数据空间下的索引策略研究,TP311.13
- 低成本RFID系统安全协议研究,TP391.44
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|