学位论文 > 优秀研究生学位论文题录展示
开放式电子文档剽窃检测服务构建技术研究
作 者: 张慰
导 师: 李艺
学 校: 南京师范大学
专 业: 教育技术学
关键词: 剽窃检测 数字指纹 候选文档 后缀树
分类号: TP309.7
类 型: 硕士论文
年 份: 2008年
下 载: 105次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的普及和Internet的飞速发展,人们可以越来越容易的从Internet获取各种电子文档资源,但同时也可以方便地采用“复制粘贴”操作来剽窃电子文档的内容。可以说Internet这一开放性平台在使人们能够方便、快速、高效地获取各种电子文档资源的同时,也成为了剽窃者窃取信息的温床。在这种背景下,构建开放式电子文档剽窃检测服务系统的需求呼之欲出。本文通过分析比较,对开放式电子文档剽窃检测服务系统的现状、结构、特点等给出了详细的总结和描述,对构建开放式电子文档剽窃检测服务系统所涉及到的主要技术,包括候选文档获取技术和电子文档剽窃检测技术进行了详细研究。对于候选文档的获取技术,本文对常用的开放式环境信息获取技术,即网络蜘蛛技术和元搜索技术,进行了比较和分析,并给出了基于元搜索的候选文档获取技术实现方案。本文还通过大量比较,分析了现有的电子文档剽窃检测技术,提出了适用于大规模电子文档检测的SCAD剽窃检测算法,该算法采用权重较高的关键词来作为Anchor,以此来选择经预处理过滤后的句子生成指纹,并最终通过比较指纹来计算文档间的相似度。实验表明,SCAD算法,在生成的指纹数量上,比对效率上以及准确度上均优于传统算法,适合大规模电子文档的剽窃检测应用。同时,为了更好地满足剽窃检测服务需求,本文还提出了基于后缀树的一对一比对检测算法,算法对两篇文档进行比较,找出两篇文档的公共子串,并用高亮的方式显示出来,为判断是否剽窃提供更直接的依据。最后,本文还描述了针对教育类论文进行检测的开放式剽窃检测服务原型系统,给出了系统的设计方案,并展望了下一步工作。
|
全文目录
摘要 5-6 ABSTRACT 6-7 第一章 前言 7-14 1.1 研究背景及意义 7-8 1.2 开放式电子文档剽窃检测的界定 8 1.3 电子文档剽窃检测系统现状 8-11 1.3.1 国外现状 8-10 1.3.2 国内现状 10-11 1.4 开放式电子文档剽窃检测系统基本构成 11-12 1.5 主要研究内容 12-13 1.6 论文的主要工作和组织结构 13-14 1.6.1 主要工作 13 1.6.2 论文的组织结构 13-14 第二章 候选文档获取技术研究 14-21 2.1 网络蜘蛛技术 14-15 2.2 元搜索技术 15-21 2.2.1 元搜索概述 15-16 2.2.2 获取候选文档元搜索引擎的工作原理 16-17 2.2.3 查询关键词自动生成 17-18 2.2.4 选择目标搜索引擎 18-20 2.2.5 搜索结果合并及显示 20-21 第三章 电子文档剽窃检测技术研究 21-43 3.1 现有电子文档剽窃检测技术 21-24 3.1.1 数字指纹技术 21-23 3.1.2 词频统计技术 23 3.1.3 后缀树技术 23 3.1.4 语义相似度计算技术 23-24 3.2 SCAD——基于Anchor的电子文档剽窃检测算法 24-28 3.2.1 基于数字指纹的到剽检测技术存在的问题 24 3.2.2 SCAD算法过程 24-27 3.2.3 算法评价方法与实验结果 27-28 3.3 基于后缀树的一对一比对检测算法 28-43 3.3.1 后缀树的概念 29-30 3.3.2 后缀树的构造方法 30-37 3.3.3 改造后缀树实现一对一比对检测算法 37-42 3.3.4 高亮比对效果 42-43 第四章 原型系统的设计与实现 43-49 4.1 系统描述 43-44 4.2 系统设计 44-48 4.2.1 系统用例图 44-46 4.2.2 数据库设计 46 4.2.3 主要模块的类图设计 46-48 4.3 后台并行计算的实现 48-49 第五章 总结与展望 49-50 参考文献 50-52 致谢 52
|
相似论文
- 基于串核的蛋白质分类算法的研究与实现,TP301.6
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于协同学和数字指纹的版权保护与追踪技术研究,TP309
- 基于量化索引调制的抗共谋指纹技术研究,TP309
- 用于重要电子文档保护的分组抗合谋数字指纹算法研究,TP309.7
- 基于数字指纹的C程序克隆检测技术的研究,TP311.11
- 远程森林资源资产评估软件的研究与开发,S757
- 基因组中最大唯一匹配的查找算法研究,TP301.6
- Web中文文本聚类研究,TP391.1
- DNA序列中串联重复体查找算法研究,R346
- 一类抗共谋的多媒体数字指纹,TP393.08
- 基于Web页面嵌套模式的包装器生成系统的设计与实现,TP393.092
- 生物序列索引结构构造算法研究,TP391.3
- 基于元素增长搜索策略的频繁闭模式挖掘算法的研究与实现,TP311.13
- 电子图书版权保护技术研究,D913
- 基于特征码的大规模中文网页并行去重方法,TP393.092
- 代码相似性耦合性度量方法的研究,TP311.52
- 用于涉密电子文档保护的数字水印和指纹算法研究,TP309.7
- 正交数字指纹技术的研究,TP391.41
- 基于非分词技术的科技项目查重研究与实现,G311
- 高效的motif识别方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 安全保密 > 加密与解密
© 2012 www.xueweilunwen.com
|