学位论文 > 优秀研究生学位论文题录展示
文档复制检测方法研究与系统实现
作 者: 廖兴伟
导 师: 王轩
学 校: 哈尔滨工业大学
专 业: 计算机技术
关键词: 本复制检测 在线复制检测 关键字提取 相似度计算 倒排索引
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 23次
引 用: 0次
阅 读: 论文下载
内容摘要
目前,随着互联网的快速发展,网络信息资源日益丰富,人们的信息交流的方式变得日益便利。然而由于文本,图片,视频等网络电子资源便利的复制基础,从而导致网络资源过多的冗余,降低了网络搜索引擎的检索效率,同时加大了信息抽取的难度。近年来一些高校里也频繁出现了作业抄袭,论文抄袭等现象。为了提高网络信息检索效率、保护知识产权,以及端正学术风气,文档复制检测技术成为了自然语言处理领域的研究热点,其研究意义十分重大。本文对文档复制检测方面做了详细研究,在前人研究的基础上,对基于句子相似度计算的文档复制检测方法作了改进,很大程度上提高了文档复制检测效率与检测准确率。首先,本文针对文档复制检测的背景、意义、国内外发展现状及相关技术作了详细介绍,并分析了目前常用文本复制检测算法的优缺点。其次,基于传统的BSP复制检测算法,提出了基于有序最长公共关键词序列的句子相似度算法及基于关键词距离的句子局部复制检测算法,同时设计了词语-句子,句子-文档的倒排索引结构,有效地提高了复制检测准确率与检测效率。再次,基于本文提出的文本复制检测方法,设计实现了一款文本复制检测系统。根据实际应用需求,系统主要功能包括文档注册、文档检索、同义词维护、本地复制检测、分布式复制检测,在线复制检测、网络设置、系统设置、文档库管理等。最后,实验表明:结果本文所研究的文档复制检测方法的实用性和有效性。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-13 1.1 课题背景及研究意义 9-10 1.1.1 课题背景 9 1.1.2 研究意义 9-10 1.2 课题研究现状 10-11 1.3 主要研究内容及论文结构 11-13 第2章 文档复制检测的相关知识 13-22 2.1 文档复制检测的概念 13 2.2 文档复制检测的基本步骤 13-18 2.2.1 文本内容提取 13-14 2.2.2 文本预处理 14 2.2.3 文本块划分 14-16 2.2.4 文本块特征提取 16-17 2.2.5 文本相似度计算 17-18 2.3 常用文本复制检测算法的介绍 18-20 2.3.1 基于向量空间模型的复制检测方法 18 2.3.2 基于 SimHash 的复制检测方法 18-19 2.3.3 基于 N-Gram 的复制检测方法 19 2.3.4 基于句子相似度计算的复制检测方法 19-20 2.4 文档复制检测算法的评价标准 20-21 2.4.1 检测效果 20-21 2.4.2 检测效率 21 2.5 本章小结 21-22 第3章 改进的文本复制检测方法 22-34 3.1 问题的提出 22 3.2 算法思想 22-24 3.2.1 传统的基于句子相似度的复制检测方法(BSP) 22-23 3.2.2 改进后的基于句子相似度的复制检测方法 23-24 3.3 倒排索引结构的构建方法 24-27 3.4 基于有序的最长公共子序列的句子相似度计算算法 27-29 3.5 基于关键词距离的句子局部复制检测算法 29-31 3.6 基于搜索引擎的在线复制检测方法 31-32 3.7 文档相似性度量 32-33 3.8 本章小结 33-34 第4章 文本复制检测系统的设计与实现 34-48 4.1 系统功能框架 34 4.2 主要功能模块 34-44 4.2.0 文档采集模块 34-35 4.2.1 文档注册模块 35 4.2.2 文档检索模块 35 4.2.3 本地复制检测模块 35-38 4.2.4 分布式复制检测模块 38 4.2.5 在线复制检测模块 38-39 4.2.6 同义词库管理模块 39-41 4.2.7 系统设置模块 41 4.2.8 检测结果报告模块 41-44 4.3 数据存储设计 44-47 4.3.1 结构设计 44-45 4.3.2 数据库的存储过程 45-47 4.4 本章小结 47-48 第5章 实验评测与结果分析 48-57 5.1 实验环境 48 5.2 测试语料 48-49 5.3 实验结果与分析 49-55 5.3.1 抄袭句子的检测实验与分析 49-50 5.3.2 完全复制检测实验与分析 50-51 5.3.3 部分复制检测实验与分析 51-52 5.3.4 中英文文本的复制检测实验 52-53 5.3.5 繁简体文本的复制检测实验 53-54 5.3.6 无关文档的复制检测实验 54-55 5.3.7 与传统 BSP 检测算法的比较 55 5.4 实验总结 55-57 结论 57-58 参考文献 58-61 攻读学位期间发表的学术论文 61-63 致谢 63
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
- 基于球面调和的三维模型检索系统研究与实现,TP391.41
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 全文检索及相关技术研究,TP391.3
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于局部特征的图像拷贝检测研究,TP391.41
- 短文本指纹的研究,TP391.1
- 汉语词义标注一致性检验方法的研究与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 基于本体和SWRL推理的知识检索方法研究,TP391.3
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 基于JEE的科技项目管理系统设计与实现,TP311.52
- 计算机辅助夹具结构设计关键技术研究,TG75
- 本体在医疗信息整合中的应用与研究,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|