学位论文 > 优秀研究生学位论文题录展示
抄袭C源代码可视化智能检测方法与实现
作 者: 王欣
导 师: 杨素英
学 校: 大连理工大学
专 业: 控制理论与控制工程
关键词: 抄袭代码 相似度 可视化 属性向量模型 SMR方法
分类号: TP274
类 型: 硕士论文
年 份: 2011年
下 载: 28次
引 用: 0次
阅 读: 论文下载
内容摘要
源代码抄袭检测,是识别程序代码相似性的一项重要应用。本文针对计算机编程语言教学考核中对程序设计客观性和真实性的要求,寻找能够智能识别C程序抄袭代码的方法,实现具有高效率、操作便捷的可视化检测目标。通过对抄袭代码类型和识别方法的研究,本文从两个方面提出对学生作业抄袭代码识别和检测的方法。首先针对学生作业程序代码实现功能简单、代码长度短、数据结构和类型单一,但数量较大的典型特点,提出了基于特征属性向量空间模型的聚类方法。该方法通过提取能够代表源代码特征的属性建立属性向量空间模型,引入向量空间聚类算法划分抄袭类,可在较短时间内快速识别出有抄袭嫌疑的源代码。其次在获得疑似抄袭源文件的基础上,为了获得更加直观的可视化检测效果,从识别两个源文件抄袭区域的角度,本文提出了基于结构度量的SMR段匹配识别方法,通对两个源文件的过结构分析划分功能代码段,并引入RKR-GST串匹配算法,在单词的层面上对两个源文件进行段匹配,从而识别出相似度高于阈值代码段,获得定位抄袭区域的可视化的检测效果。基于以上识别方法,设计实现了抄袭C源代码可视化智能检测系统,构建了抄袭代码检测评价体系,为检测结果提供客观可靠的评价依据。通过测试表明,检测系统能够实现对常见类型抄袭代码的检测识别,对于作业程序中多见的高相似度抄袭程序效果显著。该系统还在实际课程考核中得到应用,能够准确识别80%以上的抄袭程序,对提高教学质量和改善学生学习效果起到了良好的促进作用,表现出了很强的实用价值。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-11 1.1 选题背景及意义 8 1.2 代码抄袭检测技术研究现状 8-10 1.3 论文组织结构 10-11 2 源代码抄袭检测解决思路 11-14 2.1 问题的提出 11-13 2.2 抄袭代码检测流程 13-14 3 抄袭代码识别方法 14-23 3.1 基于特征属性向量模型的空间聚类方法 14-18 3.1.1 建立源代码特种属性向量模型 14-16 3.1.2 空间距离函数的选取 16-17 3.1.3 特征属性向量的空间聚类 17-18 3.2 基于结构度量的SMR段匹配识别方法 18-23 3.2.1 源代码的结构划分 18-19 3.2.2 RKR-GST串匹配算法 19-21 3.2.3 抄袭区域定位 21-23 4 可视化智能检测系统设计与实现 23-45 4.1 检测系统框架 23-29 4.1.1 开发环境与平台 24 4.1.2 检测系统工程化管理体系 24-27 4.1.3 工程数据库的构建 27-29 4.2 智能检测模块设计 29-41 4.2.1 预处理模块 29-35 4.2.2 智能聚类批量检测模块 35-36 4.2.3 可视化定位模块 36-41 4.3 评价体系与方式 41-45 5 检测系统测试与分析 45-51 5.1 抄袭代码可视化界面测试 45-49 5.1.1 构造样本测试效果 45-48 5.1.2 实际样本测试效果 48-49 5.2 检测效果与效率的讨论 49-51 结论 51-52 参考文献 52-55 攻读硕士学位期间发表学术论文情况 55-56 致谢 56-57
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 医学超声图像的三维可视化研究,TP391.41
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 小麦群体生长可视化系统的设计与实现,S512.1
- 基于模型的水稻根系可视化研究,S511
- 基于模型的小麦根系可视化研究,S512.1
- 算法动画在高中算法教学中的应用研究,G633.6
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于球面渲染环境的海洋数据多维动态可视化关键技术研究,TP391.41
- 智能答疑系统中句子相似度计算的研究与应用,TP391.1
- 基于WEB的网络视频客户端软件的设计与实现,TP311.52
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 基于温度场数字重建的建筑群能量传递监测技术研究,TU111
- 电网分析计算中的可视化技术研究,TM769
- 虚拟空间环境构建及红外成像仿真,TP391.9
- 嵌入式系统图形用户界面代码自动生成技术的研究,TP368.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|