学位论文 > 优秀研究生学位论文题录展示
基于指纹检索的文本相似性检测技术研究与应用
作 者: 张帆
导 师: 张祖平
学 校: 中南大学
专 业: 信息与通信工程
关键词: 文本相似性检测 指纹检索 b位minwise哈希 细粒度提取 聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
网络的开放性与文本的易复制性为学术资源的共享提供方便的同时也为抄袭、剽窃等学术不端行为提供了机会。从保护知识产权、端正学术风气等角度出发,文本相似性检测相关技术的研究已成为十分必要的方向。论文以某基金项目申报书相似性检测为应用背景,为了在海量文档中快速、准确地检测出相似的文档,主要研究基于指纹检索的相似性检测系统中所涉及的关键技术如指纹快速检索算法与技术、指纹的提取模型与方法等,具体的研究工作如下:(1)针对海量文本相似性检索中指纹数少导致相似度估值不准确、高维向量距离计算耗时等问题,提出基于指纹分组的并行检索算法,将指纹分组建立索引,预检索低位指纹,从而减少文档的距离计算。同时,通过在指纹的检索过程中使用CPU+GPU并行技术,整体缩短指纹的检索时间,并提高低相似度阈值的检索准确度。(2)针对文档内容结构性、各章节多样性及用户对文档不同部分关注度差异较明显等特点,论文主要研究细粒度划分方法、标记词的模糊匹配、中文分词等技术,实现章节、段落、句子等粗细粒度的精确提取。针对基金项目检测准确性的要求,使用了基于字符串匹配的最大正向匹配算法和最大反向匹配算法相结合的方法确保特征指纹提取的准确率,所形成的指纹能确保后续的检测质量,并能直观、清晰地呈现相似性证据。(3)论文论述了文本相似性检查系统的功能框架与主要流程,对文档聚类、相似性估计及文档相似性详细比对与结果呈现等技术进行了详细分析,结合提出的指纹分组并行检索算法与细粒度文本提取技术进行了实现研究。图20幅,表4个,参考文献56篇。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-14 1.1 课题的研究背景和意义 9-10 1.2 国内外的研究现状 10-11 1.3 研究内容 11-12 1.4 论文的组织结构 12-14 2 文档相似性度量技术分析 14-23 2.1 文档距离计算方法 14-16 2.1.1 文档距离的度量 14-15 2.1.2 度量方法分析 15-16 2.2 minwise哈希估计算法 16-18 2.3 b位minwise哈希估计算法 18-21 2.4 本章小结 21-23 3 基于指纹分组的并行检索算法 23-34 3.1 文档指纹的距离检索 23-25 3.1.1 特征指纹的提取 23-24 3.1.2 海明距离检索问题 24-25 3.2 指纹分组检索算法 25-26 3.3 指纹分组的并行检索 26-31 3.3.1 指纹分组并行检索 26-28 3.3.2 时间复杂度分析 28-29 3.3.3 并行模型 29-31 3.4 实验及结果分析 31-33 3.5 本章小结 33-34 4 文本细粒度提取技术的研究 34-43 4.1 文本细粒度的划分 34-37 4.2 提取文档特征集合 37-41 4.2.1 分词 37-40 4.2.2 去停用词 40 4.2.3 提取shingle特征 40-41 4.3 生成指纹 41-42 4.4 本章小结 42-43 5 文本相似性检测系统应用研究 43-53 5.1 系统框架 43-46 5.1.1 功能框架 43-44 5.1.2 处理流程 44-45 5.1.3 硬件框架 45-46 5.2 文档聚类 46-48 5.3 相似度估计 48-50 5.4 相似文档的详细比对 50-51 5.5 系统实现 51-52 5.6 本章小结 52-53 6 总结与展望 53-55 6.1 工作总结 53-54 6.2 进一步的研究 54-55 参考文献 55-60 攻读学位期间主要的研究成果 60-61 致谢 61
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于图分割的文本提取方法研究,TP391.41
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 基于聚类分析的P2P流量识别算法的研究,TP393.02
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 三十种中成药元素含量分析及基于元素含量的中成药分类研究,R286.0
- 演化聚类算法及其应用研究,TP311.13
- 基于机器视觉的车辆检测和车距测量方法研究,TP274
- 基于运动目标轨迹分析的智能交通监控系统,TP277
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|