学位论文 > 优秀研究生学位论文题录展示

基于编辑距离算法的中文模糊匹配技术在大数据量环境中的应用

作　者: 解天书
导　师: 王时绘
学　校: 湖北大学
专　业: 系统分析与集成
关键词: 分词编辑距离算法综合治税中文模糊匹配
分类号: TP391.1
类　型: 硕士论文
年　份: 2013年
下　载: 27次
引　用: 0次
阅　读: 论文下载

内容摘要

编辑距离算法又称Levenshtein距离,是一种将一个复杂的最优解问题分解成一系列较为简单的最优解问题,再将较为简单的的最优解问题进一步分解,直到可以一眼看出最优解为止的方法。编辑距离算法的应用十分广泛,例如DNA分析、拼字检查、语音识别、抄袭侦测、相似度计算等。本文所要详述的就是该算法的相似度计算应用,也就是本文后面会提到的中文模糊匹配应用。本文主要介绍综合治税信息服务平台收集的24家(地税除外)单位的杂乱无章的原始数据整理成规范可用的数据之后,由于采集的24家单位的数据主键不统一中文名称不一致的问题,提出了采用中文模糊匹配技术来将这些不同单位的名称匹配起来,即与地税数据进行比对即计算汉语的相似度,发布比对结果,促进征管,重点可利用其中比对的异常数据,最终将各个单位的数据利用起来达到综合治税的目标,。本文会从以下几个方面来分步介绍此次应用：中文模糊匹配的基础(分词)、核心(编辑距离算法),中文模糊匹配技术在税务系统中的重要应用。起初采用直接的比对方法结果匹配成功率只有10%-20%,采用基于编辑距离算法的中文模糊匹配技术后匹配成功率高达85%以上,效果显著。

全文目录

摘要  5-6
Abstract  6-7
目录  7-8
第一章绪论  8-10
  1.1 选题背景  8
  1.2 中文相似度的研究现状  8-9
  1.3 研究内容及创新之处  9
  1.4 本文组织结构  9-10
第二章中文模糊匹配的基础(分词)  10-12
  2.1 分词的基本概念  10
  2.2 分词的操作及示例  10-11
  2.3 分词的意义  11-12
第三章中文模糊匹配的核心(编辑距离算法)  12-19
  3.1 编辑距离算法简介  12-15
    3.1.1 编辑距离的定义  12
    3.1.2 编辑距离的性质  12-14
    3.1.3 采用编辑距离算法计算相似度  14-15
  3.2 简单示例  15-17
  3.3 编辑距离算法的优点  17-19
第四章在综合治税平台数据利用系统中的应用  19-44
  4.1 引言  19
  4.2 需求分析  19-28
    4.2.1 数据比对及处理模块详细功能需求  20-21
    4.2.2 比对思路  21-22
    4.2.3 数据比对及处理  22-28
  4.3 系统设计  28-40
    4.3.1 开发及运行环境  28
    4.3.2 开发核心技术  28-40
  4.4 界面效果  40-42
  4.5 后台运行效率分析  42-43
  4.6 此中文模糊匹配技术的意义及优点  43-44
第五章总结与展望  44-45
  5.1 总结  44
  5.2 展望  44-45
参考文献  45-47
攻读硕士学位期间发表的论文及参与的项目  47-48
致谢  48

基于编辑距离算法的中文模糊匹配技术在大数据量环境中的应用

内容摘要

全文目录

相似论文