学位论文 > 优秀研究生学位论文题录展示
基于编辑距离算法的中文模糊匹配技术在大数据量环境中的应用
作 者: 解天书
导 师: 王时绘
学 校: 湖北大学
专 业: 系统分析与集成
关键词: 分词 编辑距离算法 综合治税 中文模糊匹配
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
编辑距离算法又称Levenshtein距离,是一种将一个复杂的最优解问题分解成一系列较为简单的最优解问题,再将较为简单的的最优解问题进一步分解,直到可以一眼看出最优解为止的方法。编辑距离算法的应用十分广泛,例如DNA分析、拼字检查、语音识别、抄袭侦测、相似度计算等。本文所要详述的就是该算法的相似度计算应用,也就是本文后面会提到的中文模糊匹配应用。本文主要介绍综合治税信息服务平台收集的24家(地税除外)单位的杂乱无章的原始数据整理成规范可用的数据之后,由于采集的24家单位的数据主键不统一中文名称不一致的问题,提出了采用中文模糊匹配技术来将这些不同单位的名称匹配起来,即与地税数据进行比对即计算汉语的相似度,发布比对结果,促进征管,重点可利用其中比对的异常数据,最终将各个单位的数据利用起来达到综合治税的目标,。本文会从以下几个方面来分步介绍此次应用:中文模糊匹配的基础(分词)、核心(编辑距离算法),中文模糊匹配技术在税务系统中的重要应用。起初采用直接的比对方法结果匹配成功率只有10%-20%,采用基于编辑距离算法的中文模糊匹配技术后匹配成功率高达85%以上,效果显著。
|
全文目录
摘要 5-6 Abstract 6-7 目录 7-8 第一章 绪论 8-10 1.1 选题背景 8 1.2 中文相似度的研究现状 8-9 1.3 研究内容及创新之处 9 1.4 本文组织结构 9-10 第二章 中文模糊匹配的基础(分词) 10-12 2.1 分词的基本概念 10 2.2 分词的操作及示例 10-11 2.3 分词的意义 11-12 第三章 中文模糊匹配的核心(编辑距离算法) 12-19 3.1 编辑距离算法简介 12-15 3.1.1 编辑距离的定义 12 3.1.2 编辑距离的性质 12-14 3.1.3 采用编辑距离算法计算相似度 14-15 3.2 简单示例 15-17 3.3 编辑距离算法的优点 17-19 第四章 在综合治税平台数据利用系统中的应用 19-44 4.1 引言 19 4.2 需求分析 19-28 4.2.1 数据比对及处理模块详细功能需求 20-21 4.2.2 比对思路 21-22 4.2.3 数据比对及处理 22-28 4.3 系统设计 28-40 4.3.1 开发及运行环境 28 4.3.2 开发核心技术 28-40 4.4 界面效果 40-42 4.5 后台运行效率分析 42-43 4.6 此中文模糊匹配技术的意义及优点 43-44 第五章 总结与展望 44-45 5.1 总结 44 5.2 展望 44-45 参考文献 45-47 攻读硕士学位期间发表的论文及参与的项目 47-48 致谢 48
|
相似论文
- 基于规则的中文地址分词与匹配方法,P208
- 基于主题分类特征的物业评论情感分析,TP391.1
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- Web数据挖掘技术在网络教育论坛中的应用研究,G434
- 中文XML压缩技术研究,TP311.11
- 基于字词联合解码的中文分词研究,TP391.1
- 中文分词算法在GIS中的应用研究,TP391.3
- 宁波市数字图书馆若干关键技术的研究与应用,G250.76
- 基于掌上设备的搜索引擎技术的研究,TP391.3
- 石家庄市社会综合治税存在的问题及完善思路,F812.42
- 优化邢台市高开区地方税务局税源管理的对策建议,F812.42
- 基于Lucene的企业文档搜索引擎研究与应用,TP391.3
- 综合治税管理信息系统的分析与设计,TP311.52
- 扬州市综合治税平台的构建,F812.42
- 教学资源搜索平台——SiseNutch,TP311.52
- 政府综合治税工作存在的问题及其对策,F812.42
- 电子商务环境下Y快递企业入库流程优化研究,F259.2
- 基于生成性词库分词技术的汉语拼音自动转换研究,H08
- 基于关键词的Web文档自动分类算法研究,TP391.1
- 现代汉语自动分词研究及几个算法的实现,TP391.1
- 基于本体的专题性搜索引擎的研究与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|