学位论文 > 优秀研究生学位论文题录展示
无字库智能造字系统研究及优化
作 者: 鄢琦
导 师: 皮佑国
学 校: 华南理工大学
专 业: 模式识别与智能系统
关键词: 智能造字 基元 回归曲线拟合 信息熵 专家系统 数据挖掘
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
汉字字库长期以来作为中文信息化处理的基本单元,并不能反映汉字的认知规律,提笔忘字现象的经常出现十分不利于汉字文化的传承。同时,其信息熵高也阻碍了中文信息化的发展。而且随着汉字字库的规模扩大,也无法建立长期稳定和规模合理的字库标准。针对汉字字库的种种弊端,诞生了无字库中文信息处理技术,通过基础部件遵照汉字构成规律来组字。但是目前绝大多数无字库技术仅仅停留在研究阶段,并未得到真正的应用。基于认知机理的无字库智能造字平台通过专家系统方式实现,率先进入试用阶段,为无字库的应用提供了契机。本文从基于认知机理的无字库智能造字理论出发,综合汉字基元库的相关知识,通过预测基元库的规模趋势和计算基元组字方式下的信息熵值,来评价试用阶段的无字库智能造字系统的应用价值。同时运用先进的数据挖掘技术对实现这一智能平台的专家造字系统知识库进行改进,以达到优化智能造字系统的目的。基于以上动机,本文主要工作内容如下:(1)就该汉字基元库进行基元统计分析与预测,运用回归分析得到拟合模型方程,运用该方程拟合出基元库中基元数量随着汉字数量增加的变化规律曲线,从而预测出可收集的全部十万汉字时的基元数量,证明了在十万汉字情况下,基元数量在现有基础上增加不多,基元库可以保持长期稳定。(2)分析信息熵原理,得到可以通过降低信源符号数量达到降熵的目的,并且通过计算比较汉字字库作为信源符号集合时以及基元库作为信源符号集合时两者的信息熵,证明了运用基元进行中文信息处理确实大幅度降低了信息熵值,其应用价值较之汉字字库显著提高。(3)从智能造字专家系统出发,分析其知识库构建方法,然后利用数据挖掘的关联规则方法分析知识分层树,进而得出基元组字的可定规则,以面向对象的表示方法融合到基元信息处理的造字专家知识库中,从而优化智能造字专家系统。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-18 1.1 研究背景 10-15 1.1.1 无字库智能造字的发展 10-12 1.1.2 信息熵概述 12-13 1.1.3 数据挖掘技术的发展 13-14 1.1.4 专家系统及其发展 14-15 1.2 课题的提出 15-16 1.3 本文的目的和意义 16 1.4 本文工作及结构安排 16-18 第二章 智能造字系统及汉字基元理论 18-30 2.1 引言 18 2.2 无字库智能造字系统 18-22 2.2.1 无字库智能造字机理 18-21 2.2.2 无字库智能造字的专家系统 21-22 2.3 汉字基元简介 22-29 2.3.1 汉字基元的提取原则和方案 25-27 2.3.2 汉字基元库特征参数分析 27-29 2.4 本章小结 29-30 第三章 汉字基元库规模预测 30-38 3.1 引言 30-31 3.2 理论预测汉字基元库规模 31 3.3 无字库智能造字实验数据统计 31-34 3.4 回归分析建立基元统计模型 34-36 3.5 10 万字时基元库规模预测 36 3.6 本章小结 36-38 第四章 无字库智能造字系统中信息熵的研究 38-53 4.1 引言 38 4.2 文字信息处理中信息熵理论 38-41 4.2.1 信息熵定义和性质 38-39 4.2.2 最大离散熵 39-40 4.2.3 零阶熵、条件熵和极限熵 40-41 4.3 文字信息熵 41-46 4.3.1 拼音文字信息熵 41-43 4.3.2 中文信息熵 43-46 4.4 利用基元信息智能造字的信息熵研究 46-51 4.4.1 智能造字系统中基元信息熵计算 46-47 4.4.2 实验流程和结果 47-51 4.5 本章小结 51-53 第五章 数据挖掘技术在基元信息处理专家系统中的应用 53-65 5.1 引言 53 5.2 数据挖掘简介 53-56 5.2.1 数据挖掘的基本原理 53-54 5.2.2 数据挖掘之关联分析规则 54-56 5.3 数据挖掘在基元信息处理专家系统中的应用 56-64 5.3.1 传统智能造字专家系统知识库的构建 56-57 5.3.2 基于关联分析的专家系统知识库构建 57-64 5.4 本章小结 64-65 结论和展望 65-66 主要研究成果 65 工作展望 65-66 参考文献 66-69 攻读硕士学位期间取得的研究成果 69-70 致谢 70-71 附件 71
|
相似论文
- 基于信息熵的课堂观察量化评价模型研究,G632.4
- 基于数据挖掘技术的保健品营销研究,F426.72
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 我国进境植物检疫专家系统开发,S41-30
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 数据挖掘在高职院校学生成绩分析中的应用,TP311.13
- 基于模糊神经网络的设备故障诊断专家系统,TP183
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 混凝土泵液压系统故障诊断方法研究,TU646
- 自适应学习环境中学习行为与学习水平关联模型的研究,G434
- 多源影像融合技术研究,TP391.41
- 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
- 隐私保护线性规划和支持向量机新算法,O221.1
- 基于智能计算的网络学习评价模型研究与系统设计,TP18
- 基于信息熵的聚类个数确定方法研究,TP311.13
- 社会保障体系中医疗保险的数据挖掘与联机分析研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|