学位论文 > 优秀研究生学位论文题录展示
基于HMM的单字估价值的中文自动分词研究
作 者: 李艳秋
导 师: 李成城
学 校: 内蒙古师范大学
专 业: 计算机应用技术
关键词: 中文自动分词 HMM Viterbi算法 单字估价值 机器学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 80次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机应用领域的日益广泛以及信息处理技术水平的不断提高,自然语言信息处理技术一直倍受关注,如何提高计算机对自然语言的理解对计算机技术的发展有着非常重要的意义。由于中文自动分词是文本校对、信息检索、语音识别、文本挖掘、机器翻译等研究的前提和基础,所以中文自动分词已经成为自然语言信息处理技术的基础及核心工作。由于汉语句子构成的多变性和复杂性,中文自动分词已经是中文信息自动处理的“瓶颈”。中文文字的处理与西文文字的处理相比,一个明显的不同,就是汉语词与词之间没有明显的分隔标记。因此中文信息处理的首要问题,就是要将句子中一个个词给分离出来,这就是中文分词问题。本课题研究的主要内容,关键技术及创新点主要有以下几个方面:首先,本课题研究从单字在词中构词位置的角度进行思考,从而把分词过程视为单字在词中构词位置问题。基于大规模语料进行统计,统计出单字在词中各个位置的概率,形成单字估价值字典,为分词奠定基础。这种处理方法也是本课题研究的创新思想之一。由于汉语中词中字的个数主要集中四字词以内,五字以上的词相对较少,所以本项研究主要针对四字以内词中字的位置进行统计单字估价值。其次,隐马尔科夫模型的基本理论中要解决三个基本问题,其中第二问题是解码问题,把解码问题转化为分词问题。解决解码问题的Viterbi算法能够找到最佳解,其思想精髓在于将全局最佳解的计算过程分解为阶段最佳解的计算。利用单字估价值字典对待切分句子中各字按Viterbi思想进行估价,然后回溯切分,这样做的一个重要优势在于,它能够平衡地看待词表词和未登录词的识别问题。从而能更好的解决未登录词问题和大部分歧义问题。这是本课题研究创新思想之二。最后,隐马尔科夫模型要解决的第三个问题就是学习问题,根据初步切分的结果进行分析,对错误切分结果进行规模性机器学习。学习字在词中的位置特征,把初始统计的单字估价值作为初始切分参数,然后建立调整参数模型,使计算机反复学习调整,优化单字估价值字典中估价值参数,调整后再进行切分。机器学习优化单字估价值参数这一思想是本课题研究创新思想之三。目前,对于分词这一领域很难统一标准。近年来也出现了许多准确率很高的分词软件,但未登录词问题和歧义问题始终制约分词,本课题研究主要从更好的解决登录词问题和歧义问题入手研究,以便更好更准确的进行分词。
|
全文目录
中文摘要 4-6 ABSTRACT 6-12 第一章 绪论 12-20 1.1 研究背景和选题意义 12-13 1.2 国内外分词研究现状 13-16 1.2.1 海量科技的分词产品 14-15 1.2.2 中科院计算所汉语词法分析系统ICTCLAS 15 1.2.3 CSW 中文智慧分词组件 15-16 1.3 中文分词研究的重点和难点 16-18 1.3.1 中文自动分词研究的重点 16-17 1.3.2 中文自动分词研究的难点 17-18 1.4 本项研究的内容及创新点 18-19 1.5 论文的组织结构 19-20 第二章 基于语料库的相关工作 20-26 2.1 计算机及软件工具环境 20 2.2 语料库 20 2.3 语料库预处理相关工作及单字估价值字典的生成 20-25 2.3.1 单字估价值字典生成步骤 20-23 2.3.2 单字估价值字典生成涉及的关键数据结构 23-24 2.3.3 程序代码相关定义 24-25 2.4 本章小结 25-26 第三章 基于HMM 初步自动分词的设计与实现 26-36 3.1 概述 26 3.2 隐马尔科夫模型 26-28 3.2.1 隐马尔科夫模型-定义 26 3.2.2 隐马尔科夫模型-问题 26 3.2.3 隐马尔科夫模型-例子 26-28 3.3 Viterbi 算法描述 28-29 3.4 基于 Viterbi 算法初步自动分词设计思想 29-33 3.4.1 设计思想分析 29-31 3.4.2 Viterbi 算法实句分析 31-32 3.4.3 分词各模块的构建 32-33 3.5 实验结果及分析 33-35 3.6 本章小结 35-36 第四章 基于机器学习的估价值参数优化 36-46 4.1 概述 36-37 4.1.1 机器学习的基本概念 36 4.1.2 机器学习的基本结构 36-37 4.2 基于机器学习的估计值参数优化设计与实现 37-43 4.2.1 估价值优化的设计思想 37-38 4.2.2 估价值优化的准备工作 38-41 4.2.3 算法设计分析 41-43 4.3 实验结果及分析 43-45 4.4 本章小结 45-46 第五章 总结及展望 46-48 5.1 本课题研究工作的总结 46 5.2 进一步研究工作的展望 46-48 参考文献 48-49 攻读硕士学位期间发表的学术论文 49-50 附录一 分词部分核心代码 50-54 附录二 机器学习估价值优化部分代码 54-61 致谢 61
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 大鼠皮层神经细胞膜离子通道电流测量与重构,Q42
- 基于数据分布特征的文本分类研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
- 随机森林特征选择,TP311.13
- 复杂环境下语音增强方法研究,TN912.35
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|