学位论文 > 优秀研究生学位论文题录展示

基于正向最大匹配算法的优化算法ImpFMMseg的实现

作 者: 刘冰凌
导 师: 汪红
学 校: 中南民族大学
专 业: 计算机应用技术
关键词: 中文自动分词 自然语言处理 正向最大匹配法 ImpFMMseg
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 58次
引 用: 0次
阅 读: 论文下载
 

内容摘要


由于来自于网络的信息具备信息量大、信息来源复杂等特点,人们在查找自己需要的信息时,已经习惯使用搜索引擎作为信息筛选的工具。传统的主要查询模式有目录查询、关键词查询等,这些模式的应用在一定程度上简化了查询过程,即便如此,它们仍然存在各自的局限性。近年来,自然语言理解领域的中外专家们一直致力于将自然语言理解技术与搜索技术更好地结合。与传统查询模式相比,自然语言查询模式的优势在于它的人性化和以保证查询效率为前提的准确率。汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中最基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位逐词输出,为紧随其后的加工处理提供先决条件。可见,中文自动分词是自然语言处理的第一个步骤,其重要性勿庸置疑。在本文的四个章节中,笔者研究了中文自动分词的背景、发展现状及课题意义,分析了中文自动分词的三种常用算法并比较了它们的优劣,简要介绍了常用的几种汉字编码规范,最后对基于字符串匹配的分词算法中的正向最大匹配法给出了一种改进算法ImpFMMseg,该算法采用Trie树对词典的索引结构进行改进,同时增加了四条歧义消解规则,有效地将分词准确率和召回率分别提高了3个多百分点,并对比了分别应用四条歧义消解规则的分词效果。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-15
  1.1 研究背景及意义  10-11
  1.2 中文自动分词的发展概况  11-12
  1.3 中文自动分词技术的发展前景  12-13
  1.4 本文的研究内容和组织结构  13-15
    1.4.1 研究内容  13
    1.4.2 组织结构  13-15
第2章 中文自动分词  15-22
  2.1 中文自动分词系统的框架  15
  2.2 中文自动分词算法  15-20
    2.2.1 基于字符串匹配的分词算法  16-20
    2.2.2 基于统计的分词方法  20
    2.2.3 基于理解的分词方法  20
  2.3 自动分词存在的难题  20-22
    2.3.1 通用词表和切分规范  21
    2.3.2 歧义切分问题  21
    2.3.3 未登录词识别  21-22
第3章 常用汉字编码规范简介  22-25
  3.1 G82312  22
  3.2 GBK  22-23
  3.3 GBK2K  23
  3.4 BIG5  23-25
第4章 基于FMM的自动分词优化算法  25-38
  4.1 正向最大匹配法分词算法(FMM)的缺陷  25-26
    4.1.1 长度限制  25
    4.1.2 效率低  25
    4.1.3 掩盖分词歧义  25-26
  4.2 基于FMM 的优化算法ImpFMMseg 的实现  26-38
    4.2.1 算法设计分析  26
    4.2.2 算法设计实现  26-33
    4.2.3 实验结果  33-38
总结与展望  38-40
参考文献  40-43
致谢  43-44
附录 A 攻读学位期间所发表的学术论文  44

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 筛选规则智能化生成的研究与设计,TP393.08
  3. 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
  4. 城市地名地址匹配方法研究与实验,P208
  5. 基于HMM的单字估价值的中文自动分词研究,TP391.1
  6. 中文分词系统的设计和实现,TP391.1
  7. 中文自动分词及人名识别技术研究,TP391.1
  8. 基于HowNet多特征结合的句子相似度计算,TP391.1
  9. 语音合成系统中自动分词技术的研究,TP391.1
  10. 改进的中文分词算法在自动答疑系统中的应用研究,TP391.1
  11. 中文自动分词关键技术研究与实现,TP391.1
  12. 智能答疑系统的设计,TP311.52
  13. 基于语义分析树核的句子相似度计算,TP391.1
  14. 基于学习的九宫问题求解方法及其应用研究,TP391.1
  15. 面向远程教育的智能答疑系统的研究与实现,TP311.52
  16. 基于分词技术的智能答疑系统,TP319
  17. 一种新的并发分词算法的研究与实现,TP391.1
  18. 汉语句子相似度计算方法及其应用的研究,TP391.1
  19. 汉韩语言比较及基于规则的汉韩机器翻译系统研究,H085.5
  20. 关系词“是”和“be”的伪歧义分析及判别,H085

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com