学位论文 > 优秀研究生学位论文题录展示

一种新的搜索引擎分词词典的研究

作　者: 蔡蕊
导　师: 赵合计
学　校: 山东大学
专　业: 计算机软件与理论
关键词: 搜索引擎相关技术中文分词逐字二分
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 110次
引　用: 0次
阅　读: 论文下载

内容摘要

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。目前,搜索引擎作为中文信息处理的一个重要范畴,在实际应用中起到了越来越重要的作用。搜索引擎技术的首要也是关键环节就是中文分词。在自然语言中,词是最小的能够独立活动的有意义的语言成分。与西文不同,中文词与词之间没有明显的分割标志,由此,中文分词成为中文信息处理的基础一环。中文分词广泛应用于中文全文信息检索、搜索引擎、自动分类、自动摘要、语音合成、自动校对、机器翻译(MT)等领域。分词方法的性能直接影响到中文信息处理的实时性及准确性。现有的中文分词算法可分为三大类：基于理解、基于字符串匹配和基于统计的分词方法。其中最基本的也是最常用的算法属基于字符串匹配的分词方法,又称机械分词法,也叫基于词典的分词方法,最大匹配法是该方法常用的解决方案。这种算法需要构造一个分词词典。词典的构造与词典查找算法对基于词典的分词算法是相当重要的。现在常用的有三种词典机制,它们分别是基于整词二分算法、TRIE索引树的算法和逐字二分算法的三种不同的分词词典机制。对于基于整词二分的词典结构其数据结构简单、占用空间小,易于维护,但由于采用全词匹配的查询过程,需要多次试探匹配,才能得出最后结果,效率比较低下；基于TRIE索引树的分词算法其数据结构复杂、空间浪费较为严重,树的构造和维护也比较复杂,而它最大的优点在于采用“逐字匹配”的来对词典内词条进行搜索,相对来讲搜索的效率较高；同样采用了逐字匹配方法的还有基于逐字二分的算法,但从本质上来说,并不是完全意义上的逐字匹配。基于对这三种算法的分析,本文提出了一种新的分词算法——带层次的逐字二分算法,既提高效率,又把复杂度控制在一定的限度内,在复杂度和效率之间找到一个有效的平衡点。本文首先简单描述了已有的分词算法、分词词典机制,接着介绍了这种新的词典机制——带层次的逐字二分算法,通过改进词典机制提高最大匹配速度,最后对新的机制和已有的机制进行了比较和实验分析。

全文目录

摘要  8-10
ABSTRACT  10-12
第一章绪论  12-18
  1.1 中文分词研究的背景和必要性  12-13
    1.1.1 中文分词的来源  12
    1.1.2 中文分词的背景和意义  12-13
  1.2 中文分词的常用方法和主要指标  13-16
    1.2.1 中文分词的常用方法  13-15
    1.2.2 中文分词的主要指标  15-16
  1.3 研究背景及选题的意义  16-17
  1.4 本文的主要内容及结构  17-18
第二章中文分词的理论知识  18-24
  2.1 中文分词技术的发展  18-19
  2.2 中文分词技术概述  19-21
    2.2.1 利用字符串匹配的算法思想  19-20
    2.2.2 利用统计算法思想  20-21
    2.2.3 利用理解的算法思想  21
  2.3 中文分词的技术难点  21-24
    2.3.1 分词规范  21-22
    2.3.2 歧义识别  22
    2.3.3 未登录词识别  22-24
第三章带层次的逐字二分算法的设计  24-30
  3.1 基于整词二分算法的词典结构  24-25
  3.2 基于TRIE树的词典结构  25-26
  3.3 基于逐字二分的词典结构  26-28
  3.4 基于带层次的逐字二分算法的词典结构  28-30
第四章带层次的逐字二分算法的实现  30-36
  4.1 构造新词典  30-31
  4.2 算法描述  31-36
第五章中文分词系统及评测指标  36-40
  5.1 中文分词系统(CWSa)的理论模型  36
  5.2 开放分词的评价标准  36-38
  5.3 本文算法的运行测试  38-40
    5.3.1 运行环境  38
    5.3.2 运行结果  38-40
第六章总结  40-42
参考文献  42-45
致谢  45-46
攻读学位期间发表的学术论文目录  46-47
附录  47-64
学位论文评阅及答辩情况表  64

一种新的搜索引擎分词词典的研究

内容摘要

全文目录

相似论文