学位论文 > 优秀研究生学位论文题录展示

面向大规模信息检索的中文分词技术研究

作　者: 王思力
导　师: 王斌
学　校: 中国科学院研究生院（计算技术研究所）
专　业: 计算机软件与理论
关键词: 信息检索中文分词双数组Trie树双字耦合度 t-测试差
分类号: TP391.3
类　型: 硕士论文
年　份: 2006年
下　载: 843次
引　用: 8次
阅　读: 论文下载

内容摘要

中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段，也常用到这项技术。学术界关于分词技术的研究一直比较多，但是目前的研究大多是通用的分词算法，专门针对信息检索应用的分词技术研究相对较少。本文首先介绍了中文分词的难点，以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响，在此基础上系统地提出了适用于信息检索应用的分词技术的特点，并且根据这些特点给出我们自己的分词算法。由于面向大规模信息检索的分词算法对时间性能要求较高，我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加，时间复杂度是O(n)，n为查询词长度。我们的实验显示，无论是单纯的词语查询速度还是最大匹配切分速度，双数组Trie树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点，在歧义消除部分，对于交叉歧义和覆盖歧义这两类歧义，我们只处理前者，并在歧义位置用双字耦合度和t-测试差的线性迭加值来判断是否切分；对于后者，我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率，同时结合局部二元串频统计对所有命名实体和新词进行统一识别。实验表明，该分词算法切分速度在CPU3.2G，内存512M的环境下能达到2MB／秒，比当前一些切分精度较高的分词算法如ICTCLAS要快很多；在同样检索系统下，和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比，使用该算法后检索出的前10篇文档的准确率P@10分别提高了9％、11.4％和8.8％，前20篇文档的准确率P@20提高了13.2％、12.7％和7.5％。

全文目录

声明  2
论文版权使用授权书  2-3
摘要  3-4
ABSTRACT  4-6
目录  6-9
图目录  9-11
表目录  11-12
第一章引言  12-20
  1.1 研究意义  12-13
  1.2 信息检索(Information Retrieval)简介  13-15
    1.2.1 文本操作  14
    1.2.2 标引和倒排文档  14-15
    1.2.3 查询操作  15
    1.2.4 排序  15
  1.3 中文分词简介及困难  15-17
    1.3.1 分词规范  15-16
    1.3.2 分词算法的困难  16-17
  1.4 相关评测指标  17-18
  1.5 本文的贡献  18-19
  1.6 论文的组织  19-20
第二章面向大规模中文信息检索的分词算法  20-35
  2.1 前人在分词方面的相关工作  20-25
    2.1.1 基于词典和规则的方法  20-22
    2.1.2 基于大规模语料库的统计方法  22-24
    2.1.3 规则和统计结合的方法  24
    2.1.4 基于字的切分法  24-25
  2.2 分词和大规模中文信息检索之间的关系探讨  25-32
    2.2.1 分词对中文信息检索的影响  25-29
    2.2.2 分词精度与检索性能的关系  29-32
  2.3 适用于大规模中文信息检索的分词算法  32-34
  2.4 本章小结  34-35
第三章基于双数组Trie树优化算法的词典  35-45
  3.1 常用词典算法介绍  35-38
  3.2 双数组Trie树(Double-Array Trie)优化算法  38-44
    3.2.1 双数组Trie树算法介绍及其优化  38-41
    3.2.2 相应的词典算法  41-43
    3.2.3 实验结果与分析  43-44
  3.3 本章小结  44-45
第四章歧义消除  45-53
  4.1 交叉歧义检测  45-47
  4.2 基于双字耦合度和t-测试差的消歧算法  47-52
    4.2.1 双字耦合度(Coupling Degree of Double Character，CDDC)  47-49
    4.2.2 t-测试差(difference of t-test)  49-51
    4.2.3 双字耦合度和t-测试差的结合  51-52
  4.3 交叉歧义消除实验结果  52
  4.4 本章小结  52-53
第五章未登录词识别  53-59
  5.1 字的位置成词概率  53-55
  5.2 局部二元串频统计  55-56
  5.3 实验结果  56-57
  5.4 本章小结  57-59
第六章查询扩展层面的覆盖歧义处理  59-64
  6.1 查询扩展简介  59-60
    6.1.1 基于用户反馈的信息  59
    6.1.2 基于用户最初检索出的文档信息  59
    6.1.3 利用所有文档集合的信息  59-60
  6.2 词典的二次索引  60-62
  6.3 基于词典二次索引的查询扩展  62-63
  6.4 本章小结  63-64
第七章实验结果和分析  64-72
  7.1 分词性能测试  64-68
    7.1.1 评测指标  64-65
    7.1.2 测试结果  65-68
  7.2 基于IRSEG系统的检索性能测试  68-72
    7.2.1 评测指标  68
    7.2.2 测试结果  68-72
第八章结束语  72-73
  8.1 本文工作总结  72
  8.2 下一步研究方向  72-73
参考文献  73-76
致谢  76-78
作者简历  78

面向大规模信息检索的中文分词技术研究

内容摘要

全文目录

相似论文