学位论文 > 优秀研究生学位论文题录展示

面向大规模信息检索的中文分词技术研究

作 者: 王思力
导 师: 王斌
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机软件与理论
关键词: 信息检索 中文分词 双数组Trie树 双字耦合度 t-测试差
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 843次
引 用: 8次
阅 读: 论文下载
 

内容摘要


中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段,也常用到这项技术。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对信息检索应用的分词技术研究相对较少。 本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复杂度是O(n),n为查询词长度。我们的实验显示,无论是单纯的词语查询速度还是最大匹配切分速度,双数组Trie树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。 歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点,在歧义消除部分,对于交叉歧义和覆盖歧义这两类歧义,我们只处理前者,并在歧义位置用双字耦合度和t-测试差的线性迭加值来判断是否切分;对于后者,我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率,同时结合局部二元串频统计对所有命名实体和新词进行统一识别。 实验表明,该分词算法切分速度在CPU3.2G,内存512M的环境下能达到2MB/秒,比当前一些切分精度较高的分词算法如ICTCLAS要快很多;在同样检索系统下,和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比,使用该算法后检索出的前10篇文档的准确率P@10分别提高了9%、11.4%和8.8%,前20篇文档的准确率P@20提高了13.2%、12.7%和7.5%。

全文目录


声明  2
论文版权使用授权书  2-3
摘要  3-4
ABSTRACT  4-6
目录  6-9
图目录  9-11
表目录  11-12
第一章 引言  12-20
  1.1 研究意义  12-13
  1.2 信息检索(Information Retrieval)简介  13-15
    1.2.1 文本操作  14
    1.2.2 标引和倒排文档  14-15
    1.2.3 查询操作  15
    1.2.4 排序  15
  1.3 中文分词简介及困难  15-17
    1.3.1 分词规范  15-16
    1.3.2 分词算法的困难  16-17
  1.4 相关评测指标  17-18
  1.5 本文的贡献  18-19
  1.6 论文的组织  19-20
第二章 面向大规模中文信息检索的分词算法  20-35
  2.1 前人在分词方面的相关工作  20-25
    2.1.1 基于词典和规则的方法  20-22
    2.1.2 基于大规模语料库的统计方法  22-24
    2.1.3 规则和统计结合的方法  24
    2.1.4 基于字的切分法  24-25
  2.2 分词和大规模中文信息检索之间的关系探讨  25-32
    2.2.1 分词对中文信息检索的影响  25-29
    2.2.2 分词精度与检索性能的关系  29-32
  2.3 适用于大规模中文信息检索的分词算法  32-34
  2.4 本章小结  34-35
第三章 基于双数组Trie树优化算法的词典  35-45
  3.1 常用词典算法介绍  35-38
  3.2 双数组Trie树(Double-Array Trie)优化算法  38-44
    3.2.1 双数组Trie树算法介绍及其优化  38-41
    3.2.2 相应的词典算法  41-43
    3.2.3 实验结果与分析  43-44
  3.3 本章小结  44-45
第四章 歧义消除  45-53
  4.1 交叉歧义检测  45-47
  4.2 基于双字耦合度和t-测试差的消歧算法  47-52
    4.2.1 双字耦合度(Coupling Degree of Double Character,CDDC)  47-49
    4.2.2 t-测试差(difference of t-test)  49-51
    4.2.3 双字耦合度和t-测试差的结合  51-52
  4.3 交叉歧义消除实验结果  52
  4.4 本章小结  52-53
第五章 未登录词识别  53-59
  5.1 字的位置成词概率  53-55
  5.2 局部二元串频统计  55-56
  5.3 实验结果  56-57
  5.4 本章小结  57-59
第六章 查询扩展层面的覆盖歧义处理  59-64
  6.1 查询扩展简介  59-60
    6.1.1 基于用户反馈的信息  59
    6.1.2 基于用户最初检索出的文档信息  59
    6.1.3 利用所有文档集合的信息  59-60
  6.2 词典的二次索引  60-62
  6.3 基于词典二次索引的查询扩展  62-63
  6.4 本章小结  63-64
第七章 实验结果和分析  64-72
  7.1 分词性能测试  64-68
    7.1.1 评测指标  64-65
    7.1.2 测试结果  65-68
  7.2 基于IRSEG系统的检索性能测试  68-72
    7.2.1 评测指标  68
    7.2.2 测试结果  68-72
第八章 结束语  72-73
  8.1 本文工作总结  72
  8.2 下一步研究方向  72-73
参考文献  73-76
致谢  76-78
作者简历  78

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  3. 主观题自动评分技术研究,TP391.1
  4. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  5. 基于Web的医学文献数据库的设计与实现,TP311.13
  6. 微机继电保护测试仪软件的研究与设计,TM774
  7. 中文网页热门主题获取系统的研究与实现,TP393.092
  8. SOM算法的改进及其在中文文本聚类的应用,TP391.1
  9. 中文文本分类方法研究,TP391.1
  10. 一种新的搜索引擎分词词典的研究,TP391.1
  11. 统计全切分中文分词系统的研究与实现,TP391.1
  12. 校园网数字资源搜索引擎的技术研究与实现,TP391.3
  13. 基于拼音标注的中文分词算法研究,TP391.1
  14. 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
  15. 面向企业信息检索的中文分词系统的研究与实现,TP391.1
  16. 变压器励磁涌流的识别与抑制技术研究,TM407
  17. 基于语义Web的信息检索系统的研究,TP391.3
  18. 基于随机游走的网页协同排序算法研究,TP393.092
  19. 基于Lucene的数据库全文检索研究与应用,TP391.3
  20. 中文搜索引擎的个性化服务研究,TP391.3
  21. 基于内容化目录的网络资源搜索研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com