学位论文 > 优秀研究生学位论文题录展示
面向大规模信息检索的中文分词技术研究
作 者: 王思力
导 师: 王斌
学 校: 中国科学院研究生院(计算技术研究所)
专 业: 计算机软件与理论
关键词: 信息检索 中文分词 双数组Trie树 双字耦合度 t-测试差
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 843次
引 用: 8次
阅 读: 论文下载
内容摘要
中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段,也常用到这项技术。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对信息检索应用的分词技术研究相对较少。 本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复杂度是O(n),n为查询词长度。我们的实验显示,无论是单纯的词语查询速度还是最大匹配切分速度,双数组Trie树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。 歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点,在歧义消除部分,对于交叉歧义和覆盖歧义这两类歧义,我们只处理前者,并在歧义位置用双字耦合度和t-测试差的线性迭加值来判断是否切分;对于后者,我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率,同时结合局部二元串频统计对所有命名实体和新词进行统一识别。 实验表明,该分词算法切分速度在CPU3.2G,内存512M的环境下能达到2MB/秒,比当前一些切分精度较高的分词算法如ICTCLAS要快很多;在同样检索系统下,和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比,使用该算法后检索出的前10篇文档的准确率P@10分别提高了9%、11.4%和8.8%,前20篇文档的准确率P@20提高了13.2%、12.7%和7.5%。
|
全文目录
声明 2 论文版权使用授权书 2-3 摘要 3-4 ABSTRACT 4-6 目录 6-9 图目录 9-11 表目录 11-12 第一章 引言 12-20 1.1 研究意义 12-13 1.2 信息检索(Information Retrieval)简介 13-15 1.2.1 文本操作 14 1.2.2 标引和倒排文档 14-15 1.2.3 查询操作 15 1.2.4 排序 15 1.3 中文分词简介及困难 15-17 1.3.1 分词规范 15-16 1.3.2 分词算法的困难 16-17 1.4 相关评测指标 17-18 1.5 本文的贡献 18-19 1.6 论文的组织 19-20 第二章 面向大规模中文信息检索的分词算法 20-35 2.1 前人在分词方面的相关工作 20-25 2.1.1 基于词典和规则的方法 20-22 2.1.2 基于大规模语料库的统计方法 22-24 2.1.3 规则和统计结合的方法 24 2.1.4 基于字的切分法 24-25 2.2 分词和大规模中文信息检索之间的关系探讨 25-32 2.2.1 分词对中文信息检索的影响 25-29 2.2.2 分词精度与检索性能的关系 29-32 2.3 适用于大规模中文信息检索的分词算法 32-34 2.4 本章小结 34-35 第三章 基于双数组Trie树优化算法的词典 35-45 3.1 常用词典算法介绍 35-38 3.2 双数组Trie树(Double-Array Trie)优化算法 38-44 3.2.1 双数组Trie树算法介绍及其优化 38-41 3.2.2 相应的词典算法 41-43 3.2.3 实验结果与分析 43-44 3.3 本章小结 44-45 第四章 歧义消除 45-53 4.1 交叉歧义检测 45-47 4.2 基于双字耦合度和t-测试差的消歧算法 47-52 4.2.1 双字耦合度(Coupling Degree of Double Character,CDDC) 47-49 4.2.2 t-测试差(difference of t-test) 49-51 4.2.3 双字耦合度和t-测试差的结合 51-52 4.3 交叉歧义消除实验结果 52 4.4 本章小结 52-53 第五章 未登录词识别 53-59 5.1 字的位置成词概率 53-55 5.2 局部二元串频统计 55-56 5.3 实验结果 56-57 5.4 本章小结 57-59 第六章 查询扩展层面的覆盖歧义处理 59-64 6.1 查询扩展简介 59-60 6.1.1 基于用户反馈的信息 59 6.1.2 基于用户最初检索出的文档信息 59 6.1.3 利用所有文档集合的信息 59-60 6.2 词典的二次索引 60-62 6.3 基于词典二次索引的查询扩展 62-63 6.4 本章小结 63-64 第七章 实验结果和分析 64-72 7.1 分词性能测试 64-68 7.1.1 评测指标 64-65 7.1.2 测试结果 65-68 7.2 基于IRSEG系统的检索性能测试 68-72 7.2.1 评测指标 68 7.2.2 测试结果 68-72 第八章 结束语 72-73 8.1 本文工作总结 72 8.2 下一步研究方向 72-73 参考文献 73-76 致谢 76-78 作者简历 78
|
相似论文
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于Web的医学文献数据库的设计与实现,TP311.13
- 微机继电保护测试仪软件的研究与设计,TM774
- 中文网页热门主题获取系统的研究与实现,TP393.092
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 中文文本分类方法研究,TP391.1
- 一种新的搜索引擎分词词典的研究,TP391.1
- 统计全切分中文分词系统的研究与实现,TP391.1
- 校园网数字资源搜索引擎的技术研究与实现,TP391.3
- 基于拼音标注的中文分词算法研究,TP391.1
- 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
- 面向企业信息检索的中文分词系统的研究与实现,TP391.1
- 变压器励磁涌流的识别与抑制技术研究,TM407
- 基于语义Web的信息检索系统的研究,TP391.3
- 基于随机游走的网页协同排序算法研究,TP393.092
- 基于Lucene的数据库全文检索研究与应用,TP391.3
- 中文搜索引擎的个性化服务研究,TP391.3
- 基于内容化目录的网络资源搜索研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|