学位论文 > 优秀研究生学位论文题录展示
一种新的搜索引擎分词词典的研究
作 者: 蔡蕊
导 师: 赵合计
学 校: 山东大学
专 业: 计算机软件与理论
关键词: 搜索引擎 相关技术 中文分词 逐字二分
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 110次
引 用: 0次
阅 读: 论文下载
内容摘要
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。目前,搜索引擎作为中文信息处理的一个重要范畴,在实际应用中起到了越来越重要的作用。搜索引擎技术的首要也是关键环节就是中文分词。在自然语言中,词是最小的能够独立活动的有意义的语言成分。与西文不同,中文词与词之间没有明显的分割标志,由此,中文分词成为中文信息处理的基础一环。中文分词广泛应用于中文全文信息检索、搜索引擎、自动分类、自动摘要、语音合成、自动校对、机器翻译(MT)等领域。分词方法的性能直接影响到中文信息处理的实时性及准确性。现有的中文分词算法可分为三大类:基于理解、基于字符串匹配和基于统计的分词方法。其中最基本的也是最常用的算法属基于字符串匹配的分词方法,又称机械分词法,也叫基于词典的分词方法,最大匹配法是该方法常用的解决方案。这种算法需要构造一个分词词典。词典的构造与词典查找算法对基于词典的分词算法是相当重要的。现在常用的有三种词典机制,它们分别是基于整词二分算法、TRIE索引树的算法和逐字二分算法的三种不同的分词词典机制。对于基于整词二分的词典结构其数据结构简单、占用空间小,易于维护,但由于采用全词匹配的查询过程,需要多次试探匹配,才能得出最后结果,效率比较低下;基于TRIE索引树的分词算法其数据结构复杂、空间浪费较为严重,树的构造和维护也比较复杂,而它最大的优点在于采用“逐字匹配”的来对词典内词条进行搜索,相对来讲搜索的效率较高;同样采用了逐字匹配方法的还有基于逐字二分的算法,但从本质上来说,并不是完全意义上的逐字匹配。基于对这三种算法的分析,本文提出了一种新的分词算法——带层次的逐字二分算法,既提高效率,又把复杂度控制在一定的限度内,在复杂度和效率之间找到一个有效的平衡点。本文首先简单描述了已有的分词算法、分词词典机制,接着介绍了这种新的词典机制——带层次的逐字二分算法,通过改进词典机制提高最大匹配速度,最后对新的机制和已有的机制进行了比较和实验分析。
|
全文目录
摘要 8-10 ABSTRACT 10-12 第一章 绪论 12-18 1.1 中文分词研究的背景和必要性 12-13 1.1.1 中文分词的来源 12 1.1.2 中文分词的背景和意义 12-13 1.2 中文分词的常用方法和主要指标 13-16 1.2.1 中文分词的常用方法 13-15 1.2.2 中文分词的主要指标 15-16 1.3 研究背景及选题的意义 16-17 1.4 本文的主要内容及结构 17-18 第二章 中文分词的理论知识 18-24 2.1 中文分词技术的发展 18-19 2.2 中文分词技术概述 19-21 2.2.1 利用字符串匹配的算法思想 19-20 2.2.2 利用统计算法思想 20-21 2.2.3 利用理解的算法思想 21 2.3 中文分词的技术难点 21-24 2.3.1 分词规范 21-22 2.3.2 歧义识别 22 2.3.3 未登录词识别 22-24 第三章 带层次的逐字二分算法的设计 24-30 3.1 基于整词二分算法的词典结构 24-25 3.2 基于TRIE树的词典结构 25-26 3.3 基于逐字二分的词典结构 26-28 3.4 基于带层次的逐字二分算法的词典结构 28-30 第四章 带层次的逐字二分算法的实现 30-36 4.1 构造新词典 30-31 4.2 算法描述 31-36 第五章 中文分词系统及评测指标 36-40 5.1 中文分词系统(CWSa)的理论模型 36 5.2 开放分词的评价标准 36-38 5.3 本文算法的运行测试 38-40 5.3.1 运行环境 38 5.3.2 运行结果 38-40 第六章 总结 40-42 参考文献 42-45 致谢 45-46 攻读学位期间发表的学术论文目录 46-47 附录 47-64 学位论文评阅及答辩情况表 64
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 企业邮件监管系统的设计与实现,TP393.098
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 网络下载侵权分析,D923.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|