学位论文 > 优秀研究生学位论文题录展示

一种新的搜索引擎分词词典的研究

作 者: 蔡蕊
导 师: 赵合计
学 校: 山东大学
专 业: 计算机软件与理论
关键词: 搜索引擎 相关技术 中文分词 逐字二分
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 110次
引 用: 0次
阅 读: 论文下载
 

内容摘要


搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。目前,搜索引擎作为中文信息处理的一个重要范畴,在实际应用中起到了越来越重要的作用。搜索引擎技术的首要也是关键环节就是中文分词。在自然语言中,词是最小的能够独立活动的有意义的语言成分。与西文不同,中文词与词之间没有明显的分割标志,由此,中文分词成为中文信息处理的基础一环。中文分词广泛应用于中文全文信息检索、搜索引擎、自动分类、自动摘要、语音合成、自动校对、机器翻译(MT)等领域。分词方法的性能直接影响到中文信息处理的实时性及准确性。现有的中文分词算法可分为三大类:基于理解、基于字符串匹配和基于统计的分词方法。其中最基本的也是最常用的算法属基于字符串匹配的分词方法,又称机械分词法,也叫基于词典的分词方法,最大匹配法是该方法常用的解决方案。这种算法需要构造一个分词词典。词典的构造与词典查找算法对基于词典的分词算法是相当重要的。现在常用的有三种词典机制,它们分别是基于整词二分算法、TRIE索引树的算法和逐字二分算法的三种不同的分词词典机制。对于基于整词二分的词典结构其数据结构简单、占用空间小,易于维护,但由于采用全词匹配的查询过程,需要多次试探匹配,才能得出最后结果,效率比较低下;基于TRIE索引树的分词算法其数据结构复杂、空间浪费较为严重,树的构造和维护也比较复杂,而它最大的优点在于采用“逐字匹配”的来对词典内词条进行搜索,相对来讲搜索的效率较高;同样采用了逐字匹配方法的还有基于逐字二分的算法,但从本质上来说,并不是完全意义上的逐字匹配。基于对这三种算法的分析,本文提出了一种新的分词算法——带层次的逐字二分算法,既提高效率,又把复杂度控制在一定的限度内,在复杂度和效率之间找到一个有效的平衡点。本文首先简单描述了已有的分词算法、分词词典机制,接着介绍了这种新的词典机制——带层次的逐字二分算法,通过改进词典机制提高最大匹配速度,最后对新的机制和已有的机制进行了比较和实验分析。

全文目录


摘要  8-10
ABSTRACT  10-12
第一章 绪论  12-18
  1.1 中文分词研究的背景和必要性  12-13
    1.1.1 中文分词的来源  12
    1.1.2 中文分词的背景和意义  12-13
  1.2 中文分词的常用方法和主要指标  13-16
    1.2.1 中文分词的常用方法  13-15
    1.2.2 中文分词的主要指标  15-16
  1.3 研究背景及选题的意义  16-17
  1.4 本文的主要内容及结构  17-18
第二章 中文分词的理论知识  18-24
  2.1 中文分词技术的发展  18-19
  2.2 中文分词技术概述  19-21
    2.2.1 利用字符串匹配的算法思想  19-20
    2.2.2 利用统计算法思想  20-21
    2.2.3 利用理解的算法思想  21
  2.3 中文分词的技术难点  21-24
    2.3.1 分词规范  21-22
    2.3.2 歧义识别  22
    2.3.3 未登录词识别  22-24
第三章 带层次的逐字二分算法的设计  24-30
  3.1 基于整词二分算法的词典结构  24-25
  3.2 基于TRIE树的词典结构  25-26
  3.3 基于逐字二分的词典结构  26-28
  3.4 基于带层次的逐字二分算法的词典结构  28-30
第四章 带层次的逐字二分算法的实现  30-36
  4.1 构造新词典  30-31
  4.2 算法描述  31-36
第五章 中文分词系统及评测指标  36-40
  5.1 中文分词系统(CWSa)的理论模型  36
  5.2 开放分词的评价标准  36-38
  5.3 本文算法的运行测试  38-40
    5.3.1 运行环境  38
    5.3.2 运行结果  38-40
第六章 总结  40-42
参考文献  42-45
致谢  45-46
攻读学位期间发表的学术论文目录  46-47
附录  47-64
学位论文评阅及答辩情况表  64

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 主观题自动评分技术研究,TP391.1
  7. 分布式搜索引擎索引安全及缓存策略研究,TP333
  8. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  9. 中文XML压缩技术研究,TP311.11
  10. 企业邮件监管系统的设计与实现,TP393.098
  11. 教育培训行业互联网营销问题的研究,F49
  12. 搜索引擎侵权行为研究,D923
  13. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  14. 基于Agent元搜索引擎的个性化研究,TP391.3
  15. 论搜索引擎竞价排名的法律规制,D923.43
  16. 搜索引擎悖论解读,G254
  17. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  18. 基于搜索引擎网页排序算法研究,TP391.3
  19. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  20. 基于词典和概率统计的中文分词算法研究,TP391.1
  21. 网络下载侵权分析,D923.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com