学位论文 > 优秀研究生学位论文题录展示
基于特殊标志符的中文分词算法研究
作 者: 李腊腊
导 师: 钮焱
学 校: 湖北工业大学
专 业: 计算机应用技术
关键词: 中文分词 分词算法 特殊标识符 词表
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 68次
引 用: 2次
阅 读: 论文下载
内容摘要
中文信息处理是一个繁琐而庞大的信息处理工程,中文分词的处理则是整个工程当中的一个基础且重要的环节。计算机对汉语的理解,首先要对句子能够进行有效而正确的识别,要正确的理解一句话,则要进行正确而恰当的分词,在词的基础上来理解语句。然而,在对比中文和英文时了解到,英文句子的组成是以词为单位,并用空格来隔开相邻的单词;而中文却是以字为单位,由字连成句子来表达一个完整的意思。计算机可以很容易地理解一个英文单词,从而相应的做出判断;而对由单个字组成的中文句子则须先通过中文分词技术,将整句划分为单个词才能理解。因此,中文分词的过程就是用一定的分词规则将整句划分为分散的字或词的过程。本文主要对中文分词技术进行了以下几个方面的研究。首先,简要介绍了本课题的研究背景,本课题的主要研究内容和研究意义;明确研究的方向才能继续下一步的研究工作。介绍了中文分词及相关技术在国内外的发展现状,列举了一些典型的分词算法和分词系统,定义了中文分词的基本概念,为后来的深入学习研究提供前期可借鉴的经验基础。其次,在对前人提出的研究成果基础之上进行深入分析,比较现有的分词技术和分词系统各自的优点和缺点,并指出了中文分词所面临的难点;结合对以上的分析作者提出了一种基于特殊标志符的分词方法。在对汉语词性的分析和研究基础上,根据汉字在汉语中的词性表现,通过大量的文献参照,总结并提出了汉语特殊标志符集,为本文下一步进行的分词方法的研究和实现奠定基础。再者,对现有的分词词表结构进行分析比对,理解各种分词词典机制的优缺点,并结合中文字词的一些表象特性,作者提出了一种改进的以二字词为词根的中文词表结构,并对该词表结果做了详细的结构解释和说明,对比其在结构上的分词优势。最后,作者将特殊标志符集与改进的新词典结构相结合,在实验室环境下对本文的分词方法进行测试,使用SOUGOU训练语料库中的实验文本分别在本课题分词系统中和其他分词系统中进行分词实验,通过人工对本课题的研究成果进行准确度和分词速度的测试上的比对。最后对本课题进行了总结,也对本课题未来的研究方向作了展望。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-10 第1章 绪论 10-20 1.1 研究背景 10-11 1.2 本课题的研究意义及研究内容 11-12 1.2.1 本课题的研究意义 11-12 1.2.2 本课题的研究内容 12 1.3 中文分词的发展现状 12-18 1.3.1 中文分词的概念 12-13 1.3.2 现有的中文分词算法 13-15 1.3.3 现有的中文分词系统 15-17 1.3.4 中文分词研究所面临的困境 17-18 1.4 全组织文结构 18-19 1.5 本章小结 19-20 第2章 特殊标志符集 20-31 2.1 特殊标志符的提出 20-23 2.2 特殊标志符的概念 23 2.3 特殊标志符集 23-30 2.4 本章小结 30-31 第3章 二字词根结构的词典设计 31-42 3.1 设计词典的意义 31 3.2 常用的分词词典结构分析 31-36 3.2.1 常用的词典查询方式 31-32 3.2.2 传统的分词词典机制 32-35 3.2.3 几种新的词典机制 35-36 3.3 二字词根词表结构的提出 36-39 3.4 与单字词根词表结构的对比 39-40 3.5 本章小结 40-42 第4章 基于特殊标志符的分词方法设计 42-56 4.1 基于特殊标志符分词方法的提出 42-44 4.2 基于特殊标志符的分词算法流程 44-46 4.3 基于特殊标志符的分词方法的实现 46-49 4.4 试验结果比对分析 49-54 4.5 基于特殊标志符的中文分词算法的应用领域 54 4.6 本章小结 54-56 第5章 总结与展望 56-58 5.1 全文总结 56 5.2 下一步工作 56-57 5.3 本章小结 57-58 参考文献 58-61 致谢 61-62 附录 62
|
相似论文
- Delicious中文标签与汉语主题词表的结合研究,G254.2
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 企业邮件监管系统的设计与实现,TP393.098
- 麻城方言调查报告,H17
- 知识文档的语义检索方法研究与实现,TP391.3
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 儿化词的对外汉语教学研究,H195
- 对外汉语教材生词表英语译释问题研究,H195
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 中文网页热门主题获取系统的研究与实现,TP393.092
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 中文文本分类方法研究,TP391.1
- 一种新的搜索引擎分词词典的研究,TP391.1
- 统计全切分中文分词系统的研究与实现,TP391.1
- 校园网数字资源搜索引擎的技术研究与实现,TP391.3
- 基于拼音标注的中文分词算法研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|