学位论文 > 优秀研究生学位论文题录展示
校园网搜索引擎核心技术—中文自动分词
作 者: 马志强
导 师: 周长胜
学 校: 北京机械工业学院
专 业: 计算机应用技术
关键词: 校园网搜索引擎 中文分词 词典机制 最大匹配分词算法
分类号: TP391.3
类 型: 硕士论文
年 份: 2006年
下 载: 200次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术和网络技术的不断发展,校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加,以及信息的分布存储,给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用,造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理,然后供用户查询的系统,它包括信息搜集,中文分词,索引和检索四个部分。本课题是校园网搜索引擎课题的一个子课题。研究的目的是为校园网搜索引擎课题提供一个高效的中文分词软件包。为了实现这一目标,首先建立了中文分词子系统实验平台的结构模型以及与其它模块间的数据接口;然后,通过对词典结构机制、未登录词识别和分词算法的研究,提出了适合校园网搜索引擎中文分词的一整套解决方案。该方案是以机械分词为基础,包括逆向词库的建立与扩充、基于整词二分的二层索引结构、基于规则统计的未登录词识别算法以及改进的逆向最大匹配算法等。最后,实现了中文分词子系统实验平台以及中文分词软件包,并进行了速度和内存容量的测试,得到了字典占用内存4.28M,分词速度每秒11k字节的实验数据。实验表明,这个分词软件包可以满足当前校园网搜索引擎课题的使用。本论文中提到的中文分词子系统实验平台和中文分词软件包是在JDK 1.4和Oracle9i上实现的。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第1章 引言 8-14 1.1 校园网搜索引擎课题背景 8-12 1.1.1 校园网搜索引擎基本原理 8-9 1.1.2 校园网搜索引擎的特点 9-10 1.1.3 中文分词的地位与作用 10 1.1.4 中文分词模型 10-11 1.1.5 中文分词子课题研究面临的难题 11-12 1.2 本文研究工作的概述 12-14 1.2.1 研究思路 13 1.2.2 论文的组织 13-14 第2章 中文自动分词子系统模型 14-20 2.1 中文自动分词子系统模型简介 14-15 2.2 数据接口 15-18 2.3 中文分词子系统评价标准 18-19 2.3.1 准确率 18 2.3.2 速度 18-19 2.3.3 内存占用量 19 2.4 小结 19-20 第3章 基于整词二分的二层索引结构 20-31 3.1 词典机制概述 20-22 3.1.1 整词二分的词典机制 20-21 3.1.2 TRIE 索引树的词典机制 21-22 3.2 基于TRIE 索引树四层结构的词典机制 22-24 3.2.1 索引树的结点结构 22-23 3.2.2 查询算法 23-24 3.3 基于整词二分的二层索引结构的词典机制 24-26 3.3.1 基于整词二分的二层索引结构 24-25 3.3.2 查询算法 25-26 3.4 两种词典机制的性能比较 26-27 3.5 中文分词子系统的词典机制 27-30 3.5.1 词典的文件组织 27-29 3.5.2 词典的类组织 29-30 3.6 小结 30-31 第4章 基于规则统计的未登录词识别 31-35 4.1 规则的定义 31-32 4.1.1 人名识别规则 31 4.1.2 机构识别规则 31-32 4.1.3 连续单字识别规则 32 4.2 词频统计 32 4.3 基于规则统计的未登录词识别算法 32-34 4.3.1 规则库的定义 32-33 4.3.2 数据结构 33 4.3.3 基于规则统计的识别算法 33-34 4.4 小结 34-35 第5章 逆向最大匹配分词算法的改进 35-43 5.1 分词算法的研究 35-37 5.1.1 机械分词算法 35 5.1.2 基于统计语言模型的分词算法 35-36 5.1.3 基于语义理解的分词算法 36 5.1.4 三种分词算法的比较 36-37 5.2 校园网搜索引擎分词算法的选择 37-38 5.3 逆向最大匹配分词算法的改进 38-41 5.3.1 逆向最大匹配改进算法流程图 38 5.3.2 逆向词库的使用 38-40 5.3.3 增加最大长度字段 40 5.3.4 剔除停用词 40-41 5.3.5 分词算法的类图 41 5.4 小结 41-43 第6章 中文分词子系统的实现 43-51 6.1 现有中文分词系统 43 6.2 系统实现的说明 43-45 6.2.1 系统类图的组织 43-44 6.2.2 系统类图的说明 44-45 6.3 用户界面 45-49 6.4 性能测试 49-50 6.4.1 速度测试 49 6.4.2 占用内存空间测试 49-50 6.5 小结 50-51 第7章 结论与展望 51-53 7.1 结论 51 7.2 展望 51-53 致谢 53-54 参考文献 54-58 个人简历 在读期间发表的学术论文与研究成果 58-59 详细摘要 59-62 ABSTRACT 62-65
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 校园网数字资源搜索引擎的技术研究与实现,TP391.3
- 基于拼音标注的中文分词算法研究,TP391.1
- 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
- 搜索引擎中文分词技术研究,TP391.1
- 分词词典的构建,TP391.1
- 企业信息搜索引擎的设计与关键技术的研究,TP391.3
- 基于本体的Web跨语言信息检索研究,TP391.3
- 基于中文分词技术的网络答疑系统个案研究,TP311.52
- 高校BBS检索系统的设计与实现,TP393.094
- 面向美术教育应用领域的搜索引擎研究,J20-4
- 互联网教育舆情监测系统的设计与实现,G434
- 互联网中文文本分类的研究与应用,TP391.1
- 基于字数差别因子的中文文本相似度研究,TP391.1
- 基于Map-Reduce构建高效文本聚类系统,TP391.1
- 基于粒子群算法和支持向量机的中文文本分类研究,TP391.1
- 基于互关联后继树模型的词索引方法研究,TP391.3
- 全文检索引擎应用于邮件的设计与实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|