学位论文 > 优秀研究生学位论文题录展示

中文自动分词技术的改进与优化研究

作 者: 张金龙
导 师: 张再跃
学 校: 江苏科技大学
专 业: 计算机软件与理论
关键词: 中文自动分词 机构名识别 命名实体识别 搜索引擎 词典结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 5次
引 用: 0次
阅 读: 论文下载
 

内容摘要


中文自动分词技术是中文信息处理领域中一项重要的基础性课题,它对相关领域(如信息抽取、全文检索、数据挖掘、机器翻译、问答系统等领域)的研究有着巨大的推动作用。本文对中文自动分词领域涉及的主要技术进行了比较全面和仔细的研究,包括中文自动分词的词典结构、中文自动分词的分词算法;对中文分词中的难点问题进行了相对深入的研究;最后结合当前热门的搜索引擎技术,讲述了中文自动分词技术在这个领域的应用。本文的主要贡献如下:首先,本文对中文自动分词技术中的词典结构进行了广泛和深入的研究,在综合逐字二分、逐词二分和Trie索引树三种经典词典结构的基础上,又借鉴和学习了众多改进的词典机制,最后提出了一种基于多哈希平衡二叉查找树的分词词典机制。其次,本文在命名实体识别方面进行了重点突破。在中文人名识别上,结合和借鉴现有的研究结果,设计了一种新的分阶段的中文人名识别方法,并给出了具体的实现过程。在中文机构名识别方面,本文在CRF统计模型的基础之上,融入语言学领域的规则和知识,设计和实现了基于CRF和规则的中文医疗机构名识别系统。实验结果显示,封闭测试的准确率和召回率分别达到了91.68%和95.21%,给领域机构名的识别提供了一种切实可行的新思路。最后,结合当今社会对海量信息检索的迫切需求,对中文自动分词技术在搜索引擎领域的应用做了比较详细的介绍,一方面推广了中文自动分词技术,另一方面也为搜索引擎未来的优化和发展做了一个很好的指向。

全文目录


摘要  5-6
Abstract  6-13
第1章 绪论  13-21
  1.1 研究背景和意义  13-14
  1.2 国内外研究现状  14-15
  1.3 相关理论和技术  15-18
    1.3.1 中文自动分词技术  15-16
    1.3.2 命名实体识别  16-17
    1.3.3 搜索引擎技术  17-18
  1.4 研究内容和创新点  18-19
    1.4.1 主要研究内容  18
    1.4.2 论文创新点  18-19
  1.5 论文整体结构  19-21
第2章 中文自动分词方法研究  21-29
  2.1 中文自动分词及其评价标准  21-22
    2.1.1 中文自动分词  21
    2.1.2 中文自动分词评价标准  21-22
  2.2 中文自动分词方法介绍  22-27
    2.2.1 基于分词词典的方法  22-24
    2.2.2 基于概率统计的方法  24-26
    2.2.3 基于知识推理的方法  26-27
  2.3 中文自动分词方法的比较与分析  27
  2.4 本章小结  27-29
第3章 中文自动分词词典研究  29-38
  3.1 自动分词词典的特点  29-30
  3.2 常见中文自动分词词典机制的介绍  30-35
    3.2.1 基于整词二分的自动分词词典机制  30-31
    3.2.2 基于 Trie 索引树的自动分词词典机制  31-33
    3.2.3 基于逐字二分的自动分词词典机制  33-34
    3.2.4 基于 PATRICIA 树的自动分词词典机制  34-35
  3.3 基于多哈希平衡二叉查找树的分词词典机制  35-36
  3.4 本章小结  36-38
第4章 中文自动分词难点研究  38-47
  4.1 中文自动分词的分词规范  38-39
    4.1.1 制定分词规范的目的和意义  38
    4.1.2 典型的分词规范的介绍  38-39
  4.2 中文自动分词的切分歧义处理  39-40
  4.3 中文自动分词的命名实体识别  40-45
    4.3.1 一种简单的分阶段的中文人名识别方法  41-44
    4.3.2 中文地名和机构名的识别  44-45
  4.4 本章小结  45-47
第5章 基于 CRF 和规则的中文医疗机构名称识别  47-57
  5.1 中文医疗机构名称分析  47-50
    5.1.1 内部语义结构分析  47-49
    5.1.2 外部上下文特征分析  49-50
  5.2 中文医疗机构名称识别  50-53
    5.2.1 基于条件随机场的中文医疗机构名识别  50-51
    5.2.2 CRF 模型中的特征模板的选择  51-52
    5.2.3 训练语料的处理  52
    5.2.4 CRF 模型训练过程  52-53
    5.2.5 验证规则  53
  5.3 中文医疗机构名称识别的实验结果与分析  53-54
    5.3.1 实验环境和结果  53-54
    5.3.2 错误分析  54
  5.4 本章小结  54-57
第6章 中文自动分词技术在中文搜索引擎中的应用  57-63
  6.1 搜索引擎简介  57-58
  6.2 自动分词和搜索引擎的关系  58-60
  6.3 自动分词在搜索引擎中的具体应用  60-61
    6.3.1 自动分词技术在搜索引擎网页搜索阶段的应用  60
    6.3.2 自动分词技术在搜索引擎预处理阶段的应用  60-61
    6.3.3 自动分词技术在搜索引擎查询处理阶段的应用  61
    6.3.4 自动分词技术在搜索引擎用户分析阶段的应用  61
  6.4 本章小结  61-63
总结与展望  63-65
  本文总结  63
  对未来工作的展望  63-65
参考文献  65-68
攻读硕士学位期间发表的论文  68-69
致谢  69-70
附录1 原子特征模板(部分)  70-71
附录2 复合特征模板(部分)  71-72
详细摘要  72-76

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
  3. 基于Web的未登录词翻译技术研究,TP391.2
  4. 基于社会网络分析的藏文web链接结构研究,TP393.09
  5. 基于语义网络的智能搜索引擎研究,TP391.3
  6. 基于BP网络的元搜索引擎研究,TP391.3
  7. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  8. 汉语嵌套命名实体识别方法研究,TP391.1
  9. 基于因特网的动态规范词表的系统构建研究,G354
  10. Deep Web接口集成及查询结果排序方法研究,TP274
  11. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  12. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  13. 面向元搜索引擎的Web页面排序优化技术研究与实现,TP393.09
  14. 基于本体的医学命名实体识别技术研究,TP391.1
  15. 基于CRF的命名实体和关系的联合抽取,TP391.4
  16. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  17. 熵的思想在搜索引擎质量评价中的应用,TP391.3
  18. 中文命名实体识别与歧义消解研究,TP391.1
  19. 中文命名实体识别及若干相关问题的研究,TP391.41
  20. 基于条件随机场的中文命名实体识别研究,TP391.4
  21. 基于条件随机场的中文命名实体识别,TP391.43

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com