学位论文 > 优秀研究生学位论文题录展示

基于模式匹配的中文专有名词识别

作　者: 王兴义
导　师: 郑家恒
学　校: 山西大学
专　业: 计算机应用技术
关键词: 自然语言处理专有名词自动识别模式匹配
分类号: TP391.4
类　型: 硕士论文
年　份: 2005年
下　载: 385次
引　用: 7次
阅　读: 论文下载

内容摘要

专有名词的识别是中文信息处理领域的基础研究课题之一,也是尚未很好解决的一个问题。在大规模真实文本为基础的语料库研究日益受到重视的今天,保证大规模语料库的加工质量成为首要任务,而影响语料库加工质量的一个重要因素就是专有名词未能很好的识别,专有名词的正确识别必然可以有效的提高语料库的分词质量。同样对于信息抽取、自动问答、机器翻译等各种自然语言处理应用领域,专有名词识别为其提供底层支持。本文针对在真实文本中出现最为频繁的人名、地名、组织机构名三种专有名词,提出了一种基于模式匹配的专有名词自动识别方法,该方法通过专有名词上下文模式的搜索匹配结合特定专有名词的内模式判定,对中文专有名词进行抽取识别。主要的研究内容包括以下几方面: 1.对于中文专有名词的内部构成进行了较为系统的分析,在此基础上,分别建立了人名、地名、组织机构名的内部模式集合。 2.研究分析了在真实文本中出现专有名词的上下文环境,提出了专有名词的上下文模式,并探讨采用聚类、评价的方法自动获取中文专有名词上下文模式。 3.采用多种专有名词竞争识别的机制,各种专有名词的识别同时进行,使得专有名词的识别可以使用一体化的方式。一种专有名词的正确识别为其他种类专有名词的识别提供了有益的信息,同时避免被错误的识别为其他类专有名词,从而使专名识别的正确率得到提高。 4.按照基于模式匹配识别专名的策略,设计实现了一个中文专有名词自动识别实验系统,通过专有名词上下文模式和内部模式相结合进行专名的判定识别,可以较好的综合利用各种启发信息。同时探讨了专名可信度的计算方法和专有名词识别冲突检测及消解的办法。采用计算专有名词可信度的方法,使得在专有名词识别发生冲突时,可以使用简单的比较可信度大小的方法来进行消解处理。

基于模式匹配的中文专有名词识别

内容摘要

全文目录

相似论文