学位论文 > 优秀研究生学位论文题录展示
基于模式匹配的中文专有名词识别
作 者: 王兴义
导 师: 郑家恒
学 校: 山西大学
专 业: 计算机应用技术
关键词: 自然语言处理 专有名词 自动识别 模式匹配
分类号: TP391.4
类 型: 硕士论文
年 份: 2005年
下 载: 385次
引 用: 7次
阅 读: 论文下载
内容摘要
专有名词的识别是中文信息处理领域的基础研究课题之一,也是尚未很好解决的一个问题。在大规模真实文本为基础的语料库研究日益受到重视的今天,保证大规模语料库的加工质量成为首要任务,而影响语料库加工质量的一个重要因素就是专有名词未能很好的识别,专有名词的正确识别必然可以有效的提高语料库的分词质量。同样对于信息抽取、自动问答、机器翻译等各种自然语言处理应用领域,专有名词识别为其提供底层支持。 本文针对在真实文本中出现最为频繁的人名、地名、组织机构名三种专有名词,提出了一种基于模式匹配的专有名词自动识别方法,该方法通过专有名词上下文模式的搜索匹配结合特定专有名词的内模式判定,对中文专有名词进行抽取识别。主要的研究内容包括以下几方面: 1.对于中文专有名词的内部构成进行了较为系统的分析,在此基础上,分别建立了人名、地名、组织机构名的内部模式集合。 2.研究分析了在真实文本中出现专有名词的上下文环境,提出了专有名词的上下文模式,并探讨采用聚类、评价的方法自动获取中文专有名词上下文模式。 3.采用多种专有名词竞争识别的机制,各种专有名词的识别同时进行,使得专有名词的识别可以使用一体化的方式。一种专有名词的正确识别为其他种类专有名词的识别提供了有益的信息,同时避免被错误的识别为其他类专有名词,从而使专名识别的正确率得到提高。 4.按照基于模式匹配识别专名的策略,设计实现了一个中文专有名词自动识别实验系统,通过专有名词上下文模式和内部模式相结合进行专名的判定识别,可以较好的综合利用各种启发信息。同时探讨了专名可信度的计算方法和专有名词识别冲突检测及消解的办法。采用计算专有名词可信度的方法,使得在专有名词识别发生冲突时,可以使用简单的比较可信度大小的方法来进行消解处理。
|
全文目录
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于启发式算法的恶意代码检测系统研究与实现,TP393.08
- 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
- Windows系统内核Rootkit的检测技术研究,TP309
- 学术主页信息抽取系统的研究,TP393.092
- 僵尸控制行为识别及检测方法研究,TP393.08
- 基于RFID的货物跟踪信息系统分析与设计,TP311.52
- Ares协议分析与流量检测机制研究,TP393.06
- 基于Web日志的入侵检测系统设计与实现,TP393.08
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 同信道干扰下AIS信号非相干解调技术研究,U675.7
- 自动识别系统(AIS)相干解调技术研究,U675.7
- 云计算中依赖任务动态并行调度机制的研究,TP3
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 虹膜识别关键技术的研究,TP391.41
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 基于模式匹配与协议分析的分布式入侵检测研究,TP393.08
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- AraOntoLT:基于阿拉伯语文本的本体学习框架,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com
|