学位论文 > 优秀研究生学位论文题录展示
面向信息抽取的中文命名实体识别研究
作 者: 许晓丽
导 师: 卢志茂
学 校: 哈尔滨工程大学
专 业: 信号与信息处理
关键词: 信息抽取 命名实体识别 条件随机场
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 61次
引 用: 3次
阅 读: 论文下载
内容摘要
文本信息抽取是海量文本信息处理的重要环节,旨在为人们提供从海量联机文本中快速、准确地获取有用信息的工具,是一个具有高度理论和实用价值的研究课题。命名实体识别实现了从众多信息中标识并分离出相关的命名实体,它是信息抽取中最为基本的任务,是语言信息处理技术中的关键基础技术,是正确理解和处理文本信息的基础。进行文本分析时,命名实体识别就成为信息处理的首要任务。另外,命名实体识别的研究还有利于信息检索、机器翻译、文本分类等应用系统的实现。因此,研究命名实体的自动识别具有重要的理论意义和实践价值。本文以现代汉语文本中的人名、地名和组织名识别为研究对象开展工作,主要内容如下:1.将条件随机场应用到了中文命名实体识别的研究中。条件随机场作为一种比较新型的机器学习方法,能够克服一些模型中存在的标记偏置问题并避免了严格的独立性假设,在序列标记任务中表现出了良好的性能。2.根据各类命名实体的特点,本文提出了适合于人名、地名以及组织名的特征函数模板,包括各种原子特征模板与组合特征模板,并通过实验验证了各类特征的作用,分析了使用不同的特征模板对识别结果的影响,确定了有效特征。通过将各种反映语言本身规则的特征以及反映训练语料的特征加入到模型中,这些特征有机融合,提高了命名实体识别的性能。3.使用了基于字一级的条件随机场模型进行了命名实体识别实验,并在实验中加入了一定的规则进行结果修正,提高了命名实体识别率。
|
全文目录
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 主题搜索引擎关键技术研究,TP391.3
- 基于条件随机场的RNA二级结构预测算法,R346
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于字词联合解码的中文分词研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 中文命名实体识别与歧义消解研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|