学位论文 > 优秀研究生学位论文题录展示
生物医学命名实体识别研究
作 者: 郑强
导 师: 王正华
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 命名实体识别 特征选择 机器学习 条件随机域 后期处理
分类号: TP391.41
类 型: 硕士论文
年 份: 2009年
下 载: 26次
引 用: 1次
阅 读: 论文下载
内容摘要
当前,生物医学文献数量巨大并持续呈现指数级增长,直接、高效地获取文献中有用信息的需求正变得越来越迫切。命名实体识别用来识别文本中具有特定意义的实体,是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。生物医学领域的命名实体有别于其它领域中的命名实体,这使得命名实体识别技术在生物医学领域的研究仍处在基础阶段。命名实体识别技术主要包括三个步骤:特征选择、分类方法和后期处理。本文主要围绕此三个步骤展开研究,并取得了一系列创新性的成果。首先,本文综合现有成果构建了丰富的特征集合。为选取合适的特征集合,通过分析多种特征选择算法的优点和缺点,从中选取三种算法用来搜索最优特征集合,结果表明最优特征集合能更有效地表示命名实体的特征,证明了特征选择是必要的和有效的。为提高特征的表征能力,针对生物医学领域命名实体的特点,本文提出了动词触发特征和词性序列特征。使用GENIA语料库作测试,实验证明本文构建的特征集合使系统性能达到了77.60%,优于当前最好的系统的性能。其次,本文介绍了几种机器学习方法以及条件随机域方法的实现。在后期处理过程中,本文针对前期结果错误的类型,提出多种修正规则,实验证明,修正后的系统性能达到79.05%,说明修正规则是有效的。最后,本文从语料库和标注类型方面对系统进行改进,提出了词形还原和标注转换两种策略。实验结果表明,系统性能达到了我们预期的目标。行文结束之际,本文对命名实体识别这一研究领域的广阔前景进行了展望。
|
全文目录
相似论文
- 时间表达式识别与归一化研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 基于本体的医学命名实体识别技术研究,TP391.1
- 基于CRF的命名实体和关系的联合抽取,TP391.4
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|