学位论文 > 优秀研究生学位论文题录展示

生物医学命名实体识别研究

作 者: 郑强
导 师: 王正华
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 命名实体识别 特征选择 机器学习 条件随机域 后期处理
分类号: TP391.41
类 型: 硕士论文
年 份: 2009年
下 载: 26次
引 用: 1次
阅 读: 论文下载
 

内容摘要


当前,生物医学文献数量巨大并持续呈现指数级增长,直接、高效地获取文献中有用信息的需求正变得越来越迫切。命名实体识别用来识别文本中具有特定意义的实体,是应用文本挖掘技术自动获取知识的关键的第一步,因此受到日益广泛的关注。生物医学领域的命名实体有别于其它领域中的命名实体,这使得命名实体识别技术在生物医学领域的研究仍处在基础阶段。命名实体识别技术主要包括三个步骤:特征选择、分类方法和后期处理。本文主要围绕此三个步骤展开研究,并取得了一系列创新性的成果。首先,本文综合现有成果构建了丰富的特征集合。为选取合适的特征集合,通过分析多种特征选择算法的优点和缺点,从中选取三种算法用来搜索最优特征集合,结果表明最优特征集合能更有效地表示命名实体的特征,证明了特征选择是必要的和有效的。为提高特征的表征能力,针对生物医学领域命名实体的特点,本文提出了动词触发特征和词性序列特征。使用GENIA语料库作测试,实验证明本文构建的特征集合使系统性能达到了77.60%,优于当前最好的系统的性能。其次,本文介绍了几种机器学习方法以及条件随机域方法的实现。在后期处理过程中,本文针对前期结果错误的类型,提出多种修正规则,实验证明,修正后的系统性能达到79.05%,说明修正规则是有效的。最后,本文从语料库和标注类型方面对系统进行改进,提出了词形还原和标注转换两种策略。实验结果表明,系统性能达到了我们预期的目标。行文结束之际,本文对命名实体识别这一研究领域的广阔前景进行了展望。

全文目录


相似论文

  1. 时间表达式识别与归一化研究,TP391.1
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 语音情感识别的特征选择与特征产生,TP18
  5. 基于数据分布特征的文本分类研究,TP391.1
  6. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  7. 基于AdaBoost算法的人脸识别研究,TP391.41
  8. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  9. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  10. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  11. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  12. Android恶意软件静态检测方案的研究,TP309
  13. 监督主题模型的研究与应用,TP391.1
  14. 基于失真效应的图像质量评价与分类,TP391.41
  15. 基于学习的逆向运动学人体运动合成,TP391.41
  16. 基于内容的网页恶意代码检测的研究与实现,TP393.092
  17. 学术主页信息抽取系统的研究,TP393.092
  18. 基于本体的医学命名实体识别技术研究,TP391.1
  19. 基于CRF的命名实体和关系的联合抽取,TP391.4
  20. 社会化网络中的推荐算法及其应用,TP391.3
  21. 数据挖掘在邮件反垃圾系统中的应用,TP393.098

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com