学位论文 > 优秀研究生学位论文题录展示

电子病历中的概念抽取研究

作 者: 邓本洋
导 师: 关毅
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 电子病历 概念抽取 特征扩展 组合分类器 迁移学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 31次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。电子病历中蕴含的知识能够应用在医疗诊断、用户制定健康计划和医疗问答等领域中。概念抽取作为信息处理的基础模块,在电子病历的信息挖掘上不可或缺。与传统的文本相比,电子病历有其自身的特点。电子病历中包含大量专业术语、医疗习惯用语、以数字和单位表示的检查结果、缩写词、模式较强但结构不完整的句子,并且以半结构化的方式组织各部分内容,此外,由于涉及到病人的隐私,目前公开可用的病历数据很有限。这些特点加大了电子病历概念抽取的难度,在2010年i2b2举办的评测中,电子病历概念抽取任务最好系统的F值为0.8523,与传统领域概念抽取效果有一定差距。为了更好地抽取电子病历相关概念,本文使用了CRF、最大熵、MIRA三种基本学习模型并利用实体识别的基本特征建立了baseline系统。在利用最大熵模型时,由于词分类结果明显优于概念抽取的结果,本文将当前位置前一个词的标签作为模型特征,从而很大幅度地提高了最大熵识别概念的效果。针对电子病历的特点,本文从特征扩展、学习模型组合以及其它领域资源的使用三个方面进行研究,从而提高了概念抽取的效果。在特征扩展方面,充分利用了电子病历的结构特点和构词字符信息,并借助于医疗相关的资源,两类特征各使概念抽取的F值提高了约一个百分点,此外,通过挖掘病历中名词潜在的语义知识使概念抽取F值提高了约两个百分点;在学习模型的组合上,尝试了bagging方法以及堆积策略,前者组合优化相同学习方法的结果,后者综合多个不同分类器的结果。堆积策略取得了显著效果,系统的F值达到了91.1%;在其他资源的使用上,通过基于实例的迁移学习方法将不同机构的电子病历数据以及生物文献数据用于目标电子病历概念抽取任务上,结果证明在目标领域数据相对少的时候,提升效果比较明显。

全文目录


摘要  4-5
Abstract  5-9
第一章 绪论  9-18
  1.1 课题背景及研究的目的和意义  9-11
    1.1.1 课题背景  9-10
    1.1.2 研究的目的和意义  10-11
  1.2 实体识别的研究现状  11-15
    1.2.1 基于规则的实体识别  11-13
    1.2.2 基于统计学习的实体识别  13-15
  1.3 本文研究的主要内容  15-16
  1.4 本文的结构安排  16-18
第二章 电子病历概念抽取相关介绍  18-25
  2.1 语料介绍  18-20
  2.2 任务详细描述  20-22
  2.3 基本特征  22-23
  2.4 标注与评价方法  23-24
  2.5 本章小结  24-25
第三章 基于有监督方法的电子病历概念抽取  25-41
  3.1 引言  25
  3.2 有监督学习方法介绍  25-33
    3.2.1 最大熵模型  26
    3.2.2 条件随机域模型  26-28
    3.2.3 MIRA 算法  28-31
    3.2.4 Baseline 系统  31-33
  3.3 特征扩展  33-39
    3.3.1 病历特征  33-34
    3.3.2 词典资源  34-37
    3.3.3 分布语义  37-39
  3.4 实验结果  39-40
  3.5 本章小结  40-41
第四章 基于组合分类器的电子病历概念抽取  41-47
  4.1 引言  41-42
  4.2 Bagging 方法  42
  4.3 stacking 方法  42-44
  4.4 实验结果  44-46
  4.5 本章小结  46-47
第五章 基于迁移学习的电子病历概念抽取  47-55
  5.1 引言  47
  5.2 迁移学习方法概述  47-50
    5.2.1 语料分布相似性  48-49
    5.2.2 迁移学习方法的分类  49-50
  5.3 TrAdaBoost 算法  50-52
    5.3.1 实例迁移学习方法的理论基础  50-51
    5.3.2 TrAdaBoost 算法  51-52
  5.4 实验结果  52-54
  5.5 本章小结  54-55
结论  55-57
参考文献  57-63
攻读硕士学位期间发表的论文及其它成果  63-65
致谢  65

相似论文

  1. 基于智能卡的数字签名系统的研究与应用,TP393.08
  2. 用于车牌定位的分类器设计与相关算法研究,TP391.41
  3. 基于稀疏非负矩阵分解的图像检索,TP391.41
  4. 基于内容的商品图像分类技术研究,TP391.41
  5. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  6. 基于WEB技术的电子病历管理系统的设计与实现,TP311.52
  7. 图像与文本数据间的异构迁移学习,TP391.41
  8. 颞下颌关节紊乱病的电子病历模板设计与实现,R782.6
  9. 本体技术在电子病历中的应用研究,TH772.2
  10. 护理电子病历综合管理系统的开发研究,R47
  11. 基于内容的垃圾邮件过滤技术的研究,TP393.098
  12. 基于迁移学习理论的Markov检索模型,TP391.3
  13. 基于.Net 的电子病历系统的分析与设计,TP311.52
  14. 优化本体的迁移学习方法研究,TP391.1
  15. 基于XML的电子病历系统的设计与实现,TP311.52
  16. 基于多分类器组合的垃圾网页的检测,TP18
  17. 基于RDC/TMD数字化问卷的临床应用,R782.6
  18. 基于马尔可夫逻辑网的垃圾邮件过滤技术研究,TP393.098
  19. 关于数学迁移能力培养的实践与研究,G633.6
  20. 基于多目标函数改进的多核学习在半监督学习和迁移学习场景中的应用,TP181
  21. 智能交通行人检测系统的分类技术研究,TP274.4

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com