学位论文 > 优秀研究生学位论文题录展示

基于判别式模型的生物医学文本挖掘相关问题研究

作 者: 孙承杰
导 师: 王晓龙
学 校: 哈尔滨工业大学
专 业: 计算机应用技术
关键词: 生物医学文本挖掘 名实体识别 关系抽取 判别式模型 半监督学习
分类号: TP391.1
类 型: 博士论文
年 份: 2008年
下 载: 343次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着计算技术和生物技术的进步,当前生物医学文献正在以前所未有的速度增长。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物医学研究者具有重要意义。然而数以千万计的文献使得研究者追踪和整理自己需要的知识和信息变得越来越困难。文本挖掘技术可以解决这一问题,帮助生物医学研究者提高从文献中获取知识和信息的效率。因此针对生物医学文献的文本挖掘研究具有重要的应用价值。判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型,本文中主要用到的判别式模型有最大熵模型和条件随机域模型。相对于产生式模型,判别式模型降低了特征之间的独立性假设的要求,并且与很多文本挖掘任务的需求相一致,因而更有可能取得好的效果。本文主要研究如何利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学语义关系抽取。在这3任务中,第二个任务是第一个任务在语义处理上的延伸,前两个任务是第三个任务的基础。本文的主要内容包含以下4个方面。生物医学名实体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。这些特征包括:构词法特征、上下文特征和句法特征。其中,浅层句法特征是首次被引入到条件随机域模型中,同时用来进行实体的边界检测和类别判断。实验表明,这一特征可以有效地提高名实体识别的效果。有监督的机器学习方法需要大规模的标注语料。大量的电子文献使得在生物医学领域获取未标记的语料已相当容易,但是对语料进行标注仍然是一件昂贵的工作。针对在生物医学名实体识别中有监督学习所需的大规模训练语料比较难以获取的问题,本文提出了基于最大熵模型的协同训练的半监督学习方法。该方法可以利用大量的未标注语料来提高在较少的标注语料的基础上学习到的分类器的名实体识别性能。为了进一步提高半监督学习的效果,本文将主动学习引入到半监督学习的过程中。实验表明,基于最大熵模型的协同训练方法可以有效地提高初始分类器的识别性能。灵活的生物医学实体命名方式使得生物医学实体具有严重的歧义。这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一。生物医学实体规范化的提出就是为了解决这一问题。生物医学实体规范化就是把生物医学文献中表达同一概念的不同变体映射到统一的概念标识符。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。实体规范化过程中不同阶段有不同的歧义情形,在本文提出的框架中,针对这些情形采用了有针对性的解决策略,包括:基于词典的实体名字检测,基于机器学习方法的候选选择以及基于知识的歧义消解。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。针对不区分类别的蛋白质相互作用这种宽泛定义的关系抽取,提出了一种基于最大熵的二阶段蛋白质相互作用关系抽取方法。针对多类别的蛋白质相互作用这种具体定义的关系抽取,提出使用最大熵模型结合词特征的抽取方法,该方法在一个具有10种蛋白质相互作用类别的数据集上取得了73.4%的总体精确率。同样的方法应用到疾病与治疗方式关系抽取任务中,也取得了很好的实验结果。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适合生物医学语义关系抽取问题。

全文目录


摘要  3-5
Abstract  5-14
第1章 绪论  14-34
  1.1 课题背景及意义  14-17
  1.2 国内外研究现状  17-25
    1.2.1 生物医学名实体识别  18-20
    1.2.2 同义词与缩略语识别  20-22
    1.2.3 生物医学实体规范化  22-23
    1.2.4 生物医学关系抽取  23-24
    1.2.5 生物医学文献分类  24
    1.2.6 假设生成  24-25
  1.3 生物医学语言学资源  25-30
    1.3.1 语料库资源  25-27
    1.3.2 词典及本体知识库  27-29
    1.3.3 生物医学文本挖掘的相关评测  29-30
  1.4 本文的研究内容  30-32
  1.5 本文的内容安排  32-34
第2章 基于条件随机域的生物医学名实体识别  34-54
  2.1 引言  34-35
  2.2 问题定义  35-37
    2.2.1 生物医学名实体特点  35-36
    2.2.2 生物医学实体识别的研究进展  36-37
  2.3 模型介绍  37-42
    2.3.1 最大熵模型  38-40
    2.3.2 条件随机域模型  40-42
  2.4 生物医学名实体识别流程及所采用的特征  42-45
    2.4.1 浅层句法特征  43-44
    2.4.2 其他特征  44-45
  2.5 实验数据集  45-48
    2.5.1 JNLPBA2004 数据集  45-47
    2.5.2 BioCreAtIvE 数据集  47-48
  2.6 实验结果  48-53
    2.6.1 在JNLPBA2004 数据集上的实验结果  48-52
    2.6.2 在BioCreAtIvE 数据集上的实验结果  52-53
  2.7 本章小结  53-54
第3章 基于最大熵的协同训练在生物医学实体识别中的应用  54-70
  3.1 引言  54
  3.2 半监督学习  54-59
    3.2.1 半监督学习的理论分析  55-57
    3.2.2 半监督学习的常用方法  57-59
  3.3 主动学习  59-60
    3.3.1 主动学习的定义  59
    3.3.2 主动学习的分类  59-60
  3.4 基于协同训练方法的生物医学名实体识别  60-66
    3.4.1 协同训练  60-63
    3.4.2 基于最大熵模型的协同训练  63-64
    3.4.3 实验设置及实验结果  64-66
  3.5 协同训练和主动学习相结合的生物医学名实体识别  66-67
  3.6 本章小结  67-70
第4章 基于多层歧义消解策略的生物医学实体规范化研究  70-86
  4.1 引言  70-71
  4.2 基因名字规范化问题定义  71-72
  4.3 相关工作  72-73
  4.4 基因名字规范化的多层歧义消解  73-81
    4.4.1 基于词典匹配的基因名字识别  73
    4.4.2 基于最大熵模型的候选选择  73-76
    4.4.3 基于知识的歧义消解  76-81
  4.5 实验结果  81-85
    4.5.1 数据集  81-82
    4.5.2 评价方法  82-83
    4.5.3 实验结果与分析  83-84
    4.5.4 与其他工作的比较  84-85
  4.6 本章小结  85-86
第5章 生物医学语义关系抽取研究  86-103
  5.1 引言  86
  5.2 生物医学语义关系抽取的研究进展  86-88
  5.3 蛋白质相互作用信息抽取  88-93
    5.3.1 BC?PPI语料库  89-90
    5.3.2 基于最大熵的二阶段蛋白质相互作用关系抽取  90-92
    5.3.3 实验结果  92-93
  5.4 蛋白质相互作用关系分类  93-100
    5.4.1 实验数据集  94-96
    5.4.2 基于最大熵模型的蛋白质相互作用分类  96-98
    5.4.3 实验结果与分析  98-100
  5.5 疾病和治疗方式关系抽取  100-101
    5.5.1 实验数据集  100
    5.5.2 实验结果  100-101
  5.6 本章小结  101-103
结论  103-106
参考文献  106-118
攻读博士学位期间发表的学术论文  118-120
致谢  120-121
个人简历  121

相似论文

  1. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  2. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  3. 基于CRF的命名实体和关系的联合抽取,TP391.4
  4. 基于自学习的社会关系抽取的研究,TP391.1
  5. 基于半监督哈希算法的图像检索方法研究,TP391.41
  6. 基于半监督学习的时间序列分类研究与实现,TP181
  7. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  8. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  9. 数据挖掘在研究生调剂中的应用研究,TP311.13
  10. 半监督学习中协同训练与多视图方法的比较及改进,TP18
  11. 基于半监督SVM的入侵检测研究,TP393.08
  12. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  13. 面向金融问答的论坛观点挖掘,TP391.3
  14. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  15. 基于支持向量机的水电故障分类器的设计与实现,TV738
  16. 半监督学习若干问题的研究,TP181
  17. 基于少量标记数据约束聚类算法的入侵检测技术研究,TP393.08
  18. 基于半监督学习的中文问句分类研究,TP391.1
  19. 基于分层需求的领域本体构建及语义标注方法研究,TP391.1
  20. 基于半监督学习的图像分割系统的设计与实现,TP391.41
  21. 基于嵌入空间的降维算法建模研究及应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com