学位论文 > 优秀研究生学位论文题录展示

基于判别式模型的生物医学文本挖掘相关问题研究

作　者: 孙承杰
导　师: 王晓龙
学　校: 哈尔滨工业大学
专　业: 计算机应用技术
关键词: 生物医学文本挖掘名实体识别关系抽取判别式模型半监督学习
分类号: TP391.1
类　型: 博士论文
年　份: 2008年
下　载: 343次
引　用: 3次
阅　读: 论文下载

内容摘要

随着计算技术和生物技术的进步,当前生物医学文献正在以前所未有的速度增长。这些文献中蕴含着最新的研究进展和丰富的生物医学知识,对于生物医学研究者具有重要意义。然而数以千万计的文献使得研究者追踪和整理自己需要的知识和信息变得越来越困难。文本挖掘技术可以解决这一问题,帮助生物医学研究者提高从文献中获取知识和信息的效率。因此针对生物医学文献的文本挖掘研究具有重要的应用价值。判别式模型是一类直接利用特征来预测目标变量的发生概率的机器学习模型,本文中主要用到的判别式模型有最大熵模型和条件随机域模型。相对于产生式模型,判别式模型降低了特征之间的独立性假设的要求,并且与很多文本挖掘任务的需求相一致,因而更有可能取得好的效果。本文主要研究如何利用判别式模型来解决生物医学文献挖掘中的问题。具体地,我们研究了生物医学文本挖掘中的三个任务:生物医学名实体识别、生物医学实体规范化以及生物医学语义关系抽取。在这3任务中,第二个任务是第一个任务在语义处理上的延伸,前两个任务是第三个任务的基础。本文的主要内容包含以下4个方面。生物医学名实体识别的目标是确定一个给定的文本集合内的某一类型的实体的名字的所有实例,它是进行深层次文本挖掘的必要步骤之一。本文在考察了生物医学领域实体识别的特点和难点,分析了目前已有的生物医学实体识别方法的优缺点的基础上,提出了利用条件随机域模型结合丰富特征集来进行生物医学实体识别的方法。这些特征包括:构词法特征、上下文特征和句法特征。其中,浅层句法特征是首次被引入到条件随机域模型中,同时用来进行实体的边界检测和类别判断。实验表明,这一特征可以有效地提高名实体识别的效果。有监督的机器学习方法需要大规模的标注语料。大量的电子文献使得在生物医学领域获取未标记的语料已相当容易,但是对语料进行标注仍然是一件昂贵的工作。针对在生物医学名实体识别中有监督学习所需的大规模训练语料比较难以获取的问题,本文提出了基于最大熵模型的协同训练的半监督学习方法。该方法可以利用大量的未标注语料来提高在较少的标注语料的基础上学习到的分类器的名实体识别性能。为了进一步提高半监督学习的效果,本文将主动学习引入到半监督学习的过程中。实验表明,基于最大熵模型的协同训练方法可以有效地提高初始分类器的识别性能。灵活的生物医学实体命名方式使得生物医学实体具有严重的歧义。这已成为对生物医学文献进行深层自动文本挖掘的主要障碍之一。生物医学实体规范化的提出就是为了解决这一问题。生物医学实体规范化就是把生物医学文献中表达同一概念的不同变体映射到统一的概念标识符。本文提出了一种用于生物医学实体规范化的多层歧义消解框架。实体规范化过程中不同阶段有不同的歧义情形,在本文提出的框架中,针对这些情形采用了有针对性的解决策略,包括:基于词典的实体名字检测,基于机器学习方法的候选选择以及基于知识的歧义消解。在BioCreAtIvE2006基因名字规范化任务的测试集上的实验表明本文提出的框架可以有效地解决规范化过程中的各种歧义。生物医学语义关系抽取是生物医学文本挖掘的主要研究内容之一,是从无结构的生物医学文献中抽取出生物医学知识的重要手段。在实际应用中,生物医学语义关系的定义有宽泛和具体之分。本文将宽泛定义和具体定义的生物医学语义关系抽取分别看作二分类和多分类问题,提出基于最大熵模型的生物医学语义关系抽取的方法。针对不区分类别的蛋白质相互作用这种宽泛定义的关系抽取,提出了一种基于最大熵的二阶段蛋白质相互作用关系抽取方法。针对多类别的蛋白质相互作用这种具体定义的关系抽取,提出使用最大熵模型结合词特征的抽取方法,该方法在一个具有10种蛋白质相互作用类别的数据集上取得了73.4%的总体精确率。同样的方法应用到疾病与治疗方式关系抽取任务中,也取得了很好的实验结果。此外,本文还通过理论分析和实验对比,从理论和实践两个方面说明了判别式模型比产生式模型更适合生物医学语义关系抽取问题。

全文目录

摘要  3-5
Abstract  5-14
第1章绪论  14-34
  1.1 课题背景及意义  14-17
  1.2 国内外研究现状  17-25
    1.2.1 生物医学名实体识别  18-20
    1.2.2 同义词与缩略语识别  20-22
    1.2.3 生物医学实体规范化  22-23
    1.2.4 生物医学关系抽取  23-24
    1.2.5 生物医学文献分类  24
    1.2.6 假设生成  24-25
  1.3 生物医学语言学资源  25-30
    1.3.1 语料库资源  25-27
    1.3.2 词典及本体知识库  27-29
    1.3.3 生物医学文本挖掘的相关评测  29-30
  1.4 本文的研究内容  30-32
  1.5 本文的内容安排  32-34
第2章基于条件随机域的生物医学名实体识别  34-54
  2.1 引言  34-35
  2.2 问题定义  35-37
    2.2.1 生物医学名实体特点  35-36
    2.2.2 生物医学实体识别的研究进展  36-37
  2.3 模型介绍  37-42
    2.3.1 最大熵模型  38-40
    2.3.2 条件随机域模型  40-42
  2.4 生物医学名实体识别流程及所采用的特征  42-45
    2.4.1 浅层句法特征  43-44
    2.4.2 其他特征  44-45
  2.5 实验数据集  45-48
    2.5.1 JNLPBA2004 数据集  45-47
    2.5.2 BioCreAtIvE 数据集  47-48
  2.6 实验结果  48-53
    2.6.1 在JNLPBA2004 数据集上的实验结果  48-52
    2.6.2 在BioCreAtIvE 数据集上的实验结果  52-53
  2.7 本章小结  53-54
第3章基于最大熵的协同训练在生物医学实体识别中的应用  54-70
  3.1 引言  54
  3.2 半监督学习  54-59
    3.2.1 半监督学习的理论分析  55-57
    3.2.2 半监督学习的常用方法  57-59
  3.3 主动学习  59-60
    3.3.1 主动学习的定义  59
    3.3.2 主动学习的分类  59-60
  3.4 基于协同训练方法的生物医学名实体识别  60-66
    3.4.1 协同训练  60-63
    3.4.2 基于最大熵模型的协同训练  63-64
    3.4.3 实验设置及实验结果  64-66
  3.5 协同训练和主动学习相结合的生物医学名实体识别  66-67
  3.6 本章小结  67-70
第4章基于多层歧义消解策略的生物医学实体规范化研究  70-86
  4.1 引言  70-71
  4.2 基因名字规范化问题定义  71-72
  4.3 相关工作  72-73
  4.4 基因名字规范化的多层歧义消解  73-81
    4.4.1 基于词典匹配的基因名字识别  73
    4.4.2 基于最大熵模型的候选选择  73-76
    4.4.3 基于知识的歧义消解  76-81
  4.5 实验结果  81-85
    4.5.1 数据集  81-82
    4.5.2 评价方法  82-83
    4.5.3 实验结果与分析  83-84
    4.5.4 与其他工作的比较  84-85
  4.6 本章小结  85-86
第5章生物医学语义关系抽取研究  86-103
  5.1 引言  86
  5.2 生物医学语义关系抽取的研究进展  86-88
  5.3 蛋白质相互作用信息抽取  88-93
    5.3.1 BC?PPI语料库  89-90
    5.3.2 基于最大熵的二阶段蛋白质相互作用关系抽取  90-92
    5.3.3 实验结果  92-93
  5.4 蛋白质相互作用关系分类  93-100
    5.4.1 实验数据集  94-96
    5.4.2 基于最大熵模型的蛋白质相互作用分类  96-98
    5.4.3 实验结果与分析  98-100
  5.5 疾病和治疗方式关系抽取  100-101
    5.5.1 实验数据集  100
    5.5.2 实验结果  100-101
  5.6 本章小结  101-103
结论  103-106
参考文献  106-118
攻读博士学位期间发表的学术论文  118-120
致谢  120-121
个人简历  121

基于判别式模型的生物医学文本挖掘相关问题研究

内容摘要

全文目录

相似论文