学位论文 > 优秀研究生学位论文题录展示

领域知识的获取

作　者: 李卫
导　师: 钟义信
学　校: 北京邮电大学
专　业: 信号与信息处理
关键词: 术语抽取术语关系获取文本信息去重完全加权关联规则挖掘科技论文初审辅助系统
分类号: TP182
类　型: 博士论文
年　份: 2008年
下　载: 716次
引　用: 7次
阅　读: 论文下载

内容摘要

知识库是自然语言处理系统的基础,为系统“理解”自然语言并顺利完成任务提供有力的知识保障。本文针对领域知识的获取进行了研究和探索,提出了一些新的处理技术和模型。主要创新点包括:1.针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于关键词序列的网络文本信息去重算法——KSM。以全信息理论为依据,使用文档的关键词序列来描述其结构特征和内涵特征,通过比较主题相似文档的关键词序列的重叠度,判断是否存在信息冗余现象。在各类隐式重复检测实验中,KSM算法的总体准确率和召回率分别达到了99.2%和97.7%,显示了较好的性能。2.针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理论的中文术语自动抽取算法,借助科技论文的话语标记,在C-value测度和SCP_f测度中引入候选术语的加权词频因子,提出了一种MC-SCP测度,用于候选术语的单元性和术语性的综合评价。在车牌识别领域的术语抽取实验中,基于MC-SCP测度的算法召回率和准确率分别是96.5%和77.8%,低频术语的召回率和准确率则分别是96.2%和79.3%;在保证术语抽取整体性能的同时,显著改善了低频术语的抽取效果。3.针对术语关系类型的多样化问题,提出了一种基于多策略的术语关系自动获取模型。根据科技论文的语言学特点,综合术语的内部特征和外部特征,从多个层面发现和获取术语间的各种关系,包括:基于规则的术语同义关系获取、基于结构相似性的术语层级关系获取、基于完全加权关联规则的术语非层级关系获取、基于粒子群的术语聚类等。在术语非层级关系获取中,提出了一种基于非频繁项集多重剪枝检测的完全加权关联规则挖掘算法——AWARM-MPIS,用于完全加权关联规则的频繁项集生成和剪枝,取得了良好的效果;在术语分组关系获取中,提出了一种基于粒子群的术语聚类算法,使用术语的结构相似性(内部特征)和关联度(外部特征)来评价术语的语义相似性。实验结果表明,其平均运行时间与迭代次数比K-Means提高了2个级别。4.针对多领域科技论文的大量出现与编辑人员专业知识有限的问题,提出了一个领域知识制导的科技论文初审辅助系统模型。根据科技期刊的出版要求和科技论文的特点,结合编辑人员的工作经验,将编辑初审细化为4个方面的评判,以此为依据开发了一个原型系统,并使用《计算机工程与应用》和《计算机科学与探索》的2365篇投稿论文为语料进行了性能测试。实验结果表明,该系统可辅助编辑人员淘汰35%左右的低质量稿件,提高了编辑初审的效率。

全文目录

摘要  4-6
ABSTRACT  6-11
第一章绪论  11-24
  1.1.知识库的相关概念  11-14
    1.1.1.知识  11-13
    1.1.2.知识库  13-14
  1.2.知识库构建的国内外研究现状  14-19
    1.2.1.知识获取  15-19
  1.3.论文研究背景和意义  19-21
  1.4.论文研究工作概述  21-22
  1.5.论文组织结构  22-24
第二章领域知识获取的相关工作  24-39
  2.1.领域知识的相关概念  24-28
    2.1.1.领域知识  24-25
    2.1.2.概念  25-27
    2.1.3.术语  27-28
  2.2.术语自动抽取的研究现状  28-34
    2.2.1.基于规则的方法  29-30
    2.2.2.基于统计的方法  30-32
    2.2.3.混合方法  32-34
  2.3.术语关系获取的研究现状  34-37
    2.3.1.基于MRD的方法  34
    2.3.2.基于模板匹配的方法  34-35
    2.3.3.基于聚类的方法  35-37
    2.3.4.基于关联规则的方法  37
    2.3.5.混合方法  37
  2.4.本章小结  37-39
第三章基于关键词序列的网络文本信息去重算法  39-52
  3.1.引言  39
  3.2.相关工作  39-41
  3.3.基于关键词序列的网络文本信息去重算法  41-45
    3.3.1.文本内容解析  42-43
    3.3.2.文本信息比较  43-45
  3.4.算法评测  45-51
    3.4.1.文本信息去重算法的评价指标  45
    3.4.2.测试语料库的构造  45-47
    3.4.3.KSM算法的参数学习  47-48
    3.4.4.对比实验  48-51
  3.5.本章小结  51-52
第四章基于语言认知理论的中文术语自动抽取  52-69
  4.1.引言  52
  4.2.科技论文的语言学特征  52-54
  4.3.基于语言认知理论的中文术语抽取  54-64
    4.3.1.语言学处理  55-58
    4.3.2.统计处理  58-63
    4.3.3.算法描述  63-64
  4.4.算法性能评价  64-68
    4.4.1.测试语料库  64-65
    4.4.2.实验结果  65-68
  4.5.本章小结  68-69
第五章基于多策略的术语关系自动获取  69-100
  5.1.引言  69
  5.2.基于多策略的术语关系自动获取模型  69-71
  5.3.基于规则的术语同义关系的获取  71-74
  5.4.基于结构相似性的术语层级关系获取  74-77
    5.4.1.相关工作  74-75
    5.4.2.基于同义替换的术语结构相似性评价  75-77
    5.4.3.实验结果  77
  5.5.基于完全加权关联规则的术语非层级关系获取  77-92
    5.5.1.完全加权关联规则挖掘的相关概念  78-81
    5.5.2.基于非频繁项集多重剪枝检测的完全加权关联规则挖掘算法  81-90
    5.5.3.基于篇章结构树语义扩展的术语效用集合  90-91
    5.5.4.实验结果  91-92
  5.6.基于粒子群的术语聚类  92-99
    5.6.1.术语聚类的数学模型  92-95
    5.6.2.基于K-MEANS的术语聚类算法  95-96
    5.6.3.粒子群优化算法  96-97
    5.6.4.基于粒子群的术语聚类算法  97-98
    5.6.5.算法性能评价  98-99
  5.7.本章小结  99-100
第六章领域知识在科技论文初审辅助系统中的应用  100-112
  6.1.引言  100
  6.2.相关工作  100-101
  6.3.科技论文编辑初审的主要过程  101-102
  6.4.领域知识制导的科技论文初审辅助系统模型  102-109
    6.4.1.格式审查器  102-103
    6.4.2.参考文献近期率评价器  103-104
    6.4.3.摘要准确性评价器  104-108
    6.4.4.正文内容剽窃检测器  108
    6.4.5.综合评价器  108-109
  6.5.实验结果与分析  109-110
  6.6.本章小结  110-112
第七章结束语  112-115
  7.1.研究工作小结  112-114
  7.2.今后的研究方向  114-115
参考文献  115-125
攻读博士学位期间发表的论文  125-127
致谢  127

领域知识的获取

内容摘要

全文目录

相似论文