学位论文 > 优秀研究生学位论文题录展示

特定领域术语自动抽取方法的研究

作 者: 马志斌
导 师: 王宇颖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 领域术语 术语单元性 术语领域性 术语自动抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 53次
引 用: 3次
阅 读: 论文下载
 

内容摘要


中文领域术语自动抽取是中文信息处理中的一项基础性课题,在很多领域都有很重要的作用。如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域中有广泛的应用。特别是针对开放语料而言,术语抽取的作用显得十分重要。本文在统计学与语言学的基础上,研究和分析了术语的多方面特点,总结了术语的两个基本特征:单元性和术语性,并提出了术语的形式化定义,这对于领域术语的自动抽取,具有很强的实际操作性。本文系统的研究和分析了现有的术语单元性和领域性的实现方法,并在此基础上改进和提出了判别术语单元性和领域性的新方法。通过实验分析,这些方法在一定程度上提高了术语自动抽取的精度。在判别术语单元性的部分中,中文多字术语抽取一直是术语自动抽取的难点问题。因此,本文使用改进后的互信息参数,避免了传统的互信息参数在字符串应该如何分解上的问题,同时结合参数C-value在长术语抽取上的优势,定义了用于计算术语内部结合强度的统计参数C-MI及其公式。该参数的设计符合术语的构成特点,测试实验显示出了良好的效果。在判别术语领域性的部分中,本文采用了基于统计与规则相结合的方法。通过对术语定义的分析,本文可以看出术语是某一特定领域的被定义项。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,有效的判别了候选术语的领域性。同时,对于缺少术语定义信息的候选术语,本文使用信息熵判别其领域特征。本文综合运用论文中研究的方法和设计的术语自动抽取系统,对术语抽取和术语选择功能模块分别进行了评价对比,实验结果显示,本文提出的方法优于传统的术语抽取方法。同时,本文对中图法分类语料进行抽取测试,并随机选取了其中五个领域类别,人工统计了实验结果,五个类别的实验平均准确率达到了72.2%,召回率也要好于经典方法,从而验证了论文中提出的各种方法的有效性和可行性。

全文目录


摘要  4-5
Abstract  5-10
第1章 绪论  10-15
  1.1 课题研究的背景及意义  10-11
  1.2 国内外对术语自动获取的研究  11-13
    1.2.1 国外的研究状况  11-12
    1.2.2 国内的研究状况  12-13
  1.3 主要工作与本文组织  13-15
第2章 术语学与术语的形式化概念  15-23
  2.1 术语学简介  15-16
  2.2 术语形式化界定的研究  16-18
  2.3 术语定义的研究  18-19
  2.4 术语的特征  19-22
    2.4.1 简单术语与复杂术语  19-20
    2.4.2 术语的领域特征  20
    2.4.3 术语的结构特征  20-21
    2.4.4 术语的单元性与术语性  21-22
  2.5 本章小结  22-23
第3章 基于改进的互信息判别术语单元性方法的研究  23-36
  3.1 判别术语单元性的相关统计参数的研究  23-25
    3.1.1 频率  23-24
    3.1.2 互信息  24-25
  3.2 一种基于改进的互信息的术语抽取方法  25-30
    3.2.1 基于互信息的术语抽取方法  25-26
    3.2.2 基于改进的互信息的术语抽取方法  26-30
  3.3 语料预处理相关技术的研究  30-31
    3.3.1 N元统计模型  30
    3.3.2 后缀数组  30-31
  3.4 过滤方法的相关研究  31-32
    3.4.1 独立词概率  32
    3.4.2 位置成词概率  32
  3.5 实验结果和分析  32-35
    3.5.1 统计参数C-MI的性能评测  32-35
    3.5.2 利用参数C-MI抽取的部分词语  35
  3.6 本章小结  35-36
第4章 基于统计与语言学相结合的术语领域性判别方法的研究  36-47
  4.1 判别术语领域性的相关统计参数的研究  36-37
    4.1.1 信息熵  36-37
    4.1.2 相对频比  37
  4.2 基于术语定义信息的术语领域性判别方法  37-41
    4.2.1 基于语言学的术语定义匹配模板  38-40
    4.2.2 基于隶属度的术语定义语句计算公式  40-41
  4.3 基于统计信息与语言学信息的术语领域性判别方法  41-43
  4.4 实验结果与分析  43-46
    4.4.1 利用信息熵与术语定义进行术语选择的结果对比  43-44
    4.4.2 几种术语选择方法的精度对比结果  44-46
  4.5 本章小结  46-47
第5章 系统设计与实现  47-58
  5.1 系统功能  47
  5.2 系统架构  47-48
  5.3 术语单元性判别模块的设计与实现  48-52
    5.3.1 语料预处理模块的实现  49-50
    5.3.2 术语抽取模块的实现  50-51
    5.3.3 术语过滤模块的实现  51-52
  5.4 术语领域性判别模块的设计与实现  52-55
    5.4.1 词语的定义隶属度统计  52-53
    5.4.2 术语选择模块的实现  53-55
  5.5 术语抽取系统的评测  55-57
    5.5.1 实验设置  55
    5.5.2 实验结果和分析  55-57
  5.6 本章小结  57-58
结论  58-60
参考文献  60-65
致谢  65

相似论文

  1. 基于Web的领域词典构建技术研究,TP391.1
  2. 特定领域中文术语抽取,TP391.1
  3. 术语自动抽取系统的设计及关键技术研究,TP391.1
  4. 英文短文本相似性研究及在图书推荐中的应用,TP391.1
  5. 领域本体中的术语和上下位、同位关系抽取的研究,TP391.1
  6. 领域概念自动抽取研究,TP391.1
  7. 非结构化文本中领域术语获取方法的研究,TP391.1
  8. 术语自动抽取技术的研究与应用,TP391.1
  9. 实体关系自动抽取技术的比较研究,TP391.1
  10. 中文领域术语自动获取方法的研究,TP391.1
  11. 领域术语自动抽取及关系分类研究,TP391.1
  12. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  13. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  14. 基于FPGA的高速图像预处理技术的研究,TP391.41
  15. 2D人脸模板保护算法研究,TP391.41
  16. 导弹虚拟试验可视化技术研究,TP391.9
  17. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  18. 图像拼接技术研究,TP391.41
  19. 高效精确字符串匹配算法的研究与实现,TP391.41
  20. 基于词义及语义分析的问答技术研究,TP391.1
  21. 基于三维重建的焊点质量分类方法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com