学位论文 > 优秀研究生学位论文题录展示
特定领域术语自动抽取方法的研究
作 者: 马志斌
导 师: 王宇颖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 领域术语 术语单元性 术语领域性 术语自动抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 53次
引 用: 3次
阅 读: 论文下载
内容摘要
中文领域术语自动抽取是中文信息处理中的一项基础性课题,在很多领域都有很重要的作用。如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域中有广泛的应用。特别是针对开放语料而言,术语抽取的作用显得十分重要。本文在统计学与语言学的基础上,研究和分析了术语的多方面特点,总结了术语的两个基本特征:单元性和术语性,并提出了术语的形式化定义,这对于领域术语的自动抽取,具有很强的实际操作性。本文系统的研究和分析了现有的术语单元性和领域性的实现方法,并在此基础上改进和提出了判别术语单元性和领域性的新方法。通过实验分析,这些方法在一定程度上提高了术语自动抽取的精度。在判别术语单元性的部分中,中文多字术语抽取一直是术语自动抽取的难点问题。因此,本文使用改进后的互信息参数,避免了传统的互信息参数在字符串应该如何分解上的问题,同时结合参数C-value在长术语抽取上的优势,定义了用于计算术语内部结合强度的统计参数C-MI及其公式。该参数的设计符合术语的构成特点,测试实验显示出了良好的效果。在判别术语领域性的部分中,本文采用了基于统计与规则相结合的方法。通过对术语定义的分析,本文可以看出术语是某一特定领域的被定义项。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,有效的判别了候选术语的领域性。同时,对于缺少术语定义信息的候选术语,本文使用信息熵判别其领域特征。本文综合运用论文中研究的方法和设计的术语自动抽取系统,对术语抽取和术语选择功能模块分别进行了评价对比,实验结果显示,本文提出的方法优于传统的术语抽取方法。同时,本文对中图法分类语料进行抽取测试,并随机选取了其中五个领域类别,人工统计了实验结果,五个类别的实验平均准确率达到了72.2%,召回率也要好于经典方法,从而验证了论文中提出的各种方法的有效性和可行性。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-15 1.1 课题研究的背景及意义 10-11 1.2 国内外对术语自动获取的研究 11-13 1.2.1 国外的研究状况 11-12 1.2.2 国内的研究状况 12-13 1.3 主要工作与本文组织 13-15 第2章 术语学与术语的形式化概念 15-23 2.1 术语学简介 15-16 2.2 术语形式化界定的研究 16-18 2.3 术语定义的研究 18-19 2.4 术语的特征 19-22 2.4.1 简单术语与复杂术语 19-20 2.4.2 术语的领域特征 20 2.4.3 术语的结构特征 20-21 2.4.4 术语的单元性与术语性 21-22 2.5 本章小结 22-23 第3章 基于改进的互信息判别术语单元性方法的研究 23-36 3.1 判别术语单元性的相关统计参数的研究 23-25 3.1.1 频率 23-24 3.1.2 互信息 24-25 3.2 一种基于改进的互信息的术语抽取方法 25-30 3.2.1 基于互信息的术语抽取方法 25-26 3.2.2 基于改进的互信息的术语抽取方法 26-30 3.3 语料预处理相关技术的研究 30-31 3.3.1 N元统计模型 30 3.3.2 后缀数组 30-31 3.4 过滤方法的相关研究 31-32 3.4.1 独立词概率 32 3.4.2 位置成词概率 32 3.5 实验结果和分析 32-35 3.5.1 统计参数C-MI的性能评测 32-35 3.5.2 利用参数C-MI抽取的部分词语 35 3.6 本章小结 35-36 第4章 基于统计与语言学相结合的术语领域性判别方法的研究 36-47 4.1 判别术语领域性的相关统计参数的研究 36-37 4.1.1 信息熵 36-37 4.1.2 相对频比 37 4.2 基于术语定义信息的术语领域性判别方法 37-41 4.2.1 基于语言学的术语定义匹配模板 38-40 4.2.2 基于隶属度的术语定义语句计算公式 40-41 4.3 基于统计信息与语言学信息的术语领域性判别方法 41-43 4.4 实验结果与分析 43-46 4.4.1 利用信息熵与术语定义进行术语选择的结果对比 43-44 4.4.2 几种术语选择方法的精度对比结果 44-46 4.5 本章小结 46-47 第5章 系统设计与实现 47-58 5.1 系统功能 47 5.2 系统架构 47-48 5.3 术语单元性判别模块的设计与实现 48-52 5.3.1 语料预处理模块的实现 49-50 5.3.2 术语抽取模块的实现 50-51 5.3.3 术语过滤模块的实现 51-52 5.4 术语领域性判别模块的设计与实现 52-55 5.4.1 词语的定义隶属度统计 52-53 5.4.2 术语选择模块的实现 53-55 5.5 术语抽取系统的评测 55-57 5.5.1 实验设置 55 5.5.2 实验结果和分析 55-57 5.6 本章小结 57-58 结论 58-60 参考文献 60-65 致谢 65
|
相似论文
- 基于Web的领域词典构建技术研究,TP391.1
- 特定领域中文术语抽取,TP391.1
- 术语自动抽取系统的设计及关键技术研究,TP391.1
- 英文短文本相似性研究及在图书推荐中的应用,TP391.1
- 领域本体中的术语和上下位、同位关系抽取的研究,TP391.1
- 领域概念自动抽取研究,TP391.1
- 非结构化文本中领域术语获取方法的研究,TP391.1
- 术语自动抽取技术的研究与应用,TP391.1
- 实体关系自动抽取技术的比较研究,TP391.1
- 中文领域术语自动获取方法的研究,TP391.1
- 领域术语自动抽取及关系分类研究,TP391.1
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|