学位论文 > 优秀研究生学位论文题录展示

基于机器学习算法的隐喻识别研究

作　者: 刘金克
导　师: 曲维光
学　校: 南京师范大学
专　业: 计算机应用技术
关键词: 隐喻识别机器学习分类算法聚类算法半监督学习知识获取
分类号: TP181
类　型: 硕士论文
年　份: 2011年
下　载: 36次
引　用: 0次
阅　读: 论文下载

内容摘要

隐喻是自然语言处理领域最棘手的问题之一,这个问题逐渐引起了学者们的关注,并且隐喻在思维及语言中所处的中心地位也逐渐为自然语言处理研究者所认同。隐喻是通过一个事物来表达另外一个事物,它不仅是一种修辞手段,而且体现着人的一种类比认知和思维方式。实际上,隐喻现象是一切自然语言中普遍存在的现象,是自然语言处理不可回避的问题,因此隐喻问题若得不到很好的解决,将成为制约自然语言处理和机器翻译发展的瓶颈。近几年来,在隐喻识别方面,机器学习方法和大规模知识获取成了新的亮点。本文选择汉语文本中的隐喻计算问题作为研究对象,以隐喻识别为研究内容,从名词性隐喻和动词性隐喻这两种最主要的隐喻类型入手,采用多种机器学习算法,广泛地探讨了隐喻的识别方法。本文选择了20个常用的隐喻词语,使用2001年—2004年的《人民日报》语料进行隐喻识别研究,主要研究内容如下：基于有监督学习的隐喻识别。针对名词性隐喻和动词性隐喻这两类主要的隐喻类型,提出了基于RFR_SUM模型、SVM算法、CRF模型、最大熵模型和语义相似度计算模型的隐喻识别方法。分类方法为识别隐喻提供了一个机器识别的思路,考察了主流的分类方法在识别隐喻时的性能和效果。其中,RFR_SUM模型识别性能比较稳定,名词性和动词性隐喻的正确率的稳定性保持地最好。另外,CRF模型的识别正确率比SVM算法的略高,但是效果最好的是语义相似度计算模型。这个模型在采用K近邻分类算法的基础上,融入了语义相似度计算,使它的隐喻识别性能得到提高,是五个模型中隐喻识别正确率最高的。此外,对五个模型的实验结果进行了基于投票的集成实验。使隐喻识别正确率得到提升,名词性隐喻正确率达到87.74%,动词性隐喻正确率达到85.27%。基于聚类算法的隐喻识别。在聚类过程中,样本间的相似度使用了基于同义词词林的向量空间相似度计算和基于知网的语义相似度计算两种方法,采用K-means算法原理,并对K-means算法的随机选择初始聚类中心的方法进行了优化。聚类实验设计了三个方案来提升隐喻识别结果的正确率,其中方案二不仅利用了近距离搭配信息,也考虑了远距离的特征信息,使实验结果得到提高。基于半监督算法的隐喻识别。探讨了利用K-means算法和RFR SUM模型对隐喻识别进行半监督学习的方法,该算法是在分类实验和聚类实验的基础之上实现的。不仅利用了已标记样本的信息量,而且运用了未标记样本提供的信息,提高了隐喻识别的正确率。最后,构建了用于隐喻计算的小型隐喻知识库。在隐喻研究的实验结果基础上,利用算法抽取隐喻类的特征词,并把特征词依据对应的RFR值进行排序,建立基于隐喻特征-RFR值这种结构的隐喻知识库。此外,通过基于知识库的隐喻计算实验,验证了构建的隐喻知识库的有效性。总之,本文的研究工作主要是基于机器学习算法和知识获取方法,探讨了各种机器学习算法进行隐喻识别的实验思路,避免了手工知识库和规则方法的不足,积累了多种机器学习算法进行隐喻识别的大量实验数据,获得了隐喻识别研究较理想的实验结果。本文研究方法可以为隐喻计算、隐喻理解、隐喻本体研究及自然语言处理相关研究提供支持。

全文目录

摘要  4-6
Abstract  6-11
第一章绪论  11-18
  1.1 课题概述  11-13
    1.1.1 课题来源  11
    1.1.2 隐喻概念  11-12
    1.1.3 隐喻课题研究意义  12-13
  1.2 隐喻研究现状  13-15
    1.2.1 国外隐喻研究现状  13-14
    1.2.2 国内隐喻研究现状  14-15
  1.3 本文研究内容和创新  15-16
    1.3.1 研究内容  15
    1.3.2 本文创新  15-16
  1.4 本文组织结构  16-18
第二章隐喻识别研究方法  18-25
  2.1 隐喻识别方法  18-20
    2.1.1 基于文本线索的方法  18-19
    2.1.2 基于语义知识的方法  19
    2.1.3 基于机器学习的方法  19-20
  2.2 本文实验准备  20-24
    2.2.1 实验数据  20-23
    2.2.2 评价指标  23-24
  2.3 本章小结  24-25
第三章基于有监督学习的隐喻识别研究  25-42
  3.1 基于RFR_SUM模型的隐喻识别  25-27
    3.1.1 RFR_SUM模型  25-26
    3.1.2 RFR_SUM实验结果  26-27
  3.2 基于SVM模型的隐喻识别  27-29
    3.2.1 SVM模型原理  27
    3.2.2 SVM实验结果  27-29
  3.3 基于CRF模型的隐喻识别  29-32
    3.3.1 条件随机场模型概述  29
    3.3.2 CRF实验结果  29-32
  3.4 基于最大熵模型的隐喻识别  32-34
    3.4.1 最大熵原理  32
    3.4.2 最大熵实验结果  32-34
  3.5 基于语义相似度计算模型的隐喻识别  34-38
    3.5.1 模型的原理和步骤  34-36
    3.5.2 语义相似度模型实验结果  36-38
  3.6 基于多分类器集成的隐喻识别  38-41
    3.6.1 集成学习  38
    3.6.2 多分类器集成  38-39
    3.6.3 集成实验结果  39-41
  3.7 本章小结  41-42
第四章基于聚类的隐喻识别研究  42-53
  4.1 问题提出与结论  42-44
  4.2 聚类方法  44-47
    4.2.1 聚类算法划分  44-45
    4.2.2 K-means聚类算法  45-46
    4.2.3 相似度计算  46-47
  4.3 实验过程  47-52
    4.3.1 实验设计  47-50
    4.3.2 实验结果  50-52
  4.4 本章小结  52-53
第五章基于半监督学习的隐喻识别研究  53-59
  5.1 半监督学习  53-55
    5.1.1 半监督学习基本思想  53-54
    5.1.2 半监督学习算法  54-55
  5.2 实验过程  55-58
    5.2.1 半监督学习实验设计  55-56
    5.2.2 算法流程  56-57
    5.2.3 半监督学习实验结果  57-58
  5.3 本章小结  58-59
第六章构建隐喻知识库  59-69
  6.1 隐喻知识库  59-61
    6.1.1 研究意义  59-60
    6.1.2 国外隐喻知识库现状  60-61
    6.1.3 国内隐喻知识库现状  61
  6.2 构建过程  61-68
    6.2.1 算法流程  61-62
    6.2.2 隐喻知识库  62-65
    6.2.3 基于知识库的隐喻计算  65-68
  6.3 本章小结  68-69
第七章总结与展望  69-72
  7.1 全文总结  69-70
  7.2 下一步研究计划  70-72
附录A:本文构建的隐喻知识库  72-77
参考文献  77-83
在读期间参加的科研项目与公开发表的学术论文  83-84
致谢  84

相似论文

K-均值聚类算法的研究与改进,TP311.13
细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
基于变异粒子群的聚类算法研究,TP18
K-means聚类优化算法的研究,TP311.13
融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
基于遗传算法和粗糙集的聚类算法研究,TP18
基于粗糙集的城市区域交通绿时控制系统研究,TP18
不完备信息系统的完备化及其上的知识获取,TP311.13
SAR干涉像对优化选取方法研究,P225.2
基于数据分布特征的文本分类研究,TP391.1
基于粒子群优化的Fuzzy c-mean聚类算法的基因芯片图像处理,TP391.41
基于条件随机场的中文分词技术的研究与实现,TP391.1
基于UCA单次快拍实现相干信源估计,TN911.23
领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
Android恶意软件静态检测方案的研究,TP309
产品设计过程中的任务建模及知识获取机制研究,TB472
社会化网络中的推荐算法及其应用,TP391.3
数据挖掘在邮件反垃圾系统中的应用,TP393.098
基于自学习的社会关系抽取的研究,TP391.1
基于统计与图模型的若干机器学习算法及其应用,TP181
P2P流量识别方法研究,TP393.06