学位论文 > 优秀研究生学位论文题录展示
VNC结构多词表达的抽取与分类
作 者: 缪苗
导 师: 王小捷
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 多词表达 Log likely-hood 向量空间模型 SVM HowNet
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
自然语言处理作为人工智能的重要研究领域之一,是利用计算机进行语言知识的获取、表示以及应用的技术,为人与计算机之间的信息交流提供了更加高效、便捷的方法。多词表达是自然语言处理中比较普遍且没有精确定义的一个概念,它是指两个(或两个以上的)词单元同时出现一起的概率相对较高的词组合。多词表达涵盖了多种词单元的组合形式。多词表达在自然语言处理领域是一个相当普遍的现象,因此对多词表达的识别与分类就显得格外重要。其中“动词+名词”形式(Verb Noun Construction, VNC)的多词表达所占比例最高,因此对它的研究更具有典型性。多词表达一直是自然语言处理中的一个难点,其语义信息与句法信息等无法直接从其组成词的信息得到,部分多词表达的整体含义甚至与其单独的组成词的含义风马牛不相及,导致必须在机器翻译等领域对多词表达的属性作出准确的预判:是根据组成词的组合含义来解释多词表达,抑或是由第三类完全不相关的含义对多词表达作出解释。本文的主要工作分类为VNC结构多词表达的抽取与分类。首先针对多词表达地抽取工作:作为多词表达本身,相对于其他独立的词语个体而言,其组成词之间的粘连度更高。基于此,本文通过计算组成词间的粘连度,且作为多词表达本身所具有的独立性,从大量的文本中抽取符合要求的候选对象。第二步工作是分类。在获得候选对象的前提下,需要对结果进行分类:分成组合性与非组合性两类。本文分别从语义与上下文语境两个角度分别考量分类性能。此分类对于机器翻译等领域有着至关重要的作用,直接决定翻译的角度与方式:被归类为组合性的多词表达,其含义可以直接根据字面意思来解释;被归类为非组合性的多词表达则需要从习语性的角度进行整体性的释义。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 引言 8-13 1.1 多词表达的研究背景 8-9 1.2 多词表达分类的研究意义 9-10 1.3 多词表达研究现状 10-11 1.4 本文研究内容及章节安排 11-13 第二章 多词表达相关研究技术概述 13-31 2.1 多词表达概述 13-14 2.2 多词表达抽取方法介绍 14-18 2.2.1 国内语言学界对多词表达的抽取方法 14 2.2.2 自然语言处理界对多词表达的抽取方法 14-18 2.3 多词表达分类方法介绍 18-27 2.3.1 基于语义相似度的分类方式 19-22 2.3.2 基于向量空间模型的分类方式 22-27 2.4 VNC结构多词表达的语料库的建立 27-31 2.4.1 语料库描述 28 2.4.2 训练语料选择的原则 28-31 第三章 VN结构多词表达抽取研究 31-36 3.1 语料准备 31-33 3.2 基于Log Likely-hood(LLR)的VN结构多词表达抽取 33-36 3.2.1 算法介绍 33-34 3.2.2 抽取实验流程 34 3.2.3 实验结果及分析 34-36 第四章 VNC结构多词表达的分类研究 36-47 4.1 语料标注 36 4.2 分类方案 36-37 4.3 VNC结构多词表达的分类方法 37-39 4.4 语义相似度作为分类器 39-41 4.5 运用VSM分类的结果 41-44 4.6 运用HowNet和VSM共同分类的结果 44-47 第五章 总结与展望 47-48 参考文献 48-51 致谢 51
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- Web新闻热点发现系统的设计与实现,TP393.09
- 基于与或图的车牌检测与识别,TP391.41
- 基于稀疏表达的人脸识别算法研究,TP391.41
- 20kV线路接地保护研究,TM862
- 基于SVM-RFE的潜在生物标志物选择算法研究,TP311.13
- 结合本体HowNet的中文文本分类研究,TP391.1
- 基于SVM分类机的DNA序列分类方法,TP18
- 中文文本分类技术研究,TP391.1
- 基于对象语义的图像检索,TP391.41
- 基于纹理分析的煤与非煤物的图像识别算法研究,TP391.41
- 基于人脸识别的门禁系统研究,TP391.41
- 地震图像的纹理特征提取及分类,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|