学位论文 > 优秀研究生学位论文题录展示
基于特征提取和机器学习的现代汉语人称指示代词消解研究
作 者: 陈林
导 师: 黄国营
学 校: 清华大学
专 业: 语言学及应用语言学
关键词: 知网 宾州树库 特征提取 特征加权 指代消解 支持向量机
分类号: H146.2
类 型: 硕士论文
年 份: 2007年
下 载: 185次
引 用: 0次
阅 读: 论文下载
内容摘要
指代是自然语言的常见语言现象,也是语篇衔接的重要手段之一。使用指示代词可以让语篇表述不累赘,简明清晰。指示代词的消解有助于机器分析和理解篇章,并在自动文摘、信息抽取、问答系统和机器翻译等多个自然语言处理领域有着广泛运用。随着篇章处理相关应用的日益发展,指代消解显示出前所未有的重要性,并成为自然语言处理中热门的研究问题。本文介绍了指代消解在自然语言处理领域的应用意义,对国内外指代消解的理论研究和实现技术进行了总结。本文针对宾州树库的特点,实现了一种基于特征提取及加权的指代消解的方法,同时也实现了一种基于机器学习的指代消解方法。特征提取是本文的主要内容,人称代词与候选先行词的特征提取是创建先行词候选集的重要条件,本文中通过提取人称代词与候选先行词的指人、性别和单复数特征来过滤候选先行词以创建先行词候选集。而人称代词与先行词候选集中的候选先行词组成的候选对的特征提取则是在候选集中选择先行词的唯一条件。本文中提取了各个候选对的8个特征,然后对这些特征进行加权得到一个匹配权值,先行词则是组成具有最高匹配权值的候选对的词。词语搭配作为一种特殊的语言现象,组成搭配的词语互相存在着暗示。在本文中搭配被用来提取词语的语义信息,同时统计信息也可以从搭配中获取。搭配对于特征提取有着重要的意义。支持向量机(SVM)作为一种机器学习算法,能够从有限的特征中最大限度的提取分类信息来进行分类。在本文中指代消解被转化为一种特殊的分类问题,即对于每个人称代词来说,它与候选先行词组成的候选对中只有1个候选对能被分为同指类,而其他的候选对要被分为非同指类。在本文中,基于SVM的指代消解使用SVMLight工具进行分类。分类时使用加权消解方法时提取的特征,然后从SVMLight分类的中间结果中提取消解结果。基于使用搭配改进的特征提取,在宾州树库的全部语料中普通加权的方法得到了86.37%,而在经过挑选的语料中基于SVM的方法得到了超过90%的正确率。而基于搭配的特征提取的使用对于整个系统的性能都有超过10%的提高。实验证明,本文中采取的方法对指代消解存在重要的价值。
|
全文目录
摘要 3-4 ABSTRACT 4-10 第1章 引言 10-14 1.1 研究背景 10 1.2 指示代词及指代消解 10 1.3 指代消解的意义 10-11 1.4 论文主要工作 11-12 1.4.1 语义信息的提取及语义词典的创建 12 1.4.2 基于特征的提取及加权的指代消解 12 1.4.3 使用搭配改进的特征提取 12 1.4.4 宾州树库中第3 人称代词先行语的标记 12 1.4.5 基于支持向量机的指代消解 12 1.5 结构安排 12-14 第2章 研究方法回顾 14-22 2.1 国外理论研究 14-15 2.1.1 早期研究 14 2.1.2 Hobbs 算法 14 2.1.3 中心理论 14-15 2.2 国外实现方法 15-18 2.2.1 基于规则的方法 15-17 2.2.2 基于语料统计的方法 17-18 2.3 国内研究情况 18-22 2.3.1 理论研究 18-19 2.3.2 消解方法研究 19-22 第3章 系统使用的资源 22-27 3.1 宾州树库 22-24 3.1.1 树库介绍 22 3.1.2 可用性介绍 22-24 3.2 中文《知网》 24-26 3.2.1 《知网》简介 24 3.2.2 《知网》的结构 24-25 3.2.3 《知网》的知识描述语言 25-26 3.3 本章小结 26-27 第4章 特征的提取 27-43 4.1 语义词典的创建 27-29 4.2 构造先行词候选集 29-33 4.2.1 确定指代词 30 4.4.2 提取先行语 30-31 4.2.3 特征提取 31-32 4.2.4 候选先行词过滤 32-33 4.2.5 先行词候选集创建算法 33 4.3 匹配特征权值提取 33-42 4.3.1 指人匹配特征 34 4.3.2 性别匹配特征 34-35 4.3.3 单复数匹配特征 35-36 4.3.4 距离特征 36-37 4.3.5 搭配匹配特征 37-39 4.3.6 位置匹配特征 39-40 4.3.7 词频特征 40-41 4.3.8 位于标题特征 41-42 4.4 特征加权的消解 42 4.5 本章小结 42-43 第5章 使用搭配改进特征提取 43-51 5.1 基于词形来改进特征提取 43-45 5.1.1 使用词形改进“Person”特征提取 43-44 5.1.2 使用词形改进“Gender”特征提取 44-45 5.1.3 使用词形改进“Number”特征提取 45 5.2 基于动词搭配的特征提取 45-46 5.3 基于名词搭配的特征提取 46-51 5.3.1 名词搭配的提取 46-47 5.3.2 从名词搭配中提取“Person”特征 47 5.3.3 从名词搭配中提取“Gender”特征 47-48 5.3.4 从名词搭配中提取“Number”特征 48-49 5.3.5 从名词搭配中提取“位于标题”特征 49-50 5.3.6 从名词搭配中提取“词频”特征 50-51 第6章 基于机器学习的指代消解 51-58 6.1 SVM 介绍 51-54 6.1.1 统计学习理论 51 6.1.2 结构风险最小化原则 51-52 6.1.3 SVM 分类算法 52-53 6.1.4 SVM 具体实现过程 53-54 6.2 使用SVM 的指代消解 54-55 6.3 训练与测试集的构造 55-56 6.4 消解结果 56-57 6.5 本章小结 57-58 第7章 系统的设计与实现 58-63 7.1 系统介绍及流程 58-59 7.2 系统模块 59-62 7.2.1 文件读取模块 59-61 7.2.2 特征提取模块 61 7.2.3 SVM 相关模块 61-62 7.3 系统实现 62-63 第8章 实验结果及分析 63-67 8.1 实验语料及评测方法 63 8.2 实验结果 63-65 8.2.1 基于特征提取及加权的实验结果 63-64 8.2.2 基于SVM 的指代消解结果 64-65 8.3 实验结果分析 65-67 8.3.1 搭配的作用 65-66 8.3.2 特征的作用 66-67 第9章 总结及展望 67-70 9.1 总结 67 9.2 展望 67-70 9.2.1 语义信息的提取 67 9.2.2 语料处理的自动化 67-68 9.2.3 句子结构信息的提取 68 9.2.4 人称代词之间的匹配 68-70 参考文献 70-74 致谢 74-75 附录A 宾州中文树库词性标记说明 75-78 附录B 中文宾州树库切分、词性标注文本示例 78-81 个人简历、在学期间发表的学术论文与研究成果 81
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
中图分类: > 语言、文字 > 汉语 > 语法 > 近代、现代语法 > 词类
© 2012 www.xueweilunwen.com
|