学位论文 > 优秀研究生学位论文题录展示
中文零指代消解研究
作 者: 黄李伟
导 师: 朱巧明
学 校: 苏州大学
专 业: 计算机软件与理论
关键词: 中文零指代消解 SVM 中文零指代项识别 树核函数 机器学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 50次
引 用: 0次
阅 读: 论文下载
内容摘要
中文零指代消解是中文指代消解中一个重要的研究课题,因此,许多涉及到指代消解问题的应用同样也需要进行中文零指代消解,比如中文文本摘要,中英文机器翻译等众多研究领域。本文深入分析了现有的中文零指代消解技术并进行了归纳总结,首先针对中文零指代研究缺乏语料这一情况,手工标注了一个中文零指代的基准语料库;然后对中文零指代消解的两个阶段进行了深入的分析;最后将中文零指代消解应用到中文指代消解平台中去。针对中文零指代主要依赖上下文信息这一个特点,本文在中文零指代项识别阶段,主要研究了结构化信息的重要作用。因所用基准语料是自己手工标注的,因此构建了一个基于规则的原型系统作为实验比较对象。实验结果表明,基于树核函数方法对零指代项的识别率明显优于基于规则的原型系统。本文在中文零指代项消解阶段,主要采用了基于树核函数的方法,探讨了三种不同句法裁剪策略对消解性能的影响。并且分析了缺省项的识别以及零指代项的识别对中文零指代消解的影响。本文最后以中文指代消解作为应用背景,就零指代对指代消解的影响进行了初步探索。
|
全文目录
中文摘要 4-5 Abstract 5-8 第1章 序言 8-13 1.1 研究背景 8-9 1.2 本文的研究意义 9-10 1.3 研究现状 10-11 1.3.1 基于规则的方法 10-11 1.3.2 基于统计模型和机器学习方法 11 1.4 本文研究内容 11-12 1.5 本文结构 12-13 第2章 中文零指代基准语料库 13-25 2.1 宾州中文树库(CTB)简介 13-20 2.1.1 句法分析树 13-14 2.1.2 空元素 14-20 2.2 基准语料库标记 20-24 2.2.1 零指代基本句法结构 21-22 2.2.2 零指代基准语料库标记格式 22-24 2.3 本章小节 24-25 第3章 基于树核函数的中文零指代项识别 25-42 3.1 相关知识 25-28 3.1.1 中文零指代项简介 25 3.1.2 SVM 分类器 25-28 3.1.3 卷积树核函数 28 3.2 中文零指代项识别研究 28-34 3.2.1 结构化信息的捕获 28-33 3.2.2 训练样例和测试样例的产生 33-34 3.3 实验结果与分析 34-41 3.3.1 评测方法 34 3.3.2 K 倍交叉验证 34-35 3.3.3 基于规则的零指代项识别系统 35-36 3.3.4 实验结果与分析 36-40 3.3.5 错误分析 40-41 3.4 本章小节 41-42 第4章 基于树核函数的中文零指代项消解的研究 42-56 4.1 相关知识 42-43 4.1.1 中文零指代项识别的框架结构 42-43 4.1.2 结构化特征 43 4.2 中文零指代项消解结构化信息的获得 43-44 4.3 训练样例和测试样例的产生 44 4.4 中文零指代消解实验过程 44-48 4.4.1 零指代项(AZP)Golden 情况 45 4.4.2 加入零指代项识别的实验 45-46 4.4.3 加入缺省项识别的实验 46-48 4.5 中文零指代消解与中文指代消解平台 48-51 4.5.1 中文指代消解原型系统 48-49 4.5.2 原型系统训练样例的生成 49-50 4.5.3 加入零指代消解之后系统训练样例的生成 50-51 4.6 系统的实现 51-53 4.7 实验语料 53-54 4.8 实验结果与分析 54-55 4.9 本章小结 55-56 第5章 总结和展望 56-58 5.1 总结 56-57 5.2 展望 57-58 参考文献 58-61 攻读学位期间公开发表的论文 61-62 致谢 62-63
|
相似论文
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 基于数据分布特征的文本分类研究,TP391.1
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 心电特征提取及分类方法研究,TN911.7
- 监督主题模型的研究与应用,TP391.1
- 多特征融合的视觉跟踪算法研究,TP391.41
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 基于多普勒气象雷达的风切变预测研究,P415.2
- 基于本体的医学命名实体识别技术研究,TP391.1
- 社会化网络中的推荐算法及其应用,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|