学位论文 > 优秀研究生学位论文题录展示
中文跨文档指代消解的研究与实现
作 者: 陆长生
导 师: 朱巧明
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 指代消解 中文跨文档指代消解 传记信息 相容信息 文档层信息 向量空间模型 B_CUBED算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
跨文档指代消解是自然语言处理的重点和难点之一,是信息检索,信息抽取,多文档摘要等应用系统的重要组成部分。在数十年中,指代消解的研究只是局限于单篇文档内的研究。随着研究的深入,跨文档指代消解越来越受到青睐,因为它在篇章之间也构建了多条指代链,不仅可以获得关于某个实体更详细的信息,而且能将一些很有价值的信息反馈到指代消解的研究中,使指代消解取得突破性的进展。由于中文跨文档指代消解的研究尚且处于起步阶段。本文深入分析现有的英文跨文档指代消解技术,设计了中文跨文档指代消解的系统,该系统包括中文人名跨文档指代消解和中文地名跨文档指代消解两部分。对于中文人名跨文档指代消解,提出两步实现的方案:首先抽取传记信息、相容信息,对指代链进行简单的合并、分离和标记,形成初始的指代链集合。然后采用基于向量空间模型(VSM)的聚类方法对指代链进行聚类,形成最终的指代链集合。对于中文地名跨文档指代消解,提出通过文档层信息的抽取与基于VSM的聚类相结合的策略来实现。此外,由于中文跨文档指代消解语料库的缺乏,我们从搜索引擎上搜集和整理了113篇具有相同人名“张伟”的文档和30篇具有相同地名“通州”的文档,对这些文档进行预处理、人工校对和核对后作为中文人名和地名的语料库。本文采用B-CUBED算法对系统进行评估,在中文人名语料库上,其F值最高为95.71%,对应的准确率和召回率为92.41%和99.25%。在中文地名语料库上,其F最高为89.30%,对应的准确率和召回率为100%和80.66%。特别是,本文系统深入研究了不同的特征与特征的组合,不同的相似度计算方法,不同的阈值取值间隔,传记信息、相容信息和文档层信息加入与否对系统性能的影响,同时还研究了中文指代消解与中文跨文档指代消解的关系。通过对比实验结果,检查实验错误,分析了中文跨文档指代消解的错误类型和解决方案,为接下来的工作奠定了基础。实验表明,本文的中文跨文档指代消解系统性能良好。
|
全文目录
中文摘要 4-6 Abstract 6-10 第1章 序言 10-13 1.1 研究背景 10-11 1.2 研究现状及意义 11 1.3 本文的主要工作 11-12 1.4 本文结构 12-13 第2章 跨文档指代消解相关技术 13-20 2.1 跨文档指代消解相关概念 13 2.2 研究现状及趋势 13-16 2.2.1 英文跨文档指代消解的研究现状 14-15 2.2.2 中文跨文档指代消解的研究现状 15 2.2.3 中英文跨文档指代消解的异同 15-16 2.2.4 中文跨文档指代消解的研究趋势 16 2.3 语料资源 16-18 2.4 中文跨文档指代消解的评测方法 18 2.5 中文跨文档指代消解的特点和难点 18-19 2.6 本章小结 19-20 第3章 中文跨文档指代消解的基本框架 20-39 3.1 简介 20-21 3.2 数据预处理 21-27 3.2.1 预处理工具介绍 21-22 3.2.2 预处理的过程 22-27 3.3 传记信息、相容信息、文档层信息的抽取 27-32 3.3.1 传记信息的抽取 27-29 3.3.2 相容信息的抽取 29-31 3.3.3 文档层信息的抽取 31-32 3.4 基于VSM 的聚类 32-37 3.4.1 特征的选择 32-33 3.4.2 特征权值的计算 33 3.4.3 相似度计算 33-35 3.4.4 聚类 35 3.4.5 指代链的合并 35-37 3.5 本章小结 37-39 第4章 系统性能的影响 39-50 4.1 原型系统的测试结果 39-41 4.2 特征与特征的组合 41-42 4.3 传记信息、相容信息和文档层信息 42-43 4.4 相似度计算方法 43-45 4.5 指代消解 45-48 4.6 聚类 48 4.7 阈值取值间隔 48-49 4.8 本章小结 49-50 第5章 实验结果及错误分析 50-57 5.1 中文人名跨文档指代消解结果 50-51 5.2 中文地名跨文档指代消解结果 51-53 5.3 错误分析 53-55 5.4 不足与改进方法 55 5.5 本章小结 55-57 第6章 总结和展望 57-59 6.1 总结 57 6.2 未来研究方向 57-59 参考文献 59-62 攻读学位期间公开发表的论文 62-63 致谢 63-64
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- 基于改进向量空间模型的网络信息检索研究,TP391.3
- 基于ICVSM的摘要抽取算法研究,TP391.1
- 以博客内容为对象的个性化搜索研究,TP391.3
- 主题搜索引擎的研究与设计,TP391.3
- 基于支持向量机的水电故障分类器的设计与实现,TV738
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|