学位论文 > 优秀研究生学位论文题录展示

中文跨文档指代消解的研究与实现

作　者: 陆长生
导　师: 朱巧明
学　校: 苏州大学
专　业: 计算机应用技术
关键词: 指代消解中文跨文档指代消解传记信息相容信息文档层信息向量空间模型 B_CUBED算法
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 39次
引　用: 0次
阅　读: 论文下载

内容摘要

跨文档指代消解是自然语言处理的重点和难点之一,是信息检索,信息抽取,多文档摘要等应用系统的重要组成部分。在数十年中,指代消解的研究只是局限于单篇文档内的研究。随着研究的深入,跨文档指代消解越来越受到青睐,因为它在篇章之间也构建了多条指代链,不仅可以获得关于某个实体更详细的信息,而且能将一些很有价值的信息反馈到指代消解的研究中,使指代消解取得突破性的进展。由于中文跨文档指代消解的研究尚且处于起步阶段。本文深入分析现有的英文跨文档指代消解技术,设计了中文跨文档指代消解的系统,该系统包括中文人名跨文档指代消解和中文地名跨文档指代消解两部分。对于中文人名跨文档指代消解,提出两步实现的方案:首先抽取传记信息、相容信息,对指代链进行简单的合并、分离和标记,形成初始的指代链集合。然后采用基于向量空间模型(VSM)的聚类方法对指代链进行聚类,形成最终的指代链集合。对于中文地名跨文档指代消解,提出通过文档层信息的抽取与基于VSM的聚类相结合的策略来实现。此外,由于中文跨文档指代消解语料库的缺乏,我们从搜索引擎上搜集和整理了113篇具有相同人名“张伟”的文档和30篇具有相同地名“通州”的文档,对这些文档进行预处理、人工校对和核对后作为中文人名和地名的语料库。本文采用B-CUBED算法对系统进行评估,在中文人名语料库上,其F值最高为95.71%,对应的准确率和召回率为92.41%和99.25%。在中文地名语料库上,其F最高为89.30%,对应的准确率和召回率为100%和80.66%。特别是,本文系统深入研究了不同的特征与特征的组合,不同的相似度计算方法,不同的阈值取值间隔,传记信息、相容信息和文档层信息加入与否对系统性能的影响,同时还研究了中文指代消解与中文跨文档指代消解的关系。通过对比实验结果,检查实验错误,分析了中文跨文档指代消解的错误类型和解决方案,为接下来的工作奠定了基础。实验表明,本文的中文跨文档指代消解系统性能良好。

全文目录

中文摘要  4-6
Abstract  6-10
第1章序言  10-13
  1.1 研究背景  10-11
  1.2 研究现状及意义  11
  1.3 本文的主要工作  11-12
  1.4 本文结构  12-13
第2章跨文档指代消解相关技术  13-20
  2.1 跨文档指代消解相关概念  13
  2.2 研究现状及趋势  13-16
    2.2.1 英文跨文档指代消解的研究现状  14-15
    2.2.2 中文跨文档指代消解的研究现状  15
    2.2.3 中英文跨文档指代消解的异同  15-16
    2.2.4 中文跨文档指代消解的研究趋势  16
  2.3 语料资源  16-18
  2.4 中文跨文档指代消解的评测方法  18
  2.5 中文跨文档指代消解的特点和难点  18-19
  2.6 本章小结  19-20
第3章中文跨文档指代消解的基本框架  20-39
  3.1 简介  20-21
  3.2 数据预处理  21-27
    3.2.1 预处理工具介绍  21-22
    3.2.2 预处理的过程  22-27
  3.3 传记信息、相容信息、文档层信息的抽取  27-32
    3.3.1 传记信息的抽取  27-29
    3.3.2 相容信息的抽取  29-31
    3.3.3 文档层信息的抽取  31-32
  3.4 基于VSM 的聚类  32-37
    3.4.1 特征的选择  32-33
    3.4.2 特征权值的计算  33
    3.4.3 相似度计算  33-35
    3.4.4 聚类  35
    3.4.5 指代链的合并  35-37
  3.5 本章小结  37-39
第4章系统性能的影响  39-50
  4.1 原型系统的测试结果  39-41
  4.2 特征与特征的组合  41-42
  4.3 传记信息、相容信息和文档层信息  42-43
  4.4 相似度计算方法  43-45
  4.5 指代消解  45-48
  4.6 聚类  48
  4.7 阈值取值间隔  48-49
  4.8 本章小结  49-50
第5章实验结果及错误分析  50-57
  5.1 中文人名跨文档指代消解结果  50-51
  5.2 中文地名跨文档指代消解结果  51-53
  5.3 错误分析  53-55
  5.4 不足与改进方法  55
  5.5 本章小结  55-57
第6章总结和展望  57-59
  6.1 总结  57
  6.2 未来研究方向  57-59
参考文献  59-62
攻读学位期间公开发表的论文  62-63
致谢  63-64

中文跨文档指代消解的研究与实现

内容摘要

全文目录

相似论文