学位论文 > 优秀研究生学位论文题录展示

英文多文档查询型自动文摘研究

作　者: 吴中勤
导　师: 吴立德
学　校: 复旦大学
专　业: 计算机应用技术
关键词: 自动文摘机器学习最大熵模型语义关系特征
分类号: TP391.1
类　型: 硕士论文
年　份: 2008年
下　载: 93次
引　用: 1次
阅　读: 论文下载

内容摘要

随着信息技术和互联网的发展,人们置身于浩瀚的信息海洋,可获取的信息也越来越多,越来越纷繁复杂。人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主要内容和中心意思,从而减少信息获取的时间。文本的自动摘要技术正好为人们提供了一种解决方案,通过计算机自动从一篇或多篇文档中提炼出用户需要的信息内容,从而节省用户获取信息的时间,减轻用户的负担。文本自动摘要技术一直是自然语言领域的研究热点,尤其是近年来,文本自动摘要出现了和自动问题回答系统融合的趋势,并更加注重于查询型的文摘,国际上相关的文摘评测会议也越来越受到科研单位的重视。对于文摘领域语义关系、篇章分析、机器学习方法应用的研究越来越多,在这一背景下,本文尝试对语义关系三元组这一重要特征以及机器学习方法应用于文摘做了详细的探讨。语义关系是文摘方法的重要特征,本文使用语义关系三元组这一重要特征来揭示文本之间的语义关系,在对句子进行充分的句法分析的基础上,抽取语义关系特征形成三元组,并引入搜索引擎等外部知识库,转化为更容易计算的词、关系之间的语义联系。在DUC权威语料上的实验证明,使用该特征在各项文摘性能指标上超过了经典的TF*ISF方法,ROUGE-4指标提高了46.4%,而且由该特征单独编制的文摘系统,和参加DUC2005年评测的32个系统相比,ROUGE-L指标排名为第10。抽取式的文摘方法,可以看作两类的分类问题。机器学习方法可以选取最优的特征组合,学习出文摘模型。本文采用了最大熵、支持向量机等模型实现基于机器学习方法的自动文摘系统,对多种特征做了研究分析,并对句子相似度的计算方法做了比较。在DUC2005年的官方评测上,本文的自动文摘系统在所有参评的32个系统中名列前茅,在ROUGE-1,ROUGE-L,ROUGE-W三项指标上均名列第6名。

全文目录

摘要  5-6
Abstract  6-7
第一章绪论  7-10
  1.1 文本自动摘要技术的意义和目标  7
  1.2 文本自动摘要技术的应用领域  7-8
  1.3 本文的贡献和组织结构  8-10
第二章基本概念及相关工作  10-19
  2.1 自动文摘系统的要素和分类  10-11
  2.2 自动文摘系统的基本框架  11-12
  2.3 自动文摘研究的历史和现状  12-14
  2.4 自动文摘的评价方法  14-19
    2.4.1 内部评价和外部评价  14-15
      2.4.1.1 内部评价方法  15
      2.4.1.2 外部评价方法  15
    2.4.2 文本理解会议及其自动评价方法  15-19
      2.4.2.1 文本理解会议(DUC)  16
      2.4.2.2 自动评价方法ROUGE  16-19
第三章基于语义关系特征的查询型文摘  19-30
  3.1 研究背景  20
  3.2 语义关系三元组  20-23
    3.2.1 语义关系三元组定义  20-21
    3.2.2 语义关系三元组相似度计算  21-23
  3.3 SRT:基于语义关系三元组的文摘系统  23-25
  3.4 实验  25-30
    3.4.1 实验语料和评测方法  25-27
    3.4.2 实验一: SRT和TF*ISF等方法的性能比较  27-28
    3.4.3 实验二: SRT和DUC参评单位官方数据的比较  28-30
第四章基于机器学习方法的文摘系统  30-48
  4.1 文摘中的分类技术  30-35
    4.1.1 分类应用于文摘的原理  30-31
    4.1.2 常用分类器原理和用法  31-35
  4.2 系统框架及特征抽取  35-42
    4.2.1 预处理  37-38
    4.2.2 特征抽取  38-40
    4.2.3 句子相似度计算  40-42
      4.2.3.1 基于向量空间模型的TF*ISF方法  40-41
      4.2.3.2 基于WordNet的句子相似度算法  41-42
  4.3 实验  42-48
    4.3.1 实验语料和评测方法  42-43
    4.3.2 实验一:相似度算法比较及参数调整  43
    4.3.3 实验二:参加DUC2005年官方测评结果  43-48
第五章总结与展望  48-50
  5.1 工作总结  48
  5.2 未来展望  48-50
参考文献  50-53
攻读硕士期间论文发表情况  53-54
致谢  54-55

英文多文档查询型自动文摘研究

内容摘要

全文目录

相似论文