学位论文 > 优秀研究生学位论文题录展示

基于话题的多文档文摘技术研究

作　者: 岳大鹏
导　师: 王挺
学　校: 国防科学技术大学
专　业: 计算机科学与技术
关键词: 多文档文摘话题自然语言处理新闻话题发现与追踪
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 25次
引　用: 0次
阅　读: 论文下载

内容摘要

互联网技术的飞速发展,使得现存的文献与知识呈几何式增长。多文档文摘技术能够帮助人们从大量文本中获取重要的信息,同时能有效缩减用户阅读所花费的大量时间和工作量,因而在这个信息爆炸的时代有非常重要的应用价值。目前,新闻报道往往是以专题的形式展开,即以一个事件为引子,把一系列与之相关的或类似的事件报道组织在一起展现在读者面前。这种基于话题的文档组织方式能够清晰地交代一系列新闻事件的前因后果和来龙去脉,方便用户的查询和阅读,因而受到了大家的欢迎和广泛使用。本文研究的是针对这种基于话题的多文档集的文摘技术。和普通文档集相比,基于话题的文档集有信息重复度高,无关信息少,文档间内容联系紧密等特点。在提取文摘时,如果能充分利用这些在一般文档集上不具备的性质,就可以在基于话题的文档集上得到更优秀的文摘。本文着眼于基于话题的文档集的话题特性以对普通文摘算法做改进。改进工作主要有两点:区分对待种子事件和非种子事件、文摘句的抽取和组织上充分考虑时间属性。在实现上,本文以基于话题的新闻报道为处理对象,在MMR(maximal marginal relevance)文摘提取算法的基础和架构上提出和实现了一种基于话题的多文档文摘方法。在从文档集中提取话题的关键字时,本文考虑到种子事件和非种子事件在摘取文摘时所处的地位不同,于是分别处理两种事件。在进行句子的相似度比较时,本文考虑到新闻语料时间性强的特点,对每个句子赋予一定的时间属性,于是能够在时间的量度上计算句子间的相似度。在文摘句的排序上,本文利用句子的时间属性,并针对两种不同的文档组织结构设计了不同的排序方法。本文利用TDT4的新闻报道语料对上述文摘方法进行了实验评价,将基于话题的文摘系统和两个baseline文摘系统进行比较,取得了较好的实验结果。

全文目录

摘要  8-9
Abstract  9-10
第一章绪论  10-16
  1.1 概述  10-11
  1.2 基本概念  11-14
    1.2.1 话题多文档集的产生  11-13
    1.2.2 话题多文档集的特点  13-14
  1.3 本文主要工作  14-15
  1.4 本文结构  15-16
第二章相关方法与本文研究框架  16-24
  2.1 话题发现与追踪的研究  16-17
  2.2 关键词抽取技术  17-18
  2.3 自动文摘技术  18-22
    2.3.1 理解式文摘方法  19-20
    2.3.2 抽取式文摘方法  20-21
    2.3.3 MMR 方法  21-22
  2.4 本文的研究框架  22-24
第三章文摘句抽取方法  24-40
  3.1 话题文档集子事件信息获取  24-30
    3.1.1 种子事件和非种子事件  24-26
    3.1.2 种子事件报道和非种子事件报道  26-27
    3.1.3 区分种子事件报道和非种子事件报道  27-29
    3.1.4 分别获取种子事件信息和非种子事件信息  29-30
  3.2 句子的时间属性  30-33
    3.2.1 句子中包含的时间信息  30-31
    3.2.2 句子时间信息的计算  31-33
  3.3 根据话题信息抽取文摘句  33-39
    3.3.1 利用时间信息进行相似度计算  33-35
    3.3.2 位置信息对摘取文摘句的影响  35-37
    3.3.3 位置信息公式参数确定  37-38
    3.3.4 句子权重计算公式  38-39
  3.4 小结  39-40
第四章文摘句排序方法  40-46
  4.1 句序排列的一般规则  40
  4.2 以事件为主导的排序  40-41
  4.3 话题文档集的事件组织结构  41-44
    4.3.1 顺序式结构  41-42
    4.3.2 发散式结构  42-43
    4.3.3 确定子事件组织方式  43-44
  4.4 文摘句排序算法  44-45
    4.4.1 发散式结构句序排列  44-45
    4.4.2 顺序式结构句序排列  45
  4.5 小结  45-46
第五章实验构造与评价  46-54
  5.1 实验评价方法  46-47
    5.1.1 评价方法的一般性分类  46
    5.1.2 文摘自动评测工具ROUGE  46-47
  5.2 实验语料  47-49
    5.2.1 TDT4 简介  48
    5.2.2 生成人工文摘  48-49
  5.3 实验构造  49-50
    5.3.1 Location 系统  49
    5.3.2 SMMR 系统  49-50
    5.3.3 TBMMR 系统  50
  5.4 实验结果及分析  50-53
    5.4.1 三个系统结果总体比较  50-51
    5.4.2 针对不同的话题文档集比较结果  51-53
  5.5 小结  53-54
第六章结束语  54-56
致谢  56-57
参考文献  57-61
作者在学期间取得的学术成果  61

基于话题的多文档文摘技术研究

内容摘要

全文目录

相似论文