学位论文 > 优秀研究生学位论文题录展示

基于话题的多文档文摘技术研究

作 者: 岳大鹏
导 师: 王挺
学 校: 国防科学技术大学
专 业: 计算机科学与技术
关键词: 多文档文摘 话题 自然语言处理 新闻 话题发现与追踪
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 25次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网技术的飞速发展,使得现存的文献与知识呈几何式增长。多文档文摘技术能够帮助人们从大量文本中获取重要的信息,同时能有效缩减用户阅读所花费的大量时间和工作量,因而在这个信息爆炸的时代有非常重要的应用价值。目前,新闻报道往往是以专题的形式展开,即以一个事件为引子,把一系列与之相关的或类似的事件报道组织在一起展现在读者面前。这种基于话题的文档组织方式能够清晰地交代一系列新闻事件的前因后果和来龙去脉,方便用户的查询和阅读,因而受到了大家的欢迎和广泛使用。本文研究的是针对这种基于话题的多文档集的文摘技术。和普通文档集相比,基于话题的文档集有信息重复度高,无关信息少,文档间内容联系紧密等特点。在提取文摘时,如果能充分利用这些在一般文档集上不具备的性质,就可以在基于话题的文档集上得到更优秀的文摘。本文着眼于基于话题的文档集的话题特性以对普通文摘算法做改进。改进工作主要有两点:区分对待种子事件和非种子事件、文摘句的抽取和组织上充分考虑时间属性。在实现上,本文以基于话题的新闻报道为处理对象,在MMR(maximal marginal relevance)文摘提取算法的基础和架构上提出和实现了一种基于话题的多文档文摘方法。在从文档集中提取话题的关键字时,本文考虑到种子事件和非种子事件在摘取文摘时所处的地位不同,于是分别处理两种事件。在进行句子的相似度比较时,本文考虑到新闻语料时间性强的特点,对每个句子赋予一定的时间属性,于是能够在时间的量度上计算句子间的相似度。在文摘句的排序上,本文利用句子的时间属性,并针对两种不同的文档组织结构设计了不同的排序方法。本文利用TDT4的新闻报道语料对上述文摘方法进行了实验评价,将基于话题的文摘系统和两个baseline文摘系统进行比较,取得了较好的实验结果。

全文目录


摘要  8-9
Abstract  9-10
第一章 绪论  10-16
  1.1 概述  10-11
  1.2 基本概念  11-14
    1.2.1 话题多文档集的产生  11-13
    1.2.2 话题多文档集的特点  13-14
  1.3 本文主要工作  14-15
  1.4 本文结构  15-16
第二章 相关方法与本文研究框架  16-24
  2.1 话题发现与追踪的研究  16-17
  2.2 关键词抽取技术  17-18
  2.3 自动文摘技术  18-22
    2.3.1 理解式文摘方法  19-20
    2.3.2 抽取式文摘方法  20-21
    2.3.3 MMR 方法  21-22
  2.4 本文的研究框架  22-24
第三章 文摘句抽取方法  24-40
  3.1 话题文档集子事件信息获取  24-30
    3.1.1 种子事件和非种子事件  24-26
    3.1.2 种子事件报道和非种子事件报道  26-27
    3.1.3 区分种子事件报道和非种子事件报道  27-29
    3.1.4 分别获取种子事件信息和非种子事件信息  29-30
  3.2 句子的时间属性  30-33
    3.2.1 句子中包含的时间信息  30-31
    3.2.2 句子时间信息的计算  31-33
  3.3 根据话题信息抽取文摘句  33-39
    3.3.1 利用时间信息进行相似度计算  33-35
    3.3.2 位置信息对摘取文摘句的影响  35-37
    3.3.3 位置信息公式参数确定  37-38
    3.3.4 句子权重计算公式  38-39
  3.4 小结  39-40
第四章 文摘句排序方法  40-46
  4.1 句序排列的一般规则  40
  4.2 以事件为主导的排序  40-41
  4.3 话题文档集的事件组织结构  41-44
    4.3.1 顺序式结构  41-42
    4.3.2 发散式结构  42-43
    4.3.3 确定子事件组织方式  43-44
  4.4 文摘句排序算法  44-45
    4.4.1 发散式结构句序排列  44-45
    4.4.2 顺序式结构句序排列  45
  4.5 小结  45-46
第五章 实验构造与评价  46-54
  5.1 实验评价方法  46-47
    5.1.1 评价方法的一般性分类  46
    5.1.2 文摘自动评测工具ROUGE  46-47
  5.2 实验语料  47-49
    5.2.1 TDT4 简介  48
    5.2.2 生成人工文摘  48-49
  5.3 实验构造  49-50
    5.3.1 Location 系统  49
    5.3.2 SMMR 系统  49-50
    5.3.3 TBMMR 系统  50
  5.4 实验结果及分析  50-53
    5.4.1 三个系统结果总体比较  50-51
    5.4.2 针对不同的话题文档集比较结果  51-53
  5.5 小结  53-54
第六章 结束语  54-56
致谢  56-57
参考文献  57-61
作者在学期间取得的学术成果  61

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 体育新闻报道中的侵权行为研究,G812
  4. 我国公共危机事件中政府与新闻媒体的互动研究,D630
  5. 穗港中文报纸新闻标题语言比较研究,G213
  6. 对台电视新闻节目传播策略研究,G222
  7. 中国电视民生新闻节目的叙事研究,G222
  8. 从西方修辞的角度评析新华网对外报道的有效性,H315
  9. 体育新闻的异化现象与大学生体育行为研究,G80-05
  10. 中国新闻话语六十年变迁,G219.29
  11. 传媒预警与新闻舆论引导建构研究,G210
  12. 胡锦涛新闻思想研究,G210
  13. 地市电视台民生新闻栏目研究,G222
  14. 解析第六次改版后的央视新闻频道,G229.2
  15. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  16. 汉语主语与话题研究综述,H146
  17. 汉英报刊体育新闻语篇的主位推进模式对比,H315
  18. 负面新闻报道研究,G212
  19. 区域传播视野下的电视民生新闻栏目—《新北方》,G222
  20. 数字新媒体时代下的图片编辑研究,G232.2
  21. 传媒与司法之张力的法理分析,D926

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com