学位论文 > 优秀研究生学位论文题录展示

基于统计的多文档关键短语和文摘抽取研究

作　者: 张永刚
导　师: 姚建民
学　校: 苏州大学
专　业: 计算机应用技术
关键词: 信息抽取关键短语多文档文摘共聚类术语自然语言处理
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 70次
引　用: 1次
阅　读: 论文下载

内容摘要

关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文摘将同一主题的文档汇总抽取重要句子组成。本文首先介绍了短语识别的方法,因为短语识别的质量直接影响关键短语和文摘抽取的结果。其次重点介绍了关键短语和文摘抽取的三个系统,S-MMR系统是把比较成熟的单文档关键短语和文摘抽取方法应用到多文档抽取系统中;G-HITS系统是用基于链接分析算法同时计算句子和短语的重要性,这两个系统在文摘生成时用MMR计算避免抽取到冗余信息,取得了比较好的实验结果。上面二个关键短语和文摘抽取方法在相似信息处理上采用的是MMR技术避免文摘生成冗余,在吸取这两个方法优点的基础上结合共聚类算法提出基于共聚类的多文档关键短语和文摘抽取方法,该方法利用了相似信息,这是本文的重点也是创新点。系统在短语识别的基础上首先构建句子指向包含短语的有向图,把句子和短语的有向图转化为等价的权重矩阵。在句子和短语的权重矩阵上运用共聚类抽取算法,算法在迭代中依次用基于图的链接分析算法计算句子和短语的权重及对句子和短语分别聚类,在此过程中权重计算和聚类互相影响,句子和短语的权重及类别变化互相影响互相增强,最后达到全局最优权重即聚类不在变化时退出迭代。实验结果表明,基于共聚类系统抽取的关键短语和文摘质量较高,运行高效。在公共的评测语料DUC2004上用ROUGE评测方法,在评测指标ROUGE-1的Average-F值是38.459%,ROUGE-2的Average-F值是0.09382%,高于其它自动文摘。

全文目录

摘要  4-5
Abstract  5-8
第一章引言  8-13
  1.1 课题研究意义  8-9
  1.2 历史与现状  9-10
  1.3 研究目标  10-11
  1.4 本文的工作和论文的组织  11-13
第二章关键短语和文摘抽取的相关工作  13-19
  2.1 定义  15
  2.2 术语和关键短语抽取  15-16
    2.2.1 术语抽取  15-16
    2.2.2 关键短语抽取  16
  2.3 多文档文摘抽取  16-18
    2.3.1 基于统计的分析方法  17
    2.3.2 基于图的分析方法  17-18
  2.4 共聚类算法  18
  2.5 本章小结  18-19
第三章短语识别  19-24
  3.1 识别  19-20
  3.2 过滤  20-22
    3.2.1 频度过滤  20-21
    3.2.2 互信息过滤  21-22
    3.2.3 C-value 过滤  22
  3.3 本章小结  22-24
第四章多文档关键短语和文摘抽取系统  24-52
  4.1 S-MMR 关键短语和文摘抽取系统  24-28
    4.1.1 S-MMR 系统流程图  24-25
    4.1.2 S-MMR 系统模型  25-26
    4.1.3 位置/频度特征权重  26
    4.1.4 短语和句子权重计算  26-27
    4.1.5 关键短语抽取和文摘生成  27-28
  4.2 G-HITS 关键短语和文摘抽取系统  28-30
    4.2.1 G-HITS 关键短语和文摘抽取流程图  28-29
    4.2.2 G-HITS 系统模型  29
    4.2.3 短语和句子权重计算  29
    4.2.4 关键短语抽取和文摘生成  29-30
  4.3 共聚类关键短语和文摘抽取系统  30-51
    4.3.1 预处理和短语识别  31
    4.3.2 CoC 系统的算法模型  31-44
    4.3.3 关键短语抽取  44-45
    4.3.4 文摘生成  45
    4.3.5 CoC 系统抽取的例子  45-51
  4.4 本章小结  51-52
第五章实验结果与分析  52-60
  5.1 实验语料  52
  5.2 评测方法  52-53
  5.3 实验结果及分析  53-59
    5.3.1 多文档关键短语抽取结果  53-54
    5.3.2 与专家文摘和自动文摘的对比  54-55
    5.3.3 权重计算方法对结果影响  55-56
    5.3.4 识别和不识别短语对结果的影响  56
    5.3.5 不同的聚类方法对结果的影响  56-57
    5.3.6 相似度阈值的变化对结果的影响  57-58
    5.3.7 不同的文摘句选择方法对结果的影响  58
    5.3.8 实验结果  58-59
  5.4 本章小结  59-60
第六章总结与展望  60-62
  6.1 总结  60-61
  6.2 研究展望  61-62
参考文献  62-68
攻读学位期间公开发表的论文  68-69
致谢  69-70

基于统计的多文档关键短语和文摘抽取研究

内容摘要

全文目录

相似论文