学位论文 > 优秀研究生学位论文题录展示

基于统计的多文档关键短语和文摘抽取研究

作 者: 张永刚
导 师: 姚建民
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 信息抽取 关键短语 多文档文摘 共聚类 术语 自然语言处理
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 70次
引 用: 1次
阅 读: 论文下载
 

内容摘要


关键短语和文摘抽取是智能信息处理的重要技术,主要应用于搜索引擎、话题检测与跟踪、文本聚类和文本分类等文档信息处理。多文档关键短语和文摘用短语和句子的形式反映多文档主题内容。关键短语主要由多词单元短语的形式出现,文摘将同一主题的文档汇总抽取重要句子组成。本文首先介绍了短语识别的方法,因为短语识别的质量直接影响关键短语和文摘抽取的结果。其次重点介绍了关键短语和文摘抽取的三个系统,S-MMR系统是把比较成熟的单文档关键短语和文摘抽取方法应用到多文档抽取系统中;G-HITS系统是用基于链接分析算法同时计算句子和短语的重要性,这两个系统在文摘生成时用MMR计算避免抽取到冗余信息,取得了比较好的实验结果。上面二个关键短语和文摘抽取方法在相似信息处理上采用的是MMR技术避免文摘生成冗余,在吸取这两个方法优点的基础上结合共聚类算法提出基于共聚类的多文档关键短语和文摘抽取方法,该方法利用了相似信息,这是本文的重点也是创新点。系统在短语识别的基础上首先构建句子指向包含短语的有向图,把句子和短语的有向图转化为等价的权重矩阵。在句子和短语的权重矩阵上运用共聚类抽取算法,算法在迭代中依次用基于图的链接分析算法计算句子和短语的权重及对句子和短语分别聚类,在此过程中权重计算和聚类互相影响,句子和短语的权重及类别变化互相影响互相增强,最后达到全局最优权重即聚类不在变化时退出迭代。实验结果表明,基于共聚类系统抽取的关键短语和文摘质量较高,运行高效。在公共的评测语料DUC2004上用ROUGE评测方法,在评测指标ROUGE-1的Average-F值是38.459%,ROUGE-2的Average-F值是0.09382%,高于其它自动文摘。

全文目录


摘要  4-5
Abstract  5-8
第一章 引言  8-13
  1.1 课题研究意义  8-9
  1.2 历史与现状  9-10
  1.3 研究目标  10-11
  1.4 本文的工作和论文的组织  11-13
第二章 关键短语和文摘抽取的相关工作  13-19
  2.1 定义  15
  2.2 术语和关键短语抽取  15-16
    2.2.1 术语抽取  15-16
    2.2.2 关键短语抽取  16
  2.3 多文档文摘抽取  16-18
    2.3.1 基于统计的分析方法  17
    2.3.2 基于图的分析方法  17-18
  2.4 共聚类算法  18
  2.5 本章小结  18-19
第三章 短语识别  19-24
  3.1 识别  19-20
  3.2 过滤  20-22
    3.2.1 频度过滤  20-21
    3.2.2 互信息过滤  21-22
    3.2.3 C-value 过滤  22
  3.3 本章小结  22-24
第四章 多文档关键短语和文摘抽取系统  24-52
  4.1 S-MMR 关键短语和文摘抽取系统  24-28
    4.1.1 S-MMR 系统流程图  24-25
    4.1.2 S-MMR 系统模型  25-26
    4.1.3 位置/频度特征权重  26
    4.1.4 短语和句子权重计算  26-27
    4.1.5 关键短语抽取和文摘生成  27-28
  4.2 G-HITS 关键短语和文摘抽取系统  28-30
    4.2.1 G-HITS 关键短语和文摘抽取流程图  28-29
    4.2.2 G-HITS 系统模型  29
    4.2.3 短语和句子权重计算  29
    4.2.4 关键短语抽取和文摘生成  29-30
  4.3 共聚类关键短语和文摘抽取系统  30-51
    4.3.1 预处理和短语识别  31
    4.3.2 CoC 系统的算法模型  31-44
    4.3.3 关键短语抽取  44-45
    4.3.4 文摘生成  45
    4.3.5 CoC 系统抽取的例子  45-51
  4.4 本章小结  51-52
第五章 实验结果与分析  52-60
  5.1 实验语料  52
  5.2 评测方法  52-53
  5.3 实验结果及分析  53-59
    5.3.1 多文档关键短语抽取结果  53-54
    5.3.2 与专家文摘和自动文摘的对比  54-55
    5.3.3 权重计算方法对结果影响  55-56
    5.3.4 识别和不识别短语对结果的影响  56
    5.3.5 不同的聚类方法对结果的影响  56-57
    5.3.6 相似度阈值的变化对结果的影响  57-58
    5.3.7 不同的文摘句选择方法对结果的影响  58
    5.3.8 实验结果  58-59
  5.4 本章小结  59-60
第六章 总结与展望  60-62
  6.1 总结  60-61
  6.2 研究展望  61-62
参考文献  62-68
攻读学位期间公开发表的论文  68-69
致谢  69-70

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 词义消歧语料库自动获取方法研究,TP391.1
  3. 时间表达式识别与归一化研究,TP391.1
  4. 基于Web的领域词典构建技术研究,TP391.1
  5. 中国健身房健身器材术语的现状及规范化探索研究,G812.0
  6. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  7. 模因理论视角下术语的非术语化现象及其过程研究,H083
  8. 网页属性抽取的方法研究,TP391.1
  9. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  10. 构件垂直搜索引擎的关键技术研究,TP391.3
  11. 面向教育新闻的主题爬虫设计与实现,TP391.3
  12. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  13. 学术主页信息抽取系统的研究,TP393.092
  14. 主题搜索引擎关键技术研究,TP391.3
  15. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  16. 基于自然语言打印机人机交互方法研究与实现,TP11
  17. 医学语篇结论部分的人际功能研究,R-5
  18. 特定领域中文术语抽取,TP391.1
  19. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  20. 基于话题的多文档文摘技术研究,TP391.1
  21. 基于丰富特征和多核学习的蛋白质关系抽取,Q51

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com