学位论文 > 优秀研究生学位论文题录展示

基于子主题的多文档摘要关键技术研究

作 者: 周丹
导 师: 钟义信
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 多文档摘要 子主题 聚类 句子抽取
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 178次
引 用: 3次
阅 读: 论文下载
 

内容摘要


多文档摘要是自然语言理解领域的一个重要课题。它的目的是从内容相似的文档集合中抽取重要信息并生成信息丰富、语言简洁的摘要,从而提供一个快速获取、浏览和使用信息的手段。本文主要研究基于子主题的多文档摘要技术,即将多个文档的内容按照信息的侧重点不同划分为多个子主题,再从各个子主题中按照一定策略抽取重要信息,去除冗余信息进而生成摘要。这种方法使文摘内容具有更好的平衡性,包含的信息简洁全面。针对子主题划分的任务,本文采用聚类方法将内容相似的信息聚集到一个子主题中。为此,本文深入研究了四种计算句子相似度的方法,并在这四种相似度计算方法基础上分别进行了层次聚类。本文提出了综合使用语义词典和统计信息的方法计算句子相似度的方法,可以更加准确的刻画句子相似度,为子主题划分和摘要生成奠定了基础。在子主题划分的基础上抽取句子步骤涉及到以下几个子问题:子主题特征词抽取,句子重要度的计算、句子抽取策略。由于每个子主题覆盖整个文档集合的一个侧面的信息,因此需要从子主题中抽取出体现该子主题核心信息的特征词,称为sub-topic-signature(STS)。这些特征词对于后面句子的抽取具有举足轻重的意义。本文试验了通过count-idf方法、假设检验方法等几种方法得到的结果,并给出了比较分析。在句子重要度计算步骤中,综合考虑了句子位置因素、实体因素、核心词因素、指示词因素等因素,综合多个因素给句子打分,按照重要度排序作为句子抽取的备选顺序。在抽取过程中,本文提出了使用有效词的权重均值数作为信息量描述方式,根据已经抽取的句子集合从备选句子集合中抽取新句子,使最终抽取出的句子集合包含的信息量最大,从而达到使文摘的冗余信息最小的目的。基于以上方法,我们在5个类别的文档集合上分别进行了试验,并使用基于句子准确率/召回率方法和基于n-gram方法分别进行了文摘的质量评估。实验结果表明,我们在多文档摘要的子主题划分方法和句子抽取策略上的改进在一定程度上提高了最终摘要的质量。本文是对多文档自动摘要的初步探索,在子主题划分方法和句子抽取策略方面取得了一些成果。多文档自动摘要具有广阔应用空间和发展前景,还需要我们付出更多的工作和努力。

全文目录


中文摘要  4-6
ABSTRACT  6-10
第一章 绪论  10-18
  1.1 引言  10
  1.2 多文档摘要的研究意义  10-11
  1.3 多文档摘要的研究现状  11-13
  1.4 多文档摘要的关键技术  13-16
  1.5 论文主要内容和组织结构  16-18
第二章 基于聚类子主题划分  18-34
  2.1 引言  18
  2.2 子主题的定义  18-19
  2.3 聚类粒度的确定  19
  2.4 聚类方法的选择  19-27
    2.4.1 基于VSM的统计方法  19-21
    2.4.2 基于隐含语义分析的方法  21-22
    2.4.3 基于词语语义相似度的层次聚类  22-24
    2.4.4 基于N元词语语义相似度的方法  24-27
  2.5 子主题划分效果评估  27-32
  2.6 本章小结  32-34
第三章 主题特征抽取  34-44
  3.1 引言  34
  3.2 基于Count-IDF的方法  34-36
  3.3 基于假设检验(chi-square test)的方法  36-38
  3.4 实验和结果分析  38-41
  3.5 本章小结  41-44
第四章 句子抽取和冗余排除  44-54
  4.1 引言  44
  4.2 子主题排序  44-46
  4.3 句子重要度计算  46-47
  4.4 句子抽取过程的去冗余  47-49
  4.5 实验和结果分析  49-53
  4.6 本章小结  53-54
第五章 多文档摘要质量评估  54-62
  5.1 引言  54
  5.2 多文档摘要评价方法  54-56
    5.2.1 基于句子的准确率和召回率的方法  55
    5.2.2 基于N-gram共现统计的方法  55-56
  5.3 文摘结果评价  56-59
  5.4 本章小结  59-62
第六章 结束语  62-64
参考文献  64-68
致谢  68-70
攻读硕士学位期间发表的论文  70

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  20. 基于变异粒子群的聚类算法研究,TP18
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com