学位论文 > 优秀研究生学位论文题录展示

面向主题的Web文档自动文摘生成方法研究

作　者: 邓光喜
导　师: 李培峰
学　校: 苏州大学
专　业: 计算机应用技术
关键词: 多文档文摘 Web文档句子分类依存关系句子排序
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 11次
引　用: 0次
阅　读: 论文下载

内容摘要

随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个性化的需求并提高人们获取信息的效率是一个迫切需要解决的问题。为了解决上述问题,本文研究了面向主题的Web文档自动文摘生成方法。具体地讲,本文主要对以下几个方面进行了研究:1.对主题各侧面相关句子的识别方法进行了研究。提出了一种基于依存关系的句子相似度计算方法,使用该方法对句子进行聚类,然后从每个类中抽取词和语法特征形成模式,并使用这些模式来识别主题各侧面相关句子。另外,还研究了使用分类器来进一步识别主题各侧面相关句子的方法。该方法根据词在依存树中的层次对词的权重进行调整,选取有效的依存关系作为特征,使用句法树作为结构特征并用基于动词的裁剪策略对句法树进行裁剪。2.在文摘句的选取部分,提出了一种适用于Web文档的文摘句选择方法。该方法先根据Web文档的特点对候选句子进行评分,再依据句子间的相似性、文档间的链接、句子间的锚链接、句子间的相似度和句子的邻接关系,使用图排序算法对句子的评分进行调整。最后使用MMI算法根据句子的评分和文摘的长度限制选择文摘句。3.在文摘句的排序部分,提出了一种基于上下文的句子排序算法。该方法通过计算文摘句的上下文和其它文摘句的相似度来判断句子间是否相邻,并根据相似度和句子间的相对位置关系计算其可信度。使用基于特征的方法选择第一个句子。选择和前面一个句子有最大邻接度的句子为下一个句子。以上三个部分的实验均证明,本文提出的方法取得了良好的效果,部分优于现有的方法。

面向主题的Web文档自动文摘生成方法研究

内容摘要

全文目录

相似论文