学位论文 > 优秀研究生学位论文题录展示

面向主题的Web文档自动文摘生成方法研究

作 者: 邓光喜
导 师: 李培峰
学 校: 苏州大学
专 业: 计算机应用技术
关键词: 多文档文摘 Web文档 句子分类 依存关系 句子排序
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个性化的需求并提高人们获取信息的效率是一个迫切需要解决的问题。为了解决上述问题,本文研究了面向主题的Web文档自动文摘生成方法。具体地讲,本文主要对以下几个方面进行了研究:1.对主题各侧面相关句子的识别方法进行了研究。提出了一种基于依存关系的句子相似度计算方法,使用该方法对句子进行聚类,然后从每个类中抽取词和语法特征形成模式,并使用这些模式来识别主题各侧面相关句子。另外,还研究了使用分类器来进一步识别主题各侧面相关句子的方法。该方法根据词在依存树中的层次对词的权重进行调整,选取有效的依存关系作为特征,使用句法树作为结构特征并用基于动词的裁剪策略对句法树进行裁剪。2.在文摘句的选取部分,提出了一种适用于Web文档的文摘句选择方法。该方法先根据Web文档的特点对候选句子进行评分,再依据句子间的相似性、文档间的链接、句子间的锚链接、句子间的相似度和句子的邻接关系,使用图排序算法对句子的评分进行调整。最后使用MMI算法根据句子的评分和文摘的长度限制选择文摘句。3.在文摘句的排序部分,提出了一种基于上下文的句子排序算法。该方法通过计算文摘句的上下文和其它文摘句的相似度来判断句子间是否相邻,并根据相似度和句子间的相对位置关系计算其可信度。使用基于特征的方法选择第一个句子。选择和前面一个句子有最大邻接度的句子为下一个句子。以上三个部分的实验均证明,本文提出的方法取得了良好的效果,部分优于现有的方法。

全文目录


相似论文

  1. 基于依存关系的旅游景点评论文本倾向分析,TP391.1
  2. 基于依存关系的中文语义角色标注研究,TP391.1
  3. 认知无线电资源调度机制的研究,TN92
  4. 基于根节点的汉语依存关系解析的研究,TP391.1
  5. 基于图和转移算法相结合的中文依存关系解析,TP391.1
  6. 基于语义Web文档的索引技术研究,TP391.3
  7. 中文树库依存关系解析的研究,TP391.1
  8. 基于知识粒度的Web文档聚类研究,TP393.092
  9. 基础教育资源搜索引擎中自动文摘技术研究,TP391.3
  10. 基于SVM的确定性中文依存关系解析,TP391.1
  11. 双关和仿体对应,H05
  12. 基于云模型的中文面向查询多文档自动文摘研究,TP391.1
  13. 面向领域网页的语义标注若干问题研究,TP393.092
  14. 相互依存与国际贸易摩擦互动关系研究,F224
  15. 面向中文自然语言Web文档的自动知识抽取和知识融合,TP311.52
  16. 中国小说续书的历史发展,I207.41
  17. 基于Web挖掘的决策支持系统模型研究,TP393.09
  18. 基于基本要素的多文档自动文摘研究,TP391.1
  19. 短语结构语法与依存语法的心理现实性研究,H04
  20. 基于本体的信息抽取研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com