学位论文 > 优秀研究生学位论文题录展示

基于知网文本相似度的文摘自动评测方法研究

作 者: 张静静
导 师: 索红光
学 校: 中国石油大学
专 业: 计算机科学与技术
关键词: 自动文摘 评价方法 相似度 向量空间模型 句子权重计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 73次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络技术的发展,网页信息多样化和网页内容复杂化给大多数用户带来了不便,为了解决这一问题,很多研究者着手研究自动文摘技术,并且他们设计开发了很多文摘系统。然而自动文摘评测是一个非常复杂的问题,它和语言学领域、心理学领域和人工智能领域等多个领域有关。到目前为止,自动文摘评测技术还存在着很多困难,也没有形成统一的标准,这使自动文摘评测技术具有很大的研究价值,同时富有挑战性。在中文文摘评测领域中,因为没有统一标准的测试集和评测平台,从而严重地制约了中文文摘技术的进一步提高。因此,在这一领域要找到一种高效、准确的评测方法来对文摘系统进行性能评测,对其研究工作进行具体的指导。针对上述问题,本文为了更准确、更高效地进行文摘的自动评测,对现有的自动文摘评测方法进行了具体分析,指出了这些评测方法的缺点后,在向量空间模型方法的基础上提出了一种新的自动文摘评测方法。在向量空间模型中,该方法采用知网对词语的含义进行深入分析,在计算特征项权重时考虑词性在句子中充当角色的作用,并且对特征项权重计算公式进行了改进。本文实现了分词统计的程序,验证了要想分词有较好的效果就需要选择好的词典。针对本课题中提出的方法开发设计了基于词频的自动文摘系统和基于知网文本相似度的自动文摘评测系统,实现了提出的新方法。将本文提出的文摘评测系统分别和P/R方法、文本相似度评测系统作比较,实验结果表明,新方法的评测效果有了显著提高。

全文目录


摘要  4-5
Abstract  5-9
第一章 绪论  9-17
  1.1 研究背景与意义  9-10
  1.2 国内外研究现状  10-13
    1.2.1 自动文摘的研究现状  10-11
    1.2.2 文摘评测的研究现状  11-13
  1.3 课题研究目标及研究内容  13-14
  1.4 研究成果及研究方法  14-16
  1.5 论文结构  16-17
第二章 自动文摘的相关知识  17-30
  2.1 自动文摘的基本概念  17
  2.2 文摘的重要方法  17-20
    2.2.1 基于统计的文摘方法  18
    2.2.2 基于理解的文摘方法  18-19
    2.2.3 基于信息抽取的文摘方法  19-20
    2.2.4 基于结构的文摘方法  20
  2.3 自动文摘的评测方法  20-29
    2.3.1 传统的文摘评测方法及其存在的问题  21-22
    2.3.2 自动文摘评测方法的相关技术  22-26
    2.3.3 自动文摘主要的评测方法  26-29
  2.4 本章小结  29-30
第三章 基于知网的句子相似度计算方法  30-39
  3.1 知网的基本知识介绍  30-32
    3.1.1 知网的提出  30
    3.1.2 知网的基本结构  30-32
    3.1.3 知网的知识语言描述  32
  3.2 句子相似度的概念和主要计算方法  32-37
    3.2.1 句子相似度的相关概念  32-33
    3.2.2 句子相似度的主要计算方法  33-37
  3.3 基于知网的句子相似度计算方法  37-38
  3.4 本章小结  38-39
第四章 基于知网文本相似度的文摘自动评测系统  39-49
  4.1 系统实现的主要技术  39-42
    4.1.1 概念特征项的抽取  39-40
    4.1.2 特征项权重的计算  40-41
    4.1.3 构造概念向量空间模型  41-42
  4.2 系统的实现  42-45
    4.2.1 系统的主要功能  42
    4.2.2 系统的主要模块  42-44
    4.2.3 系统的基本模型  44-45
  4.3 实验分析及结果  45-47
  4.4 本章小结  47-49
第五章 结论  49-51
  5.1 论文工作总结  49
  5.2 主要创新点  49-50
  5.3 下一步研究方向  50-51
参考文献  51-55
攻读硕士学位期间取得的学术成果  55-56
致谢  56

相似论文

  1. 高中信息技术新课程评价方法的实施研究,G633.67
  2. 基于句法特征的代词消解方法研究,TP391.1
  3. 多邮件自动文摘的关键技术研究,TP391.1
  4. 基于停用词处理的汉语语音检索方法,TP391.1
  5. 基于层次分析法的模糊综合评价研究和应用,O225
  6. 大学生综合素质测评研究,G645.5
  7. 基于相似度计算的编程题自动评判方法研究,TP312.1
  8. 基于SVM分类算法的主题爬虫研究,TP391.3
  9. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  10. WordNet和《中国分类主题词表》的映射研究,G254
  11. 基于本体的食品投诉文档文本聚类研究,TP391.1
  12. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  13. 智能答疑系统中句子相似度计算的研究与应用,TP391.1
  14. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  15. 面向汽车行业的主题爬虫研究与实现,TP391.3
  16. 面向短消息文本的聚类技术研究与应用,TP391.1
  17. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  18. 网络教育新闻文本分类系统的设计与实现,TP391.1
  19. 基于CBR的离散模拟模型可复用性研究,TP301.6
  20. 面向论坛信息文本的有效数据抽取研究,TP391.1
  21. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com