学位论文 > 优秀研究生学位论文题录展示
英文多文档查询型自动文摘研究
作 者: 吴中勤
导 师: 吴立德
学 校: 复旦大学
专 业: 计算机应用技术
关键词: 自动文摘 机器学习 最大熵模型 语义关系特征
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 93次
引 用: 1次
阅 读: 论文下载
内容摘要
随着信息技术和互联网的发展,人们置身于浩瀚的信息海洋,可获取的信息也越来越多,越来越纷繁复杂。人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的文字表达主要内容和中心意思,从而减少信息获取的时间。文本的自动摘要技术正好为人们提供了一种解决方案,通过计算机自动从一篇或多篇文档中提炼出用户需要的信息内容,从而节省用户获取信息的时间,减轻用户的负担。文本自动摘要技术一直是自然语言领域的研究热点,尤其是近年来,文本自动摘要出现了和自动问题回答系统融合的趋势,并更加注重于查询型的文摘,国际上相关的文摘评测会议也越来越受到科研单位的重视。对于文摘领域语义关系、篇章分析、机器学习方法应用的研究越来越多,在这一背景下,本文尝试对语义关系三元组这一重要特征以及机器学习方法应用于文摘做了详细的探讨。语义关系是文摘方法的重要特征,本文使用语义关系三元组这一重要特征来揭示文本之间的语义关系,在对句子进行充分的句法分析的基础上,抽取语义关系特征形成三元组,并引入搜索引擎等外部知识库,转化为更容易计算的词、关系之间的语义联系。在DUC权威语料上的实验证明,使用该特征在各项文摘性能指标上超过了经典的TF*ISF方法,ROUGE-4指标提高了46.4%,而且由该特征单独编制的文摘系统,和参加DUC2005年评测的32个系统相比,ROUGE-L指标排名为第10。抽取式的文摘方法,可以看作两类的分类问题。机器学习方法可以选取最优的特征组合,学习出文摘模型。本文采用了最大熵、支持向量机等模型实现基于机器学习方法的自动文摘系统,对多种特征做了研究分析,并对句子相似度的计算方法做了比较。在DUC2005年的官方评测上,本文的自动文摘系统在所有参评的32个系统中名列前茅,在ROUGE-1,ROUGE-L,ROUGE-W三项指标上均名列第6名。
|
全文目录
摘要 5-6 Abstract 6-7 第一章 绪论 7-10 1.1 文本自动摘要技术的意义和目标 7 1.2 文本自动摘要技术的应用领域 7-8 1.3 本文的贡献和组织结构 8-10 第二章 基本概念及相关工作 10-19 2.1 自动文摘系统的要素和分类 10-11 2.2 自动文摘系统的基本框架 11-12 2.3 自动文摘研究的历史和现状 12-14 2.4 自动文摘的评价方法 14-19 2.4.1 内部评价和外部评价 14-15 2.4.1.1 内部评价方法 15 2.4.1.2 外部评价方法 15 2.4.2 文本理解会议及其自动评价方法 15-19 2.4.2.1 文本理解会议(DUC) 16 2.4.2.2 自动评价方法ROUGE 16-19 第三章 基于语义关系特征的查询型文摘 19-30 3.1 研究背景 20 3.2 语义关系三元组 20-23 3.2.1 语义关系三元组定义 20-21 3.2.2 语义关系三元组相似度计算 21-23 3.3 SRT:基于语义关系三元组的文摘系统 23-25 3.4 实验 25-30 3.4.1 实验语料和评测方法 25-27 3.4.2 实验一: SRT和TF*ISF等方法的性能比较 27-28 3.4.3 实验二: SRT和DUC参评单位官方数据的比较 28-30 第四章 基于机器学习方法的文摘系统 30-48 4.1 文摘中的分类技术 30-35 4.1.1 分类应用于文摘的原理 30-31 4.1.2 常用分类器原理和用法 31-35 4.2 系统框架及特征抽取 35-42 4.2.1 预处理 37-38 4.2.2 特征抽取 38-40 4.2.3 句子相似度计算 40-42 4.2.3.1 基于向量空间模型的TF*ISF方法 40-41 4.2.3.2 基于WordNet的句子相似度算法 41-42 4.3 实验 42-48 4.3.1 实验语料和评测方法 42-43 4.3.2 实验一:相似度算法比较及参数调整 43 4.3.3 实验二:参加DUC2005年官方测评结果 43-48 第五章 总结与展望 48-50 5.1 工作总结 48 5.2 未来展望 48-50 参考文献 50-53 攻读硕士期间论文发表情况 53-54 致谢 54-55
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 领域实体属性及事件抽取技术研究,TP391.1
- 人物言论抽取与跟踪技术研究,TP391.1
- 汉语框架自动识别中的歧义消解,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
- 随机森林特征选择,TP311.13
- 互联网流量应用基准分类技术的研究,TP393.06
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 弥散张量成像的脑连接模式分析,R445.2
- 图像与文本数据间的异构迁移学习,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|