学位论文 > 优秀研究生学位论文题录展示
基于云模型的中文面向查询多文档自动文摘研究
作 者: 陈劲光
导 师: 何婷婷
学 校: 华中师范大学
专 业: 教育技术学
关键词: 面向查询 多文档自动文摘 云模型 文摘单元选取 语料库 中文句子修剪 句子排序
分类号: TP391.1
类 型: 博士论文
年 份: 2011年
下 载: 109次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的普及,互联网上包含着海量的并且时刻在增加的信息。针对用户输入的一个简单查询,搜索引擎一般会返回用户可能需要的一系列经过排序的网页,其中有大量不相关的、重复的数据,需要用户耗费很多精力来自己查找有用的结果。面向查询的多文档自动文摘技术将大量的查询相关文档中的内容提炼、重组为一定长度的简短摘要,加速用户的信息获取,通常要求摘要的内容简洁、组织良好、冗余低、满足个性化需求。面向查询的多文档自动文摘技术能够减小从海量数据中获取信息的难度,提高信息获取及理解的速度,进而提高用户获取以及利用信息的效率,提高使用者在信息社会中的竞争实力。云模型是李德毅院士提出的一种处理不确定性概念中模糊性、随机性及其关联性的定性定量转换模型。云模型从研究自然语言概念的不确定性入手,展开对不确定性人工智能的研究。虽然云模型发端于自然语言中的概念,但遗憾的是,就目前搜集到的论文情况看来,将云模型直接应用在自然语言处理领域本身的工作还比较少见。本论文针对中文语料中的面向查询多文档自动文摘展开了研究。首先构建可以用于公开评测的评测语料、人工摘要;在此基础上利用云模型进行文摘内容选取、句子修剪、句子排序,力图生成满足用户需求的聚焦度高、内容精练、可读性好的连贯摘要;最后采用修改后的ROUGE工具进行中文文摘自动评测。本文主要研究工作和研究成果概括如下:一、提出了一种基于云模型的文摘单元选取方法,利用云模型,全面考虑文摘单元的随机性和模糊性,提高面向查询的多文档自动文摘系统的性能。首先计算文摘单元和查询条件的相关性,将文摘单元和各个查询词的相关度看成云滴,通过对云的不确定性的计算,找出与查询条件真正意义相关的文摘单元。随后利用文档集合重要度对查询相关的结果进行修正,将文摘句和其他各文摘句的相似度看成云滴,利用云的数字特征计算句子重要度,找出能够概括尽可能多的文档集合内容的句子,避免片面地只从某一个方面回答查询问题。为了证明文摘单元选取方法的有效性,在英文大规模公开语料上进行了实验,并参加了国际自动文摘公开评测,取得了较好的成绩。二、构建了中文自动文摘评测语料库及中文自动评测工具,并以此为基础,构建了一种基于云模型的中文面向查询多文档自动文摘系统。中文自动文摘评测语料库由1000篇文档、100个文档集合和查询条件、400篇人工摘要构成。通过修改英文文摘评测工具ROUGE的源程序,实现了中文自动文摘的ROUGE自动评测。首先将50个文档集合作为训练语料,采用哈工大最新共享的语言技术平台进行句子切分、分词;随后利用中文自动评测工具,在测试语料中进行参数训练;最后采用基于云模型的文摘单元选取方法生成中文摘要,就此搭建了中文云摘要系统。三、提出了一种基于多维云和依存分析的中文句子修剪方法,进一步提高文摘质量。首先制定基于依存分析的句子修剪规则,对每个候选文摘句进行句子修剪,从而产生多候选句;随后利用多维云,综合考虑词语在句子、文档集合中的分布以及和查询条件的相关性,对各修剪句进行打分,在云的叠加过程中实现了不确定性的有效传递;最后选取那些包含信息量最大、长度最短的修剪句替换候选文摘句,构成自动摘要,从而使文摘包含更多的有效信息。四、提出了一种基于云模板的文摘句排序方法,使生成的中文云摘要更加连贯。云模板的方法将文档集合中的每一篇文档都看成模板,利用云模型将各篇文档的排序结果综合到一起,既避免了单一模板方法对于单个文档的依赖,也避免了多数次序方法只能两两排序的缺点。首先利用基于复杂网络的自适应增量聚类方法对文档集合进行聚类,找出那些包含有一个或多个文摘句的子主题;随后将文档集合中的每一篇文档都看作模板,利用这些模板构成的云确定子主题和文摘句在模板中的相对位置;最后依次对子主题以及对子主题内部的句子进行排序,从而生成连贯性更好、可读性更强的自动摘要。
|
全文目录
摘要 6-8 Abstract 8-15 第1章 绪论 15-18 1.1 研究目的与意义 15-16 1.2 主要内容与基本架构 16-17 1.3 论文的组织结构 17-18 第2章 相关研究工作概述 18-29 2.1 面向查询的自动文摘相关研究概述 18-24 2.1.1 单文档自动文摘 18-20 2.1.2 多文档自动文摘 20-22 2.1.3 面向查询的多文档自动文摘 22-23 2.1.4 中文面向查询的多文档自动文摘 23-24 2.2 云模型相关研究概述 24-28 2.2.1 云模型的理论背景 24-25 2.2.2 云理论发展历史概述 25-27 2.2.3 云模型在自然语言处理中的应用 27-28 2.3 小结 28-29 第3章 基于云模型的文摘单元选取 29-56 3.1 文摘单元选取相关研究概述 29-34 3.1.1 信息抽取与内容融合 29-30 3.1.2 基于词频的方法 30-31 3.1.3 基于质心的方法 31 3.1.4 基于图的方法 31-33 3.1.5 基于潜在语义索引的方法 33-34 3.2 原型方法——多特征融合的文摘单元选取方法 34-36 3.2.1 句子的查询独立特征 34-35 3.2.2 句子的查询相关特征 35-36 3.2.3 特征融合 36 3.3 改进的方法——基于云模型的文摘单元选取 36-43 3.3.1 云模型相关理论 36-38 3.3.2 查询独立云 38-40 3.3.3 查询相关云 40-43 3.4 云摘要方法的参数训练过程 43-48 3.4.1 训练语料和测试语料 43-44 3.4.2 参数预设 44-45 3.4.3 训练流程 45 3.4.4 参数训练结果 45-48 3.5 实验结果 48-54 3.5.1 云摘要系统整体架构 48 3.5.2 实验过程 48-50 3.5.3 实验结果 50-52 3.5.4 参加TAC 2010评测的情况 52-54 3.6 小结 54-56 第4章 中文面向查询的多文档自动文摘语料库建设及云摘要系统构建 56-80 4.1 面向查询的多文档自动文摘语料库建设 56-65 4.1.1 自动文摘语料相关工作 56-59 4.1.2 中文面向查询的多文档自动文摘语料库的建立 59-65 4.2 中文自动文摘评价工具的构建 65-69 4.2.1 自动文摘评测相关研究 65-66 4.2.2 中文自动文摘评价工具构建 66-69 4.3 中文云摘要系统的构建 69-73 4.3.1 基本架构 69 4.3.2 预处理 69-70 4.3.3 参数训练过程 70-73 4.4 实验结果 73-79 4.4.1 基准系统Coverage-Baseline 73 4.4.2 基准系统SumFocus 73-75 4.4.3 实验结果 75-79 4.5 小结 79-80 第5章 基于依存分析与多维云的中文句子修剪 80-115 5.1 句子修剪相关研究工作 81-86 5.1.1 句子修剪的概念 81 5.1.2 句子修剪相关研究工作 81-83 5.1.3 自动文摘中的句子修剪相关工作 83-84 5.1.4 中文句子修剪系统基本架构 84-86 5.2 基于依存分析的多候选句生成方法 86-97 5.2.1 依存分析概述 86-88 5.2.2 多候选句生成过程 88-89 5.2.3 基于依存分析的人工规则 89-96 5.2.4 候选句子集合的获得 96-97 5.3 基于多维云的候选句选取 97-108 5.3.1 多维云理论概述 98-99 5.3.2 词语多维云 99-104 5.3.3 词语云到句子云的跃升 104-106 5.3.4 基于云相似度和信息密度的候选句选取 106-108 5.4 实验结果 108-113 5.4.1 实验过程 108-109 5.4.2 修剪句质量的人工评价结果 109-110 5.4.3 文摘质量的自动评价结果 110-113 5.5 小结 113-115 第6章 基于云模板的面向查询多文档自动文摘句子排序 115-141 6.1 句子排序的相关研究 115-119 6.1.1 句子排序的概念 115-116 6.1.2 国外相关工作 116-118 6.1.3 国内相关研究 118-119 6.2 基本思想和整体架构 119-125 6.2.1 云模板与多数次序方法的比较 119-121 6.2.2 云模板方法的基本思想 121-124 6.2.3 云模板方法的基本架构 124-125 6.3 基于复杂网络抱团发现的自适应聚类 125-131 6.3.1 相关研究概述 125-127 6.3.2 自适应聚类方法 127-131 6.3.3 自适应聚类结果 131 6.4 基于云模板的句子排序 131-134 6.4.1 句子相对位置云 131-132 6.4.2 主题相对位置云 132-134 6.4.3 文摘句顺序的确定 134 6.5 实验结果 134-140 6.5.1 实验过程 134-135 6.5.2 自动评测 135-136 6.5.3 人工评测 136-138 6.5.4 句子排序的结果 138-140 6.6 小结 140-141 第7章 结论与展望 141-144 7.1 本文结论 141-142 7.2 展望 142-144 参考文献 144-156 攻读学位期间所发表的论文 156-158 专利申请情况 158-159 攻读学位期间参与的项目 159-160 致谢 160
|
相似论文
- 基于层次分析法的模糊综合评价研究和应用,O225
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于云模型的软件可信性评估模型,TP311.53
- 面向主题的Web文档自动文摘生成方法研究,TP391.1
- 基于中介语语料库的汉语递进复句习得研究,H195
- 基于语料库的上海世博会新闻报道的互文性分析,H052
- 基于语料库对TAKE用法的比较研究,H319
- 基于证据理论和云模型的多属性决策算法研究,C934
- P2P网络信任模型及其相关技术的研究,TP393.08
- 中国大学生英语作文中SO使用情况的语料库分析,H319
- 基于语料库的中外学术语篇中立场副词对比研究,H314
- 基于语料库的中国英语经济新闻报道中概念隐喻的研究,H315
- 中外英文学术语篇中词块的结构和功能对比研究,H315
- 现代汉语功能句型及其语料库建设,H146
- 基于海量点云的三维模型快速重建技术研究,TP391.41
- 英语学术论文标题的短语学特征研究,H313
- 基于语料库的中美经济语篇批评分析,H052
- 基于物流专业词汇联想测试的心理词库研究,H319
- 基于语料库的英语专业学习者书面语中心理使役动词使用研究,H319
- 中美语言学硕士论文中因果标记语的对比研究,H313
- 中国政府文件中国特色英语词丛研究,H313
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|