学位论文 > 优秀研究生学位论文题录展示

文本信息度量研究

作　者: 布凡
导　师: 朱小燕
学　校: 清华大学
专　业: 计算机科学与技术
关键词: 自然语言处理信息度量信息距离核方法
分类号: TP391.1
类　型: 博士论文
年　份: 2013年
下　载: 52次
引　用: 0次
阅　读: 论文下载

内容摘要

度量是用来刻画对象之间相互关系的定量描述。在文本信息处理中，不同语言学粒度上的信息度量研究都有重要的理论价值和广泛的应用背景。近些年，Web2.0的蓬勃发展对文本信息度量提出了新的挑战。复杂多样的网络数据以及不规范的网络文本书写使得许多传统的自然语言信息度量方法不适用于互联网环境。比如，基于词典的词汇相似度度量无法很好地处理快速出现的新词；基于句法树的句子相似度度量无法很好地处理书写不规范的用户查询以及网络文档标题。特别地，中文网络语言的不规范性对中文自然语言处理提出的挑战更为明显。另外，传统基于网页链接分析的相关性度量方法并没有很好地利用社会协同百科全书的结构特点，因此无法解释概念之间的相关性。针对新形势下文本数据的特点，本文在四种不同的信息对象层面上提出了新的信息度量方法并进行了应用实现，具体如下。在短语层面，本文提出了一种短语非合成性度量，这种度量基于信息距离理论，具有完善的理论依据，可以用来判断一个给定的单词序列（在特定语境下）的合成性。由于所需的统计量来源于整个互联网，因此具有很强的适用性和鲁棒性，可用于问答系统后处理以及复杂名字实体识别。在概念层面，本文提出了一种新的网络百科全书（比如维基百科）概念相关性度量方法。和以往基于网页链接分析的方法不同，这种方法充分利用了维基百科的结构特点，使得其不仅能度量概念相关性，而且能用百科中的分类来解释概念之间的关系。在句子层面，本文提出了一种基于模板集的度量方法来计算自然语言问题之间的相似度。针对疑问句中虚词和实词的特点，我们采用硬模板和软模板来分别处理它们。这种度量可以在不借助句法树的前提下刻画单词间长距离的关系，并可以被有效地应用到问题分类任务中。在句子关系层面，本文提出了一种基于核方法的句子对类比相似度度量。这种方法将句子关系映射到重写规则空间，并用该空间上的内积来表示其相似度。这种方法可以在不借助句法树的前提下从结构上刻画句子关系的类比相似性，并在同义句识别以及句子蕴含关系识别上取得一流的准确率。

全文目录

摘要  3-4
Abstract  4-9
第1章引言  9-22
  1.1 研究背景  9-11
  1.2 信息度量研究现状  11-19
    1.2.1 短语非合成性度量  11-15
    1.2.2 概念相关性度量  15-16
    1.2.3 问题相似性度量  16
    1.2.4 句子关系的类比相似性度量  16-19
  1.3 本文的研究重点和工作内容  19-22
第2章基于信息距离的短语非合成性度量  22-49
  2.1 研究背景  22-23
  2.2 理论基础  23-29
    2.2.1 多词表达的语言学特点  23-26
    2.2.2 Kolmogorov复杂性  26-27
    2.2.3 信息距离  27-28
    2.2.4 正规化信息距离  28-29
  2.3 多词表达距离  29-33
    2.3.1 动机  29-30
    2.3.2 定义  30-31
    2.3.3 近似计算方法  31-33
  2.4 条件型多词表达距离  33-35
    2.4.1 动机  33
    2.4.2 定义  33-34
    2.4.3 近似计算方法  34-35
  2.5 多词表达距离与其他度量的关系  35-37
    2.5.1 多词表达距离与点对互信息的关系  35-36
    2.5.2 多词表达距离与置换熵的关系  36-37
  2.6 多词表达距离的应用  37-40
    2.6.1 答案后处理  37-39
    2.6.2 命名实体抽取  39-40
  2.7 实验设置与结果  40-47
    2.7.1 短语非合成性排序  40-43
    2.7.2 候选答案排序  43-45
    2.7.3 复杂命名实体抽取  45-47
  2.8 本章小结  47-49
第3章基于链接关系的概念相关性度量  49-66
  3.1 研究背景  49-51
  3.2 基于链接关系的概念相关性度量  51-55
    3.2.1 概念-类别图  51
    3.2.2 RCRank:基于概念链接和类别链接的排序算法  51-55
    3.2.3 基于RCRank的关系名称挖掘算法  55
  3.3 RCRank收敛性证明  55-57
  3.4 实验设置与结果  57-62
    3.4.1 数据准备  57-58
    3.4.2 实验：相关概念推荐  58-60
    3.4.3 实验：关系类型识别  60-62
    3.4.4 示例分析  62
  3.5 本章小结  62-66
第4章基于模板集的问题相似性度量  66-80
  4.1 研究背景  66-67
  4.2 基于模板集的句子相似度度量  67-71
    4.2.1 自然语言问题的特点分析  67-68
    4.2.2 硬模板的构建  68-70
    4.2.3 软模板的构建  70-71
    4.2.4 基于模板集的相似性度量  71
  4.3 在问题分类中的应用  71-76
    4.3.1 面向用户意图的问题分类体系  71-74
    4.3.2 分类器的选择  74-76
  4.4 实验设置与结果  76-78
    4.4.1 数据准备  76
    4.4.2 比较方法介绍  76-77
    4.4.3 实验结果  77-78
    4.4.4 软模板的例子  78
  4.5 本章小结  78-80
第5章基于核函数的类比相似性度量  80-99
  5.1 背景介绍  80-82
  5.2 基于核函数的句子重写分类框架  82-83
  5.3 字符串重写核  83-85
  5.4 k元双射字符串重写核  85-92
    5.4.1 定义  85-86
    5.4.2 快速算法  86-92
  5.5 时间复杂度分析  92-94
  5.6 实验设置与结果  94-98
    5.6.1 同义句识别  95-96
    5.6.2 文本蕴含关系识别  96-98
  5.7 本章小结  98-99
第6章总结与展望  99-101
参考文献  101-107
致谢  107-109
个人简历、在学期间发表的学术论文与研究成果  109-110

文本信息度量研究

内容摘要

全文目录

相似论文