学位论文 > 优秀研究生学位论文题录展示

从大规模中文语料中获取知识模式的研究

作 者: 吴昱明
导 师: 曹存根;刘金刚
学 校: 首都师范大学
专 业: 计算机应用技术
关键词: 国家知识基础设施 信息抽取 文本知识获取 模式获取 模式扩充 模式专一性
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 13次
引 用: 0次
阅 读: 论文下载
 

内容摘要


知识获取被认为是一项非常困难和耗时耗力的任务,几十年来一直是阻碍智能系统等研究和开发的瓶颈问题。互联网时代,大量的信息都以非结构化的文本形式存在。由于自然语言处理的歧义性(Ambiguity)和非规范性(Ill-Fonnedness)两大类问题,使得计算机自动文本知识获取被认为是一项非常困难和费时的任务。基于模式的方法在文本知识获取系统中被普遍使用,并取得很好的结果。因此如何获取所需的模式成为重要的研究问题。本文主要研究如何从大规模语料中获取语义模式,开展了如下的工作:1)非监督的介词-动词模式自动获取。动词介词模式是自然语言表述关系型知识的一种主要形式,通过“什么”疑问词的引入降低模式获取的复杂性。首先引入了基于条件概率的过滤规则对介词动词组合进行过滤;然后构造查询项,通过Google搜索引擎从Internet上获取语料;最后从“概念词和概念词之间的相关性”、“概念词和模式词之间的相关性”和“模式词和模式词之间的相关性”的角度定义了六种度量,并基于这几种度量对获取的模式进行评价。实验结果证明,这六种度量是很好的模式定量特征。2)模式库的扩充。按照类比学习的思想提出了模式扩充的方法。以模式的词汇语法层相关性为基础进行模式的扩充。最后沿用了模式获取阶段的模式评价方法对模式进行评价。3)提出模式专一性的度量方法。模式的适用范围大小是基于模式进行知识获取过程中重要的信息。适用范围体现在模式能表达的概念的类别集合上,而模式不同位置(<?C_i>)能表达概念的类别集合是不同的,为此需要对模式的的不同位置分别进行度量。我们将这种适用范围的大小的度量定义为专一性。本文分别通过深度、概念集抽象和墒的方法度量专一性。通过分析发现这三种度量基本上与人感觉的专一程度吻合。

全文目录


摘要  5-6
Abstract  6-7
目录  7-9
表格目录  9-10
图目录  10-11
第一章 引言  11-19
  1.1 文本知识获取介绍  11-13
    1.1.1 文本知识获取含义  11
    1.1.2 文本知识获取的目标与手段  11-12
    1.1.3 国家基础知识设施  12-13
    1.1.4 模式的作用  13
  1.2 国内外研究现状与分析  13-18
    1.2.1 命名实体识别  13-14
    1.2.2 语义关系获取  14-15
    1.2.3 主要的关系知识获取的研究项目  15-17
    1.2.4 研究现状的分析与比较  17-18
  1.3 本文的主要研究内容  18
  1.4 本文的组织  18-19
第二章 语义模式获取的框架  19-31
  2.1 获取语义模式的目的  19-20
  2.2 基本假设  20-21
  2.3 语义模式的表示  21-28
    2.3.1 语义模式的结构  22-28
      2.3.1.1 词汇语法结构  24-25
      2.3.1.2 词汇语法限制  25-26
      2.3.1.3 定性限制  26
      2.3.1.4 定量限制  26-27
      2.3.1.5 特性描述  27-28
  2.4 评价的标准  28
    2.4.1 精度/召回率标准  28
  2.5 模式获取系统的结构  28-30
    2.5.1 模式获取单元  29
    2.5.2 模式扩充单元  29-30
    2.5.3 模式分析单元  30
    2.5.4 模式评价单元  30
  2.6 小结  30-31
第三章 动词-介词模式的获取方法  31-40
  3.1 获取动词-介词模式的目的  31
  3.2 “什么”疑问词的作用  31-32
  3.3 介词-动词模式的特征  32-37
    3.3.1 简单表示能力度量  33
    3.3.2 概念词集合投影度量  33-34
    3.3.3 潜层语义度量  34-35
    3.3.4 概念词之间句子级互信息度量  35-36
    3.3.5 概念词之间文档级互信息度量  36-37
    3.3.6 概念词和模式词之间相关性度量  37
  3.4 PV模式获取的步骤  37-39
  3.5 小结  39-40
第四章 模式的扩充  40-44
  4.1 目的  40
  4.2 扩展方法  40-42
  4.3 模式扩充算法  42-43
  4.4 特征构造  43
  4.5 小结  43-44
第五章 模式的性质分析  44-60
  5.1 目的  44
  5.2 上下位概念空间  44-49
  5.3 专一性需要满足的性质  49-50
  5.4 专一性的几种定义  50-58
    5.4.1 基于深度的专一性定义  50-52
      5.4.1.1 概念集合上位扩展  51-52
      5.4.1.2 基于深度的专一性性质分析  52
    5.4.2 基于概念集抽象的专一性定义  52-54
      5.4.2.1 基于概念集抽象的专一性分析  53-54
    5.4.3 基于熵的概念集抽象定义  54-56
      5.4.3.1 熵概念的引入  55
      5.4.3.2 类概念集合的分布构造  55-56
    5.4.4 专一性示例及分析  56-58
    5.4.5 模式的专一性定义  58
  5.5 符号说明  58-59
  5.6 小结  59-60
第六章 实验结果及分析  60-63
  6.1 实验结果  60
  6.2 实验结果分析  60-61
  6.3 小结  61-63
第七章 结束语  63-65
  7.1 本文总结  63-64
  7.2 今后的工作及改进  64-65
参考文献  65-70
致谢  70-71
作者简历  71

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 时间表达式识别与归一化研究,TP391.1
  3. 网页属性抽取的方法研究,TP391.1
  4. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  5. 构件垂直搜索引擎的关键技术研究,TP391.3
  6. 面向教育新闻的主题爬虫设计与实现,TP391.3
  7. 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
  8. 学术主页信息抽取系统的研究,TP393.092
  9. 主题搜索引擎关键技术研究,TP391.3
  10. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  11. 基于自然语言打印机人机交互方法研究与实现,TP11
  12. 模板独立的网页信息抽取研究,TP393.092
  13. 面向互联网的多元信息获取技术研究,TP393.09
  14. 网络舆情数据获取与话题分析技术研究,TP393.09
  15. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  16. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  17. 基于概念树的Web信息抽取技术研究,TP391.1
  18. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  19. 基于搜索引擎的自动问答系统,TP391.3
  20. 基于互联网的个性化健康信息定制系统构建,TP311.52
  21. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com