学位论文 > 优秀研究生学位论文题录展示
从大规模中文语料中获取知识模式的研究
作 者: 吴昱明
导 师: 曹存根;刘金刚
学 校: 首都师范大学
专 业: 计算机应用技术
关键词: 国家知识基础设施 信息抽取 文本知识获取 模式获取 模式扩充 模式专一性
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 13次
引 用: 0次
阅 读: 论文下载
内容摘要
知识获取被认为是一项非常困难和耗时耗力的任务,几十年来一直是阻碍智能系统等研究和开发的瓶颈问题。互联网时代,大量的信息都以非结构化的文本形式存在。由于自然语言处理的歧义性(Ambiguity)和非规范性(Ill-Fonnedness)两大类问题,使得计算机自动文本知识获取被认为是一项非常困难和费时的任务。基于模式的方法在文本知识获取系统中被普遍使用,并取得很好的结果。因此如何获取所需的模式成为重要的研究问题。本文主要研究如何从大规模语料中获取语义模式,开展了如下的工作:1)非监督的介词-动词模式自动获取。动词介词模式是自然语言表述关系型知识的一种主要形式,通过“什么”疑问词的引入降低模式获取的复杂性。首先引入了基于条件概率的过滤规则对介词动词组合进行过滤;然后构造查询项,通过Google搜索引擎从Internet上获取语料;最后从“概念词和概念词之间的相关性”、“概念词和模式词之间的相关性”和“模式词和模式词之间的相关性”的角度定义了六种度量,并基于这几种度量对获取的模式进行评价。实验结果证明,这六种度量是很好的模式定量特征。2)模式库的扩充。按照类比学习的思想提出了模式扩充的方法。以模式的词汇语法层相关性为基础进行模式的扩充。最后沿用了模式获取阶段的模式评价方法对模式进行评价。3)提出模式专一性的度量方法。模式的适用范围大小是基于模式进行知识获取过程中重要的信息。适用范围体现在模式能表达的概念的类别集合上,而模式不同位置(<?C_i>)能表达概念的类别集合是不同的,为此需要对模式的的不同位置分别进行度量。我们将这种适用范围的大小的度量定义为专一性。本文分别通过深度、概念集抽象和墒的方法度量专一性。通过分析发现这三种度量基本上与人感觉的专一程度吻合。
|
全文目录
摘要 5-6 Abstract 6-7 目录 7-9 表格目录 9-10 图目录 10-11 第一章 引言 11-19 1.1 文本知识获取介绍 11-13 1.1.1 文本知识获取含义 11 1.1.2 文本知识获取的目标与手段 11-12 1.1.3 国家基础知识设施 12-13 1.1.4 模式的作用 13 1.2 国内外研究现状与分析 13-18 1.2.1 命名实体识别 13-14 1.2.2 语义关系获取 14-15 1.2.3 主要的关系知识获取的研究项目 15-17 1.2.4 研究现状的分析与比较 17-18 1.3 本文的主要研究内容 18 1.4 本文的组织 18-19 第二章 语义模式获取的框架 19-31 2.1 获取语义模式的目的 19-20 2.2 基本假设 20-21 2.3 语义模式的表示 21-28 2.3.1 语义模式的结构 22-28 2.3.1.1 词汇语法结构 24-25 2.3.1.2 词汇语法限制 25-26 2.3.1.3 定性限制 26 2.3.1.4 定量限制 26-27 2.3.1.5 特性描述 27-28 2.4 评价的标准 28 2.4.1 精度/召回率标准 28 2.5 模式获取系统的结构 28-30 2.5.1 模式获取单元 29 2.5.2 模式扩充单元 29-30 2.5.3 模式分析单元 30 2.5.4 模式评价单元 30 2.6 小结 30-31 第三章 动词-介词模式的获取方法 31-40 3.1 获取动词-介词模式的目的 31 3.2 “什么”疑问词的作用 31-32 3.3 介词-动词模式的特征 32-37 3.3.1 简单表示能力度量 33 3.3.2 概念词集合投影度量 33-34 3.3.3 潜层语义度量 34-35 3.3.4 概念词之间句子级互信息度量 35-36 3.3.5 概念词之间文档级互信息度量 36-37 3.3.6 概念词和模式词之间相关性度量 37 3.4 PV模式获取的步骤 37-39 3.5 小结 39-40 第四章 模式的扩充 40-44 4.1 目的 40 4.2 扩展方法 40-42 4.3 模式扩充算法 42-43 4.4 特征构造 43 4.5 小结 43-44 第五章 模式的性质分析 44-60 5.1 目的 44 5.2 上下位概念空间 44-49 5.3 专一性需要满足的性质 49-50 5.4 专一性的几种定义 50-58 5.4.1 基于深度的专一性定义 50-52 5.4.1.1 概念集合上位扩展 51-52 5.4.1.2 基于深度的专一性性质分析 52 5.4.2 基于概念集抽象的专一性定义 52-54 5.4.2.1 基于概念集抽象的专一性分析 53-54 5.4.3 基于熵的概念集抽象定义 54-56 5.4.3.1 熵概念的引入 55 5.4.3.2 类概念集合的分布构造 55-56 5.4.4 专一性示例及分析 56-58 5.4.5 模式的专一性定义 58 5.5 符号说明 58-59 5.6 小结 59-60 第六章 实验结果及分析 60-63 6.1 实验结果 60 6.2 实验结果分析 60-61 6.3 小结 61-63 第七章 结束语 63-65 7.1 本文总结 63-64 7.2 今后的工作及改进 64-65 参考文献 65-70 致谢 70-71 作者简历 71
|
相似论文
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 网页属性抽取的方法研究,TP391.1
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 主题搜索引擎关键技术研究,TP391.3
- 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 模板独立的网页信息抽取研究,TP393.092
- 面向互联网的多元信息获取技术研究,TP393.09
- 网络舆情数据获取与话题分析技术研究,TP393.09
- 基于DOM的Web信息抽取系统设计与实现,TP393.09
- 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
- 基于概念树的Web信息抽取技术研究,TP391.1
- 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
- 基于搜索引擎的自动问答系统,TP391.3
- 基于互联网的个性化健康信息定制系统构建,TP311.52
- 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|