学位论文 > 优秀研究生学位论文题录展示
面向信息抽取的文本预处理和规则自动学习技术研究
作 者: 叶娜
导 师: 朱靖波
学 校: 东北大学
专 业: 计算机应用技术
关键词: 信息抽取 文本预处理 有限状态自动机 规则自动获取 归纳逻辑编程
分类号: TP391.1
类 型: 硕士论文
年 份: 2005年
下 载: 462次
引 用: 7次
阅 读: 论文下载
内容摘要
随着Internet技术的快速普及和迅猛发展,网上信息爆炸式增长,如何从中找到真正有用的信息成为人们关注的焦点。作为深层数据挖掘技术的先驱,信息抽取技术可以通过对文本的浅层分析,快速准确地从海量信息源中提取出用户感兴趣的信息,从而成为自然语言处理领域的一个热点研究课题。 信息抽取的任务是从文本中抽取字符串形式的信息,并将此信息填入带标记的槽中,来表明其含义。该技术是许多自然语言处理技术的综合运用,涉及的内容包括文本预处理、文本结构分析、篇章关联推导等。大多数的信息抽取系统都是基于规则进行抽取的。规则库的建立对信息抽取系统的性能起着关键作用。本文对信息抽取中的文本预处理和规则的自动学习技术进行了研究。 在文本预处理方面,本文用有限状态自动机实现了简单实体的识别,可识别的实体类型有金钱、时间、电子邮件、电话、网址、纯数字和其他字符等。自动机的设计充分考虑了各种类别的实体的文本结构特点,在大规模人民日报语料上测试时取得了很好的识别效果。 传统的信息抽取系统由专家手工书写规则,规则库的构造是知识获取的瓶颈问题,规则的知识表示能力也是限制抽取效果的障碍之一。基于一阶谓词逻辑的归纳逻辑编程技术可以自然地描述和学习复杂的关系,非常适合于信息抽取规则中的知识表示和自动生成。本文在归纳逻辑编程的框架下提出了一种多槽规则自动获取方法,解决了信息抽取中知识获取和知识表示的瓶颈问题。规则具有很好的扩展性,且在生成规则时无须传统的语法语义分析和复杂命名实体识别过程,大大降低了对资源的要求。实验结果表明,本方法获取的规则,相较零阶逻辑下的规则,具有更高的准确率和召回率。 根据以上给出的文本预处理技术和规则自动学习算法,我们设计实现了完整的中文信息抽取系统。
|
全文目录
第一章 绪论 10-17 1.1 信息抽取概述 10-11 1.2 信息抽取研究的发展历史 11-15 1.3 本文的主要工作 15-17 第二章 规则自动获取方法综述 17-23 2.1 自由式、结构化和半结构化文本 17 2.2 单槽抽取和多槽抽取 17-18 2.3 自由式文本的信息抽取规则表示及其自动获取方法 18-23 第三章 基于有限状态自动机的文本预处理 23-31 3.1 文本预处理模块的主要功能 23 3.2 总控程序的设计 23-24 3.3 分析器 24-25 3.4 自动机的语义动作 25-26 3.4.1 知识库匹配 25-26 3.4.2 类别知识库构建 26 3.5 各类别自动机设计 26-29 3.5.1 金钱 26-27 3.5.2 时间 27 3.5.3 网址 27 3.5.4 电子邮件 27-28 3.5.5 电话 28 3.5.6 纯数字 28 3.5.7 其他字符 28-29 3.6 文本预处理模块总体流程 29 3.7 小结 29-31 第四章 基于归纳逻辑编程的多槽信息抽取规则自动获取方法 31-46 4.1 归纳逻辑编程与自然语言处理 31-33 4.2 SRV算法简介 33-34 4.3 搜索空间 34-36 4.4 本算法的规则表示 36-40 4.4.1 规则表示方式 36-37 4.4.2 特征谓词集构造 37-40 4.5 规则学习算法 40-43 4.5.1 预处理 40 4.5.2 模式关系拆分 40-41 4.5.3 规则自动生成 41-43 4.6 一个例子 43-45 4.7 讨论 45 4.8 小结 45-46 第五章 中文信息抽取系统设计 46-53 5.1 系统工作流程 46-47 5.2 CIPSEGSDK分词模块简介 47 5.3 对比系统—零阶逻辑下的WHISK系统 47-50 5.4 实验结果及讨论 50-52 5.4.1 数据集和评价标准 50 5.4.2 实验结果 50-51 5.4.3 实验结果分析 51-52 5.5 小结 52-53 第六章 总结 53-55 6.1 研究工作总结 53 6.2 未来工作展望 53-55 参考文献 55-59 致谢 59-60 攻读硕士学位期间发表的论文 60
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 移动AdHoc网网的入侵检检:基于时时有限状状自动机方法,TN929.5
- 基于web的通信原理教学信息管理与评估系统的设计与实现,TP311.52
- 基于WEB技术的防雷业务管理系统的设计与实现,TM862
- 软件安全领域垂直搜索引擎的优化设计与实现,TP391.3
- 基于支持向量机的文本分类研究,TP391.1
- Web信息抽取技术的研究与应用,TP393.09
- 民生信息多分类系统研究与设计,TP391.1
- IP终端接入技术在银行网络中的应用研究,TP399-C2
- 基于LAMP的信息管理系统设计与实现,TP311.52
- 拼车信息检索系统的设计与实现,TP311.52
- 深层网信息挖掘技术的研究在化工领域的应用,TQ015.9
- 基于人工标注技术的网页内容抽取系统开发,TP393.092
- 一种舆情信息预处理平台的研究与实现,TP393.09
- 基于概念树的Web信息抽取技术研究,TP391.1
- 面向互联网的多元信息获取技术研究,TP393.09
- 基于GPU图像搜索中文本检索的关键技术研究,TP391.1
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 构件垂直搜索引擎的关键技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|