学位论文 > 优秀研究生学位论文题录展示

时间表达式识别与归一化研究

作 者: 潘越群
导 师: 秦兵
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 时间表达式识别 时间表达式归一化 信息抽取 条件随机域
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 74次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在自然语言中,时间是一种重要的语义载体。人们通过了解一个事件的开始、发展和结束的时间信息,把握事件发展的全过程。时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用。本文对时间信息识别的研究现状、研究方法等作了简要的介绍与分析,并简要介绍了TIMEX2标注规范,分别采用了基于规则的方法和和基于统计的方法对中文时间表达式进行识别,并对英文时间表达式的识别和归一化进行了探索。在基于规则方法的中文时间表达式识别中,根据时间表达式范围的句法标准,采用了基于依存句法分析的方法,然后通过将错误驱动方法融合到依存分析方法中,大大改进了实验结果,最终实验结果达到了76%以上。在基于统计方法的中文时间表达式识别中,依次使用了SVM、CRF方法以及改进CRF方法。这是首次将CRF方法应用到中文时间表达式识别中,选用了一系列有效特征,并对特征进行了扩展。用ACE标准评测工具对系统进行了评测,最终识别结果达到90%以上。评测结果表明:基于统计的方法优于基于规则的方法;在基于统计的方法中,CRF方法优于SVM方法;改进后的CRF方法在不影响时间表达式识别效果的情况下,提高了识别的效率。在英文时间表达式识别与归一化中,采用SVM方法对时间表达式进行识别及分类,然后使用规则对每一类时间表达式进行归一化。将统计方法引入时间表达式归一化中,其结果优于纯规则方法且减少了写规则的工作量。总之,本文对中文时间表达式的识别以及英文时间表达式识别与归一化进行了探索,取得了较好效果和有益结论。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-14
  1.1 研究的意义及背景  9-11
  1.2 国内外研究现状  11-13
  1.3 本文的结构  13-14
第2章 时间表达式识别与归一化定义  14-26
  2.1 TIMEX2 时间标注规范介绍  14-23
    2.1.1 标注的对象  14-15
    2.1.2 标注的方式  15-22
    2.1.3 标注的范围  22-23
  2.2 ACE 语料格式介绍  23-25
  2.3 本章小结  25-26
第3章 基于规则方法中文时间表达式识别  26-32
  3.1 基于词典与依存分析相结合的方法  26-28
  3.2 基于依存分析和错误驱动相结合的方法  28-30
  3.3 评测方法及结果  30-31
  3.4 本章小结  31-32
第4章 基于统计方法中文时间表达式识别  32-47
  4.1 机器学习方法概述  32-33
  4.2 基于支持向量机的方法  33-38
    4.2.1 支持向量机的提出和基本思想  33-35
    4.2.2 标注过程  35-36
    4.2.3 特征选择  36-38
    4.2.4 实验结果与分析  38
  4.3 基于条件随机域的方法  38-43
    4.3.1 条件随机域模型概述  38-39
    4.3.2 标注过程  39-41
    4.3.3 特征选择  41
    4.3.4 实验结果与分析  41-43
  4.4 基于二元特征筛选的条件随机域方法  43-46
    4.4.1 特征筛选方法概述  43-44
    4.4.2 基于二元特征筛选的CRF 方法  44-45
    4.4.3 结果分析  45-46
  4.5 本章小结  46-47
第5章 英文时间表达式识别与归一化  47-54
  5.1 问题分析及语料介绍  47
  5.2 标注流程  47-50
  5.3 英文时间表达式识别  50-51
  5.4 英文时间表达式归一化  51-52
  5.5 本章小结  52-54
结论  54-55
参考文献  55-60
攻读学位期间发表的学术论文  60-62
致谢  62

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 网页属性抽取的方法研究,TP391.1
  3. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  4. 学术主页信息抽取系统的研究,TP393.092
  5. 主题搜索引擎关键技术研究,TP391.3
  6. 一种基于动态学习框架的全自动网页结构化数据抽取方法,TP393.092
  7. 基于自然语言打印机人机交互方法研究与实现,TP11
  8. 汉语功能块的自动识别研究,TP391.1
  9. 模板独立的网页信息抽取研究,TP393.092
  10. 面向互联网的多元信息获取技术研究,TP393.09
  11. 网络舆情数据获取与话题分析技术研究,TP393.09
  12. 基于DOM的Web信息抽取系统设计与实现,TP393.09
  13. 一种基于前缀表达式的Web信息抽取方法的关键问题的实现,TP391.1
  14. 基于概念树的Web信息抽取技术研究,TP391.1
  15. 基于最大熵模型的中文实体关系自动抽取研究,TP391.1
  16. 基于搜索引擎的自动问答系统,TP391.3
  17. 基于互联网的个性化健康信息定制系统构建,TP311.52
  18. 个性化多媒体资源垂直搜索引擎技术研究,TP391.3
  19. 企业关系挖掘技术研究,TP391.1
  20. 异构信息源的领域人物信息抽取研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com