学位论文 > 优秀研究生学位论文题录展示
生物医学文献中模糊限制语及其范围的检测
作 者: 李晓艳
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 模糊限制语识别 模糊限制语范围检测 条件随机场 句法结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 40次
引 用: 0次
阅 读: 论文下载
内容摘要
生物医学文献中包含了大量表示推测或不确定性的模糊限制语。由模糊限制语所引导的模糊限制信息并非确定的信息,在文本信息抽取时,应区别于事实信息。模糊限制语所引导的模糊限制信息通常不是整句,往往是一个从句或者短语。因此在识别模糊限制语的同时,对其控制的范围进行检测也同样重要。模糊限制信息的检测是将自然语言中的事实与不确定性信息区分开来,这对于事实信息的挖掘有重要的意义。本文主要研究生物医学英文文献中模糊限制语及其范围的检测问题。针对模糊限制语的识别问题,提出基于多特征条件随机场模型(CRFs)的模糊限制语识别方法。首先,将训练语料中出现的模糊限制语及其在WordNet中的同义词提取出来组成关键词词典,并利用基于关键词词典的方法进行模糊限制语的识别;之后,将基于关键词词典的识别结果作为特征引入到CRFs模型中,连同其他特征一起进行模糊限制语的识别。在CoNLL 2010提供的国际公开测评语料上进行了实验,模糊限制语识别的召回率达到85.44%,F1测评值达到86.32%。针对模糊限制语范围的检测问题,提出规则与统计相结合的模糊限制语范围检测方法。首先,利用句法结构和模糊限制语的词性,建立相应的规则进行模糊限制语范围的检测;其次,将基于规则的模糊限制语范围检测结果作为特征引入到统计模型CRFs中,连同其他特征一起训练;最后,利用后处理算法得到连续的模糊限制语的范围。该方法在CoNLL 2010提供的国际公开测评语料上取得了57.47%的F1测评值。实验结果表明基于CRFs的模糊限制语范围检测方法比基于规则的方法效果好,将其与规则系统结合后其检测精度有较大提高。本文的研究成果可以应用到许多自然语言处理任务中,如基因命名实体抽取,问答系统,生物文本信息抽取等。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-17 1.1 研究背景与意义 8-9 1.2 自然语言处理 9-11 1.2.1 自然语言处理简介 9-10 1.2.2 自然语言处理的研究方法 10-11 1.3 相关国际评测会议 11-13 1.4 国内外研究现状 13-14 1.5 本文研究概述及内容组织 14-17 2 条件随机场 17-23 2.1 序列标注 17-18 2.2 标记偏置问题 18-19 2.2.1 标记偏置问题的产生 18-19 2.2.2 CRFs对标记偏置问题的解决方案 19 2.3 CRFs的无向图结构 19-20 2.4 CRFs的势函数表示 20-21 2.5 CRFs的参数估计 21-22 2.6 本章小结 22-23 3 基于多特征CRFs的模糊限制语的识别 23-30 3.1 基于多特征CRFs的模糊限制语的识别方法概述 23-24 3.2 标记方法 24 3.3 基于关键词词典的模糊限制语识别 24-26 3.3.1 关键词词典的构建 24-25 3.3.2 基于关键词词典的模糊限制语识别 25-26 3.4 基于多特征CRFs的模糊限制语的识别 26-29 3.5 本章小结 29-30 4 规则与统计相结合的模糊限制语范围的检测 30-38 4.1 规则与统计相结合的模糊限制语范围检测的方法概述 30-31 4.2 标记方法 31 4.3 基于规则的模糊限制语范围的检测 31-34 4.4 基于统计的模糊限制语范围的检测 34-36 4.4.1 特征选取 34-35 4.4.2 后续处理算法 35-36 4.5 本章小结 36-38 5 实验结果与分析 38-50 5.1 实验语料及工具 38 5.2 评测指标 38-39 5.3 基于多特征CRFs的模糊限制语的识别 39-43 5.3.1 基于关键词词典的模糊限制语识别的实验结果 39-40 5.3.2 基于多特征CRFs的模糊限制语识别的实验结果 40-42 5.3.3 与其他系统的比较 42 5.3.4 错误分析 42-43 5.4 规则与统计相结合的模糊限制语范围检测 43-49 5.4.1 基于规则的模糊限制语范围检测的实验结果 43 5.4.2 规则与统计相结合的模糊限制语范围检测的实验结果 43-46 5.4.3 与其他系统的比较 46-47 5.4.4 错误分析 47-49 5.5 本章小结 49-50 结论 50-52 参考文献 52-56 攻读硕士学位期间发表学术论文情况 56-57 致谢 57-58
|
相似论文
- 红安方言语法研究,H146
- 评价对象抽取研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 基于空间邻域词袋模型的图像标注技术,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于特征的中文名词性谓词语义角色标注研究,TP391.1
- 语言理解过程对口译可行性的影响,H059
- 基于条件随机场的汉语多词块自动识别研究,H08
- 双桥壮语疑问句研究,H218
- 古代汉语动词的概念结构及其句法后果,H141
- 面向信息抽取的中文命名实体识别研究,TP391.1
- 基于条件随机场的口语规范化处理研究,TP391.2
- 基于特定领域汉语意见型问答系统的研究,TP311.52
- 面向专利的双语术语自动抽取技术的研究,TP391.1
- 动词“告诉”带宾语情况分析,H146
- 韩国留学生汉语介词的使用偏误分析,H195
- 英汉致使移动构式对比研究,H146
- 现代汉语形容词重叠式的定状移位现象研究,H146
- 英语小句的句法结构再研究,H314
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|