学位论文 > 优秀研究生学位论文题录展示
面向概念查询的生物医学多文档摘要技术研究
作 者: 商玥
导 师: 林鸿飞
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 自动摘要 特征选择 排序学习 语义关系抽取 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 21次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着生命科学的不断发展,生物医学文献数量呈指数级增长,海量的数据为研究人员提供了丰富的资源的同时,也为知识的检索和理解带来了巨大挑战。在生物医学文献数据库中,一个生物医学概念可以检索到大量的文献,有些疾病概念可以检索到几万篇相关研究论文,一个基因也能找到上千篇参考文献,逐一阅读相关文献将是十分费时耗力的工作。因此,自动整合生物医学概念的相关资源,使用户能快速掌握查询概念的相关信息对生物医学研究人员有重要意义。文本自动摘要技术是对文本内容进行自动概括和精炼的过程,能利用较少的语句概括文本的主要信息,使用户对文本内容有快速的认识。将自动摘要技术应用于生物医学文本挖掘中有助于提高研究人员查阅和分析相关资料的效率,快速理解和掌握生物医学概念的相关知识。本文利用自动摘要技术对两类生物医学概念,即疾病和基因,针对各自语料和资源的特点,分别进行多文档自动摘要的抽取和生成。面向疾病概念的摘要,本文提出了一种利用生物医学语义关系进行多文档摘要抽取的方法,旨在从语义层面比较全面的覆盖查询疾病概念的多方面内容。本文对查询疾病的相关语义关系进行分析,根据语义关系获取相关句子并对句子按语义相关性排序。实验中分析了24种常见病,生成的概念涉及了致病原因、类型、防治策略等语义类型。实验结果表明,利用语义关系特征抽取摘要的方法能提高摘要的性能,且由于增加了生物医学语义层面内容,使生成的摘要更符合研究人员的查询需要。面向基因概念的摘要,本文提出了一种利用排序学习生成基因摘要的方法。本文提出了三种特征作为候选摘要句选取的依据,即基因本体相关性、主题相关性以及TextRank,并利用排序学习方法自动从训练集获取三类特征在句子重要性排序中的权重。实验结果表明,利用三种特征衡量候选摘要句的重要程度序能提高摘要的性能,而利用排序学习方法从训练集中自动学习特征权重的方法也有利于特征的进一步扩展,为引入更多有效的句子重要性评价特征提供的便利。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-12 1.1 研究背景 9 1.2 自动摘要研究现状 9-11 1.2.1 文本挖掘领域的自动摘要研究现状 9-10 1.2.2 生物医学领域自动摘要研究现状 10-11 1.3 论文的组织 11-12 2 相关知识及评价方法 12-21 2.1 生物医学相关知识 12-17 2.1.1 一体化医学语言系统 12-14 2.1.2 SemRep 14-15 2.1.3 MeSH 15-16 2.1.4 MEDLINE 16-17 2.2 评价方法 17-21 2.2.1 自动文摘评价方法分类 17-19 2.2.2 常用自动摘要评价方法 19-21 3 基于语义关系抽取的疾病摘要生成 21-37 3.1 生物医学语义关系抽取和筛选 21-27 3.1.1 语义关系抽取工具SemRep 21-23 3.1.2 语义关系筛选 23-27 3.2 基于语义关系的摘要抽取和生成 27-30 3.2.1 句子排序 27-29 3.2.2 摘要生成 29-30 3.3 实验与结果分析 30-36 3.3.1 实验设计 30-31 3.3.2 不同摘要方法的比较 31-36 3.4 本章小结 36-37 4 基于排序学习的基因摘要生成 37-47 4.1 特征选择 38-42 4.1.1 基因本体相关性 38-40 4.1.2 主题相关性 40-41 4.1.3 TextRank 41-42 4.2 排序学习 42-44 4.3 实验与结果分析 44-46 4.3.1 语料 44 4.3.2 实验过程 44-46 4.4 本章小结 46-47 结论 47-48 参考文献 48-52 攻读硕士学位期间发表学术论文情况 52-53 致谢 53-54
|
相似论文
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 流形学习的方差最小化准则,TP181
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 中国民族音乐特征提取与分类技术的研究,J607
- 排序学习损失函数的研究,TP181
- 随机森林特征选择,TP311.13
- 面向互联网中文舆情信息的情感倾向分析,TP391.1
- 基于粗糙集属性约简和加权SVM的入侵检测方法研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|