学位论文 > 优秀研究生学位论文题录展示

基于概念和段落检索的生物医学文献知识发现

作 者: 陈冉
导 师: 林鸿飞
学 校: 大连理工大学
专 业: 计算机系统结构
关键词: 知识发现 MeSH 共现分析 段落检索
分类号: G354
类 型: 硕士论文
年 份: 2008年
下 载: 139次
引 用: 0次
阅 读: 论文下载
 

内容摘要


从生物医学文献中抽取潜在的生物学关系有助于建立生物医学假说,而假说可以通过实验进一步探索之。但是,随着生物医学文献的快速增长,依靠人工阅读来获取知识是非常困难的。美国芝加哥大学情报学教授Don.R.Swanson创立的非相关文献知识发现方法可以在大量医学文献中揭示学科间隐藏联系,形成合理的假设来指导科学实践。他的知识发现方法逐渐受到人们的关注,成为研究的热点。概念检索计算简单直观,实验采用共现分析技术,对生物医学文献数据库MEDLINE中的MeSH概念进行隐含知识挖掘的研究。重点发现疾病与化学药品、药物、基因或者分子序列之间的新颖的、尚未被发现的生物学关系。实验利用三种计算方法:z分值、TFIDF(Term Frequency Inverse Document Frequency)和PMI(Pointwise MutualInformation),模拟Swanson的三组经典实验:Alzheimer’s disease(老年痴呆症)、Migraine(偏头疼)、Schizophrenia(精神分裂症)。同时使用LitLinker系统提出的评测方法,计算了各组实验结果的正确率和召回率。针对计算三种方法的不同特点,采用融合公式对发现结果重计算和重打分,进一步提高发现结果的正确率。实验发现,TFIDF方法和z分值方法在实验中分别表现出较好的正确率和召回率,融合公式可以有效提高实验结果的正确率。发现结果中包含更多有倾向性的主题,符合知识发现的期望。段落检索是针对概念检索知识发现计算数据过于分散,影响最终的排序结果,导致正确率不高这一问题提出的改进方法。针对MEDLINE摘要全文,进一步提取在完整句子中共现的MeSH概念。为了对比实验结果,本组实验采用的计算方法、计算起始词和概念检索实验一致,并且评测了实验结果的正确率和召回率。实验发现,z分值方法计算得到的结果有很高的正确率,TFIDF方法计算得到的结果有很好的召回率。使用段落检索方法找到的MeSH概念集中性较强,发现结果的正确率高于概念检索方法的结果,但是集中性导致召回率降低,减弱了对于未来的预测趋势。本文实验采用开放式发现算法,验证了Swanson的发现结果:Alzheimer’s disease(老年痴呆症)和indomethacin(消炎痛)、Migraine(偏头疼)和Magnesium(镁)、Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)的潜在关系,同时还发现了三组起始词和其他的生物学潜在关系。分析发现这些潜在关系可以辅助医学专家揭示文献中的隐性关联,引导并实现知识发现的预期目标。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-15
  1.1 研究背景  9
  1.2 文本挖掘技术综述  9-11
    1.2.1 文本挖掘定义  9-10
    1.2.2 文本挖掘的主要技术  10
    1.2.3 文本挖掘在生物医学文献中的应用  10-11
  1.3 知识发现研究现状  11
  1.4 生物医学文献隐含知识发现研究现状  11-13
  1.5 本文的结构  13-15
2 生物医学文献隐含知识发现相关知识及算法研究综述  15-25
  2.1 生物医学文献资源  15-19
    2.1.1 医学主题词  15-17
    2.1.2 医学一体化语言系统  17-19
  2.2 开放式发现算法和闭合式发现算法  19-25
    2.2.1 开放式发现算法  19-20
    2.2.2 闭合式发现算法  20
    2.2.3 开放式发现算法和闭合式发现算法的区别  20-21
    2.2.4 主要知识发现系统算法  21-25
3 概念检索开放式知识发现  25-32
  3.1 共现分析  25-26
    3.1.1 共现定义  25
    3.1.2 共现分析在文本挖掘中的作用  25-26
    3.1.3 共现分析在隐含知识发现中的实现思路  26
  3.2 方法  26-32
    3.2.1 建立MeSH概念索引  27-28
    3.2.2 开放式知识发现  28-32
4 段落检索开放式知识发现  32-38
  4.1 段落检索  32-34
    4.1.1 段落检索研究背景  32-33
    4.1.2 句子级重叠窗口  33-34
  4.2 方法  34-36
    4.2.1 建立索引  34-35
    4.2.2 句子级重叠窗口索引的段落检索  35-36
  4.3 计算工具hadoop  36-38
    4.3.1 hadoop定义  36
    4.3.2 hadoop结构  36-37
    4.3.3 hadoop在实验中的应用  37-38
5 实验结果分析  38-47
  5.1 实验数据  38
  5.2 评测  38-39
  5.3 发现的关系分析  39-43
    5.3.1 Alzheimer's disease(老年痴呆症)和indomethacin(消炎痛)  39-40
    5.3.2 Migraine(偏头疼)和Magnesium(镁)  40-41
    5.3.3 Schizophrenia(精神分裂症)和Calcium-independent phospholipase A2(游离钙磷脂酶A2)  41-43
  5.4 实验方法讨论  43-47
    5.4.1 z分值、TFIDF、PMI结果对比分析  43
    5.4.2 语义类型和阈值分析  43-45
    5.4.3 融合计算分析  45-46
    5.4.4 概念检索和段落检索方法分析  46-47
结论  47-48
参考文献  48-53
致谢  53-54

相似论文

  1. 无线校园Mesh网安全路由协议研究,TN929.5
  2. 多跳无线Mesh网络中网络编码性能研究,TN929.5
  3. 多接口多信道无线Mesh网络路由协议研究,TN929.5
  4. 一种基于网卡的无线Mesh网络试验床的设计与实现,TN929.5
  5. 基于QoS的无线Mesh网络路由协议及相关技术的研究,TN929.5
  6. 基于Contiki操作系统的无线抄表系统节点设计,TP212.9;TP274
  7. 无线mesh网络容量优化控制方法的研究,TN929.5
  8. 基于知识发现的职业技术教育管理系统设计与实现,TP311.52
  9. 无线Mesh网络可信路由协议THWMP研究,TN929.5
  10. 绍兴文理学院WLAN规划与实施,TN925.93
  11. 航次知识发现及其应用研究,F552.6
  12. 镜射对称在机械中的作用原理及其应用方法研究,TH122
  13. 我国图书情报学科研究热点分析(1998-2007),G250
  14. 段落检索系统及其应用的研究,TP391.3
  15. 认知无线Mesh网络的路由及信道分配技术研究,TN929.5
  16. 一种高效的无线Mesh网络安全接入认证协议的分析与实现,TN929.5
  17. 基于OPNET的无线Mesh网络路由协议的研究与仿真,TN929.5
  18. IEEE802.11s无线Mesh网络负载均衡机制的研究,TN929.5
  19. WiMAX系统调度机制研究,TN929.5
  20. 上海无线城市建设模式研究,TN929.5
  21. 无线Mesh网络功率控制关键技术研究,TN929.5

中图分类: > 文化、科学、教育、体育 > 科学、科学研究 > 情报学、情报工作 > 情报检索
© 2012 www.xueweilunwen.com