学位论文 > 优秀研究生学位论文题录展示

基于规则学习的中医药文献自动标引系统

作 者: 周孟霞
导 师: 吴朝晖
学 校: 浙江大学
专 业: 计算机应用
关键词: 自动标引 规则学习 WHISK算法 主题词 主副题词组配
分类号: TP319
类 型: 硕士论文
年 份: 2004年
下 载: 153次
引 用: 5次
阅 读: 论文下载
 

内容摘要


中医药学是中华民族具有几千年传统的医药学,中华民族繁衍生息到现在充分证明了中医顽强的生命力及其实用价值。近几年来,中医药科学问题的现代研究不仅是中医药本身的研究重点,也成为其他学科,如化学、药物学研究的重点。随着信息化的深入,中医药信息越来越多,巨量的数据有时也使一些特定的用户不知所措。 目前在中医药领域已经建立了中医药领域的文献数据库,每年几乎都会有几万篇文献,如何采用计算机技术来自动和半自动的完成文献的编辑如标引、关键字提取等任务,减少在文献编辑中人为的不确定性和错误,同时减少人力物力,从而提高文献分类、检索的效率和质量,变得异常突出和重要。 本文就中医药文献的自动标引研究,在以前工作的基础上,提出并开发了一个基于规则学习的主题自动标引系统。该系统从文献的题名中抽取并识别主题模式,相当有效地解决了医学科技文献的自动标引中涉及的主题词和副主题词的组配问题。开发完成的自动标引系统初期版本在大量中医药文献中进行了实验,标引结果远好于以前的系统。具体来讲,本文做了以下几个方面的工作: 1 具体研究了信息抽取中的WHISK算法,并且针对中医药文献数据,对WHISK算法作了相应的改动,作为自动标引的规则学习算法。 2 开发了词库管理系统,由于自动标引系统中用到的主题词库和入口词库在不断的更新和变化,这种词库的变化对于自动标引结果的准确性有很大的影响,所以开发了一个词库管理系统,负责Mesh词更新与反插、主题词与入口词关联、主题词更新提示、更新词分析与统计等功能。 3 提出了通过“规则学习”产生规则集的思想,并且利用改进的WHISK算法产生的规则集,对2001年文献进行自动标引测试,标引结果表明系统具备了一定的实用性。

全文目录


摘要  2-3
Abstract  3-5
目录  5-7
第一章 绪论  7-12
  1.1 引言  7
  1.2 自动标引产生的背景  7-8
  1.3 本文的项目背景和目标  8-10
  1.4 本文的组织结构  10
  参考文献  10-12
第二章 自动标引概述  12-22
  2.1 自动标引的涵义  12-13
  2.2 文献自动标引的分类  13-14
  2.3 汉语文献自动标引的技术难点  14-15
  2.4 实现汉语文献自动标引的几种算法  15-21
  参考文献  21-22
第三章 WHISK算法和规则学习算法  22-38
  3.1 引言  22-23
  3.2 WHISK算法  23-33
    3.2.1 WHISK规则的表达  23-26
    3.2.2 WHISK规则的形成  26-33
  3.3 规则学习算法  33-36
    3.3.1 规则的表达  33-34
    3.3.2 规则学习算法和过程  34-35
    3.3.3 规则学习实验结果  35-36
  参考文献  36-38
第四章 中医药文献自动标引系统设计与实现  38-58
  4.1 系统体系结构  38-39
  4.2 系统数据库设计  39-44
  4.3 系统各部分功能模块简介  44-47
  4.4 词库管理系统  47-50
  4.5 系统中的算法及标引结果  50-56
  4.6 系统评价  56-58
第五章 总结和展望  58-60
硕士期间发表的论文  60-61
硕士期间参与的科研项目情况  61-62
致谢  62

相似论文

  1. 网页主题概念的抽取处理及可视化实现,TP393.092
  2. 《南京日报》房地产广告语言研究,H152
  3. 基于P2P网络的分布式军事情报检索方法与原型系统研究,G354
  4. E-Learning平台上基于学习行为分析的个性化教学系统的研究与实现,TP391.6
  5. 网络新闻标题中职业女性报道的语义韵分析,H136
  6. 基于Snort的混合入侵检测系统的研究与实现,TP393.08
  7. 智能防火墙核心模块的研究与实现,TP393.08
  8. 基于数据挖掘的Snort系统改进模型的研究,TP393.08
  9. 基于PS格式数字报刊标引反解技术研究,TP317.4
  10. 关联规则学习与反馈技术及其在网络安全审计系统中的应用研究,TP393.08
  11. 基于知识建模的数据共享研究,TP311.13
  12. 动漫条件下幼儿交通规则学习中榜样示范效应的实验研究,G613.7
  13. 基于约束条件下关联规则在学习指导体系中的应用与研究,TP311.13
  14. 中文多文档文摘关键技术研究,TP391.1
  15. 规则与统计相结合的兼类词处理机制,TP391.1
  16. 基于二进制可辨矩阵的属性约简算法与规则获取的研究,TP311.13
  17. 基于神经网络的Web信息抽取系统的研究与实现,TP311.52
  18. 基于多级贪婪的人侵检测分类算法研究,TP393.08
  19. 多蚁群算法在化学模式分类器优化设计中的应用,TB114.1
  20. 基于粗集理论的KDD技术研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 专用应用软件
© 2012 www.xueweilunwen.com