学位论文 > 优秀研究生学位论文题录展示
面向网络知识服务的医疗信息分类方法
作 者: 乙峰
导 师: 王晓龙;陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网络知识服务 文本分类 特征选择 自然语言处理 健康本体
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 50次
引 用: 0次
阅 读: 论文下载
内容摘要
从互联网开始普及以来,如何充分利用大量、不同结构、动态的互联网资源就成为信息时代的核心课题之一。信息检索是给网络用户提供网络知识服务的关键技术。但是目前也面临不能提供很好的服务及不能发挥网络信息应有价值的挑战。网络知识服务通过对海量信息的加工整理,提供经过验证的、更加确切可信的知识,而不仅仅是原始网页信息,网络知识服务是下一步的发展方向。而要提供网络知识服务,必须完成一下四个核心工作:知识获取、知识表示、知识验证和知识服务。目前知识获取工作主要是主题搜索引擎技术,但是也面临着适应范围小、针对性强的挑战。在知识表示方面,Berners等在1998年提出的语义网,但语义网本身并没有解决知识获取、推理与服务等方面的问题。本文通过对网络知识服务的研究,提出了面向网络知识服务的健康文本分类方法,主要研究工作有以下几点:(1)设计实现了面向网络知识服务的健康垂直搜索系统,依据垂直搜索引擎爬虫技术,应用分类器预测的方法影响爬虫策略,采集高相关性的数据。(2)基于本体的语义描述为知识的表示提供了一种通用、可行的方法参考。采用本体构建技术,本文构建了健康本体系统,并在此基础上实现文档理解、文档表示和知识推理。(3)结合健康本体体系,建立了健康知识库,为健康文本分类提供了基础的支持。(4)通过对不同特征选择方法和不同分类算法结合的实验对比,提出了基于改进TF-IDF特征选择算法和改进互信息算法的健康分类算法,并通过实际系统实现验证了该方法在健康文本分类中的优越性。本系统已经发布在网络上。实验结果及用户反馈表明,本文提出的网络知识服务体系结构,能够较好的满足用户需求,提高了用户体验度,达到了预期效果。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-15 1.1 课题背景 9 1.2 课题目的及意义 9-10 1.3 国内外相关技术发展现状 10-14 1.3.1 医疗垂直搜索引擎发展现状 10-11 1.3.2 基于本体的网络知识服务发展现状 11-13 1.3.3 文本分类研究现状 13-14 1.4 本文主要内容 14-15 第2章 相关技术介绍 15-23 2.1 本体构建技术 15 2.1.1 从自由文本生成本体 15 2.1.2 基于词典生成本体 15 2.2 主题网络爬虫技术 15-17 2.2.1 基于文字内容的启发式方法 16 2.2.2 基于Web超链接评价的方法 16-17 2.2.3 基于分类器预测的方法 17 2.3 文本分类技术 17-19 2.3.1 分类模型 17 2.3.2 文本表示模型 17-19 2.4 文本分类预处理模块 19-22 2.4.1 中文分词 19-20 2.4.2 特征选择 20-22 2.5 本章小结 22-23 第3章 健康知识服务系统结构 23-27 3.1 健康知识服务系统框架 23-24 3.2 模块任务和存在的问题 24-26 3.2.1 信息采集模块 24-25 3.2.2 净化模块 25 3.2.3 索引模块 25-26 3.3 健康信息采集方法 26 3.4 本章小结 26-27 第4章 健康本体构建 27-36 4.1 健康本体概述 27 4.2 健康本体确定原则 27-28 4.3 健康分类体系 28-31 4.4 健康知识库的构建 31-34 4.4.1 知识库的特点和发展现状 32 4.4.2 文本分类知识库的选样原则 32-33 4.4.3 中文文本分类知识库的特点 33 4.4.4 现有中文文本分类知识库简介 33 4.4.5 健康文本分类知识库的建设 33-34 4.5 健康文本分类检索过程 34-35 4.6 本章小结 35-36 第5章 健康信息分类方法 36-46 5.1 净化阶段的特征选择 36-38 5.1.1 权重计算公式的改进 36-37 5.1.2 改进后算法评测 37 5.1.3 净化过程实际效果 37-38 5.2 改进的朴素贝叶斯分类算法 38-42 5.2.1 健康文本分类评测 39-42 5.3 不同角色的特征选择方法 42-45 5.3.1 健康文本特点 42-43 5.3.2 改进互信息计算 43-44 5.3.3 健康二次分类评测 44-45 5.4 本章小结 45-46 第6章 系统实现与评测 46-52 6.1 健康部落的系统架构 46-48 6.1.1 整体架构 46 6.1.2 各模块功能 46-47 6.1.3 健康部落部分效果展示 47-48 6.2 分类评测方法 48-51 6.2.1 语料库来源及规模 48-49 6.2.2 评测方法 49-50 6.2.3 健康分类实际效果评测 50-51 6.4 本章小结 51-52 结论 52-54 参考文献 54-59 致谢 59
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 随机森林特征选择,TP311.13
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 面向互联网中文舆情信息的情感倾向分析,TP391.1
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于关联技术的中文文本分类研究,TP391.1
- 自然语言理解中并列名词歧义消解及其在智能仪器设计领域的应用,TP391.1
- 基于NMF垃圾邮件过滤系统研究,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|