学位论文 > 优秀研究生学位论文题录展示
基于关联技术的中文文本分类研究
作 者: 赵德圣
导 师: 於东军;陆建峰
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 关联分类 中文文本分类 关联规则 频繁闭项集 潜在规则 评价标准
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
面对与日俱增的爆炸信息,人们获得有用知识显得越发困难,而有效的组织和管理能帮助人们便捷准确地找到所需知识,于是文本分类成为一大研究热点。由于中文的复杂性和国内相关研究较晚,中文的文本分类还存在多方面难点需要突破。国外在文本分类方面提出了较多方法和技术,并表现出良好的效果。目前中文文本分类的研究不断地结合这些优秀的方法和技术,在分类准确性、可靠性等方面进行大量的研究,取得了一些的实际成果。随着关联规则和分类算法的不断研究,学者们提出了关联分类的方法,并有着广泛和有效的应用。所以本文基于关联技术,以中文文本为研究对象,对关联的中文文本分类进行研究。基于以往关联分类方法的优势和不足,我们尝试设计了两种中文文本分类的方法。第一种方法基于CMAR的多关联规则的思想,考虑到频繁闭项集的特性,结合了TFP算法不用预设min_sup的优势,进行了相关改进来寻找用于指导分类的最优关联闭规则;第二种方法结合CPAR中高效产生潜在规则的优势,对其算法进行了如下改进:采用了新的度量标准FGIG选择合取、引入了多重衰减因子寻找高质量的潜在规则、利用Laplace准确率有效评价规则等,最后结合同源规则的概念改善分类策略。对两种方法都进行了中文文本的分类实验,通过多组对比实验,由实验结果的分析表明两种方法在文本分类准确率、方法的有效性等方面有较好的表现。总的来说,设计的方法对中文文本的分类方面具有很好的实用价值和指导意义。
|
全文目录
摘要 3-4 Abstract 4-7 1 绪论 7-11 1.1 课题研究背景及意义 7-8 1.2 国内外研究现状 8-9 1.3 文本挖掘概述 9-10 1.3.1 文本挖掘的定义 9 1.3.2 文本挖掘的过程 9-10 1.4 本文主要工作 10-11 2 中文文本关联分类概述 11-28 2.1 中文文本分类的简介 11-12 2.1.1 中文文本分类 11-12 2.1.2 中文文本分类的难点 12 2.2 中文文本常见分类方法 12-15 2.3 基于关联的文本分类方法 15-28 2.3.1 基于关联规则的分析 15-20 2.3.2 关联文本分类的分析 20-28 3 文本分类算法的性能比较研究 28-38 3.1 问题的引入 28 3.2 中文文本数据集的选定与使用 28-30 3.3 中文文本的表示 30-32 3.4 文本分类器的性能评价标准 32-34 3.5 中文文本特征表示与分类器性能对比 34-38 3.5.1 实验的设计 34-35 3.5.2 实验结果与分析 35-38 4 基于最优频繁闭项集的中文文本分类的研究 38-50 4.1 方法的引入 38 4.2 基本说明 38-39 4.2.1 频繁闭项集的再探 38-39 4.2.2 最优频繁闭项集的提出 39 4.3 最优K-频繁闭项集的挖掘 39-44 4.3.1 理论准备 39-42 4.3.2 有效的挖掘策略 42-44 4.4 基于CMAR改进的中文文本分类 44-46 4.4.1 改进的主要思路 44 4.4.2 最优类关联闭规则的挖掘 44-46 4.4.3 基于最优类关联闭规则的中文文本分类 46 4.5 实验与结果分析 46-50 4.5.1 实验的准备 46 4.5.2 实验的结果分析 46-50 5 基于潜在关联规则的中文文本分类的研究 50-65 5.1 方法的引入 50 5.2 基于规则的分类 50-52 5.3 基于潜在关联规则的中文文本分类 52-60 5.3.1 问题引人 52-53 5.3.2 基于CPAR的改进算法 53-60 5.4 实验与结果分析 60-65 5.4.1 实验的准备 60-61 5.4.2 实验的结果分析 61-65 6 总结与展望 65-66 6.1 本文总结 65 6.2 未来展望 65-66 致谢 66-67 参考文献 67-69
|
相似论文
- 基于数据挖掘的税务稽查选案研究,F812.42
- 企业诚信评价体系构建研究,F407.7
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于关联规则的结构化浏览技术及其应用,TP391.41
- 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
- 我国财务报告质量评价指标体系的构建与应用研究,F231.5
- 通信行为指纹研究,TP311.13
- 动态关联规则的研究,TP311.13
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于日志分析的超级计算机错误预测方法研究,TP338
- 上海绿色住宅建筑设计策略研究,TU201.5
- 数据挖掘在学生评价系统中的应用,TP311.13
- 面向隐私保护的关联规则挖掘研究,TP311.13
- 用户交易行为的分析与展示—在现代易货业中的应用,TP311.13
- 频率越限标准及其控制策略的研究,TM76
- 生活类运动装品牌设计评价体系的研究,J524
- 基于关联规则和图排序的句子情感倾向性研究,TP391.1
- 基于数据挖掘的入侵检测技术的研究,TP393.08
- 关联规则算法及其在智能药房系统中的应用研究,TP311.13
- 轮椅使用者的功能服装研发及评价,TS941.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|