学位论文 > 优秀研究生学位论文题录展示

基于关联技术的中文文本分类研究

作 者: 赵德圣
导 师: 於东军;陆建峰
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 关联分类 中文文本分类 关联规则 频繁闭项集 潜在规则 评价标准
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 44次
引 用: 0次
阅 读: 论文下载
 

内容摘要


面对与日俱增的爆炸信息,人们获得有用知识显得越发困难,而有效的组织和管理能帮助人们便捷准确地找到所需知识,于是文本分类成为一大研究热点。由于中文的复杂性和国内相关研究较晚,中文的文本分类还存在多方面难点需要突破。国外在文本分类方面提出了较多方法和技术,并表现出良好的效果。目前中文文本分类的研究不断地结合这些优秀的方法和技术,在分类准确性、可靠性等方面进行大量的研究,取得了一些的实际成果。随着关联规则和分类算法的不断研究,学者们提出了关联分类的方法,并有着广泛和有效的应用。所以本文基于关联技术,以中文文本为研究对象,对关联的中文文本分类进行研究。基于以往关联分类方法的优势和不足,我们尝试设计了两种中文文本分类的方法。第一种方法基于CMAR的多关联规则的思想,考虑到频繁闭项集的特性,结合了TFP算法不用预设min_sup的优势,进行了相关改进来寻找用于指导分类的最优关联闭规则;第二种方法结合CPAR中高效产生潜在规则的优势,对其算法进行了如下改进:采用了新的度量标准FGIG选择合取、引入了多重衰减因子寻找高质量的潜在规则、利用Laplace准确率有效评价规则等,最后结合同源规则的概念改善分类策略。对两种方法都进行了中文文本的分类实验,通过多组对比实验,由实验结果的分析表明两种方法在文本分类准确率、方法的有效性等方面有较好的表现。总的来说,设计的方法对中文文本的分类方面具有很好的实用价值和指导意义。

全文目录


摘要  3-4
Abstract  4-7
1 绪论  7-11
  1.1 课题研究背景及意义  7-8
  1.2 国内外研究现状  8-9
  1.3 文本挖掘概述  9-10
    1.3.1 文本挖掘的定义  9
    1.3.2 文本挖掘的过程  9-10
  1.4 本文主要工作  10-11
2 中文文本关联分类概述  11-28
  2.1 中文文本分类的简介  11-12
    2.1.1 中文文本分类  11-12
    2.1.2 中文文本分类的难点  12
  2.2 中文文本常见分类方法  12-15
  2.3 基于关联的文本分类方法  15-28
    2.3.1 基于关联规则的分析  15-20
    2.3.2 关联文本分类的分析  20-28
3 文本分类算法的性能比较研究  28-38
  3.1 问题的引入  28
  3.2 中文文本数据集的选定与使用  28-30
  3.3 中文文本的表示  30-32
  3.4 文本分类器的性能评价标准  32-34
  3.5 中文文本特征表示与分类器性能对比  34-38
    3.5.1 实验的设计  34-35
    3.5.2 实验结果与分析  35-38
4 基于最优频繁闭项集的中文文本分类的研究  38-50
  4.1 方法的引入  38
  4.2 基本说明  38-39
    4.2.1 频繁闭项集的再探  38-39
    4.2.2 最优频繁闭项集的提出  39
  4.3 最优K-频繁闭项集的挖掘  39-44
    4.3.1 理论准备  39-42
    4.3.2 有效的挖掘策略  42-44
  4.4 基于CMAR改进的中文文本分类  44-46
    4.4.1 改进的主要思路  44
    4.4.2 最优类关联闭规则的挖掘  44-46
    4.4.3 基于最优类关联闭规则的中文文本分类  46
  4.5 实验与结果分析  46-50
    4.5.1 实验的准备  46
    4.5.2 实验的结果分析  46-50
5 基于潜在关联规则的中文文本分类的研究  50-65
  5.1 方法的引入  50
  5.2 基于规则的分类  50-52
  5.3 基于潜在关联规则的中文文本分类  52-60
    5.3.1 问题引人  52-53
    5.3.2 基于CPAR的改进算法  53-60
  5.4 实验与结果分析  60-65
    5.4.1 实验的准备  60-61
    5.4.2 实验的结果分析  61-65
6 总结与展望  65-66
  6.1 本文总结  65
  6.2 未来展望  65-66
致谢  66-67
参考文献  67-69

相似论文

  1. 基于数据挖掘的税务稽查选案研究,F812.42
  2. 企业诚信评价体系构建研究,F407.7
  3. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  4. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  5. 基于关联规则的结构化浏览技术及其应用,TP391.41
  6. 数据挖掘技术在独立学院教学评估中的应用研究,TP311.13
  7. 我国财务报告质量评价指标体系的构建与应用研究,F231.5
  8. 通信行为指纹研究,TP311.13
  9. 动态关联规则的研究,TP311.13
  10. 高速网络环境下的入侵检测系统的研究,TP393.08
  11. 基于日志分析的超级计算机错误预测方法研究,TP338
  12. 上海绿色住宅建筑设计策略研究,TU201.5
  13. 数据挖掘在学生评价系统中的应用,TP311.13
  14. 面向隐私保护的关联规则挖掘研究,TP311.13
  15. 用户交易行为的分析与展示—在现代易货业中的应用,TP311.13
  16. 频率越限标准及其控制策略的研究,TM76
  17. 生活类运动装品牌设计评价体系的研究,J524
  18. 基于关联规则和图排序的句子情感倾向性研究,TP391.1
  19. 基于数据挖掘的入侵检测技术的研究,TP393.08
  20. 关联规则算法及其在智能药房系统中的应用研究,TP311.13
  21. 轮椅使用者的功能服装研发及评价,TS941.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com