学位论文 > 优秀研究生学位论文题录展示

基于非负稀疏表示的文本分类算法研究

作 者: 桑媛媛
导 师: 王秀坤
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 文本分类 非负稀疏表示 稀疏概率图 谱聚类 标签繁殖
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 116次
引 用: 1次
阅 读: 论文下载
 

内容摘要


因特网的普及带动了信息技术的飞速发展,每天我们都可以方便、快捷的获得大量信息。然而信息的爆炸式增长也为人们迅速高效的获取所需信息带来了麻烦。如何有效地对信息进行处理和组织分类,以满足信息检索时的响应时间和查询性能,已经成为适应当代信息迅猛发展的迫切要求。文本分类技术就是在这样的背景下产生的,并逐步在全文检索系统、信息推动、模式识别等领域获得了长远的应用与发展。近年来,非负稀疏表示问题在理论和实际应用方面得到了越来越多的关注。并被有效的应用到图像表示中。本文首先基于非负稀疏表示理论提出了稀疏概率图,其权重由非负稀疏表示算法计算的非负系数组成,利用了样本空间的局部和全局信息,自然地表示了各个有标签和未标签的样本之间的聚类关系,同时避免了传统图构建算法的邻居选择和参数设置过程。本文还在稀疏概率图的基础上提出了一种基于非负稀疏表示的谱聚类方法和半监督学习标签繁殖算法。在大样本空间中,文本的数量是相当庞大的,随意选择一些样本手工标记不能得到充足的标记信息以全面、准确的反映样本分布情况并有效地进行半监督学习。针对这个问题,本为给出了非负稀疏的谱聚类算法,它把所有样本分成几个聚簇,选择距离聚类中心较近的样本点人工标记,标记的样本信息更具有代表性。接着受LNP方法的启发,在半监督学习过程中,本文提出了非负稀疏的标签繁殖方法。该方法在概率图上通过对未标签样本的繁殖,不断迭代直至收敛得到所有样本的标签。在对人脸识别,UCI机器学习和TDT2数据集的大量实验对比分析基础上,进一步对复旦大学的文本语料库进行文本分类,实验结果显示:采用非负稀疏表示的谱聚类方法和标签传播算法比典型的聚类和半监督学习算法具有更高的分类准确率、召回率和F1值。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-12
  1.1 研究背景  8-9
  1.2 研究进展  9-10
  1.3 本文的工作和意义  10-11
  1.4 论文的组织结构  11-12
2 文本分类概述  12-19
  2.1 中文文本分类的一般过程  12
  2.2 中文分词技术  12-13
  2.3 特征处理和特征表示技术  13-16
    2.3.1 维数约简  14
    2.3.2 特征加权  14-15
    2.3.3 特征表示  15-16
  2.4 传统基分类器  16-19
    2.4.1 SVM(支持向量机)  16-17
    2.4.2 贝叶斯分类  17
    2.4.3 KNN(K-近邻算法)  17-18
    2.4.4 神经网络算法  18-19
3 非负稀疏图的构造  19-27
  3.1 基于图的分类算法  19-21
  3.2 稀疏表示理论  21-22
  3.3 稀疏概率图的构建  22-24
  3.4 图的构造对比分析  24-27
4 非负稀疏的谱聚类算法  27-42
  4.1 聚类和谱聚类  27-28
  4.2 非负稀疏的谱聚类算法  28-30
  4.3 实验结果与分析  30-33
    4.3.1 数据集设置  30-31
    4.3.2 比对算法  31
    4.3.3 实验结果及分析  31-32
    4.3.4 参数对实验结果的影响  32-33
  4.4 基于谱聚类的文本分类  33-42
    4.4.1 文本分类体系结构  33-34
    4.4.2 文本分类语料库  34-35
    4.4.3 评价方法  35-36
    4.4.4 文本预处理  36-38
    4.4.5 特征选择  38-39
    4.4.6 特征表示  39-40
    4.4.7 文本聚类  40-42
5 非负稀疏的标签繁殖算法  42-54
  5.1 半监督学习介绍  42
  5.2 LNP算法  42-43
  5.3 基于NSR的标签繁殖  43-46
  5.4 实验及结果分析  46-52
    5.4.1 比对算法  46-47
    5.4.2 实验结果及分析  47-50
    5.4.3 参数对LNP算法的影响  50
    5.4.4 稀疏性分析  50-52
  5.5 基于标签繁殖的文本分类  52-54
结论  54-56
参考文献  56-59
附录A 基于相关熵的非负稀疏表示算法  59-60
攻读硕士学位期间发表学术论文情况  60-61
致谢  61-63

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  6. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  7. 网络教育新闻文本分类系统的设计与实现,TP391.1
  8. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  9. 跨语言文本分类的研究,TP391.1
  10. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  11. 基于谱聚类的无监督图像分割,TP391.41
  12. 基于语义分析的文本挖掘研究,TP391.1
  13. 网络舆情分析关键技术研究与实现,TP393.09
  14. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  15. 基于关联技术的中文文本分类研究,TP391.1
  16. 软件缺陷自动分派研究,TP311.52
  17. 基于决策树分类算法的Web文本分类研究,TP391.1
  18. 结合本体HowNet的中文文本分类研究,TP391.1
  19. 基于集成学习的垃圾短信多级分类技术研究,TN929.53
  20. 烟草样品中微量金属元素含量测定及模式识别研究,TS47
  21. 基于NMF垃圾邮件过滤系统研究,TP393.098

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com