学位论文 > 优秀研究生学位论文题录展示
文本分类和聚类若干模型的研究
作 者: 何世柱
导 师: 王明文
学 校: 江西师范大学
专 业: 计算机科学与技术
关键词: 文本挖掘 大规模文本分类 深层分类 文本聚类 Markov网络
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网上文本数据的持续暴涨式增长,文本挖掘这种在大规模数据情况下能有效组织和管理文本信息的工具得到了广泛的研究和应用。本文分别针对文本挖掘中分类和聚类的几个问题提出了改进模型。对于有监督学习中的文本分类问题,传统分类方法在类别较少时能表现较好的效果,但遇到类别较多且类别间存在着复杂关系时其效果不尽人意。“深层分类”模型是一种解决大规模文本层次分类问题的有效框架,它由搜索和分类两阶段组成,其中搜索阶段用于选择与测试文档相关的若干个候选类别,分类阶段则是通过对这些候选类别训练更加精确的分类器进行最终分类。本文基于该框架提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时还利用相关类别的分类结果确定最终类别。对于无监督学习中的文本聚类问题,准确高效地度量文本间的相关性是其重要任务。传统方法直接计算文档间的统计相关性,而没有考虑相邻文档的影响。本文使用了Markov网络模型表示文本集中文档关系,该方法不仅考虑文档间的直接相关性还考虑了各自邻域对其描述的影响;并将该方法用于文档聚类中,通过构造Markov网络并加权结合各步转移矩阵,使得类内数据相关性描述更大,类间数据相关性描述更小,最后利用这种相关性描述差距明显的关系矩阵进行聚类。本文的工作主要包括以下两点:1 )系统地研究了大规模文本分类中的方法和应用,并针对深层分类模型提出了一种结合相关类别的大规模层次文本分类模型,实验结果表明:相关类别,特别是顶层类别和兄弟类别,对目标类别的判定有很好的辅助作用。2)使用Markov网络模型表示文本数据集,使用加权随机游走矩阵的方法描述数据集中对象间的相关性,并使用该方法进行文本聚类,实验结果表明:在文本聚类中,利用加权结合各步随机游走相关矩阵能很好的提高聚类效果。
|
全文目录
摘要 3-4 ABSTRACT 4-8 1 引言 8-13 1.1 研究背景及研究意义 8-10 1.2 本文工作 10-12 1.3 论文组织 12-13 2 文本挖掘概述 13-32 2.1 文本挖掘简介 13-14 2.2 文本挖掘过程与任务 14-17 2.2.1 文本挖掘过程 14-15 2.2.2 文本挖掘任务 15-17 2.3 文本结构化表示 17-21 2.3.1 文本预处理 18 2.3.2 文本特征 18-19 2.3.3 文本表示 19-21 2.4 文本分类综述 21-27 2.4.1 文本分类定义 21-22 2.4.2 常用文本分类算法 22-26 2.4.3 文本分类算法评价指标 26-27 2.5 文本聚类综述 27-31 2.5.1 文本聚类定义 27 2.5.2 常用文本聚类算法 27-30 2.5.3 文本聚类算法的评价 30-31 2.6 本章小结 31-32 3 大规模层次文本分类模型研究 32-46 3.1 大规模层次分类概述 32 3.2 相关研究 32-35 3.2.1 传统文本分类 32-33 3.2.2 层次文本分类 33-34 3.2.3 大规模层次文本分类 34-35 3.3 结合相关类别的大规模层次文本分类模型的研究 35-40 3.3.1 大规模层次分类模型 35-36 3.3.2 搜索阶段 36-37 3.3.3 训练集选择 37-39 3.3.4 分类阶段 39-40 3.4 数据集及评价方法介绍 40-42 3.4.1 数据集 40-41 3.4.2 评价方法 41-42 3.5 实验结果与分析 42-45 3.5.1 全局性能比较 42-43 3.5.2 搜索策略选择 43-44 3.5.3 分类阶段中相关类别信息的利用 44 3.5.4 分类阶段中顶层类别信息的利用 44-45 3.6 本章小结 45-46 4 基于Markov 网络的文本聚类模型研究 46-54 4.1 相关研究 46-47 4.2 基于Markov 网络的文本聚类模型 47-49 4.2.1 Markov 网络 47-48 4.2.2 基于Markov 网络的聚类模型框架 48 4.2.3 基于马尔科夫网络的文档相关矩阵计算 48-49 4.3 数据集 49 4.4 实验结果与分析 49-53 4.4.1 参数选择 50-51 4.4.2 总体结果与分析 51-53 4.4.3 算法分析 53 4.5 本章小结 53-54 5 总结与展望 54-56 5.1 总结 54 5.2 未来的工作 54-56 附录 基于Java 语言的文本挖掘组件简介 56-58 参考文献 58-63 简历 63-64 致谢 64
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 文本分类中特征降维技术的研究,TP391.1
- 面向金融领域BBS的话题发现和热度评价,TP393.094
- Web页面语义信息提取方法的研究,TP393.09
- 基于自组织映射的文本聚类研究,TP391.1
- 基于维基的深度多标签多类别文本分类系统,TP391.1
- 创新设计启发引擎的联想过程算法研究,TP391.1
- 基于并行机器学习的大规模专利分类,N18
- 基于文本挖掘的医学诊疗案例推理系统的研究与应用,TP18
- 基于相似度的文本聚类算法研究及应用,TP301.6
- 机器学习算法在文本分析中的研究,TP181
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|