学位论文 > 优秀研究生学位论文题录展示
基于k-means的自适应聚类算法研究
作 者: 刘磊
导 师: 钟义信
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 自适应聚类 主题发现 判别函数 特征选择 文本挖掘 命名实体
分类号: TP301.6
类 型: 硕士论文
年 份: 2009年
下 载: 478次
引 用: 6次
阅 读: 论文下载
内容摘要
随着信息技术的迅速发展,网络信息爆炸对有用信息的高效获取和管理提出了挑战。传统的信息检索,需要用户有明确的需求。但是这在很多情况下很难做到,因此如何在没有明确查询需求的情况下,从网络文本中获取有用信息便成为一项非常有意义的研究课题。文本挖掘是一种可以有效的从非结构化文本信息中提取出有用信息的过程。聚类作为文本挖掘的重要技术,它可以发现有用的数据分布和隐含的数据模式,用它可以不依赖背景知识直接发现有用的结构和簇。基于这样的背景和前提,本文首先回顾了聚类算法的国内外研究现状,重点介绍了聚类过程中的相关技术、以数学形式表示和讨论了聚类过程中相似度度量、测度距离等基本概念,为后续章节的研究提供了理论和实验基础。同时分析了五种常用的聚类方法,并对各种算法的性能做了分析与比较。在分析现有主要聚类算法优缺点的基础上,提出了一种自适应聚类算法,该算法通过寻找自定义判别函数的最优解,能够自动确定聚类结果的类别数目,避免了在聚类数目选取上存在的主观性和盲目性,在一定程度上弥补了原有算法的不足,并通过实验验证了该算法的有效性。在此基础上,本文阐述了一种基于自适应聚类算法的新主题发现系统。该系统能够自动发现文本数据流中的潜在主题,并按照每个类别文本的主题内容给出类别表征词。实验测试结果表明,采用自适应聚类算法的新主题发现系统能够有效的发现潜在文本主题,再一次证实了算法的有效性。最后,对论文的工作进行了回顾和总结,并就有待进一步研究和探索的问题进行了讨论和展望。
|
全文目录
摘要 4-5 ABSTRACT 5-10 第一章 绪论 10-16 1.1 课题研究背景和意义 10-13 1.1.1 聚类算法的定义 10 1.1.2 自适应聚类算法的产生 10-11 1.1.3 自适应聚类算法的研究意义 11-13 1.2 国内外相关研究 13-14 1.3 论文目标和创新点 14 1.4 论文内容和章节安排 14-16 第二章 文本聚类相关基础算法 16-27 2.1 文本的形式化表示 16-18 2.1.1 文本预处理 16-17 2.1.2 向量空间模型 17-18 2.2 文本特征选择和抽取 18-23 2.2.1 文本特征选择 19-21 2.2.2 文本特征抽取 21-23 2.3 文本相似度计算方法 23-25 2.3.1 基于向量空间模型的相似度计算 23 2.3.2 基于知网的语义相似度计算 23-25 2.4 命名实体识别 25-26 2.5 本章小结 26-27 第三章 文本聚类算法及算法介绍 27-36 3.1 聚类算法的基本概念 27-29 3.1.1 聚类距离和相似性度量 27-28 3.1.2 类间的测度距离 28-29 3.2 主要的聚类算法 29-33 3.2.1 基于划分的聚类算法 30 3.2.2 基于层次的聚类算法 30-31 3.2.3 基于密度的聚类算法 31 3.2.4 基于网格的聚类算法 31-32 3.2.5 基于模型的聚类算法 32-33 3.3 聚类算法的比较 33-34 3.4 聚类算法的评价 34-35 3.4.1 聚类的准确度 34 3.4.2 聚类的同构度和异构度 34-35 3.5 本章小结 35-36 第四章 自适应聚类算法的设计与实现 36-53 4.1 传统K-means算法 36-38 4.1.1 算法的基本思想及步骤 36-37 4.1.2 算法的性能分析 37-38 4.2 自适应聚类算法设计 38-39 4.2.1 算法的基本思想 38 4.2.2 算法流程 38-39 4.2.3 算法框图 39 4.3 自适应聚类算法实现 39-42 4.3.1 文本预处理 40-41 4.3.2 特征降维 41 4.3.3 聚类相似度度量及类间测度距离 41-42 4.3.4 文本聚类 42 4.4 算法中的关键问题 42-45 4.4.1 聚类性能对输入参数的弱依赖性 42-43 4.4.2 聚类子主题划分 43-45 4.4.3 聚类类别描述 45 4.5 算法分析及实验 45-51 4.5.1 实验评价指标 46 4.5.2 实验结果举例 46-47 4.5.3 算法性能分析 47-51 4.6 本章小结 51-53 第五章 基于自适应聚类的新主题发现系统设计与实现 53-62 5.1 新主题发现系统背景介绍 53-55 5.1.1 新主题发现的定义及发展 53-54 5.1.2 新主题发现的研究意义 54-55 5.2 系统整体结构 55 5.2.1 系统流程 55 5.2.2 系统结构图 55 5.3 系统性能测试 55-57 5.3.1 评测语料 56 5.3.2 评测指标 56 5.3.3 评测结果 56-57 5.4 系统性能分析 57-60 5.4.1 主题划分性能 57-59 5.4.2 最佳K值确定 59-60 5.4.3 主题描述 60 5.5 开发平台及相关工具介绍 60-61 5.6 本章小结 61-62 第六章 总结与展望 62-63 6.1 本文工作总结 62 6.2 下一步工作展望 62-63 致谢 63-64 参考文献 64-66 攻读硕士学位期间发表的论文 66-67 附录一:本文主要代码 67-85
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于特征选择的入侵检测研究,TP393.08
- 基于数据分布特征的文本分类研究,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 领域间适应性情感分类方法研究,TP391.1
- 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
- 基于聚类的英汉人名消歧研究,TP391.1
- 汉语嵌套命名实体识别方法研究,TP391.1
- 基于网络的教务办公管理系统设计与实现,TP311.52
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于规则的Web文本信息抽取技术的研究,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 联合聚类算法研究及应用,TP311.13
- 红外偏振成像的关键技术研究,TP391.41
- 基于模型的动态分层强化学习算法研究,TP181
- 基于最小包围盒及自适应聚类的三维R~*-树索引结构,TP311.12
- 关节式物体检测识别及应用,TP391.41
- 中文文本分类算法研究,TP391.1
- 从可比较语料中抽取中英命名实体等价对,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com
|