学位论文 > 优秀研究生学位论文题录展示
基于边界距离的文本聚类方法研究
作 者: 王智超
导 师: 蔡东风;张桂平
学 校: 沈阳航空工业学院
专 业: 计算机应用技术
关键词: 文本聚类 相似度 特征抽取 知网
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 26次
引 用: 0次
阅 读: 论文下载
内容摘要
文本聚类是自然语言处理研究中一项重要研究课题,文本聚类技术广泛地应用于信息检索、Web挖掘和数字图书馆等领域。论文介绍了目前国内外文本聚类技术的研究现状,阐述了几种具有代表性的文本聚类方法,分析了它们的理论基础和算法特点。层次聚类算法是一类重要的聚类算法,簇间距离计算是层次聚类算法的关键,论文研究了层次聚类算法在簇间距离计算上的特点,发现现有的层次聚类算法在计算簇间距离时没有考虑类的形状和大小等信息,提出了一种新的基于边界距离的层次聚类算法,通过选择两个簇间K个边缘样本点的距离作为簇间距离,有效地利用簇的边界信息,提高簇间距离计算的准确性。不同文本集合上的实验表明,基于边界距离的聚类算法明显提高了文本聚类的性能。目前的特征选择算法多数是以词作为聚类特征,从本质上看只是一种词形匹配技术,忽略了词语的语言学特征和相互关系。论文将语义分析引入到文本聚类的任务中,提出一种基于知网的特征抽取方法。该方法从全文的角度解决词语的一词多义的现象,将词义排歧转化为对知网相关概念场中的词在全文中频率的计算,而后根据义原的描述能力将文本中的词映射为知网中的概念,在语义相关的文本之间建立联系,降低了特征空间的维数。词的频度和语义特征相结合后,提高了文本聚类的性能。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 前言 11-17 1.1 聚类分析概述 11-13 1.2 文本聚类 13-15 1.2.1 文本聚类的定义 13 1.2.2 文本聚类的主要应用 13-14 1.2.3 文本聚类的难点 14-15 1.3 本文的研究内容 15-16 1.4 全文的组织结构 16-17 第2章 文本聚类过程 17-30 2.1 文本预处理 17-18 2.2 特征选取 18 2.3 文本表示 18-20 2.3.1 布尔模型 19-20 2.3.2 概率模型 20 2.4 相似度计算 20-23 2.4.1 相似性测度 20-21 2.4.2 常用的距离函数 21-22 2.4.3 相似系数函数 22-23 2.5 聚类算法概述 23-27 2.5.1 基于层次的方法(hierarchical method) 23-24 2.5.2 基于划分的方法(partition-based clustering) 24-26 2.5.3 基于密度的方法(density-based method) 26 2.5.4 基于网格的方法(grid-based method) 26-27 2.5.5 基于模型的方法(model-based method) 27 2.5.6 后缀树算法(Suffix Tree Clustering) 27 2.5.7 其他的聚类算法 27 2.6 聚类质量的评测 27-29 2.6.1 F-Measure 28 2.6.2 纯度 28 2.6.3 熵 28-29 2.6.4 整体相似度 29 2.7 小结 29-30 第3章 基于边界距离的多向量文本聚类方法 30-45 3.1 多向量文本表示 30-32 3.1.1 传统向量空间模型 30-31 3.1.2 多向量文本表示 31-32 3.2 相似度定义 32-34 3.3 基于边界距离的层次聚类算法 34-35 3.4 实验语料 35-37 3.5 实验结果及分析 37-44 3.5.1 K 值的选取 37-39 3.5.2 层次聚类算法对比实验 39-40 3.5.3 特征选取与K 值的关系 40-41 3.5.4 层次聚类算法与渐增式K-Means 算法的对比 41-43 3.5.5 不同文本表示方法对比试验 43-44 3.6 小结 44-45 第4章 基于知网的特征抽取方法 45-55 4.1 语义资源--知网 46-47 4.2 基于知网相关概念场的词义消歧 47-50 4.3 基于描述能力的义原抽取 50-51 4.4 实验语料 51 4.5 实验结果与分析 51-53 4.6 小结 53-55 结论 55-56 参考文献 56-59 致谢 59-60 攻读硕士期间发表(含录用)的学术论文 60
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 演化聚类算法及其应用研究,TP311.13
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 智能答疑系统中句子相似度计算的研究与应用,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 心电特征提取及分类方法研究,TN911.7
- 基于CBR的离散模拟模型可复用性研究,TP301.6
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 社会化网络中的推荐算法及其应用,TP391.3
- 网络环境下人才知识结构智能交互生成方法研究,TP391.6
- Web新闻热点发现系统的设计与实现,TP393.09
- 基于本体的智能电网知识检索系统,TM76
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|