学位论文 > 优秀研究生学位论文题录展示
基于后缀树的中文文本聚类算法研究
作 者: 芦立华
导 师: 高茂庭
学 校: 上海海事大学
专 业: 计算机应用技术
关键词: 文本挖掘 文本聚类 中文文本 k-平均 后缀树聚类(STC)
分类号: TP391.1
类 型: 硕士论文
年 份: 2005年
下 载: 504次
引 用: 4次
阅 读: 论文下载
内容摘要
文本挖掘是指在大量文本集合上发现隐含的、有趣的、有用的模式和知识。文本挖掘技术的出现,使得计算机处理大规模文本资源成为可能,对文本的处理,在信息检索等领域有着广阔的应用前景。 本文研究基于后缀树的中文文本聚类。文本聚类是文本挖掘重要手段和研究分支。后缀树作为一种数据结构,最早是为支持有效的字符串匹配和查询而提出的,例如:寻找最长的重复子串,相似串的匹配,串比较等问题。后缀树聚类(STC)方法的一个突出的特点是将文本看作短语串而非词的集合,这样可以更充分地使用词语之间的近似信息,达到更佳的聚类结果。STC已经在英文文本聚类中有了一些成功的应用,本文针对中文文本的特点,尝试将这种方法应用到中文文本聚类上。 本文对数据挖掘尤其是中文文本聚类及相关理论与技术进行了研究,主要包括以下内容: (1) 对文本聚类算法进行了研究,特别是k-平均算法及其在中文文本中的应用。 (2) 针对中文文本组成上的特点,研究了中文文本聚类的模型。 (3) 研究并验证了后缀树技术在中文文本聚类这一特定领域应用的可行性。 (4) 设计并实现了一个小型的中文文本聚类系统,可以进行k-平均和STC聚类。 (5) 通过几组中文文本数掘集对k-平均和STC两种聚类算法进行了实验和比较,得出了一些有用的结果,并从理论上作了进一步的说明和论证。同时,对试验中出现的问题进行了探讨,并提出了进一步研究的方向。
|
全文目录
引言 8-9 第1章 绪论 9-20 1.1 数据挖掘技术介绍 9-11 1.1.1 数据挖掘的涵义 9-10 1.1.2 数据挖掘的过程 10-11 1.1.3 数据挖掘的主要方法 11 1.2 文本挖掘 11-14 1.2.1 文本挖掘的涵义 12 1.2.2 文本挖掘的过程 12 1.2.3 文本挖掘的应用背景 12-13 1.2.4 文本挖掘的产品及应用 13-14 1.3 本文的研究方向和意义 14-19 1.3.1 聚类研究的现状 14-17 1.3.2 本文研究的意义 17-18 1.3.3 本文的研究工作 18-19 1.4 小结 19-20 第2章 文本聚类技术研究 20-27 2.1 文本聚类的过程 20-22 2.1.1 文本表示 20 2.1.2 特征降维 20-21 2.1.3 文本聚类算法的选取 21 2.1.4 评价聚类结果的质量 21-22 2.2 文本聚类的主要算法 22-26 2.2.1 层次凝聚法 22-23 2.2.2 平面划分法 23-24 2.2.3 K最近邻参数聚类算法 24 2.2.4 自组织映射神经网络SOM 24-25 2.2.5 基于概念的文本聚类 25 2.2.6 学习矢量量化的聚类方法 25-26 2.3 小结 26-27 第3章 中文文本聚类若干关键技术探讨 27-34 3.1 分词技术 28 3.2 文本表示 28-30 3.3 特征降维 30-31 3.4 权重评价 31-32 3.5 相似度计算 32-33 3.6 小结 33-34 第4章 中文文本聚类系统的设计与实现 34-55 4.1 K-平均聚类算法 35-41 4.1.1 算法介绍 35-37 4.1.2 系统结构 37-38 4.1.3 程序实现 38-41 4.2 基于 STC的中文文本算法 41-51 4.2.1 算法介绍 41-47 4.2.2 系统结构 47-49 4.2.3 程序实现 49-51 4.3 试验数据的对比和评价 51-54 4.4 小结 54-55 第5章 总结及展望 55-57 5.1 本文总结 55 5.2 进一步研究工作展望 55-57 致谢 57-58 参考文献 58-62 附录 A 62-63 附录 B 63-64
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 基于数学形态学分析的激光散斑特性研究,O29
- 极端气象灾害下考虑不确定断线故障的电力系统随机优化调度,TM73
- 中国劳动收入份额变化原因研究,F224
- 超声生物显微镜测量睫状沟水平间距的临床评价,R770.4
- 演化聚类算法及其应用研究,TP311.13
- OCT在原发性青光眼早期诊断中的临床应用研究,R775
- 国产异氟醚全凭吸入麻醉影响成年大鼠学习记忆的相关研究,R965
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- SFBC MIMO-OFDM系统峰均比降低算法的研究,TN919.3
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 军队现役干部考核信息系统的设计与实现,TP311.52
- 基于切换机制的BTT导弹控制,TJ765
- 工业污染影响因素分解分析,X502
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- 联合聚类算法研究及应用,TP311.13
- 三相四线制UPS前置PWM整流器研究,TM461
- 无线传感器网络中时间同步算法的研究,TN929.5
- 基于前纵梁结构分析的微型车耐撞性研究,U467.14
- Buck型交流斩波调压器研究,TM46
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|