学位论文 > 优秀研究生学位论文题录展示

不同类型数据间的聚类算法

作 者: 刘四维
导 师: 钱松荣;凌力;倪卫明
学 校: 复旦大学
专 业: 通信与信息系统
关键词: 聚类 网页去杂 网页块模板 网页去重 Bloom Filter K-means 关联性分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 46次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息时代的发展,人们所能获取的数据正成指数形式的爆炸式增长。这些数据往往都具有不同的数据类型,如何在这些不同类型的数据之间建立联系并聚类,便是本文研究的课题。我们提出通过两个步骤来完成不同类型数据间的聚类:第一个步骤是对数据的预处理。我们重点介绍了对网页数据的预处理,并提出了基于块模板的网页去杂算法,和基于Bloom Filter网页去重算法。在网页去杂算法中,我们以较小的颗粒度来提取模板,使得网页去杂算法的精确度更高;同时我们利用Bloom Filter结构大大降低了网页去重算法的时间复杂度和空间复杂度。第二个步骤是对数据的聚类。我们提出,对不同类型的数据采用不同的聚类算法(使用K-means算法对网页数据聚类,使用关联性分析对表格数据聚类),以便充分利用不同类型数据的特点,最后整合这些聚类的结果,从中找出不同类型数据之间的联系,进而完成整个聚类过程。在我们的实验中,我们尝试利用以上算法为信用卡用户提供广告信息,实验结果表明我们的算法可以很好的完成网页数据的预处理工作,并建立起表格数据和网页数据之间的联系,为用户提供更好的个性化广告服务。

全文目录


摘要  6-7
Abstract  7-8
第1章 引言  8-12
  1.1 数据多样性  8-9
  1.2 数据预处理  9
  1.3 聚类  9-10
  1.4 应用场景  10
  1.5 作者的工作和论文的结构  10-12
第2章 网页去杂  12-27
  2.1 相关工作  12-13
  2.2 模板的定义  13-17
  2.3 寻找模板  17-24
    2.3.1 处理HTML标记  17-18
    2.3.2 寻找模板块  18-19
    2.3.3 寻找块模板  19-24
  2.4 删除模板  24-27
    2.4.1 删除HTML标记  24
    2.4.2 删除模板  24-27
第3章 网页去重  27-37
  3.1 相关工作  28-29
  3.2 提取特征  29-30
  3.3 对网页重复的定义  30-31
  3.4 寻找重复网页  31-36
    3.4.1 Bloom Filter  32-35
    3.4.2 寻找重复网页  35-36
  3.5 分词  36-37
第4章 K-means算法  37-43
  4.1 K-means  37-38
  4.2 距离的计算  38-41
  4.3 质心的选择  41
    4.3.1 初始质心  41
  4.4 空间,时间复杂度分析  41-43
第5章 关联性分析  43-55
  5.1 问题抽象  43-44
  5.2 关联性规则  44-46
  5.3 寻找高频消费集  46-51
    5.3.1 先验原理(Apriori principle)  46-50
    5.3.2 查询消费集  50-51
  5.4 寻找关联性规则  51-53
  5.5 聚类整合  53-55
    5.5.1 类的关键词  53-54
    5.5.2 聚类整合  54-55
第6章 实验结果  55-58
  6.1 网页去杂与网页去重实验  55-56
  6.2 聚类实验  56-58
第7章 总结与展望  58-60
  7.1 总结  58
  7.2 展望  58-60
参考文献  60-62
攻读硕士期间发表的论文和参与的科研项目  62-63
致谢  63-64

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  20. 基于变异粒子群的聚类算法研究,TP18
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com