学位论文 > 优秀研究生学位论文题录展示

WEB文本挖掘系统

作　者: 管敏杰
导　师: 凌云
学　校: 浙江工商大学
专　业: 管理科学与工程
关键词: WEB文本挖掘网页采集网页净化中文分词 WEB聚类
分类号: TP311.13
类　型: 硕士论文
年　份: 2007年
下　载: 298次
引　用: 0次
阅　读: 论文下载

内容摘要

互联网的迅速发展导致网上信息飞速增长，形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前，WEB已经发展成为拥有3亿页面的分布式信息空间，而在这些异质的3亿WEB页面的资源中，蕴含着大量的人们迫切需要的知识。本文针对网页采集、网页净化、获取文档特征量、WEB文本聚类这几部分内容，进行了深入的研究，完成了以下工作：(1)介绍了网页采集的基本原理，研究并且比较了目前常用的几种网络信息采集算法。(2)为了有效对网络信息进行处理，必须对采集进来的网页进行净化，本文介绍了网页净化基本原理，研究分析了各种网页净化方法。(3)提出了一种新的网页净化算法——基于dom树的网页净化算法。该算法通过比较同一网站网页的dom树来净化网页。(4)研究比较了国内当前比较流行的中文分词算法，比如基于字典词库匹配的分词方法、基于词的频度统计的分词方法、基于知识理解的分词方法。(5)介绍了如何通过向量空间模型建立WEB文档的特征向量。(6)研究了两种常用的WEB聚类算法——k平均算法和som算法。(7)提出了一种新的WEB聚类算法，投影WEB聚类算法。

全文目录

摘要  2-3
ABSTRACT  3-6
第一章引言  6-9
  1.1 研究背景和意义  6-7
  1.2 本文的研究内容  7
  1.3 本文的组织结构  7-9
第二章 WEB挖掘的定义  9-13
  2.1 WEB挖掘的定义  9-10
  2.2 WEB挖掘系统和搜索引擎的异同  10-11
  2.3 国外的研究现状  11-13
第三章网页采集  13-19
  3.1 WEB采集的系统实现  13-16
  3.2 PageRank方法  16
  3.3 HITS算法  16-19
第四章网页净化  19-34
  4.1 基于标签树的净化方法  19-20
  4.2 基于ST树的净化方法  20-21
  4.3 基于VIPS的净化算法  21-25
  4.4 基于dom树的网页净化方法  25-34
第五章向量空间模型的建立  34-37
  5.1 向量空间模型  34-35
  5.2 向量维数压缩  35-37
第六章中文分词和关键词的获取  37-42
  6.1 基于字典、词库匹配的分词方法  37-38
  6.2 基于词的频度统计的分词方法  38
  6.3 基于知识理解的分词方法  38-39
  6.4 专有名词的获取  39-40
  6.5 中文分词面临的问题  40-42
第七章 WEB文本聚类  42-46
  7.1 K平均聚类算法(K-mean)  42-43
  7.2 SOM聚类算法  43-44
  7.3 一种新的聚类算法，投影聚类算法。  44-46
第八章 WEB挖掘系统的系统结构  46-54
  8.1 数据采集模块  47
  8.2 数据预处理模块  47-50
  8.3 网页净化模块  50-51
  8.4 数据库存储模块  51-52
  8.5 特征量抽取和缩减模块  52
  8.6 WEB聚类模块  52-54
第九章总结和展望  54-55
参考文献  55-61
附录2  61-92
致谢  92-93

WEB文本挖掘系统

内容摘要

全文目录

相似论文