学位论文 > 优秀研究生学位论文题录展示

WEB文本挖掘系统

作 者: 管敏杰
导 师: 凌云
学 校: 浙江工商大学
专 业: 管理科学与工程
关键词: WEB文本挖掘 网页采集 网页净化 中文分词 WEB聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 298次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已经发展成为拥有3亿页面的分布式信息空间,而在这些异质的3亿WEB页面的资源中,蕴含着大量的人们迫切需要的知识。本文针对网页采集网页净化、获取文档特征量、WEB文本聚类这几部分内容,进行了深入的研究,完成了以下工作:(1)介绍了网页采集的基本原理,研究并且比较了目前常用的几种网络信息采集算法。(2)为了有效对网络信息进行处理,必须对采集进来的网页进行净化,本文介绍了网页净化基本原理,研究分析了各种网页净化方法。(3)提出了一种新的网页净化算法——基于dom树的网页净化算法。该算法通过比较同一网站网页的dom树来净化网页。(4)研究比较了国内当前比较流行的中文分词算法,比如基于字典词库匹配的分词方法、基于词的频度统计的分词方法、基于知识理解的分词方法。(5)介绍了如何通过向量空间模型建立WEB文档的特征向量。(6)研究了两种常用的WEB聚类算法——k平均算法和som算法。(7)提出了一种新的WEB聚类算法,投影WEB聚类算法。

全文目录


摘要  2-3
ABSTRACT  3-6
第一章 引言  6-9
  1.1 研究背景和意义  6-7
  1.2 本文的研究内容  7
  1.3 本文的组织结构  7-9
第二章 WEB挖掘的定义  9-13
  2.1 WEB挖掘的定义  9-10
  2.2 WEB挖掘系统和搜索引擎的异同  10-11
  2.3 国外的研究现状  11-13
第三章 网页采集  13-19
  3.1 WEB采集的系统实现  13-16
  3.2 PageRank方法  16
  3.3 HITS算法  16-19
第四章 网页净化  19-34
  4.1 基于标签树的净化方法  19-20
  4.2 基于ST树的净化方法  20-21
  4.3 基于VIPS的净化算法  21-25
  4.4 基于dom树的网页净化方法  25-34
第五章 向量空间模型的建立  34-37
  5.1 向量空间模型  34-35
  5.2 向量维数压缩  35-37
第六章 中文分词和关键词的获取  37-42
  6.1 基于字典、词库匹配的分词方法  37-38
  6.2 基于词的频度统计的分词方法  38
  6.3 基于知识理解的分词方法  38-39
  6.4 专有名词的获取  39-40
  6.5 中文分词面临的问题  40-42
第七章 WEB文本聚类  42-46
  7.1 K平均聚类算法(K-mean)  42-43
  7.2 SOM聚类算法  43-44
  7.3 一种新的聚类算法,投影聚类算法。  44-46
第八章 WEB挖掘系统的系统结构  46-54
  8.1 数据采集模块  47
  8.2 数据预处理模块  47-50
  8.3 网页净化模块  50-51
  8.4 数据库存储模块  51-52
  8.5 特征量抽取和缩减模块  52
  8.6 WEB聚类模块  52-54
第九章 总结和展望  54-55
参考文献  55-61
附录2  61-92
致谢  92-93

相似论文

  1. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  2. 主观题自动评分技术研究,TP391.1
  3. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  4. 中文XML压缩技术研究,TP311.11
  5. 企业邮件监管系统的设计与实现,TP393.098
  6. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  7. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  8. 基于词典和概率统计的中文分词算法研究,TP391.1
  9. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  10. 中文网页热门主题获取系统的研究与实现,TP393.092
  11. SOM算法的改进及其在中文文本聚类的应用,TP391.1
  12. 中文文本分类方法研究,TP391.1
  13. 一种新的搜索引擎分词词典的研究,TP391.1
  14. 统计全切分中文分词系统的研究与实现,TP391.1
  15. 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
  16. 校园网数字资源搜索引擎的技术研究与实现,TP391.3
  17. 基于拼音标注的中文分词算法研究,TP391.1
  18. 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
  19. 基于SVM的中文垃圾邮件过滤,TP393.098
  20. 一种舆情信息预处理平台的研究与实现,TP393.09
  21. 支持JavaScript解析的网页采集系统设计与实现,TP393.092

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com