学位论文 > 优秀研究生学位论文题录展示
WEB文本挖掘系统
作 者: 管敏杰
导 师: 凌云
学 校: 浙江工商大学
专 业: 管理科学与工程
关键词: WEB文本挖掘 网页采集 网页净化 中文分词 WEB聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 298次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已经发展成为拥有3亿页面的分布式信息空间,而在这些异质的3亿WEB页面的资源中,蕴含着大量的人们迫切需要的知识。本文针对网页采集、网页净化、获取文档特征量、WEB文本聚类这几部分内容,进行了深入的研究,完成了以下工作:(1)介绍了网页采集的基本原理,研究并且比较了目前常用的几种网络信息采集算法。(2)为了有效对网络信息进行处理,必须对采集进来的网页进行净化,本文介绍了网页净化基本原理,研究分析了各种网页净化方法。(3)提出了一种新的网页净化算法——基于dom树的网页净化算法。该算法通过比较同一网站网页的dom树来净化网页。(4)研究比较了国内当前比较流行的中文分词算法,比如基于字典词库匹配的分词方法、基于词的频度统计的分词方法、基于知识理解的分词方法。(5)介绍了如何通过向量空间模型建立WEB文档的特征向量。(6)研究了两种常用的WEB聚类算法——k平均算法和som算法。(7)提出了一种新的WEB聚类算法,投影WEB聚类算法。
|
全文目录
摘要 2-3 ABSTRACT 3-6 第一章 引言 6-9 1.1 研究背景和意义 6-7 1.2 本文的研究内容 7 1.3 本文的组织结构 7-9 第二章 WEB挖掘的定义 9-13 2.1 WEB挖掘的定义 9-10 2.2 WEB挖掘系统和搜索引擎的异同 10-11 2.3 国外的研究现状 11-13 第三章 网页采集 13-19 3.1 WEB采集的系统实现 13-16 3.2 PageRank方法 16 3.3 HITS算法 16-19 第四章 网页净化 19-34 4.1 基于标签树的净化方法 19-20 4.2 基于ST树的净化方法 20-21 4.3 基于VIPS的净化算法 21-25 4.4 基于dom树的网页净化方法 25-34 第五章 向量空间模型的建立 34-37 5.1 向量空间模型 34-35 5.2 向量维数压缩 35-37 第六章 中文分词和关键词的获取 37-42 6.1 基于字典、词库匹配的分词方法 37-38 6.2 基于词的频度统计的分词方法 38 6.3 基于知识理解的分词方法 38-39 6.4 专有名词的获取 39-40 6.5 中文分词面临的问题 40-42 第七章 WEB文本聚类 42-46 7.1 K平均聚类算法(K-mean) 42-43 7.2 SOM聚类算法 43-44 7.3 一种新的聚类算法,投影聚类算法。 44-46 第八章 WEB挖掘系统的系统结构 46-54 8.1 数据采集模块 47 8.2 数据预处理模块 47-50 8.3 网页净化模块 50-51 8.4 数据库存储模块 51-52 8.5 特征量抽取和缩减模块 52 8.6 WEB聚类模块 52-54 第九章 总结和展望 54-55 参考文献 55-61 附录2 61-92 致谢 92-93
|
相似论文
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 主观题自动评分技术研究,TP391.1
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 中文XML压缩技术研究,TP311.11
- 企业邮件监管系统的设计与实现,TP393.098
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
- 基于过滤技术的投诉信息智能分析与实现,TP391.1
- 基于词典和概率统计的中文分词算法研究,TP391.1
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 中文网页热门主题获取系统的研究与实现,TP393.092
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 中文文本分类方法研究,TP391.1
- 一种新的搜索引擎分词词典的研究,TP391.1
- 统计全切分中文分词系统的研究与实现,TP391.1
- 面向web文本挖掘的中文文本自动摘要关键技术研究,TP391.1
- 校园网数字资源搜索引擎的技术研究与实现,TP391.3
- 基于拼音标注的中文分词算法研究,TP391.1
- 一个改进的中文分词算法及其在Lucene中的应用,TP391.1
- 基于SVM的中文垃圾邮件过滤,TP393.098
- 一种舆情信息预处理平台的研究与实现,TP393.09
- 支持JavaScript解析的网页采集系统设计与实现,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|