学位论文 > 优秀研究生学位论文题录展示
基于RBF神经网络的网页分类技术研究
作 者: 史国强
导 师: 李村合
学 校: 中国石油大学
专 业: 计算机科学与技术
关键词: MIMLRBF神经网络 网页分类 不平衡样本集 奇异值分解 最速下降法
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 58次
引 用: 1次
阅 读: 论文下载
内容摘要
随着Internet的普及,网络已经成为人们获取信息的主要途径,为了帮助人们从海量网页中获取有用的信息,网页自动分类技术应运而生,其可以快速有效地分析和组织海量网页信息,它是利用机器学习的方法对网页实现自动类别标注。在众多网页分类算法中,RBF神经网络因其出色的分类能力,成为机器学习的研究热点。介绍了网页分类的流程,分析了RBF神经网络技术发展、原理和相关技术,讨论了RBF神经网络在网页分类中的重要作用。阐述了目前RBF神经网络常用训练算法,研究了在多实例多标签框架下发展而来的MIMLRBF神经网络模型。针对MIMLRBF在不平衡样本下分类效果差的问题,提出了改进的训练算法,考虑了样本的整体分布情况,使各类上产生的隐含层神经元趋于平衡,减少了不平衡样本对网络模型的影响。针对SVD方法在含有噪声数据的样本集上会导致网络整体误差变大的问题,提出了基于最速下降法优化的权重训练算法,使用SVD方法初始化权值矩阵,采用最速下降法优化权值矩阵,并利用新权值矩阵的误差平方和函数计算学习率矩阵,提高了MIMLRBF神经网络在含有噪声数据的样本集上的分类精度。最后,将改进后的训练算法应用到网页分类系统中,并对改进算法进行了实验对比和性能分析。实验数据表明,本文算法具有更高的分类效率和准确率。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 前言 8-14 1.1 课题背景与意义 8 1.2 国内外研究现状 8-12 1.3 论文研究内容 12 1.4 论文组织结构 12-14 第二章 网页分类技术综述 14-25 2.1 网页分类简介 14-21 2.1.1 网页信息抽取 15-16 2.1.2 分词技术简介 16-17 2.1.3 特征选取技术 17-18 2.1.4 网页向量表示 18-19 2.1.5 常用网页分类算法 19-21 2.2 RBF 神经网络 21-22 2.3 MIMLRBF 神经网络 22-24 2.4 本章小结 24-25 第三章 不平衡样本下MIMLRBF 神经网络改进算法 25-33 3.1 k-MEDOIDS 算法 25 3.2 Hausdorff 距离 25-26 3.3 MIMLRBF 训练算法 26-28 3.4 改进的MIMLRBF 训练算法 28-29 3.5 实验与讨论 29-32 3.5.1 实验设计 29-30 3.5.2 实验结果 30-32 3.6 本章小结 32-33 第四章 基于最速下降法的权重优化算法 33-42 4.1 SVD 方法 33-34 4.2 最速下降法 34-36 4.3 SVD 方法分析 36-37 4.4 基于SD 方法的权重优化算法 37-38 4.5 实验与讨论 38-40 4.5.1 实验设计 38-39 4.5.2 实验结果 39-40 4.6 本章小结 40-42 第五章 网页分类实验系统设计 42-53 5.1 实验环境设定 42 5.2 实验系统结构设计 42-48 5.2.1 预处理模块 43-46 5.2.2 训练模块 46-47 5.2.3 分类模块 47-48 5.3 运行结果及分析 48-52 5.3.1 系统运行 48-51 5.3.2 运行结果分析 51-52 5.4 本章小结 52-53 总结 53-55 主要工作 53 主要创新点 53-54 存在的问题及未来的方向 54-55 参考文献 55-59 致谢 59
|
相似论文
- 机载导弹的传递对准研究,V249.322
- 主观题自动评分技术研究,TP391.1
- 一种应用频响敏感度的MOS管尺寸自动优化方法,TN722.77
- 基于核回归与非局部方法的图像去噪研究,TP391.41
- 面向主题型的网页分类技术的研究与实现,TP393.092
- Web新闻热点发现系统的设计与实现,TP393.09
- 基于子空间分析的扩频通信窄带干扰抑制研究,TN914.42
- 基于奇异值分解的信号处理方法及其在机械故障诊断中的应用,TH165.3
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- 基于子空间分析的人脸识别算法研究,TP391.41
- 基于奇异值分解的数字水印算法研究,TP309.7
- 变换域数字水印算法的研究,TP309.7
- 地震资料随机干扰压制技术研究,P631.44
- 热带海洋对中高纬度大气环流异常的影响,P732
- 基于奇异值分解的特征基函数法及其在电磁散射中的应用,O441.4
- 求解绝对方程组的两种数值方法,O241.6
- 基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4
- 基于最大熵模型的中文网页分类器设计和实现,TP393.092
- 数字图像水印技术研究,TP309.7
- 基于直方图不变矩和奇异值分解的图像认证方法,TP391.41
- 基于协同过滤的电子商务个性化推荐算法研究,F713.36
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|