学位论文 > 优秀研究生学位论文题录展示

基于URL特征的网页分类研究

作 者: 李玄
导 师: 张卫丰
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: URL 网页分类 特征选择 n-gram
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 57次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网提供了大量的广泛分布和高动态资源信息,网页信息分散且不方便管理。网页分类能有效解决这些问题。在网页分类过程中,选取特征是其中重要一环,传统的特征从网页正文、锚文本、标题等网页文本中选取,这样的选择方式耗时且代价很高。同时,特征冗余,特征维数过高也是网页分类中常见的问题。如何快速鉴别网页类别同时提高分类精度以及特征降维成为了急需解决的问题。论文系统地分析了网页分类的产生背景、发展现状及研究意义,对网页分类的关键技术进行深入的学习和研究,并在已有研究成果的基础上,主要完成了这些方面的创新:URL是网页唯一的标识,直接根据URL特征进行网页分类可以省去处理网页正文的时耗。论文分析了URL的结构,提出了n-gram方法处理URL得到特征,n-gram法通过分割URL得到一系列字符串,充分利用URL上所包含的信息,选用weka工具做分类实验。通过选择不同的n值对比,得出从提取到分类所需的时间比传统的正文要快很多,并能达到较高的精度。实验通过URL的n-gram特征提取法和传统的URL特征提取法比较,得出n-gram效果比较好。并且在不要求时间的前提下,n-gram和正文文本特征相结合效果比单独使用n-gram和网页正文锚文本标题特征有所改进。

全文目录


摘要  4-5
Abstract  5-8
第一章 绪论  8-13
  1.1 研究背景和意义  8-10
  1.2 国内外研究现状  10-12
  1.3 本文主要工作内容  12
  1.4 论文内容结构  12-13
第二章 网页一般分类方法  13-26
  2.1 传统网页分类的一般方法  13-15
    2.1.1 技术背景  13
    2.1.2 传统网页分类的一般步骤  13-15
  2.2 常用的网页特征  15-20
    2.2.1 页面特征  16-17
    2.2.2 邻居特征  17-20
  2 3 网页分类算法  20-25
    2.3.1 SVM 算法  21-24
    2.3.2 改进的LIBSVM 分类算法  24-25
  2.4 本章小结  25-26
第三章 于URL 的网页分类实现  26-45
  3.1 引言  26-28
    3.1.1 传统特征的不足  26
    3.1.2 URL 的组成结构  26-28
  3.2 基于n-gram 的URL 特征提取方法  28-31
    3.2.1 常用的URL 特征提取方法及不足  28-29
    3.2.2 基于n-gram 的url 特征提取方法  29-30
    3.2.3 n-gram 特征与网页正文特征组合方法的实现  30-31
  3.3 实验及结果分析  31-44
    3.3.1 实验数据集构建  31-32
    3.3.2 实验分类工具以及评价标准  32-33
    3.3.3 实验步骤结果及分析  33-44
  3.4 本章小结  44-45
第四章 总结与展望  45-47
  4.1 本文完成的工作  45
  4.2 未来的研究方向  45-47
致谢  47-48
缩略词  48-49
图表清单  49-50
参考文献  50-54
附  54-56

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  6. 基于AdaBoost算法的人脸识别研究,TP391.41
  7. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  8. 近似字符串匹配研究及其在URL检测中的应用,TP393.08
  9. 面向主题型的网页分类技术的研究与实现,TP393.092
  10. 基于群体智能的医学图像特征优化算法研究,TP391.41
  11. 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
  12. 流形学习的方差最小化准则,TP181
  13. 掌纹主线特征选择方法及成像系统研究,TP391.41
  14. 中国民族音乐特征提取与分类技术的研究,J607
  15. 随机森林特征选择,TP311.13
  16. 发动机机械故障诊断系统特征提取算法研究,TK407
  17. 基于最大熵模型的中文网页分类器设计和实现,TP393.092
  18. 基于特征选择的轻量级入侵检测系统,TP393.08
  19. 中文文本分类方法研究,TP391.1
  20. 相似字符串匹配过滤算法研究,TP391.1
  21. 面向信息服务的Web文本分类技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com