学位论文 > 优秀研究生学位论文题录展示

网页自动分类和存储管理系统的设计与实现

作 者: 刘艳敏
导 师: 邓芳
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 网页自动分类 信息提取 分词 特征提取 增量存储 反馈查询
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 42次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,已经日益成为信息处理领域里一个十分重要的研究课题。传统上是依靠人工的方法对网页进行分类,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。随着网页信息容量的快速增长,不可能再依靠人工的方式来进行大量的网页分类。网页的自动分类已经成为信息检索领域的一个很重要的研究方向。通过自动分类可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,同时网页分类技术还可以应用到信息过滤技术中,如保存的URL分类库可以用于URL过滤系统,网页分类的模型用于内容过滤等。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久的保存将有着重要的意义。本文从网页自动分类的原理和过程出发,在系统要求分析的基础上,进行了系统的总体结构设计。详细研究分析了分类各个阶段的技术和方法,主要包括文本表示模型、中文分词算法和特征提取算法等,并分析、比较了几种应用普遍的特征提取算法。针对网页分类结果的存储查询需求,提出了增量存储反馈查询的策略,有效节省了存储空间,同时反馈查询弥补了网页收集范围的局限性。鉴于存储查询过程中的URL规范化需求,提出了一种基于嵌套FSM的URL解析方法,提高了解析的效率和容错性能。在对网页自动分类和存储技术研究的基础上,提出了网页自动分类和存储管理系统各模块的设计与实现方法,最后通过程序设计语言来实现,并进行测试和验证,重点测试了系统中的网页信息提取、特征提取算法、权重计算算法以及存储查询功能。测试结果表明,系统能够有比较高的分类准确率,达到设计的要求。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-13
  1.1.课题研究的背景和意义  9
  1.2.课题研究的发展现状  9-11
    1.2.1.文本自动分类的研究现状  9-10
    1.2.2.网页自动分类的研究现状  10-11
  1.3.本文的研究内容和组织结构  11-13
第二章 网页自动分类和存储管理系统的功能分析  13-19
  2.1.网页分类概述  13-14
  2.2.系统要求  14
  2.3.系统功能分析  14-18
  2.4.本章小结  18-19
第三章 网页收集和预处理模块的设计与实现  19-36
  3.1.网页收集器的设计与实现  19-22
    3.1.1.网页收集器设计  19-20
    3.1.2.网页收集器实现  20-22
  3.2.网页预处理模块的设计与实现  22-35
    3.2.1.文本表示模型选择  23-25
    3.2.2.网页信息提取  25-30
    3.2.3.网页文本分析  30-35
  3.3.本章小结  35-36
第四章 网页特征提取和分类模块的设计与实现  36-46
  4.1.特征提取的工作原理  36
  4.2.常用的特征提取算法  36-40
    4.2.1.文档频率(Document Frequency)  37
    4.2.2.特征频率(Term Frequency)  37
    4.2.3.特征熵(Term Entropy)  37-38
    4.2.4.信息增益(Information Gain)  38
    4.2.5.互信息(Mutual Information)  38-39
    4.2.6.χ~2统计法(Chi-square,CHI)  39-40
    4.2.7.特征提取算法的比较  40
  4.3.特征提取模块的设计与实现  40-44
    4.3.1.特征提取过程  42
    4.3.2.改进的特征权重计算  42-44
  4.4.网页分类模块的设计与实现  44-45
  4.5.本章小结  45-46
第五章 网页分类存储和查询模块的设计与实现  46-63
  5.1.增量存储反馈查询技术  46
  5.2.基于嵌套FSM的URL解析方法  46-57
    5.2.1.URL解析概述  47
    5.2.2.FSM有限状态自动机  47-49
    5.2.3.方法设计和实现  49-52
    5.2.4.方法流程分析  52-55
    5.2.5.与现存方法的比较  55-57
  5.3.存储模块的设计与实现  57-61
  5.4.查询模块的设计与实现  61-62
  5.5.本章小结  62-63
第六章 网页自动分类和存储管理系统的测试  63-67
  6.1.测试环境设置  63
  6.2.测试评价标准  63-64
  6.3.测试及结果分析  64-66
  6.4.本章小结  66-67
第七章 结论  67-69
参考文献  69-73
致谢  73-74
发表论文目录  74

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 空间交会接近视觉测量方法研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 多币种纸币处理技术的研究与实现,TP391.41
  11. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 移动机器人视觉检测和跟踪研究,TP242.62
  14. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  15. 基于随机森林的植物抗性基因识别方法研究,Q943
  16. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  17. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  18. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  19. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  20. 红外图像目标识别及跟踪技术研究,TP391.41
  21. 水下目标特征的压缩与融合技术研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com