学位论文 > 优秀研究生学位论文题录展示
网页自动分类和存储管理系统的设计与实现
作 者: 刘艳敏
导 师: 邓芳
学 校: 北京邮电大学
专 业: 计算机科学与技术
关键词: 网页自动分类 信息提取 分词 特征提取 增量存储 反馈查询
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,已经日益成为信息处理领域里一个十分重要的研究课题。传统上是依靠人工的方法对网页进行分类,即专业人员在分析网页的内容后,将它分到一个或若干个比较合适的类别中。随着网页信息容量的快速增长,不可能再依靠人工的方式来进行大量的网页分类。网页的自动分类已经成为信息检索领域的一个很重要的研究方向。通过自动分类可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,同时网页分类技术还可以应用到信息过滤技术中,如保存的URL分类库可以用于URL过滤系统,网页分类的模型用于内容过滤等。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久的保存将有着重要的意义。本文从网页自动分类的原理和过程出发,在系统要求分析的基础上,进行了系统的总体结构设计。详细研究分析了分类各个阶段的技术和方法,主要包括文本表示模型、中文分词算法和特征提取算法等,并分析、比较了几种应用普遍的特征提取算法。针对网页分类结果的存储查询需求,提出了增量存储和反馈查询的策略,有效节省了存储空间,同时反馈查询弥补了网页收集范围的局限性。鉴于存储查询过程中的URL规范化需求,提出了一种基于嵌套FSM的URL解析方法,提高了解析的效率和容错性能。在对网页自动分类和存储技术研究的基础上,提出了网页自动分类和存储管理系统各模块的设计与实现方法,最后通过程序设计语言来实现,并进行测试和验证,重点测试了系统中的网页信息提取、特征提取算法、权重计算算法以及存储查询功能。测试结果表明,系统能够有比较高的分类准确率,达到设计的要求。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-13 1.1.课题研究的背景和意义 9 1.2.课题研究的发展现状 9-11 1.2.1.文本自动分类的研究现状 9-10 1.2.2.网页自动分类的研究现状 10-11 1.3.本文的研究内容和组织结构 11-13 第二章 网页自动分类和存储管理系统的功能分析 13-19 2.1.网页分类概述 13-14 2.2.系统要求 14 2.3.系统功能分析 14-18 2.4.本章小结 18-19 第三章 网页收集和预处理模块的设计与实现 19-36 3.1.网页收集器的设计与实现 19-22 3.1.1.网页收集器设计 19-20 3.1.2.网页收集器实现 20-22 3.2.网页预处理模块的设计与实现 22-35 3.2.1.文本表示模型选择 23-25 3.2.2.网页信息提取 25-30 3.2.3.网页文本分析 30-35 3.3.本章小结 35-36 第四章 网页特征提取和分类模块的设计与实现 36-46 4.1.特征提取的工作原理 36 4.2.常用的特征提取算法 36-40 4.2.1.文档频率(Document Frequency) 37 4.2.2.特征频率(Term Frequency) 37 4.2.3.特征熵(Term Entropy) 37-38 4.2.4.信息增益(Information Gain) 38 4.2.5.互信息(Mutual Information) 38-39 4.2.6.χ~2统计法(Chi-square,CHI) 39-40 4.2.7.特征提取算法的比较 40 4.3.特征提取模块的设计与实现 40-44 4.3.1.特征提取过程 42 4.3.2.改进的特征权重计算 42-44 4.4.网页分类模块的设计与实现 44-45 4.5.本章小结 45-46 第五章 网页分类存储和查询模块的设计与实现 46-63 5.1.增量存储和反馈查询技术 46 5.2.基于嵌套FSM的URL解析方法 46-57 5.2.1.URL解析概述 47 5.2.2.FSM有限状态自动机 47-49 5.2.3.方法设计和实现 49-52 5.2.4.方法流程分析 52-55 5.2.5.与现存方法的比较 55-57 5.3.存储模块的设计与实现 57-61 5.4.查询模块的设计与实现 61-62 5.5.本章小结 62-63 第六章 网页自动分类和存储管理系统的测试 63-67 6.1.测试环境设置 63 6.2.测试评价标准 63-64 6.3.测试及结果分析 64-66 6.4.本章小结 66-67 第七章 结论 67-69 参考文献 69-73 致谢 73-74 发表论文目录 74
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|