学位论文 > 优秀研究生学位论文题录展示
中文网页自动分类技术的研究与实现
作 者: 刘文琦
导 师: 杨永田
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 搜索引擎 Web挖掘 中文网页自动分类 噪音清除 特征项选取
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 208次
引 用: 3次
阅 读: 论文下载
内容摘要
为了能够有效地组织和分析海量的Web信息资源,帮助用户迅速地获取其所需要的知识和信息,人们希望能够按照其内容实现对网页的自动分类。Web的迅猛发展为文档自动分类技术提供了一个前所未有的实验环境和应用平台,同时也带来了新的挑战,需要在传统的技术基础之上,开展针对Web网页特性的研究工作。本文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)中文网页内“噪音”的自动清除同普通文档相比,网页的设计比较随意,通常都包含大量“噪音”,这些“噪音”影响了网页分类的质量。为此,本文提出了一种自动从中文网页中自动清除“噪音”的方法。该方法通过利用中文网页的结构信息和内容信息,并结合中文网页自动分类技术,实现了自动从中文网页中自动清除“噪音”。实验结果表明,该方法不仅可以有效地从中文网页中自动清除“噪音”,而且,还可以有效地改进中文网页分类器的分类质量。(2)中文网页的特征项提取方法中文网页自动分类系统在解决实际问题时面临的主要问题之一是特征项空间的维数太高。为此,本文提出了一种特征项选取方法。该方法通过利用DF和IDF的意义,在DF文档频率方法的基础上改进而来。实验结果表明,该方法可以有效地改进中文网页分类器的分类质量。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 研究背景 9-14 1.1 课题的目的及意义 9-11 1.2 国内外的研究现状 11 1.3 本文的工作内容 11-13 1.3.1 本文的主要研究内容 11-12 1.3.2 本文的创新之处 12-13 1.4 论文的组织结构 13-14 第2章 中文网页自动分类技术的概述 14-29 2.1 文档自动分类算法的分类 14-20 2.1.1 文档的向量空间模型 15-16 2.1.2 Independent Binary分类系统 16-19 2.1.3 m-ary分类系统 19-20 2.2 实现中文网页自动分类的一般过程 20-22 2.3 中文网页自动分类的其他关键技术 22-27 2.4 实现中文网页自动分类面临的主要问题 27-28 2.5 本章小结 28-29 第3章 中文网页自动分类的设计 29-36 3.1 中文网页自动分类的设计方案 29-31 3.2 各模块的设计方案 31-35 3.2.1 网页净化模块的设计 31-32 3.2.2 中文网页文档向量化模块的设计 32-33 3.2.3 中文网页自动分类模块的设计 33-35 3.3 本章小结 35-36 第4章 中文网页自动分类的实现 36-46 4.1 中文网页自动分类系统的实现方案 36-37 4.2 各模块的实现方案 37-45 4.2.1 extractcontent模块的实现 37-40 4.2.2 TestFreqStat模块的实现 40-42 4.2.3 classifier模块的实现 42-45 4.3 本章小结 45-46 第5章 中文网页自动分类的性能评价 46-52 5.1 分类系统的性能评价 46-50 5.1.1 m-ary分类系统的性能评价 46-47 5.1.2 Independent Binary分类系统的性能评价 47-50 5.2 中文网页自动分类系统的性能分析 50-51 5.3 本章小结 51-52 结论 52-54 参考文献 54-57 攻读硕士学位期间发表的论文和取得的科研成果 57-58 致谢 58
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 网络下载侵权分析,D923.41
- 互联网舆情信息挖掘与群体行为分析,F49
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|