学位论文 > 优秀研究生学位论文题录展示
中文重复网页的检测算法研究
作 者: 屠辉
导 师: 吕玉琴
学 校: 北京邮电大学
专 业: 计算机应用技术
关键词: 重复网页检测 网页相似度计算 向量空间模型 DSC算法 TF/IDF 词语位置
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 52次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的日益普及和迅猛发展,网络上的信息量呈现爆炸式的增长,搜索引擎成为人们获取信息的主要方式,而且越来越受到重视。重复网页检测一直以来都是搜索引擎研究的重点。本文就如何提高中文重复网页的检测算法效率进行研究。通过比较目前国内外重复网页检测的若干方法,本人发现基于内容的重复网页检测算法有较好的效果,而且加入链接和链接信息并没有明显改善算法性能,于是着手研究基于内容的检测算法。DSC重复网页检测算法是典型的基于内容的重复网页检测算法,并且被广泛应用。该算法基于网页语法提取网页特征,实验发现该算法不适用于短小文档的检测。Google对DSC算法的试验评估发现在该算法中加入词频信息会提高算法效率。本文结合了词频统计和自然语言理解等策略,在计算词条权重时考虑了词频,倒置文档频率,位置等内容信息,各种信息按一定比例用统计的方法得到关键词权值;另外本文将向量空间模型应用到网页相似度计算中来,将网页进行解析预处理,提取出网页纯文本,然后进行网页中文分词,统计词条权值,提取网页特征向量得到网页文本向量表示后计算这些特征向量的余弦系数便得到网页相似度值。本文也对改进算法进行实验,分析实验结果发现本文的改进中文重复网页检测算法较之前的DSC算法在网页查重的准确率上有所改善。最后本人提出了若干需要后续进一步的地方。
|
全文目录
摘要 4-5 Abstract 5-8 第一章 引言 8-15 1.1 互联网发展现状 8 1.2 搜索引擎简介 8-12 1.2.1 搜索引擎简介 9-11 1.2.2 提高搜索引擎检索效率的几种策略 11-12 1.3 网页去重的应用前景 12-13 1.4 本文的主要内容和组织 13-15 第二章 重复网页检测算法研究现状 15-27 2.1 重复网页检测概述 15-16 2.2 重复网页检测算法研究现状 16-21 2.2.1 基于内容的重复网页检测 16-20 2.2.2 基于链接的重复网页检测 20 2.2.3 基于链接信息的重复网页检测 20-21 2.2.4 几种重复网页检测方法的比较 21 2.3 重复网页检测相关技术 21-26 2.3.1 网页解析 21 2.3.2 网页文本分词 21-22 2.3.3 网页文本表示及特征选择 22-25 2.3.4 网页相似度比较 25-26 2.4 本章小结 26-27 第三章 中文重复网页的改进检测算法研究 27-33 3.1 DSC算法模型 27-28 3.2 改进中文重复网页检测算法总体设计 28-30 3.3 改进中文重复网页检测算法详细设计 30-32 3.4 本章小结 32-33 第四章 实验设计及结果分析 33-44 4.1 实验环境 33 4.2 实验步骤 33-39 4.2.1 网页解析及纯文本提取 33-35 4.2.2 网页文本的中文分词 35-38 4.2.3 网页向量空间表示及相似度计算 38-39 4.3 实验结果分析 39-43 4.4 本章小结 43-44 第五章 总结和展望 44-46 5.1 本文总结 44 5.2 未来工作展望 44-46 参考文献 46-49 附录 实验核心代码 49-62 致谢 62-63 攻读学位期间发表的学术论文目录 63
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- 基于改进向量空间模型的网络信息检索研究,TP391.3
- 基于ICVSM的摘要抽取算法研究,TP391.1
- 以博客内容为对象的个性化搜索研究,TP391.3
- 主题搜索引擎的研究与设计,TP391.3
- 基于支持向量机的水电故障分类器的设计与实现,TV738
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|