学位论文 > 优秀研究生学位论文题录展示
基于搜索词的网页结果聚类研究与应用
作 者: 马千驰
导 师: 彭宏;张劲松
学 校: 华南理工大学
专 业: 软件工程
关键词: 网页聚类 向量空间模型 搜索词 CBC算法
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 83次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,随着互联网的迅猛发展,互联网上的各种信息迅速膨胀,如何快速准确的查找到用户所需的信息变得异常重要。伴随着这一需求,搜索引擎技术得到了长足的发展,并且出现了一批非常优秀的搜索引擎,而且已经出现了一些基于聚类的搜索引擎。与传统的以线性列表的形式为用户返回搜索结果的搜索引擎相比,基于聚类的搜索引擎最大的优点就是将用户的搜索结果以聚类的形式返回,从而进一步方便了用户在海量信息中快速准确地找到自己所需的信息。但现有的这些基于聚类的搜索引擎基本都只是建立在单纯的对网页内容的聚类上,而忽略了用户的搜索词和网页之间的关联信息。我们的论文主要工作是提出了基于用户搜索词的网页聚类算法,将近义词聚类的CBC (Clustering By Committee)算法思想应用到网页聚类中。采用向量空间模型,分别从特征值权值计算、文本向量相似度计算和聚类中心点确定三个方面对CBC聚类算法进行了改进。特别的,我们在特征值权值计算中加大了搜索词在文本向量中的权值,通过这种方式来体现用户的搜索词对网页聚类结果的影响。通过实验证明了该改进算法的可行性和有效性。最后,在提出的改进的聚类算法基础上,设计和实现了一个中文网页聚类系统。该系统采用模块化设计,实现了从网页抓取到聚类的整个网页聚类过程。
|
全文目录
摘要 5-6 Abstract 6-10 第一章 绪论 10-14 1.1 本文的研究背景及研究意义 10-11 1.2 国内外研究现状及应用 11-13 1.2.1 研究现状 11-12 1.2.2 存在的问题 12-13 1.3 本文的主要内容及组织结构 13-14 第二章 Web文本挖掘概述 14-29 2.1 Web文本挖掘的概念及特点 14-15 2.1.1 Web文本挖掘的概念 14 2.1.2 Web文本的特点 14-15 2.1.3 文本挖掘的特点 15 2.2 Web文本挖掘的一般过程 15-16 2.3 Web文本挖掘方法 16-19 2.3.1 文本分类 16-17 2.3.2 文本聚类 17 2.3.3 关联分析 17-18 2.3.4 文本总结 18 2.3.5 分布分析和趋势预测 18-19 2.4 Web文本获取 19 2.5 Web文本挖掘预处理 19-28 2.5.1 Web正文提取 20 2.5.2 向量空间模型 20-21 2.5.3 中文分词 21-23 2.5.4 特征项选取 23-26 2.5.5 特征项权重 26-28 2.6 本章小结 28-29 第三章 Web文本聚类介绍 29-41 3.1 Web文本聚类 29-30 3.1.1 Web文本聚类的概念 29 3.1.2 Web文本聚类的过程 29-30 3.2 文本相似度的计算 30-32 3.3 Web文本聚类算法 32-35 3.3.1 基于划分的方法 33-34 3.3.2 基于层次的方法 34 3.3.3 基于模型的方法 34-35 3.3.4 SOM神经网络 35 3.3.5 基于网格的方法 35 3.4 Web文本聚类结果质量评估 35-37 3.5 现有的网页聚类系统 37-40 3.5.1 Scatter/Gather 37 3.5.2 Carrot 37-38 3.5.3 SHOC,LINGO 38 3.5.4 SnakeT 38-39 3.5.5 Vivisimo 39-40 3.6 本章小结 40-41 第四章 聚类改进算法 41-52 4.1 CBC聚类算法 41-44 4.1.1 算法基本思想 42 4.1.2 算法描述及分析 42-44 4.2 加入搜索词的聚类改进算法 44-51 4.2.1 改进的特征词权重计算方法 44-45 4.2.2 改进的特征向量相似度计算方法 45-46 4.2.3 加入搜索词的改进聚类中心确定算法 46-49 4.2.4 改进算法分析及实验 49-51 4.3 本章小结 51-52 第五章 基于搜索词的中文Web聚类系统 52-62 5.1 系统开发平台与开发环境 52 5.2 系统总体结构及功能模块 52-54 5.3 测试数据集 54-55 5.4 系统运行方法及步骤 55-61 5.5 本章小结 61-62 结论与展望 62-64 参考文献 64-67 攻读硕士学位期间取得的研究成果 67-68 致谢 68
|
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 面向论坛信息文本的有效数据抽取研究,TP391.1
- SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
- 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
- Web新闻热点发现系统的设计与实现,TP393.09
- 多角色社交网络研究,TP393.09
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 中文文本倾向性分类系统研究,TP391.1
- 基于改进的VSM的不良文本过滤模型研究,TP391.1
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- 基于改进向量空间模型的网络信息检索研究,TP391.3
- 基于ICVSM的摘要抽取算法研究,TP391.1
- 以博客内容为对象的个性化搜索研究,TP391.3
- 主题搜索引擎的研究与设计,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|