学位论文 > 优秀研究生学位论文题录展示

基于复杂网络社团结构的网站聚类方法研究

作 者: 关磊
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网站聚类 复杂网络理论 社团结构 Web挖掘
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 205次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网的飞速发展,信息指数级的增长给人们快速有效获得有用信息带来了巨大的挑战,网站是比网页更高层次的抽象,网站聚类作为web挖掘的重要分支已经得到越来越多的关注,对于发现站点间关系有重要意义,可对网站处于网络中的位置和重要程度有更清楚的估价,可用于发现网络社区以及找出同组网站之间共同的爱好或兴趣,网站相似性与流行度分析,以及对一些中小网站如何扩大其影响力提供指导,以及摆脱当前平面式而进入关联式的网站导航等等。当今,许多系统可归纳为一个复杂网络系统,比如:论文引用网络、万维网、生物网络等等,而这些复杂系统都呈现出了一种聚团性质,因此,本文以复杂网络社团结构来进行网站聚类的研究。在基于链接的网站聚类技术中,由于网站层次结构复杂,不易采集,这成为了其应用的瓶颈。另外,基于网站内容的聚类方法,对文本处理的复杂度高,也不适合大规模数据的处理。本文的主要工作是利用复杂网络理论的社区侦测技术来挖掘互联网中以网站为单位的网站关系与网站分组,社区侦测技术将互联网模拟成一张巨大的图,其中每个网站是这张图中的一个节点,两个节点之间的边代表了两个网站之间的关系,本文以他们之间的超链接来刻画这种权值,并对权值的度量进行改进,针对其聚类效果,对于网站关系中的出链和入链对网站关系影响不同,即两个网站之间有相互指向代表了更强的关系,对其权值进行改进,以提高其聚类效果。在深入的研究了网站社团结构的基础上,本文对网站聚类结果进行了可视化,设计并实现了站点聚类与导航系统,将网站之间的关系呈现给用户,并完成具有关联关系的网站导航,基于网站聚类的结果,将网站的域名解析成IP地址,从而对网站的物理地址进行分析,从而可以分析在不同地域范围内网站之间的关系,以及各网站在世界上各个国家和各个城市的影响程度。实验结果与系统表明,文中所提出利用复杂网络理论的社区侦测技术来进行网站聚类是可行的,且系统对用户来说是有意义的。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-17
  1.1 课题背景  8
  1.2 课题研究的目的及意义  8-9
  1.3 国内外相关技术发展现状  9-15
    1.3.1 搜索引擎的发展概况  9-11
    1.3.2 Web 挖掘技术发展概况  11-13
    1.3.3 网站聚类技术发展概况  13-14
    1.3.4 社会网络分析发展概况  14-15
  1.4 本文主要研究内容及组织  15-17
第2章 基于复杂网络社团结构的网站聚类算法  17-31
  2.1 引言  17
  2.2 复杂网络理论及其性质  17-20
    2.2.1 网络的图表示  18
    2.2.2 平均路径长度  18-19
    2.2.3 聚类系数  19
    2.2.4 度与度分布  19-20
  2.3 站点聚类问题描述  20-23
  2.4 模块度  23-24
  2.5 网站聚类算法  24-29
    2.5.1 NF 算法  25
    2.5.2 CNM 算法  25-28
    2.5.3 Louvain 算法  28-29
  2.6 对权值的改进  29-30
  2.7 本章小结  30-31
第3章 站点关系与聚类系统实现  31-44
  3.1 引言  31
  3.2 站点聚类系统整体架构  31-33
  3.3 链接解析与链接库  33-37
    3.3.1 URL 解析  33
    3.3.2 站点链接解析  33-37
  3.4 算法输入  37-38
  3.5 站点聚类算法  38-39
  3.6 索引部分  39-41
  3.7 地址聚类模块  41-42
    3.7.1 域名解析  42
    3.7.2 IP 与物理地址转换  42
  3.8 MPI 多机并行处理  42-43
  3.9 小结  43-44
第4章 实验结果分析  44-53
  4.1 引言  44
  4.2 实验环境  44
  4.3 实验数据  44-45
  4.4 评价方法  45
  4.5 实验结果分析  45-48
    4.5.1 时间对比评测  45-46
    4.5.2 模块度对比评测  46-48
  4.6 对权值的改进对比评测  48-49
  4.7 系统平台演示  49-52
  4.8 本章小结  52-53
结论  53-54
参考文献  54-60
致谢  60

相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 基于Web挖掘技术研究及其在数字图书馆中的应用,G250.76
  3. Web挖掘技术在电子商务推荐系统中的研究与应用,TP391.3
  4. 代谢网络社团结构研究,Q251
  5. 乌鲁木齐市公交网络结构特性分析研究,U491.17
  6. 互联网舆情信息挖掘与群体行为分析,F49
  7. 面向企业竞争情报的主题搜索研究与实现,TP391.3
  8. 基于WEB挖掘的E-learning环境下的个性化教学平台研究,TP391.6
  9. 基于协同过滤算法的个性化推荐系统的研究,TP393.09
  10. 博客朋友推荐技术的研究,TP393.092
  11. Internet拓扑的社团特性分析及建模,TP393.02
  12. 基于用户兴趣聚类的协同过滤推荐技术的研究,TP393.09
  13. Web用户访问聚类模式研究,TP311.13
  14. 主题搜索与Web挖掘的研究及系统实现,TP391.3
  15. 基于云平台在线Web挖掘中计算资源动态平衡的研究与实现,TP311.13
  16. 基于Web挖掘的建构主义远程教学系统研究,TP391.6
  17. 电子商务中专业领域货源信息检索系统的设计与实现,TP391.3
  18. 基于用户行为的面向领域搜索引擎研究,TP391.3
  19. 中国证券市场的复杂网络特性研究,F224
  20. 工程软件网络的复杂性与社团结构研究,O157.5

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com