学位论文 > 优秀研究生学位论文题录展示

面向Web3.0的大众分类研究

作　者: 熊回香
导　师: 王学东
学　校: 华中师范大学
专　业: 情报学
关键词: Web3.O 大众分类标签标签库标签分类标签聚类标签本体模型
分类号: G354
类　型: 博士论文
年　份: 2011年
下　载: 1083次
引　用: 2次
阅　读: 论文下载

内容摘要

随着社会化软件的发展,越来越多的Web2.0网站以应用的开放性、技术的渗透性和信息传播的交互性等特性及其读写并存的表达方式、社会化的联合方式和便捷化的体验方式等优势,影响和改变着人们的工作和学习方式；同时,Web2.0自身具有的开放性、去中心化、聚合性、高度交互性和创新性等特性,也使得越来越多的用户参与到网络信息的创造和发布中。然而,一方面,伴随着信息源和信息量的激增,衍生出了信息杂乱无章、信息纯净度和可信度降低、搜索引擎精准度下降等问题；另一方面,用户迫切希望通过便捷的互动交流和协同共享方式来及时准确地获取符合自身需求的信息和知识。面对这些问题,注重信息筛选与个性化信息聚合,以“个性、精准和智能”为核心理念的Web3.0模式应运而生；这一新型模式为问题的解决带来了新的希望。Web3.0是以Web2.0为基础,因此,大众分类(Folksonomy), Web2.0环境下产生的新型信息分类法仍然是Web3.0环境下的主要信息分类方法之一。但是,大众分类在给网络用户提供方便、自由的标签标注和检索的同时,也存在着诸如标签的多样性、模糊性、扁平化结构和语义关系缺乏等缺陷；这些缺陷制约着Web3.0“个性、精准和智能”这一核心理念的真正实现,因此,从Web3.0对大众分类法的需求出发,对大众分类体系的优化展开相关研究,是非常有必要并且具有重要的意义。基于此,本文综合运用社会学、语言学、数学统计、计算机科学等多学科的理论,使用实证分析、数学统计学、社会网络分析、数据挖掘等方法,充分利用中文语料资源对大众分类的优化展开研究。全文共分为8章,每章的具体内容如下：第1章,对本论文的选题背景、研究现状和研究意义进行了全面的阐述,提出了研究目的和研究内容,并对研究方法和研究思路进行了介绍,总结了本研究的主要创新点。第2章,主要是针对研究所涉及到的相关理论进行简要述评。首先,对大众分类的定义与内涵、大众分类的运行机制、大众分类的类型、大众分类的基本特征等进行阐述；接着对语义网的基本思想、体系结构、本体论等内容进行了归纳性的介绍：然后,对Web3.0的产生、Web3.0的内涵和特征、Web3.0的技术支撑以及现状等进行分析总结；最后剖析了大众分类、语义网及Web3.0三者之间的关系,为后续的研究提供了思路。第3章,首先分析了标签的内涵及特点,接着通过典型中文Web2.0网站展开标签的实证研究,主要分析了标签的语言特征、标签的分布规律、标签与用户和资源的关系、标签的质量及规范性、标签的分类体系及标签的推荐等,从而明晰了大众分类体系的运行机制和不足,为后续研究思路的形成提供依据。第4章,首先比较分析了大众分类与情报检索的受控语言之间的异同；接着阐述了标签库的构建方法,与此同时,把中文语义词典《同义词词林》引入到标签库的构建中,通过词语相似度比较来规范标签库中的语词；然后从标签的推荐、用户管理机制、以及垃圾标签处理几个方面探讨了用户标注的控制；最后分析了用户标签优选的机制。本章研究的目的是提高标签的质量,为挖掘标签间的语义奠定基础。第5章,首先详细地剖析了Tag资源自动分类的过程,构建了Tag资源自动分类的算法模型,在Tag资源的自动分类模型中,借鉴了文本自动分类的思想,用标签的使用频率表示Tag资源的向量空间,并在Tag资源的向量表示中,引入《同义词词林》进行向量的语义表示,从而提高自动分类的精度；接着分析如何利用标签库构建标签的层级,并通过内容管理系统Drupal介绍了标签层级化的实现方法。本章的研究主要是结合传统分类法的思想,构建标签的层级,从而为用户提供标签和导航,进而提高标签的检索效率。第6章,首先分析了标签的聚类及其相关算法；接着分别从标签的共现分析、标签的向量表示、关联规则挖掘三个方面探讨了标签或Tag资源的自动聚类,在聚类算法的选择上,综合考虑不同聚类算法的优点,并基于不同的数据模型选择了不同的聚类算法,同时在标签样本数据集进行了理论上的验证,证明了这几种算法的可行性。这部分的研究为标签与本体的结合奠定了基础。第7章,首先探讨和分析了标签概念空间的构建,并分别运用不同的算法构建了标签的层次空间和网状空间,同时用实例证明了其可用性和有效性；接着详细地分析了标签与本体的映射机制和方法,并在进行概念的匹配过程中,引入了另一个中文语义词典《知网》进行概念间的相似度比较,增加了匹配度的可靠性；最后从标签的语义控制入手,提出了标签本体模型的概念,并对目前典型的标签本体模型进行详细地比较,同时以SIOC本体模型为例,介绍了标签的语义控制过程。本章的内容主要是围绕标签语义关系的提取展开相关研究,其研究成果有助于语义网(Web3.0)的最终实现。第8章,对论文进行了总结,总结了论文的主要研究内容,得出的主要结论,主要创新之处,并剖析了研究中存在的不足,基于此展望了未来的研究重点和方向。

全文目录

中文摘要  5-7
Abstract  7-14
第1章绪论  14-36
  1.1 研究的背景及意义  14-16
  1.2 国内外研究现状  16-33
    1.2.1 关于大众分类的研究  16-25
    1.2.2 关于Web3.0的研究  25-33
  1.3 研究目标与研究内容  33
    1.3.1 研究目标  33
    1.3.2 研究内容  33
  1.4 研究方法与研究思路  33-35
    1.4.1 研究方法  33-34
    1.4.2 研究思路  34-35
  1.5 论文创新点  35-36
第2章大众分类、语义网及Web3.0相关理论  36-62
  2.1 大众分类  36-49
    2.1.1 大众分类的产生  36-38
    2.1.2 大众分类法的定义与内涵  38-39
    2.1.3 大众分类法的运行机制  39-43
    2.1.4 大众分类法的类型  43-45
    2.1.5 大众分类法的特征  45-49
  2.2 语义网  49-55
    2.2.1 语义网的诞生  49
    2.2.1 语义网的基本思想  49-50
    2.2.3 语义网的体系结构  50-52
    2.2.4 本体论  52-55
  2.3 Web3.0  55-60
    2.3.1 Web3.0的产生  55-56
    2.3.2 Web3.0的内涵  56-57
    2.3.3 Web3.O的特征  57-59
    2.3.4 Web3.0的实现技术  59-60
    2.3.5 Web3.0的现状  60
  2.4 大众分类、语义网及Web3.0的关系  60-61
    2.4.1 大众分类与Web3.0  60
    2.4.2 语义网与Web3.0  60-61
  2.5 本章小结  61-62
第3章标签及其实证研究  62-82
  3.1 标签的内涵及其特点  62-63
    3.1.1 标签的内涵  62-63
    3.1.2 标签的基本特点  63
  3.2 标签的实证研究  63-81
    3.2.1 标签的语言特征  66-67
    3.2.2 标签的分布规律  67-69
    3.2.3 标签质量及其规范性  69-70
    3.2.4 标签的分类体系及标签的推荐  70-71
    3.2.5 用户、标签和资源三者关系  71-81
  3.3 本章小结  81-82
第4章标签的规范控制  82-93
  4.1 大众分类法与情报检索的受控语言比较  82
  4.2 标签库的构建  82-89
    4.2.1 《同义词词林》简介  83-85
    4.2.2 基于《同义词词林》的词语相似度计算  85-88
    4.2.3 基本Tag类的设置  88
    4.2.4 标签词的收集和标签库的结构  88
    4.2.5 标签库的动态更新  88-89
  4.3 用户标注的控制  89-90
    4.3.1 标签的推荐  89-90
    4.3.2 用户管理机制  90
    4.3.3 垃圾标签处理  90
  4.4 用户标签优选  90-92
  4.5 本章小结  92-93
第5章标签的分类  93-111
  5.1 Tag资源的自动分类  93-107
    5.1.1 文本自动分类  93-94
    5.1.2 获取训练样本集  94-95
    5.1.3 Tag资源预处理  95-97
    5.1.4 Tag资源表示  97
    5.1.5 特征选择与加权  97-103
    5.1.6 Tag资源分类算法  103-107
  5.2 利用标签库构建标签的层级  107-110
  5.3 本章小结  110-111
第6章标签的聚类  111-134
  6.1 聚类分析及算法  111-113
    6.1.1 聚类分析  111
    6.1.2 聚类算法  111-113
  6.2 标签聚类的基本过程  113-114
  6.3 基于共现信息的标签聚类  114-119
    6.3.1 共现分析  114
    6.3.2 标签共现分析  114-115
    6.3.3 基于共现信息的标签聚类算法模型  115-119
  6.4 基于标签相关性的标签聚类  119-123
    6.4.1 数据采集  120
    6.4.2 标签向量空间的表示  120-122
    6.4.3 聚类算法  122-123
  6.5 基于关联规则的Tag资源聚类  123-133
    6.5.1 关联规则  123-125
    6.5.2 频繁项集(frequent itemset)  125
    6.5.3 Apriori算法与关联聚类算法  125
    6.5.4 基于关联规则的Tag资源聚类算法模型  125-133
  6.6 本章小结  133-134
第7章大众分类中的语义关系挖掘  134-167
  7.1 标签概念空间的构建  134-141
    7.1.1 标签层次空间的构建  134-137
    7.1.2 标签网状空间的构建  137-141
  7.2 大众分类与本体的结合  141-166
    7.2.1 大众分类与本体结合的可行性  142-144
    7.2.2 标签语义关系的挖掘  144-154
    7.2.3 标签本体模型  154-166
  7.3 本章小结  166-167
第8章研究总结与展望  167-170
  8.1 本文主要研究内容  167-168
  8.2 本文主要结论  168
  8.3 本文主要创新点  168
  8.4 研究局限与展望  168-170
参考文献  170-185
攻读博士学位期间的主要科研成果  185-187
致谢  187

面向Web3.0的大众分类研究

内容摘要

全文目录

相似论文