学位论文 > 优秀研究生学位论文题录展示
基于贝叶斯理论的社会化标注主题聚类模型研究
作 者: 王嵩
导 师: 代逸生
学 校: 江苏科技大学
专 业: 管理科学与工程
关键词: 社会化标注 主题聚类 隐含语义 层级贝叶斯
分类号: C93
类 型: 硕士论文
年 份: 2011年
下 载: 37次
引 用: 1次
阅 读: 论文下载
内容摘要
随着Web2.0技术不断发展和完善,社会化标注系统随之而产生。社会化标注秉承了web2.0所提出的用户自由性和主动性的特征。在社会化标注环境下,用户可以根据自己对相关信息资源的理解添加合适的标签,同时用户可以参考其他人使用过的标签进行标注。这种标注机制的实现,使得信息用户可以根据自己对资源的需求来对其进行选择,并根据自己对资源认识来对其进行组织,体现社会化标注系统的主动性和个性化的特点。由于社会化标注本身是一种自下而上的标注,这就使得这种“合适”的标签并没有统一规则予以约束,明明用少数几个词组就可以明确的描述出资源,但由于用户的知识背景以及理解程度的差异,往往对信息资源进行标注时生成的标签出现歧义、同义、同形多义等现象。同时,以往很少被标注过的网络资源往往被当前浏览信息的用户所忽略,这样会导致大量具有重大价值的网络资源被忽略掉,这些现象都会给新进入的用户搜索和获取信息资源带来了极大的困扰。针对以上这些问题,本文利用贝叶斯理论并结合相关主题聚类算法对社会化标注环境中的信息资源主题进行有效地挖掘,将大量用户对特定资源进行标注所产生的标签集进行一定的清除和归类,最终在特定资源下得出只含有少数具有代表性的标签集合。本文的主要贡献有如下几个方面:(1)根据社会化标注所存在的一词多义、同义词等现象将文本挖掘理论中的隐含语义挖掘理论应用到社会化标注上来,通过构建资源-标签矩阵来挖掘两者间的语义空间,有效解决了用户标注过程中的词义混乱现象;(2)利用三层贝叶斯网络,构建基于隐狄利克雷的主题分配,并在此基础上挖掘潜在的主题并对其进行有效地分类汇总;(3)结合贝叶斯理论的先验知识及样本空间,并提出主题空间分类,对资源的属性识别进行进一步细化,使前两方面的工作得到进一步改善。以上研究不但丰富了信息组织和检索的相关理论,而且为信息主题及用户偏好的识别提供了有效的途径。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-10 CONTENTS 10-12 第1章 绪论 12-22 1.1 研究的背景与意义 12-14 1.2 国内外研究现状 14-17 1.2.1 社会化标注相关研究 14-17 1.2.2 Web 文本主题聚类相关研究 17 1.3 研究内容、技术路线及组织结构 17-20 1.3.1 研究内容 17-18 1.3.2 技术路线 18-20 1.3.3 论文的组织结构 20 1.4 创新点 20-22 第2章 社会化标注系统及相关贝叶斯隐含语义理论 22-32 2.1 社会化标注概述 22-29 2.1.1 社会化标注概念 22-24 2.1.2 社会化标注的要素 24-27 2.1.3 社会化标注的特性 27-29 2.2 贝叶斯隐含语义的相关理论 29-31 2.2.1 隐含语义分析相关理论 29 2.2.2 概率潜在语义分析相关理论 29-30 2.2.3 动态贝叶斯的相关理论 30-31 2.3 本章小结 31-32 第3章 基于贝叶斯隐含语义分析的标注主题聚类 32-44 3.1 基于贝叶斯隐含语义分析的标注主题聚类 34-39 3.1.1 构造“资源-标签”矩阵 37 3.1.2 计算潜在语义空间 37-38 3.1.3 应用EM 迭代算法 38-39 3.2 模型应用及实验分析 39-43 3.2.1 实验数据获取与处理 39 3.2.2 实验结果 39-43 3.2.3 结果分析 43 3.3 本章小结 43-44 第4章 基于动态贝叶斯模型的标注主题聚类 44-57 4.1 基于隐狄利克雷分配算法的标注主题聚类 47-52 4.1.1 模型参数定义 47-48 4.1.2 模型介绍 48-50 4.1.3 参数估计 50-52 4.2 模型应用及实验分析 52-56 4.2.1 实验数据获取与处理 52 4.2.2 主题数目确定 52-53 4.2.3 实验结果分析 53-56 4.3 本章小结 56-57 第5章 基于贝叶斯层级模型的标注主题聚类 57-71 5.1 贝叶斯层次结构的相关理论 57-59 5.2 基于贝叶斯层次理论的标注主题聚类模型 59-64 5.2.1 核心思路 59-62 5.2.2 贝叶斯后验推断 62-63 5.2.3 Gibbs 抽样 63-64 5.3 实验分析及三种算法的比较 64-70 5.3.1 数据准备与处理过程 64-66 5.3.2 性能评价指标 66-67 5.3.3 三种算法实验结果对比分析 67-70 5.4 本章小结 70-71 总结与展望 71-73 1 论文结论 71-72 2 研究展望 72-73 参考文献 73-79 附录1 网络数据获取截图 79-80 附录2 三部分图分析数据源及中间处理结果 80-85 攻读硕士学位期间所发表的学术论文与参加的科研项目 85-86 1 发表的学术论文 85 2 参与的科研项目 85-86 致谢 86-87 大摘要 87-92
|
相似论文
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于语义分析的产品评论挖掘技术研究,TP391.1
- 博客热点实时发现与跟踪,TP393.092
- 基于社会化标注的查询扩展技术研究,TP391.3
- 基于时态语义的Web信息检索关键技术研究,TP391.3
- Web2.0环境下高维数据的社会化协同标注与检索,TP393.092
- 基于HMM模型的农作物信息抽取方法研究,TP391.1
- 挖掘社会化标注服务语义万维网,TP393.092
- 潜在语义索引在中文文本聚类中的应用研究,TP391.1
- 基于标签的互联网自由分类法研究,G354
- 基于子主题的多文档摘要关键技术研究,TP391.1
- 员工成就动机与职业承诺、工作投入关系研究,C93-05
- 公共项目管理成熟度研究,C93
- 中庸思想在管理中的运用研究,C93
- 从科学、人本到和谐,C93
- 佛教丛林与现代管理,C93
- 知识管理学学科体系构建研究,C93
- 中国学者国际管理学合作网络演化及学术贡献分析,C93
- 道德推脱与员工道德决策的关系,C93-05
- 基于模糊决策的突发事件分级评估算法的改进研究,C93
中图分类: > 社会科学总论 > 管理学
© 2012 www.xueweilunwen.com
|