学位论文 > 优秀研究生学位论文题录展示

多语言标签聚类及其应用研究

作 者: 汤丽娟
导 师: 章成志
学 校: 南京理工大学
专 业: 情报学
关键词: 社会化标签 标签抽取 标签聚类 聚类结果映射 社会关系网络
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 104次
引 用: 0次
阅 读: 论文下载
 

内容摘要


社会化标签是指互联网用户自由地对文档、图片、视频等资源对象定义的一个或多个描述,由于其个性化特点被广泛应用于各大网站系统。社会化标签对用户有着至关重要的意义,用户可以通过标签对资源进行储存、组织、管理、共享等。然而随着用户及标签规模的不断扩大,大多数标签变成冗余信息,要从大量信息中通过标签检索获取相关信息变得越来越困难,因此如何获得对用户有意义的标签变得尤为重要。另外,社会化标签的语义异构问题也日益加剧,通过对标签的聚类可以将语义上相似的标签聚集,从而有效解决标签的语义异构问题,并且在此基础上实现的社会关系网络发现,可以实现好友推荐。除此之外,目前的社会化标签系统往往是单语言的,在对多语言标签聚类的基础上实现多语言标签的映射,可以解决标签语言异构问题。本文采用不同的标签自动抽取算法分别对博文正文信息进行标签抽取,在标签抽取的基础上形成复合标签,并与用户给定的标签进行比较分析。实验结果表明自动抽取的标签可以作为用户标注标签的有效补充,对用户标注的标签有一定参考价值。在标签聚类方面,采用分裂式层次聚类算法分别对用户标注的标签以及机器抽取的标签进行聚类,比较两种不同来源下的标签聚类结果。实验结果表明用户标注的标签聚类效果明显好于机器抽取标签的聚类结果。在中英文标签聚类的基础上,采用先聚类后翻译的映射策略及基于机器翻译的映射方法进行中英文标签的映射研究。并将映射的研究用于标签的具体应用上。在标签聚类的应用方面,我们选择与某一产品相关联的微博信息进行企业产品信息监测研究。通过采集相关用户的描述标签与博文信息,对标签和博文分别聚类,从而发现兴趣社区与热门话题。另外,我们尝试实现多语环境下基于标签映射的社会关系网络发现,从而为实现多语环境下的好友推荐提供参考依据。

全文目录


摘要  5-6
Abstract  6-7
目录  7-9
图表目录  9-11
1 绪论  11-16
  1.1 研究背景与意义  11-13
  1.2 本文主要研究内容  13-15
  1.3 本文创新点  15
  1.4 本文组织结构  15-16
2 社会标签系统研究综述  16-27
  2.1 社会标签系统简介  16-21
    2.1.1 社会标签特点及类型  16-17
    2.1.2 典型的社会标签系统网站  17-21
  2.2 社会标签相关研究  21-25
    2.2.1 标签生成  21-22
    2.2.2 标签聚类  22-24
    2.2.3 标签行为分析  24
    2.2.4 标签结构与语义研究  24-25
  2.3 社会标签典型应用  25-26
  2.4 本章小结  26-27
3 中英文博文标签自动抽取研究  27-36
  3.1 中文标签抽取  27-32
    3.1.1 中文标签抽取算法  27-29
    3.1.2 实验数据及数据处理  29-30
    3.1.3 结果分析  30-32
  3.2 英文标签抽取  32-35
  3.3 本章小结  35-36
4 中英文博文标签自动聚类研究  36-46
  4.1 标签聚类的基本过程  36
  4.2 标签聚类关键技术研究  36-38
    4.2.1 标签表示方法  36-37
    4.2.2 标签聚类方法  37-38
  4.3 中文标签聚类结果分析  38-43
    4.3.1 数据源  38
    4.3.2 聚类评估方法  38-39
    4.3.3 标签聚类结果分析  39-43
  4.4 英文标签聚类结果分析  43-44
    4.4.1 数据源  43
    4.4.2 标签聚类结果分析  43-44
  4.5 中英文聚类结果比较分析  44-45
  4.6 本章小结  45-46
5 多语言标签映射研究  46-51
  5.1 多语言标签映射  46-47
  5.2 中英文标签映射结果分析  47-50
    5.2.1 数据源  47
    5.2.2 中英文标签映射  47-50
  5.3 本章小结  50-51
6 基于社会化标签的社区发现  51-62
  6.1 相关工作  51-52
    6.1.1 社区发现  51
    6.1.2 企业产品信息监测  51
    6.1.3 微博挖掘  51-52
  6.2 单语言标签聚类的社区发现  52-56
    6.2.1 产品信息监测的总体框架  52
    6.2.2 微博挖掘基本方法  52-53
    6.2.3 实证研究  53-56
  6.3 多语环境下基于标签映射的社会关系网络发现  56-61
  6.4 本章小结  61-62
7 结论与展望  62-63
  7.1 研究总结  62
  7.2 研究展望  62-63
致谢  63-64
参考文献  64-69
附录A:个人简介  69-70
附录B:社会标签分布调查研究(部分)  70-71
附录C:标签抽取样例  71

相似论文

  1. 基于社会化标签体系的个性化推荐引擎技术研究,TP391.3
  2. 社会资本:和谐社会的粘合剂,C912
  3. 社会关系网络对中介组织行为异化的影响研究,C936
  4. 基于Folksonomy的Web服务发现研究,TP393.09
  5. 基于自组织特征映射的检索结果聚类研究,TP391.3
  6. 基于社会化标签的协同过滤推荐策略研究,TP393.09
  7. 基于社会化标签的Web网页搜索的优化技术研究,TP391.3
  8. 大众分类在政府门户网站中的应用,TP393.092
  9. 文本聚类算法的语义性改进与实现,TP391.1
  10. 融合社会化标签的协同过滤算法研究,TP301.6
  11. 基于社会化标签的个性化推荐系统研究,G201
  12. 基于web挖掘技术的网页分类研究,TP391.1
  13. 基于社会化标签的移动音乐检索,TP391.3
  14. 基于Web挖掘技术的网页分类研究,TP311.13
  15. 基于社会化标签的个性化搜索研究,TP391.3
  16. 文本检索结果聚类及类别标签抽取技术研究,TP391.3
  17. 面向Web3.0的大众分类研究,G354
  18. 散杂居地区城乡回族社区网络结构研究-以开封市东大寺社区和张庄社区为例,C95
  19. 多标签聚类算法及其评价研究,TP311.13
  20. 社交网络图像垃圾标签去除研究,TP391.41
  21. 图像社会化标签预处理与聚类方法研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com