学位论文 > 优秀研究生学位论文题录展示

针对链接语料的主题社区挖掘

作 者: 郑国庆
导 师: 俞勇
学 校: 上海交通大学
专 业: 计算机应用技术
关键词: 参与主题 社区挖掘 非参数统计模型 层次狄利克雷过程
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 20次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近十几年来,在大规模链接语料上的社区挖掘一直是一个热门研究课题。链接语料上的链接可以划分为两类:第一类链接用来表示不同文档之间的连接关系,比如博客之间的超链接,论文之间的相互引用,我们将这类链接称之为‘‘文档间链接’’;第二类链接用来表征在同一篇文档中,不同用户的同时出现关系,或者说是不同用户的同时参与,我们将这类链接称之为‘‘用户间链接’’。通常来说,在一个由用户间链接构成的语料库中,每一篇文档包含一个或多个的用户。由用户间链接构成的语料数据的例子包括电子邮件档案、研究论文的合作关系网络等。在由文档间链接构成的语料数据上的社区挖掘工作取得了很大成功,但是以往的在用户间链接语料数据上的社区挖挖掘方法或是没有利用文档的文本信息,或者对于用户和文本内容做了过于简化的假设。在本文中,通过给不同用户在文档中的参与分配主题变量,我们提出一种针对用户间链接语料数据的社区挖掘方法,该方法使用层次狄利克雷过程(Hierachical Dirichlet Process)来进行主题变量的分配,并且为模型引入了自动判别社区个数的能力。在一个会议论文的合作关系网络数据上和一个由《纽约时报》新闻稿组成的语料数据上的实验比较中,所提模型与两个选择的基线模型相比,能更加有效地抽取社区结构,并对所抽取的社区结构给予合理的语义解释。

全文目录


摘要  5-6
ABSTRACT  6-7
目录  7-9
表格索引  9-10
插图索引  10-11
缩略词对照表  11-12
第一章 引言  12-18
  1.1 链接语料及社区挖掘介绍  12-14
  1.2 本文的主要贡献简介  14-18
第二章 国内外研究现状  18-22
  2.1 由文档间链接构成的语料数据上的社区挖掘  18
  2.2 由用户间链接构成的语料数据上的社区挖掘  18-22
第三章 参与主题模型介绍  22-36
  3.1 问题定义  22-23
    3.1.1 文本交互图  22
    3.1.2 参与图  22
    3.1.3 主题社区  22-23
    3.1.4 社区挖掘问题定义  23
  3.2 主题社区挖掘建模  23-31
    3.2.1 参与主题  23
    3.2.2 狄利克雷过程与中国餐馆过程  23-27
    3.2.3 参与图建模  27-30
    3.2.4 文档建模  30
    3.2.5 组合参与图建模与文档建模  30-31
  3.3 模型推理  31-34
  3.4 模型分析  34-36
    3.4.1 计算复杂度分析  34
    3.4.2 参数设置分析  34-35
    3.4.3 参数估计  35-36
第四章 实验与讨论  36-48
  4.1 数据集介绍  36-37
  4.2 评测标准  37
  4.3 基准数据和基线系统设定  37-38
  4.4 参数敏感分析  38-39
  4.5 社区归属分布评价  39-44
  4.6 社区语义分析  44-45
  4.7 案例研究  45-48
    4.7.1 形式链接松散但语义关系紧密的情景  45-46
    4.7.2 形式链接紧密但语义关系松散的情景  46-48
第五章 总结与展望  48-50
参考文献  50-54
致谢  54-56
攻读学位期间发表的学术论文目录  56

相似论文

  1. 基于微博客的社区挖掘研究,TP393.092
  2. 异质网络中的社区挖掘技术研究,TP393.09
  3. 多关系社会网络社区挖掘方法研究,TP393.09
  4. 网络社区挖掘技术的研究与应用,TP393.09
  5. 基于社会网络分析的网络舆情研究,TP393.09
  6. CIKP B/S架构实现及知识社区挖掘,TP391.1
  7. 异构社会网络挖掘方法研究,TP311.13
  8. 共调控基因挖掘算法研究,TP391.41
  9. 音乐论坛社会网络挖掘系统设计与实现,TP311.52
  10. 电子邮件的社区挖掘技术研究,TP311.52
  11. 基于主题模型的模块化网络和社区挖掘研究,TP311.13
  12. Web信息网络社区挖掘的关键技术研究,TP393.09
  13. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  14. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  15. 基于FPGA的高速图像预处理技术的研究,TP391.41
  16. 2D人脸模板保护算法研究,TP391.41
  17. 导弹虚拟试验可视化技术研究,TP391.9
  18. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  19. 图像拼接技术研究,TP391.41
  20. 高效精确字符串匹配算法的研究与实现,TP391.41
  21. 基于词义及语义分析的问答技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com