学位论文 > 优秀研究生学位论文题录展示

基于博客的作者声誉度分析

作 者: 刁宇峰
导 师: 林鸿飞
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: Blog 垃圾评论 情感倾向性 多句联合评估的方法 作者声誉度
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 47次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Web2.0的发展,众多基于Web2.0的应用平台也迅猛的发展起来,其中Blog就是主要代表传播平台之一。众所周知,Blog这种自由、发散和随意性的特点也使得它日渐成为舆情产生和传播的主要场所,所以,对Blog中发布的评论中的垃圾评论、重复评论和Blog作者声誉度信息等方面研究的重要性也就越来越凸显出来。本文主要通过研究Blog中的评论和博文两个角度综合衡量得到Blog作者的声誉度,并没有采取传统的单单通过点击率对作者进行排名的方法,而是在充分考虑点击率的基础上,针对评论集合考虑其质量,去除垃圾评论和重复评论得到相关评论集,针对博文得到其谈论的主题信息,最终结合评论的质量、内容和博文的内容,以及通过语义特征等分析博文得出的博文情感基调,并用基于段落的多句联合评估的方法进行评价,综合这些要素判断评论的情感倾向性并结合浏览量等因素综合得出作者的声誉度,达到对博客网站的作者重新排名的目标,解决了博客网站中作者的排名不准确问题,实现了基于作者声誉度的博客的个人排名。经过对新浪博客中生活类博客的抽取作为训练集,对其中排名靠前的几个博客进行声誉度分析并排名。实验证明,本文的方法可以有效的得到作者的声誉情况,可以更公正的得到作者的排名情况。该方法有助于网络上Blog空间的对评论集合的管理及网络舆情的及时监控,提出有效的计算Blog作者声誉度分析的方法。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-14
  1.1 研究背景及意义  8-9
  1.2 研究现状  9-12
    1.2.1 垃圾评论  9-10
    1.2.2 重复评论  10-11
    1.2.3 Blog作者声誉度分析  11-12
  1.3 本文主要工作  12-13
  1.4 本文章节安排  13-14
2 相关资源、模型以及算法  14-20
  2.1 情感词汇本体  14-16
  2.2 HowNet  16-17
  2.3 LDA模型  17-18
  2.4 重复检测算法  18-19
    2.4.1 DSC和DSC-SS算法  18-19
    2.4.2 SpotSig算法  19
    2.4.3 Low-IDF-SIG算法  19
  2.5 情感倾向性分析  19-20
3 垃圾评论识别  20-30
  3.1 基于规则的垃圾评论识别  21-22
  3.2 基于主题的垃圾评论识别  22-25
    3.2.1 基于主题的特征选择方法  22-24
    3.2.2 基于主题的检索模型方法  24-25
  3.3 相关实验以及结果分析  25-29
    3.3.1 语料来源及实验流程  25-27
    3.3.2 实验结果分析  27-29
  3.4 小结  29-30
4 重复评论识别  30-42
  4.1 特征先行词选取  30-33
  4.2 特征标记  33-34
  4.3 相似度比较  34-35
    4.3.1 最短编辑距离  34-35
    4.3.2 倒排索引结构  35
  4.4 相关实验以及结果分析  35-40
    4.4.1 语料来源及实验流程  35-37
    4.4.2 实验结果与分析  37-40
  4.5 小结  40-42
5 Blog作者声誉度计算  42-49
  5.1 博文情感倾向性分析  42-43
  5.2 评估方法  43-44
  5.3 Blog作者声誉度计算  44-45
  5.4 Blog作者声誉度计算  45-47
    5.4.1 实验流程  45-46
    5.4.2 实验结果与分析  46-47
  5.5 小结  47-49
结论  49-51
参考文献  51-54
攻读硕士学位期间发表学术论文情况  54-55
致谢  55-56

相似论文

  1. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  2. 博客应用于中职英语阅读教学的研究,G633.41
  3. Volterra型算子在一些函数空间上的有界性与紧性,O177
  4. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  5. 基于BLOG平台的产品服务设计研究,TB472
  6. 双曲的Q_(T,s)空间及解析函数空间上的算子理论,O177
  7. 解析函数空间上的若干算子,O174
  8. 基于概念集合的网页内容过滤方法的研究,TP393.092
  9. 网络舆情话题情感倾向性分析技术研究,TP393.09
  10. 基于社团发现的Blog信息收集原型系统的研究,TP393.092
  11. 基于文档结构的半监督Blog信息抽取技术,TP393.092
  12. Blog文档的自动文摘方法研究,TP391.1
  13. 网络自主学习模式评价与选择,G434
  14. 生命之光与价值之镜,G434
  15. 基于多分类器的层次式Blog主题标注技术,TP393.092
  16. 基于RSS技术与BLOG平台的机构库信息服务模式研究,G350
  17. 基于ontology的Blog信息抽取技术研究,TP393.092
  18. 主题驱动的Blog社区发现技术研究,TP393.092
  19. 基于评论分析的Blog观点提取技术研究,TP393.092
  20. 社会性软件BLOG支持下的网络协作学习环境设计研究,G434

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com