学位论文 > 优秀研究生学位论文题录展示

基于Map-Reduce构建高效文本聚类系统

作 者: 曾静静
导 师: 李翔;林祥
学 校: 上海交通大学
专 业: 内容安全
关键词: 文本聚类 Map-Reduce 分布式计算 中文分词 K-means算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 248次
引 用: 0次
阅 读: 论文下载
 

内容摘要


根据《2009年中国互联网舆情分析报告》,在2009年77件影响力较大的社会热点事件中,有23件是通过互联网爆料而引起社会广泛关注的。其中邓玉娇案、上海交通管理部门“钓鱼执法”、杭州市飙车案等事件都在社会上造成了极其恶劣的影响。如果互联网缺乏监管,必然会引起反动和黄色信息泛滥,不良的舆论导向混淆视听,从而使得政府丧失公信力,进而威胁到社会的和谐与稳定。而对互联网热点问题进行监控,可以使国家职能机关进行有效的响应,疏导社会舆论压力,进而提升政府公信力,真正使政府做到取信于民,因此有着极为重要的社会价值和现实意义。在目前应用于互联网舆论情况监控的各种技术当中,文本聚类作为面对海量信息实现知识发现和热点发现的基本方法,无疑占据着非常重要的地位。在当前互联网环境下,数据量之大是令人匪夷所思的。相关报告显示,早在2008年,Google每天需要处理的数据量就达到了20PB,并呈现出快速递增的趋势。面对如此海量的数据,除了提高文本聚类算法精确度和效率之外,设计高效且具有良好可扩展性的分布式处理系统就显得尤为重要。文章提出了把Map-Reduce这一强大的分布式计算框架应用到文本聚类系统中去,并使用Map-Reduce的开源实现—Hadoop搭建了一个分布式文本聚类系统,最后通过具体试验对该系统进行了性能和聚类准确度上的调优,并验证了该系统在可扩展性上比一般文本聚类系统所拥有的巨大优势。相关的工作为高效文本聚类系统的构建提供了一种新的思路。

全文目录


相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. K-means聚类优化算法的研究,TP311.13
  3. 演化聚类算法及其应用研究,TP311.13
  4. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  5. 基于本体的食品投诉文档文本聚类研究,TP391.1
  6. 构建分布式系统的关键技术研究与实现,TP338.8
  7. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  8. 面向短消息文本的聚类技术研究与应用,TP391.1
  9. 教育新闻热点话题发现系统的设计与实现,TP391.1
  10. 主观题自动评分技术研究,TP391.1
  11. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  12. 基于Linux平台的局域网云监控系统的分析与实现,TP311.52
  13. 中文XML压缩技术研究,TP311.11
  14. Web新闻热点发现系统的设计与实现,TP393.09
  15. 高校图书馆管理系统的个性化服务的设计与实现,TP311.52
  16. 企业邮件监管系统的设计与实现,TP393.098
  17. 地铁建设项目施工风险评价方法与准则研究,U231.3
  18. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  19. 面向海量数据的云存储系统实现与应用研究,TP333
  20. 基于WEB的社区智能医疗服务系统的研究,TP311.52
  21. 基于k-means的改进聚类融合算法的研究与应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com