学位论文 > 优秀研究生学位论文题录展示

基于维基的深度多标签多类别文本分类系统

作 者: 倪雯
导 师: 袁平鹏
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 深层分类 维基百科 语义关系 图结构模型 多标签分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 83次
引 用: 0次
阅 读: 论文下载
 

内容摘要


海量信息的存在使得人们对搜索引擎提出了更加智能化和语义化的需求,如概念搜索、语义搜索引擎等。实现它们的前提是需要对文本进行更精确更深层的多类别标注和主题理解,这是传统的分类方法很难满足的。目前常用的文本分类方法主要有支持向量机(Support Vector Machine,SVM)、k值近邻(k-Nearest Neighbor,kNN)及Na?ve Bayes模型等,实验表明在传统文本分类应用中,将文本分到小规模目标类别的任务中这些算法的表现是优秀的,但在面对大规模多层次类别体系时,它们的能力是相当有限的。特别是,在面对组织关系复杂的图结构类别体系时,传统方法的可操作性,时间复杂性,分类效果都是不能让人满意的。基于维基的深度多标签多类别文本分类WDMLC(Wiki-Based Multi-Lable Deep Text Classification)方法是基于维基丰富的语义数据而提出的。WDMLC主要由三部分构成。首先,在文本中匹配维基百科的领域专业概念和类别标签作为文本的特征,并利用维基中概念间的相关性对特征集合进行整理。其次,利用概念和类别间的关系快速生成一个候选类别集合。然后,最重要的是分析候选类的子图连通聚集性,利用过滤策略、基于图的权值贡献模型,深层类别概率推算模型,确定能表达文本主题的最合适的深层类别,即更下层类别不能用于表达文本主题。另外,模型产生所有与文本主题相关类别间的关联关系的视图,能给用户提供更直观的文本相关领域知识。最后通过维基数据集对提出的方法进行了测试。试验表明基于维基图结构的分类体系在针对深层多标签文本分类应用上,该方法的平均准确率、召回率和F-measure值分别达为76%,85%,80%,较目前基于层次的top-down深度分类方法的效果有较大的提高。并且基于维基的深度多标签分类模型有传统方法很难达到的易操作、快速等优势。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-16
  1.1 问题提出  8-9
  1.2 深度多标签分类的研究意义  9-10
  1.3 国内外研究现状  10-13
  1.4 课题背景与研究内容  13-14
  1.5 文章组织结构  14-16
2 基于维基的深度多标签分类系统的设计  16-21
  2.1 WDMLC 系统的主要设计思想  16-17
  2.2 WDMLC 系统的体系结构  17-19
  2.3 WDMLC 系统的工作流程  19-20
  2.4 小结  20-21
3 基于维基的文本特征表达  21-31
  3.1 维基百科语义数据  21-23
  3.2 构建基于维基知识的概念间语义关联矩阵  23-24
  3.3 基于维基的文本特征表达  24-29
  3.4 小结  29-31
4 基于维基图模型的深度多标签分类  31-44
  4.1 候选类别选取  31-33
  4.2 基于维基分类图结构的类别贡献推导模型  33-43
  4.3 小结  43-44
5 系统测试与分析  44-53
  5.1 数据集  44-46
  5.2 功能测试  46-49
  5.3 性能测试  49-51
  5.4 小结  51-53
6 结束语  53-55
  6.1 总结  53-54
  6.2 展望  54-55
致谢  55-57
参考文献  57-59

相似论文

  1. 基于维基百科的命名实体消歧研究,TP391.1
  2. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  3. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  4. 对外汉语初级教材同译动词考察,H195
  5. 现代汉语可逆句的类型及可逆动因,H146.3
  6. 基于维基百科的语义比较,TP391.1
  7. 基于语料库的中国英语学习者和本族语者高频动词搭配及具体语义关系下句型对比研究,H319
  8. 维基百科的网络结构及可信分析,TP393.02
  9. “反而”和“倒”的对比研究,H13
  10. 现代汉语篇章中的推论连接成分研究,H146
  11. 现代汉语动宾加宾[(V+O1)+O2]结构研究,H146
  12. 领域文本相似度计算方法研究,TP391.1
  13. 交互式问答系统中的省略恢复研究,TP391.1
  14. 基于模糊核聚类和模糊支持向量机的多标签分类方法研究,TP311.13
  15. 英日汉朝“鼻”的语义对比研究,H030
  16. 幼儿话语名核结构的语义研究,H030
  17. 表“推论义”成分研究,H146
  18. 汽车广告语中形容义词语语义谱系及其价值诉求研究,H052
  19. 文本分类和聚类若干模型的研究,TP391.1
  20. 面向问答社区的相关信息推荐技术研究,TP391.3
  21. 《盐铁论》反义动词研究,H134

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com