学位论文 > 优秀研究生学位论文题录展示

文本层次分类技术研究

作 者: 陈庆轩
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 多分类器融合 文本层次分类 文本倾向性分类 多重特征选择 可信度函数
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 60次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。面对Internet上信息的纷繁芜杂,如何快速、准确全面获取信息,文本的分类技术作为一种有效组织信息,方便信息定位的技术,在近十几年获得了长足的发展。现实的分类体系更多的具有层次性的关系,因此,层次性分类体系下的文本分类具有很好的应用价值。一般层次分类中的类别以目录树的形式组织,形成分类体系的层次关系,层次文本分类采用的是一种分治的策略,整个分类过程从根节点开始,待分类文档分配到一个或者几个子分类树节点下,重复该过程,直到不能继续分类或者到达叶结点为止。本文的主要工作如下:(1)提出了一种多分类器融合的文本分类方法。通过引入可信度函数,选择出主分类器较难判决的文本,通过辅助分类器,对单一主分类器不易判决的文本通过多分类器投票方式进行判决。实验表明,该方法有效地提高了最终分类的准确性,时间开销较单一主分类器只有少量增加,在平面分类与层次分类语料集合上,获得了较好的效果,显示了很好的应用性。(2)应用多重特征选择与多分类器融合方法实现层次文本分类。本文针对层次性分类体系的特点,应用多重特征选择方法,针对不同层次,对不同的子分类任务采用不同的特征空间,更好地代表参与子分类任务的类别,使其具有更好的可区分度,同时将多分类器融合方法应用于此,在实际的测试中获得了较好的应用效果。(3)将多分类器融合的方法应用于文本倾向性分类判别。在篇章级的文本倾向性判别上,本文提出了一种基于多分类器融合的文本倾向性判别方法,针对倾向性分析任务,假设包含不同倾向性观点的文章中褒贬词汇的分布的不一致性,从Hownet中选择出有倾向性的词汇,并应用特征选择方法选择出部分倾向性词汇,与常规方法获得的非倾向性词汇构成混合特征空间,并在实际测试中取得了较好的效果。在针对特定领域的倾向性判定中,获得了较高的效果,具有较好的应用前景。

全文目录


摘要  4-5
Abstract  5-10
第1章 绪论  10-22
  1.1 本文研究的目的和意义  10-11
  1.2 文本分类相关技术  11-18
    1.2.1 文本分类问题描述  11-13
    1.2.2 文本表示模型  13
    1.2.3 文本特征  13-14
    1.2.4 权值表示方法  14-16
    1.2.5 特征选择  16-17
    1.2.6 模型训练和分类算法  17-18
  1.3 文本层次分类技术相关研究  18-20
  1.4 本文结构  20-22
第2章 文本层次分类设计  22-31
  2.1 引言  22
  2.2 文本层次分类体系结构及分类方法  22-24
  2.3 文本层次分类框架  24-26
    2.3.1 文本层次分类特征选择技术  25
    2.3.2 多分类器融合的分类技术  25-26
  2.4 文本层次分类性能评价  26-29
    2.4.1 单表化分类任务的评测方法  26-28
    2.4.2 多标号分类任务的评测方法  28-29
    2.4.3 文本层次分类技术应用  29
  2.5 本章小结  29-31
第3章 文本层次分类特征选择方法  31-40
  3.1 引言  31
  3.2 特征选择方法  31-34
    3.2.1 文档频度  31-32
    3.2.2 互信息  32
    3.2.3 信息增益  32-33
    3.2.4 CHI 统计  33-34
  3.3 多重特征选择技术  34-35
  3.4 多重特征空间在文本层次分类中的应用  35-36
  3.5 实验与分析  36-38
    3.5.1 实验设置  36-37
    3.5.2 实验结果及分析  37-38
  3.6 本章小结  38-40
第4章 基于可信度分析的多分类器融合技术  40-56
  4.1 引言  40
  4.2 文本分类方法  40-45
    4.2.1 类中心方法  40-41
    4.2.2 K 近邻方法  41
    4.2.3 朴素贝叶斯分类器  41-42
    4.2.4 支持向量机  42-43
    4.2.5 神经网络方法  43-44
    4.2.6 决策树方法  44-45
  4.3 多分类器融合的方法  45-47
    4.3.1 投票表决法  45-46
    4.3.2 Bagging 与Boosting 算法  46
    4.3.3 CMM 算法  46-47
    4.3.4 DAGGER 算法  47
  4.4 基于分类器可信度评估的多分类器融合  47-50
  4.5 实验与分析  50-55
    4.5.1 实验设置  50-52
    4.5.2 实验结果分析  52-55
  4.6 本章小结  55-56
第5章 文本倾向性分类技术  56-64
  5.1 引言  56
  5.2 文本倾向性分析相关研究  56-58
  5.3 基于二次特征选择的文本倾向性分析  58-60
  5.4 实验与分析  60-63
    5.4.1 实验设置  60-61
    5.4.2 实验结果分析  61-63
  5.5 本章小结  63-64
结论  64-66
参考文献  66-74
攻读学位期间发表的学术论文  74-76
致谢  76

相似论文

  1. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  2. 基于多分类器融合的遥感影像分类方法研究,P237
  3. 模糊积分及多分类器融合在医疗诊断中的应用,TP18
  4. 基于小生境遗传算法的多分类器融合模型,TP18
  5. 粗糙集在纹理图像分类中的应用研究,TP18
  6. 纠错输出编码算法的研究及其应用,TP311.13
  7. 通过一种不确定性度量ambiguity来确定模糊密度,O159
  8. 基于2DPCA和多分类器融合的人脸识别,TP391.41
  9. 稿件分类决策支持系统的分析与设计,TP311.52
  10. 基于群体决策和证据理论的信息融合新方法及在多分类器集成中的应用,O212.8
  11. 人脸表情特征提取与识别算法研究,TP391.41
  12. 基于多模态特征的垃圾邮件过滤技术研究,TP393.098
  13. 复模糊积分及其应用,O159
  14. 基于模糊积分的多分类器融合方法研究,TP18
  15. 工行大连分行个人住房贷款信用风险评估研究,F832.4
  16. 信用卡欺诈检测分类算法研究,TP18
  17. 印鉴识别算法的研究,TP391.41
  18. 基于Choquet积分的多分类器融合模型研究,O159
  19. 多分类器融合中常用模糊积分的比较,O159
  20. 基于整体识别和局部识别融合的人脸表情识别,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com