学位论文 > 优秀研究生学位论文题录展示

中文文本层次分类研究及其在唐诗分类中的应用

作 者: 肖雪
导 师: 何中市
学 校: 重庆大学
专 业: 计算机软件与理论
关键词: 文本分类 层次分类 向量空间模型 最大熵模型 唐诗
分类号: TP391.1
类 型: 硕士论文
年 份: 2006年
下 载: 164次
引 用: 1次
阅 读: 论文下载
 

内容摘要


作为大规模信息处理重要的应用技术之一,文本分类有其不可忽视的重要性。现有大部分的文本分类方法,无论是二类分类还是多类分类,所分类别都处在同一个层次,即处于同一个平面类空间上。在文本类别数量庞大的情况下,平面分类的性能会受到很大制约。可人们发现有些类别在一起比和别的类别更有共性,可以组成一个类别的集合,从而提出了层次型分类的概念。层次型分类是把分类系统构造为层次结构,即把各类按照一定的层次关系组织成树状结构。因此,层次型分类从结构和性能上,对分类方法来说是一个大的改进,是一种有效的分类途径。本文就中文文本的层次型分类方法进行了研究。主要研究结果如下:1.提出了基于向量空间模型的二重特征选择方法(Feature Dual-Selection, FDS)和层次分类算法(Hierarchical Text Classification, HTC)。针对层次分类的结构特点,本文提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。由于在某一层中对分类贡献大的某些特征在另一层中并不一定重要,为了突显各个特征在不同层次中的重要程度,因此二重特征选择方法对每一层均进行一次特征选择,并设定权重系数δ,逐层改变特征数量和权重计算方法。HTC算法摒弃了一般的层次分类算法即只使用一种分类方法进行分类,把分别对粗分和细分更有效的类中心向量法与支持向量机(Support Vector Machine, SVM)方法相结合,通过在分类时设定的差值阈值α来调节对分类方法的选择,达到了分类方法的优化。2.引入最大熵模型进行文本的层次型分类。最大熵理论是一种在广泛应用于自然语言处理中的概率估计方法,它使未知事件的概率分布总是尽可能均匀,即倾向于得到最大熵。对于文本分类问题,通过建立最大熵模型,把事件集当作类别集,将上下文环境当作文本集,那么就可以使用最大熵模型求任意一篇文档属于任意类别的概率。但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本层次分类的研究尚未见到。把该方法和层次分类相结合,是对中文文本层次型分类的新的探索。最后我们把本文在这两个方面的研究与其他方式进行了比较,用实验验证了本文提出的二重特征选择方法FDS和层次分类算法HTC相对于平面分类和一般的层次分类方法,具有较高的准确率;最大熵方法的效果和主流的分类算法相当,切实可行,是一种值得关注的文本分类方法。并且自己构建了一个唐诗的层次语料库,使用本文研究的方法把唐诗按内容进行层次分类,是层次分类方法在文学领

全文目录


中文摘要  4-6
英文摘要  6-11
1 绪论  11-16
  1.1 论文研究的意义  12-13
  1.2 国内外研究现状  13-14
  1.3 本文研究的目的和研究内容  14-15
    1.3.1 本文研究的目的  14
    1.3.2 本文研究的主要内容  14-15
  1.4 本文的主要内容  15-16
2 文本分类技术  16-31
  2.1 文本分类的评估指标基础  16-18
  2.2 文本分类概述  18-20
  2.3 文本表示模型  20-21
  2.4 文本特征提取  21-23
  2.5 特征权重计算  23-24
  2.6 文本分类算法  24-28
    2.6.1 Rocchio  24
    2.6.2 类中心向量最近距离判别算法  24-25
    2.6.3 朴素贝叶斯(Naive Bayes)  25
    2.6.4 K-邻近算法(KNN)  25-26
    2.6.5 支持向量机(Support Vector Machine,简记为SVM)  26-27
    2.6.6 决策树(Decision Tree)  27
    2.6.7 线性最小二乘拟合(Linear Least Squares Fit,简记为LLSF)  27
    2.6.8 神经网络(Neural Network)  27-28
  2.7 中文文本分类面临的问题及改进的方向  28-29
  2.8 文本的层次分类简介  29-30
  2.9 本章小结  30-31
3 基于向量空间模型的中文文本层次分类方法研究  31-38
  3.1 层次分类的相关研究  31-33
  3.2 关于层次分类的问题  33-34
  3.3 解决方法  34-37
    3.3.1 二重特征选择  34-36
    3.3.2 文本层次分类算法  36-37
  3.4 本章小结  37-38
4 基于最大熵模型的中文文本层次分类方法研究  38-47
  4.1 背景及基本思想  38-39
  4.2 最大熵原理  39-41
    4.2.1 熵的定义  39-40
    4.2.2 最大熵理论  40-41
  4.3 最大熵模型  41-44
    4.3.1 最大熵模型满足的条件  41-42
    4.3.2 特征函数  42
    4.3.3 最大熵模型的构造  42-43
    4.3.4 参数求解  43-44
  4.4 基于最大熵模型的中文文本层次分类  44-46
    4.4.1 基本思路与方法  44-45
    4.4.2 在层次分类中的具体做法  45-46
  4.5 本章小结  46-47
5 实验方法、结果分析及在唐诗分类中的应用  47-57
  5.1 实验方法  47-48
    5.1.1 实验数据  47
    5.1.2 实验参数  47-48
    5.1.3 结果评估  48
  5.2 实验结果及分析  48-53
    5.2.1 实验一:基于向量空间模型的层次分类方法实验  48-52
    5.2.2 实验二:基于最大熵模型的层次分类方法实验  52-53
  5.3 层次分类在唐诗分类中的应用  53-56
    5.3.1 实验方案  53
    5.3.2 实验数据  53-54
    5.3.3 实验结果及分析  54-56
  5.4 本章小结  56-57
6 结论与展望  57-59
  6.1 主要结论  57
  6.2 研究工作的展望  57-59
致谢  59-60
参考文献  60-63
附录  63-64
独创性声明  64
学位论文版权使用授权书  64

相似论文

  1. 领域实体属性及事件抽取技术研究,TP391.1
  2. 人物言论抽取与跟踪技术研究,TP391.1
  3. 基于仿生模式识别的文本分类技术研究,TP391.1
  4. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  5. 基于停用词处理的汉语语音检索方法,TP391.1
  6. 基于SVM分类算法的主题爬虫研究,TP391.3
  7. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  8. 汉语框架自动识别中的歧义消解,TP391.1
  9. 基于数据分布特征的文本分类研究,TP391.1
  10. 试论李攀龙的《唐诗删》,I207.22
  11. 《唐诗宋词选读》对话教学策略探究,G633.3
  12. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  13. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  14. 面向汽车行业的主题爬虫研究与实现,TP391.3
  15. 面向短消息文本的聚类技术研究与应用,TP391.1
  16. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  17. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  18. 唐代音乐中阮的嬗变轨迹研究,J609.2
  19. 心理移情与视阈融合双重视角下的许渊冲和格瑞汉唐诗英译比较研究,I046
  20. 网络舆情分析关键技术研究与实现,TP393.09
  21. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com