学位论文 > 优秀研究生学位论文题录展示

基于仿生模式识别的文本分类技术研究

作 者: 黄启虎
导 师: 王宇颖
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 文本分类 仿生模式识别 特征选择 超香肠神经元网络
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 95次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网时代的来临,使得各种电子文本数据急剧增加,如何快速有效地获取、管理和使用这些文本数据,己经成为信息系统学科迫切需要解决的重要问题。而文本分类技术是信息处理技术的重要研究方向,它是对大量的自然语言文本按照一定的主题类别进行自动分类。传统的文本分类算法(或传统模式识别)都是基于最佳划分的,而仿生模式识别(Biomimetic Pattern Recognition,BPR)是基于“认识”事物而不是“区分”事物,更符合人类认识世界的本质,所以本文把仿生模式识别的理论应用在文本分类中。仿生模式识别是一种不同于传统模式识别的理论方法,它的理论基点是特征空间中同类样本的连续性(不能分裂成两个彼此不邻接的部分)特性。它通过对同类本的在高维特征空间的最佳覆盖来达到识别样本的目的。本文对仿生模式识别的理论基础、数学工具和实现方式进行了深入的研究学习,提出了用超香肠型神经元(Hyper Sausage Neuron,HSN)网络实现基于仿生模式识别的文本分类算法。在HSN网络分类算法的基础之上,本文又提出了三种改进方法。对训练样本冗余和噪声的研究,提出了HSN网络和聚类结合的分类算法;对边界样本存在误识别问题的研究,提出了HSN网络的K最高识别算法;而对特征噪声问题的研究提出了二次特征选择算法。此外,还提出了HSN网络和SVM融合的分类算法。在英文数据上,实验结果表明改进的HSN网络分类算法比传统的KNN和SVM分类性能要好;而在中文数据上,改进的HSN分类算法性能要优于KNN,而HSN和SVM融合后分类效果好于它们中的单个分类性能。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-14
  1.1 研究背景和意义  9-10
  1.2 国内外相关技术研究现状  10-12
    1.2.1 文本分类在国内外的研究现状  10-11
    1.2.2 仿生模式识别在国内外的研究现状  11-12
    1.2.3 文本分类和仿生模式识别面临的突出问题  12
  1.3 本文主要研究内容  12-13
  1.4 本文的内容组织  13-14
第2章 文本分类关键技术  14-27
  2.1 引言  14
  2.2 文本分类的基本概念  14-16
    2.2.1 文本分类的定义  14
    2.2.2 文本分类的评价标准  14-16
  2.3 文本分类的主要技术和方法  16-25
    2.3.1 文本表示技术  16-17
    2.3.2 文本特征处理技术  17-21
    2.3.3 文本分类算法  21-25
  2.4 文本分类系统结构  25-26
  2.5 本章小结  26-27
第3章 仿生模式识别与多权值神经元网络原理  27-37
  3.1 引言  27
  3.2 仿生模式识别(BPR)原理简介  27-30
  3.3 仿生模式识别的数学工具——高维空间几何分析理论  30-32
    3.3.1 神经元的多维空间几何对应  30
    3.3.2 多维空间几何的基本分析方法  30-32
  3.4 仿生模式识别的实现方式——多权值神经元人工神经网络  32-36
  3.5 本章小结  36-37
第4章 基于仿生模式识别的文本分类算法  37-49
  4.1 引言  37
  4.2 仿生模式识别用于文本分类的原理  37-39
  4.3 基于超香肠神经元网络的文本分类算法  39-43
    4.3.1 拓扑属性分析和神经元的选择  39-40
    4.3.2 超香肠神经元网络(HSN Network)文本分类算法  40-43
  4.4 实验分析  43-47
    4.4.1 实验设置  43-45
    4.4.2 实验结果分析  45-47
  4.5 本章小结  47-49
第5章 HSN网络文本分类算法的改进  49-58
  5.1 引言  49
  5.2 基于聚类的改进方法  49-51
    5.2.1 相关的聚类技术  49-50
    5.2.2 基于文本聚类的HSN网络分类算法  50-51
  5.3 HSN网络的K最高识别方法  51-53
    5.3.1 HSN神经元覆盖的重叠  51-52
    5.3.2 K最高识别算法  52-53
  5.4 基于二次特征选择的改进方法  53-55
    5.4.1 特征选择分析  53-54
    5.4.2 二次特征选择的方法  54-55
  5.5 实验分析  55-57
    5.5.1 实验设置  55
    5.5.2 实验结果分析  55-57
  5.6 本章小结  57-58
结论  58-59
参考文献  59-64
致谢  64

相似论文

  1. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 基于数据分布特征的文本分类研究,TP391.1
  5. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  6. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  7. 基于AdaBoost算法的人脸识别研究,TP391.41
  8. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  9. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  10. 跨语言文本分类的研究,TP391.1
  11. 基于群体智能的医学图像特征优化算法研究,TP391.41
  12. 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
  13. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  14. 流形学习的方差最小化准则,TP181
  15. 掌纹主线特征选择方法及成像系统研究,TP391.41
  16. 中国民族音乐特征提取与分类技术的研究,J607
  17. 随机森林特征选择,TP311.13
  18. 基于语义分析的文本挖掘研究,TP391.1
  19. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  20. 面向互联网中文舆情信息的情感倾向分析,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com