学位论文 > 优秀研究生学位论文题录展示

文本分类方案选择方法及原型系统开发

作 者: 付裕
导 师: 党延忠
学 校: 大连理工大学
专 业: 系统工程
关键词: 文本分类算法 特征选择 权重设置 文本表示模型 设计模式
分类号: TP311.52
类 型: 硕士论文
年 份: 2006年
下 载: 196次
引 用: 3次
阅 读: 论文下载
 

内容摘要


本文研究内容基于国家自然科学基金项目“项目管理中项目关联分析与立项决策支持系统研究”,项目的相关性分析依据项目建议书的研究内容,这里涉及的一个基本问题就是文本分类问题。 文本分类问题涉及到文本模型表示、特征选择、分类算法以及权重设置等多种方法的综合应用,需要针对不同的文本集合特点选择合适的分类方案。本文目的是针对不同类型的文本集合,提出一种判断类型的方法,结合文本集合类型与分类相关方法特点,分析可行分类方案,通过实验验证可行方案分析的正确性并找出最佳分类方案,最后通过实例验证可行方案与最佳方案的正确性。并根据应用要求开发一种集成多种文本相关分类方法的原型系统。 首先是文本分类相关方法的特点分析。针对文本分类方法包括文本表示模型、文本分类算法、特征选择方法以及权重设置方法等,根据定义并参考一些文献分析并总结了各种方法的优势与不足。 其次是文本集合的特点分析及文本分类方案的构造与选择。重点分析了不同类别结构的文本集合的特点,并提出在类别结构上不同类型的文本集合的类型判断方法与判断标准。针对不同类型特点,结合分类方法的特点分析可行分类方案并给出最佳分类方案的评价标准和选择方法,通过实验得出最佳分类方案同时验证了可行方案的正确性。 第三是分类原型系统分析与设计。本文对集成多种分类方法的文本分类原型系统进行设计与实现。根据对文本自动分类流程的分析并考虑系统的安全性、灵活性和易维护性进行系统的设计。 最后是分类原型系统的实现与应用实例。本文依靠实现的文本分类原型系统,对两种类型文本集合进行实例计算,根据计算结果和分类方案性能评估标准找出两类文本集合的最佳文本分类方案同时进一步验证了可行方案的正确性。

全文目录


摘要  3-4
Abstract  4-8
1 引言  8-18
  1.1 本文研究问题的提出背景与意义  8-9
    1.1.1 研究问题的提出背景  8
    1.1.2 研究问题的意义  8-9
  1.2 文本分类问题的发展现状综述  9-13
    1.2.1 文本分类问题的由来  9
    1.2.2 文本分类的应用  9-11
    1.2.3 文本分类问题的难点  11-13
  1.3 文本分类问题的国内外研究现状  13
  1.4 文本分类系统涉及的关键技术及研究现状  13-15
    1.4.1 文本表示  13-14
    1.4.2 特征选择  14
    1.4.3 文本分类算法  14-15
    1.4.4 权重设置方法  15
  1.5 研究内容和研究思路  15-18
2 文本分类方法的特点分析  18-23
  2.1 文本表示模型特点分析  18-19
    2.1.1 向量空间模型特点分析  18
    2.1.2 隐性语义索引(LSI-Latent Semantic Index)模型特点分析  18-19
  2.2 分类算法特点分析  19-21
    2.2.1 朴素贝叶斯算法的特点分析  19
    2.2.2 Rocchio算法特点分析  19-20
    2.2.3 KNN算法的特点分析  20
    2.2.4 中心向量算法的特点分析  20-21
  2.3 特征选择方法特点分析  21
    2.3.1 文档频度特点分析  21
    2.3.2 相对熵特点分析  21
    2.3.3 ?2 统计量特点分析  21
  2.4 权重设置方法特点分析  21-23
    2.4.1 TFIDF型权重的特点分析  21-22
    2.4.2 基于熵概念的权重的特点分析  22-23
3 文本分类方案的构造与选择  23-40
  3.1 文本集合类型及特点分析  24-26
    3.1.1 文本集合类型分析  24
    3.1.2 不同类别结构的文本集合特点分析  24-26
  3.2 不同类型文本可行分类方案选择分析  26-31
    3.2.1 文本分类方案  26-28
    3.2.2 类别间基本无交叉内容的文本的可行分类方案分析  28-29
    3.2.3 类别间有交叉内容的文本的可行分类方案分析  29-31
  3.3 不同类型文本集合最佳分类方案选择  31-40
    3.3.1 分类方案性能评估标准  31-33
    3.3.2 最佳分类方案选择方法  33-35
    3.3.3 实验结果及分析  35-40
4 文本分类系统的分析与设计  40-66
  4.1 文本分类系统的分析  40-43
    4.1.1 文本分类系统的功能流程分析  40-41
    4.1.2 文本分类系统的数据流程分析  41-43
  4.2 文本分类系统总体设计  43-47
    4.2.1 系统的网络设计模式的选择  43-44
    4.2.2 系统结构设计  44
    4.2.3 基于模块化的设计  44-47
  4.3 文本分类系统模块设计  47-66
    4.3.1 训练文本统计模块设计  48
    4.3.2 分类器学习模块的设计  48-49
    4.3.3 特征选择模块的设计  49-51
    4.3.4 文本表示模块的设计  51-54
    4.3.5 分类算法模块的设计  54-60
    4.3.6 性能评估模块的设计  60-62
    4.3.7 业务处理中介模块的设计  62-64
    4.3.8 数据库连接模块的设计  64
    4.3.9 人机交互模块的设计  64-66
5 文本分类系统的实现与实验  66-76
  5.1 显示层的实现  66-67
  5.2 业务处理层的优化  67-71
  5.3 应用实例  71-76
    5.3.1 实验数据  71
    5.3.2 实验结果及分析  71-76
结论  76-79
攻读硕士学位期间发表学术论文情况  79-80
致谢  80-81
大连理工大学学位论文版权使用授权书  81

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 体验式服装设计模式研究,TS941.2
  5. 基于数据分布特征的文本分类研究,TP391.1
  6. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  7. OpenBASE企业管理器设计与实现,TP311.52
  8. 基于AdaBoost算法的人脸识别研究,TP391.41
  9. 攀枝花学院人事管理信息系统的设计与实现,TP311.52
  10. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  11. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  12. 基于Web的写作训练系统设计与实现,TP311.52
  13. 基于事件的跨平台移动应用开发框架设计与实现,TP311.52
  14. 面向概念查询的生物医学多文档摘要技术研究,TP391.1
  15. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  16. 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
  17. 结合本体HowNet的中文文本分类研究,TP391.1
  18. 发动机机械故障诊断系统特征提取算法研究,TK407
  19. 商业中心区城市设计策略研究,TU984.13
  20. 支持向量机在入侵检测系统中的应用,TP18
  21. 支持向量机在入侵检测系统中的研究和应用,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com