学位论文 > 优秀研究生学位论文题录展示

基于词语权重的中文文本分类算法的研究

作 者: 侯艳钗
导 师: 沈西挺
学 校: 河北工业大学
专 业: 计算机应用技术
关键词: 信息检索 文本分类 特征抽取 词语权重 文本分类模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着互联网的迅速发展,特别是Internet的普及,Web已成为全球性的、巨大的、分布和共享的信息空间,它为人们搜索信息提供了一种新的手段。但是随着Internet上信息量的爆炸式增加,信息搜索时,与特定用户要求不大相关的信息大量涌现,甚至掩盖了对用户真正有用的信息。因此如何在浩瀚的信息资源中快速、有效地找到自己所需要的信息以及有效地利用这些信息就成了当前研究的热点。文本分类信息检索中起着非常重要的作用,它可以有效地组织和管理这些信息,从而提高信息搜索的效率。论文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括文本分类的基本概念、文本表示模型、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;最后在特征项权重方面,我们分析了传统特征项权重方法的缺点,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种改进的权值计算方法。该权值计算方法将CHI统计量公式引进到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。在特征赋权方面,提出了TF-IDF与X2统计量相结合的权值计算方法。实验证明改进的权重计算方法对分类精度有了很大的提高。论文最后设计和实现了基于词语权重的中文文本分类系统的总体框架,系统流程和功能模块;应用词语权重理论,提出了一种文本分类的新方法。最后设计并验证了基于词语权重的文本分类模型。实验结果表明基于词语权重的文本分类模型是一种比较稳定的算法,证明了算法的有效性。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-14
  §1-1 文本分类研究的背景及意义  8-10
    1-1-1 文本分类概述  8
    1-1-2 研究背景及意义  8-10
  §1-2 文本分类国内外研究现状  10-12
    1-2-1 文本分类在国外的发展  10-11
    1-2-2 文本分类在国内的发展  11-12
  §1-3 课题研究的工作和内容组织  12-14
    1-3-1 课题研究的内容及主要工作  12
    1-3-2 论文的章节安排  12-14
第二章 文本分类的相关技术  14-22
  §2-1 文本分类的基本概念  14-15
    2-1-1 文本分类问题描述  14
    2-1-2 文本分类的技术线路  14-15
  §2-2 文本表示模型  15-17
    2-2-1 文本表示方法  15
    2-2-2 向量空间模型  15-17
  §2-3 常用特征项提取方法  17-19
    2-3-1 词频方法DF(Document Frequency: DF)  17-18
    2-3-2 信息增益方法IG(Information Gain:IG)  18
    2-3-3 互信息方法MI(Mutual Information:MI)  18
    2-3-4 X2统计量(CHI)  18-19
  §2-4 常用的几种分类算法  19-21
    2-4-1 简单向量距离算法  19
    2-4-2 KNN(近邻居)算法  19-20
    2-4-3 朴素贝叶斯算法  20
    2-4-4 神经网络算法  20-21
  §2-5 本章小结  21-22
第三章 词语权重计算方法的改进  22-34
  §3-1 常用的特征提取方法  22-23
    3-1-1 文档频数DF  22
    3-1-2 信息增益  22-23
    3-1-3 期望交叉熵  23
    3-1-4 互信息  23
    3-1-5 X2统计(CHI)  23
  §3-2 传统的TFIDF 特征权重算法分析  23-25
  §3-3 传统的TFIDF 特征权重算法改进  25-28
    3-3-1 传统的TFIDF 特征权重算法的不足  25-26
    3-3-2 对传统TFIDF 特征权重算法的改进  26-28
  §3-4 实验结果与分析  28-33
    3-4-1 实验的介绍  28
    3-4-2 传统的TFIDF 特征权重算法实验  28-29
    3-4-3 改进的 TFIDF 特征权重算法实验  29-30
    3-4-4 特征权重算法改进前与改进后的对比图  30-32
    3-4-5 特征权重算法的对分类性能的影响  32-33
  §3-5 本章小结  33-34
第四章 基于词语权重的文本分类系统的设计与实现  34-45
  §4-1 文本分类系统实现的目的与意义  34
  §4-2 文本分类系统框架设计  34-35
  §4-3 文本分类系统总体结构  35-36
  §4-4 文本分类系统的功能模块说明  36-42
    4-4-1 语料库维护  36-37
    4-4-2 网页预处理  37-39
    4-4-3 文本表示  39-40
    4-4-4 基于词语权重的分类模型  40-41
    4-4-5 训练集和测试集  41-42
    4-4-6 性能评估模块  42
  §4-5 文本分类实验  42-45
    4-5-1 实验环境  42-43
    4-5-2 实验过程及结果  43-44
    4-5-3 实验结果分析  44-45
第五章 总结和展望  45-46
  §5-1 总结  45
  §5-2 展望  45-46
参考文献  46-49
致谢  49

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 生物医学领域检索系统查询扩展技术研究,TP391.3
  4. 面向海量邮件的检索系统研究与实现,TP393.098
  5. 基于Web的未登录词翻译技术研究,TP391.2
  6. 基于统计结构的联机手写藏文识别特征抽取研究,TP391.41
  7. 基于社会网络分析的藏文web链接结构研究,TP393.09
  8. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  9. 基于数据分布特征的文本分类研究,TP391.1
  10. 基于本体的食品投诉文档文本分类研究,TP391.1
  11. 基于本体的中文科技论文分类研究,TP391.1
  12. 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
  13. 英汉可比较语料库的构建与应用研究,TP391.1
  14. 基于聚类的英汉人名消歧研究,TP391.1
  15. 外文数据库无障碍信息检索的策略研究,G354
  16. 基于因特网的动态规范词表的系统构建研究,G354
  17. 基于粗糙集理论的文本分类研究,TP18
  18. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  19. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  20. 集合多标签文本分类研究,TP391.1
  21. 面向军事知识的自动问答系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com