学位论文 > 优秀研究生学位论文题录展示

文本分类在学科导航中的应用研究

作 者: 张春红
导 师: 李灿平
学 校: 成都理工大学
专 业: 信号与信息处理
关键词: 文本分类 中文分词 学科导航 支持向量机 K最近邻
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 104次
引 用: 2次
阅 读: 论文下载
 

内容摘要


Internet技术的迅速发展导致网站上的文档信息成指数级增长,用户欣喜信息丰富的同时也为信息的无序和冗余所烦恼。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。建设网络资源学科导航系统是高校图书馆数字化信息服务的重要功能之一,也是其有效组织和利用网络信息的手段之一。随着网络信息和网页数量的增加,人工分类成了建立学科导航的主要瓶颈,把网页文本分类技术应用于学科导航建设,将是解决这个问题的主要手段。本文针对学科导航建设中的信息内容自动分类问题进行了研究,主要研究内容有:1)介绍了文本分类的研究现状和学科导航的发展,并研究了文本分类的基本概念、相关技术及文本分类应用于学科导航的可行性和带来的影响。2)介绍了文本表示技术及步骤,给出了一种改进的基于最大匹配原则的分词算法,并将其用于地质工程学科导航的文本表示中,这种改进算法保留了最大匹配分词法简单易于实现的特点,又充分考虑了最大交集歧义切分字段,保证了分词词典的延展性,一定程度上保证了学科导航分类系统的开放性和适用性。3)介绍了SVM和KNN两种分类算法的基本理论,分别利用LIBSVM软件和KNN算法的JAVA程序将两种分类算法应用于学科导航,然后从分类精确度、分类速度和算法推广度三个方面对两种实验结果进行了分析评价。实验结果表明SVM和KNN在学科导航文本分类中各有优势和缺陷,SVM的分类速度比KNN快,但算法推广度不如KNN。KNN直接反映样本与样本的关系,不考虑特征向量对类别的影响,因此在分类精确度上受影响。4)通过比较SVM和KNN实验,提出将SVM-KNN应用于学科导航。实验结果表明,SVM-KNN算法结合了SVM算法和KNN算法的优点,开拓了分类算法的新思路。SVM-KNN的适用性比SVM好,又降低了KNN算法对样本容量的要求和人工干预度,据实验观察,SVM-KNN是目前解决学科导航分类问题较好的办法。

全文目录


摘要  4-5
ABSTRACT  5-6
目录  6-8
第1章 绪论  8-12
  1.1 选题依据  8-9
  1.2 文本自动分类技术概念  9-10
  1.3 国内外研究现状  10-11
  1.4 本文研究内容和论文组织  11-12
第2章 文本分类技术  12-24
  2.1 文本分类技术综述  12-14
    2.1.1 文本分类技术基本特性  12-13
    2.1.2 文本分类的基本框架及一般模型  13-14
  2.2 文本分类相关技术  14-22
    2.2.1 文本自动分词技术  14-15
    2.2.2 特征选择技术  15-17
    2.2.3 分类技术  17-20
    2.2.4 文本分类模型的评估技术  20-22
  2.3 文本分类的应用  22-23
  2.4 本章小结  23-24
第3章 学科导航的特点及文本分类的适用性  24-29
  3.1 学科导航的特征分析  24-25
  3.2 文本分类应用于学科导航的必要条件  25-26
  3.3 文本分类对学科导航的影响  26-27
    3.3.1 文本分类对学科导航建设的影响  26-27
    3.3.2 文本分类对学科导航应用的影响  27
  3.4 本章小结  27-29
第4章 学科导航的文本表示技术  29-36
  4.1 中文分词  29-33
    4.1.1 交集型歧义字段的定义  29-30
    4.1.2 分词处理  30-33
  4.2 文本的特征表示  33-34
  4.3 文本的特征选择  34
  4.4 本章小结  34-36
第5章 基于SVM的学科导航分类算法  36-52
  5.1 SVM算法  36-44
    5.1.1 VC维理论  36-37
    5.1.2 统计学习理论推广性的界  37
    5.1.3 结构风险最小化准则  37-38
    5.1.4 SVM模型  38-44
    5.1.5 多类SVM算法  44
    5.1.6 SVM的应用  44
  5.2 算法设计  44-47
    5.2.1 数据准备  44-46
    5.2.2 SVM参数选择  46-47
  5.3 实验及结果分析  47-51
    5.3.1 实验条件  47
    5.3.2 分类测试  47-51
  5.4 本章小结  51-52
第6章 基于KNN的学科导航分类算法  52-57
  6.1 KNN算法  52-54
    6.1.1 KNN规则  52
    6.1.2 KNN的相似度算法  52-54
  6.2 算法设计  54-55
  6.3 实验结果及分析  55
    6.3.1 实验条件  55
    6.3.2 分类测试  55
  6.4 本章小结  55-57
第7章 基于SVM-KNN的学科导航分类算法  57-61
  7.1 SVM-KNN分类模型的形成  57
  7.2 SVM-KNN算法  57-58
  7.3 实验结果及与SVM的对比分析  58-59
    7.3.1 实验条件  58
    7.3.2 结果分析  58-59
  7.4 本章小结  59-61
第8章 结论与建议  61-64
  8.1 本文研究成果与内容  61-63
  8.2 今后工作的展望  63-64
致谢  64-65
参考文献  65-66

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于仿生模式识别的文本分类技术研究,TP391.1
  10. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于用户需求调查分析的高校图书馆学科导航研究,G252.6
  16. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  17. 基于车载3D加速传感器的路况监测研究,TP274
  18. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  19. 基于数据分布特征的文本分类研究,TP391.1
  20. 基于机器学习的入侵检测系统研究,TP393.08
  21. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com