学位论文 > 优秀研究生学位论文题录展示

面向专业领域的文本特征提取技术研究

作 者: 田文颖
导 师: 骆志刚
学 校: 国防科学技术大学
专 业: 软件工程
关键词: 文本特征提取 中文分词 文本挖掘 文本分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 59次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随着文本信息的爆炸式增长,文本分类、聚类等文本挖掘技术作为信息处理的重要手段,在信息检索、知识发现等领域起着越来越重要的作用。文本特征提取是文本处理中的关键技术,准确、低维的文本特征向量才能有效反映出文本的主题信息。在文本挖掘应用中,尤其在对专业领域文本进行文本分类时,目前的文本预处理技术和特征选择方法仍然存在不足。本文以专业领域文本挖掘为背景,在分析现有中文分词算法和特征评估函数的基础上,对文本特征提取技术进行了研究和改进。本文所做的主要工作如下:(1)分析了文本特征词的属性特征,面向文本特征提取应用,提出了一个快速分词算法(TFE-SEG)。算法采用N-最短路径法进行歧义切分,不进行兼类词的识别,通过建立专业领域词典和停用词典简化了分词步骤,通过计算互信息来识别词组。测试表明该算法能够更快速、准确地获取候选特征词集。(2)利用TFE-SEG分词算法进行文本预处理,在传统的TFIDF评估函数基础上综合考虑了多个权值影响因子,建立了ZLP-TFIDF评估函数,实现了准确、高效的文本特征选择。(3)实现了一个基于支持向量机的文本分类器,以计算机专业领域学术论文为语料库进行了分类测试,比较了不同分词算法和特征选择方法对文本分类效果的影响。实验证明本文提出的分词算法和文本特征选择方法优化了文本分类效果。

全文目录


摘要  9-10
ABSTRACT  10-11
第一章 绪论  11-18
  1.1 课题背景  11-12
  1.2 文本特征提取概述  12-16
    1.2.1 定义  12-13
    1.2.2 文本特征的表示方法  13-14
    1.2.3 文本特征提取的过程  14-15
    1.2.4 相关研究  15-16
  1.3 课题研究内容  16-17
  1.4 论文结构  17-18
第二章 面向文本特征提取的分词算法  18-36
  2.1 中文分词介绍  18-21
    2.1.1 基于词典的分词方法  18-19
    2.1.2 基于理解的分词方法  19-20
    2.1.3 基于统计的分词方法  20
    2.1.4 基于语义的分词方法  20-21
  2.2 常用分词算法的不足  21-26
    2.2.1 特征词的特点分析  22-23
    2.2.2 分词标准的确定  23-24
    2.2.3 歧义切分处理  24-25
    2.2.4 词性标注方法  25
    2.2.5 未登陆词识别  25-26
    2.2.6 词组识别  26
  2.3 TFE-SEG 分词算法  26-32
    2.3.1 构建词典  27-28
    2.3.2 词性标注策略  28-29
    2.3.3 基于专业词典的N-最短路径切分法  29-31
    2.3.4 基于互信息的词组识别  31-32
    2.3.5 分词步骤  32
  2.4 实验分析  32-35
    2.4.1 分词的评价准则  32-34
    2.4.2 测试方法  34
    2.4.3 测试结果分析  34-35
  2.5 本章小结  35-36
第三章 文本特征选择方法  36-46
  3.1 特征选择模型  36-37
    3.1.1 向量空间模型VSM  36-37
  3.2 几种常用的评估函数  37-41
    3.2.1 文档频率DF(Document Frequency)  38
    3.2.2 信息增益IG(Information Gain)  38-39
    3.2.3 互信息MI(Mutual Information)  39
    3.2.4 X2 统计(CHI-square)  39-40
    3.2.5 期望交叉熵ECE(Expect Cross Entropy)  40
    3.2.6 TFIDF  40-41
  3.3 ZLP-TFIDF 评估函数  41-43
    3.3.1 确定权值影响因子  41-43
    3.3.2 确定权值评估函数  43
  3.4 构建向量空间模型  43
  3.5 实验分析  43-44
  3.6 本章小节  44-46
第四章 文本特征提取技术在文本分类中的应用  46-56
  4.1 分类系统的实现  46-50
    4.1.1 分类算法的选择  46-47
    4.1.2 分类系统的结构  47-50
  4.2 语料库  50
  4.3 分类效果评估指标  50-52
  4.4 分类测试结果  52-55
    4.4.1 精度测试  53-54
    4.4.2 速度测试  54-55
  4.5 本章小节  55-56
第五章 总结与展望  56-58
  5.1 本文总结  56-57
  5.2 工作展望  57-58
致谢  58-59
参考文献  59-63
作者在学期间取得的学术成果  63

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 教育新闻热点话题发现系统的设计与实现,TP391.1
  5. 联合聚类算法研究及应用,TP311.13
  6. 主观题自动评分技术研究,TP391.1
  7. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  8. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  9. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  10. 基于NMF垃圾邮件过滤系统研究,TP393.098
  11. 基于本体的个性化信息系统的应用研究,F49
  12. 基于粗糙集的启发式属性约简特征选择方法研究,TP18
  13. 基于文本挖掘的性别分类研究,TP391.1
  14. 基于机器学习的经济行业分类方法研究,TP391.1
  15. 主题搜索引擎信息抽取技术研究,TP391.3
  16. 面向中文Web评论的情感分析技术研究,TP391.1
  17. 城市地址信息空间化的原理及方法研究,P208
  18. 基于Android的垃圾短信处理系统的研究与设计,TP391.1
  19. 基于语义的主题搜索引擎研究,TP391.3
  20. 基于机器学习的蛋白质相互作用关系抽取的研究,Q51-3
  21. 网络文本信息采集分析关键技术研究与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com