学位论文 > 优秀研究生学位论文题录展示
基于词和基本短语模式的特征提取方法
作 者: 赵蕾蕾
导 师: 李新福
学 校: 河北大学
专 业: 计算机软件与理论
关键词: 文本分类 特征选取 基本名词短语 基本动词短语
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 22次
引 用: 0次
阅 读: 论文下载
内容摘要
Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己的要求搜索到有用的信息,不仅大大提高了文本信息的利用率,还具有广泛的研究价值和商业价值。文本分类主要包括四个部分:文本预处理、特征提取、特征权重计算和分类器分类。其中特征提取是文本分类的关键,而消除语义歧义和降低向量空间维数是特征提取的难点。传统的文本分类方法都以词作为文本的特征进行提取,而单个词语所能涵盖的文本特征含义十分有限。本文改进了特征项单一性的缺点,提出了一种基于词和基本短语模式的特征提取方法。本文采用了对分词后的词语进行词性标注,并且使用同义词词林处理同义词和多义词的方法。即有效地消除了语义歧义,还降低了空间向量维数。本文用KNN分类器和SVM分类器分别进行了实验。实验结果表明,分类的准确率和召回率都得到了提高。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-13 1.1 研究背景及意义 9-10 1.2 研究现状 10-12 1.2.1 国内外研究现状 10-11 1.2.2 当前研究重点问题 11-12 1.3 本文的研究工作及组织 12-13 第2章 文本分类技术概况 13-28 2.1 文本分类的基本概念 13 2.2 文本分类的一般过程 13-14 2.3 文本预处理 14-17 2.3.1 中文分词 14-16 2.3.2 中文词性标注 16-17 2.4 文本表示 17-19 2.4.1 特征项的选择 17 2.4.2 布尔模型 17-18 2.4.3 向量空间模型 18-19 2.5 特征选取 19-23 2.6 权重计算 23-24 2.7 文本分类方法 24-27 2.7.1 k-近邻方法 24-25 2.7.2 支持向量机方法 25-27 2.8 本章小结 27-28 第3章 基本短语的识别 28-35 3.1 特征项类型的比较 28-29 3.2 基本短语的界定和语义分析 29-31 3.2.1 基本名词短语的界定 29-30 3.2.2 基本动词短语的界定 30 3.2.3 基本短语的语义分析 30-31 3.3 基本短语的分析流程 31-32 3.4 基本短语识别的实现 32-33 3.5 实验结果与分析 33-34 3.6 本章小结 34-35 第4章 基于词和基本短语模式的中文文本分类方法 35-45 4.1 基于词和基本短语模式的中文文本分类方法的实现 35-36 4.2 文本预处理 36 4.3 停用词处理和语义的消歧 36-38 4.3.1 停用词的处理 36-37 4.3.2 语义的消歧 37-38 4.4 特征选取 38 4.5 权重计算方法的改进 38-39 4.6 实验评估函数 39-40 4.7 实验结果及分析 40-44 4.7.1 实验数据 40-41 4.7.2 实验结果及分析 41-44 4.8 本章小结 44-45 第5章 结论与展望 45-46 5.1 结论 45 5.2 展望 45-46 参考文献 46-50 攻读硕士期间发表论文情况 50-51 致谢 51
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于语义分析的文本挖掘研究,TP391.1
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于关联技术的中文文本分类研究,TP391.1
- 软件缺陷自动分派研究,TP311.52
- 基于决策树分类算法的Web文本分类研究,TP391.1
- 结合本体HowNet的中文文本分类研究,TP391.1
- 基于集成学习的垃圾短信多级分类技术研究,TN929.53
- 基于内容挖掘的中文垃圾邮件过滤技术研究,TP393.098
- 基于NMF垃圾邮件过滤系统研究,TP393.098
- 互联网新闻热点挖掘系统的研究与实现,TP393.09
- 基于内容的Web新闻文本自动分类问题研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|