学位论文 > 优秀研究生学位论文题录展示

基于扩展的VSM中文文本分类方法

作　者: 井志强
导　师: 陈立伟
学　校: 哈尔滨工程大学
专　业: 信号与信息处理
关键词: 文本分类向量空间模型知网义原
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 86次
引　用: 1次
阅　读: 论文下载

内容摘要

随着因特网的迅猛发展,作为网络主要资源的文本信息也在高速增长。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的重要问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。文本自动分类最常用的方法是基于向量空间模型。通常采用关键词作为向量构建向量空间模型。早期研究是基于知识的,通过人工建立分类规则确定特征项,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法确定特征项得到应用,并取得了良好的效果。可是由于受到训练语料库资源和训练时间的限制,机器学习能力也有局限性。有很多对类别有贡献的特征项,通过常规的机器学习是得不到的。用这样的特征向量集生成的向量空间模型在进行文本分类时就不会达到满意的效果,所以机器学习生成的向量空间模型是需要重新构造的。本文提出了一种基于扩展空间向量模型(VSM)的方法用于中文文本分类。该方法对每类文本特征项进行分析,并通过合适的规则抽取了最能代表主题的特征义原,然后用Hownet对这些特征义原扩展,并赋予扩展的特征项适当权值来说明其描述能力。接着联合同义词典将原始向量空间模型,和扩展的向量空间模型融合成新的特征向量空间。最后选择合适的分类器用重构的VSM模型进行分类。本文重点研究了抽取特征义原,设定特征项合适的权值和重构向量空间模型方法。实验表明,该方法能增加有效的向量空间维数,使分类正确率和稳定性均得到提高。最后对论文进行了总结和展望,指出基于扩展VSM的文本分类尚需研究和改进的问题。

基于扩展的VSM中文文本分类方法

内容摘要

全文目录

相似论文