学位论文 > 优秀研究生学位论文题录展示

基于扩展的VSM中文文本分类方法

作 者: 井志强
导 师: 陈立伟
学 校: 哈尔滨工程大学
专 业: 信号与信息处理
关键词: 文本分类 向量空间模型 知网 义原
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 86次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着因特网的迅猛发展,作为网络主要资源的文本信息也在高速增长。如何有效组织和管理这些信息,并快速、准确、全面的从中找到用户所需要的信息是当前信息科学和技术领域面临的重要问题。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,帮助人们准确高效的定位信息和分流信息,因此具有广泛的应用前景。文本自动分类最常用的方法是基于向量空间模型。通常采用关键词作为向量构建向量空间模型。早期研究是基于知识的,通过人工建立分类规则确定特征项,随着统计机器学习理论和统计自然语言处理技术的发展,使用机器学习的方法确定特征项得到应用,并取得了良好的效果。可是由于受到训练语料库资源和训练时间的限制,机器学习能力也有局限性。有很多对类别有贡献的特征项,通过常规的机器学习是得不到的。用这样的特征向量集生成的向量空间模型在进行文本分类时就不会达到满意的效果,所以机器学习生成的向量空间模型是需要重新构造的。本文提出了一种基于扩展空间向量模型(VSM)的方法用于中文文本分类。该方法对每类文本特征项进行分析,并通过合适的规则抽取了最能代表主题的特征义原,然后用Hownet对这些特征义原扩展,并赋予扩展的特征项适当权值来说明其描述能力。接着联合同义词典将原始向量空间模型,和扩展的向量空间模型融合成新的特征向量空间。最后选择合适的分类器用重构的VSM模型进行分类。本文重点研究了抽取特征义原,设定特征项合适的权值和重构向量空间模型方法。实验表明,该方法能增加有效的向量空间维数,使分类正确率和稳定性均得到提高。最后对论文进行了总结和展望,指出基于扩展VSM的文本分类尚需研究和改进的问题。

全文目录


相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于停用词处理的汉语语音检索方法,TP391.1
  4. 基于SVM分类算法的主题爬虫研究,TP391.3
  5. WordNet和《中国分类主题词表》的映射研究,G254
  6. 基于数据分布特征的文本分类研究,TP391.1
  7. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  8. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  9. 面向汽车行业的主题爬虫研究与实现,TP391.3
  10. 面向短消息文本的聚类技术研究与应用,TP391.1
  11. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  12. 网络教育新闻文本分类系统的设计与实现,TP391.1
  13. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  14. 面向论坛信息文本的有效数据抽取研究,TP391.1
  15. SMBSDD:一种改进的非结构化P2P网络搜索机制,TP393.02
  16. 基于Web的社会网络搜索中人名同一性判断方法研究,TP393.09
  17. Web新闻热点发现系统的设计与实现,TP393.09
  18. 跨语言文本分类的研究,TP391.1
  19. 多角色社交网络研究,TP393.09
  20. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  21. 基于语义分析的文本挖掘研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com