学位论文 > 优秀研究生学位论文题录展示

基于Web文本内容的信息过滤系统的研究与设计

作　者: 刘七
导　师: 王树梅
学　校: 南京理工大学
专　业: 计算机应用技术
关键词: 信息过滤文本过滤文本特征抽取空间向量模型文本分类 K元最近邻算法相关度反馈
分类号: TP393.09
类　型: 硕士论文
年　份: 2004年
下　载: 430次
引　用: 16次
阅　读: 论文下载

内容摘要

Internet的迅速发展给人们带来诸多方便的同时，也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题，信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支，它是根据用户的需求，在动态的信息流中搜索用户感兴趣的信息，屏蔽其它无用的信息。本文从过滤不良信息的实用技术角度出发，对基于Web文本内容的不良信息过滤系统进行了研究和设计。本文主要工作包括：构建了基于Web文本内容的不良信息过滤系统的模型。提取Web页面中标记信息和正文文本信息，组成训练文本集。按照一定的方法从训练文本集中抽取特征项，并经过反复训练，建立起特征词典。利用特征词典完成对训练文本和测试文本的表示：正文文本建立VSM表示，标记信息采用布尔模型表示。建立分级匹配策略，完成两者之间的匹配，以决定是否屏蔽测试文本。

全文目录

摘要  3-4
ABSTRACT  4-7
第一章序论  7-17
  1.1 论文背景  7-11
    1.1.1 问题的提出  7
    1.1.2 研究现状  7-11
      1.1.2.1 技术发展现状  7-10
      1.1.2.2 常用的信息过滤系统  10-11
  1.2 信息过滤概述  11-15
    1.2.1 信息过滤的概念与特点  11-12
    1.2.2 信息过滤与信息检索的关系  12-13
    1.2.3 文本信息过滤模型及阶段  13-14
    1.2.4 文本过滤结果的评价指标  14-15
  1.3 本文主要内容和论文结构  15-17
第二章系统总体结构设计  17-21
  2.1 系统总体结构设计  17-18
  2.2 系统设计涉及的主要方面  18-21
第三章基于网址的信息过滤技术  21-24
第四章文本信息过滤中的关键理论和技术  24-69
  4.1 中文自动分词  24-37
    4.1.1 中文分词的概述  24-27
    4.1.2 中文分词算法的分类  27-31
      4.1.2.1 基于词典的分词算法  27-30
      4.1.2.2 无词典的分词算法  30-31
    4.1.3 歧义切分字段的处理  31-32
    4.1.4 中文分词词典的组织结构  32-35
    4.1.5 本系统中使用的中文自动分词系统介绍  35-37
  4.2 文档表示  37-45
    4.2.1 Web文档结构特点  37-39
    4.2.2 Web文档中文本信息的提取  39
    4.2.3 文本表示模型  39-45
  4.3 特征抽取  45-57
    4.3.1 常用的特征抽取方法  46-50
    4.3.2 中文文本特征抽取的实现  50-57
  4.4 用户信息需求模型  57-61
    4.4.1 用户信息需求的表示方法  57-58
    4.4.2 用户信息需求模型的改进  58-61
  4.5 文本模式匹配技术  61-65
    4.5.1 基于KNN的自动文本分类方法  61-62
    4.5.2 本系统文本模式匹配的策略  62-65
  4.6 相关度反馈  65-67
  4.7 实验数据  67-69
第五章结束语  69-71
  5.1 工作总结  69
  5.2 进一步的工作  69-71
致谢  71-72
参考文献  72-74

基于Web文本内容的信息过滤系统的研究与设计

内容摘要

全文目录

相似论文