学位论文 > 优秀研究生学位论文题录展示

基于Web文本内容的信息过滤系统的研究与设计

作 者: 刘七
导 师: 王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 信息过滤 文本过滤 文本特征抽取 空间向量模型 文本分类 K元最近邻算法 相关度反馈
分类号: TP393.09
类 型: 硕士论文
年 份: 2004年
下 载: 430次
引 用: 16次
阅 读: 论文下载
 

内容摘要


Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。 本文从过滤不良信息的实用技术角度出发,对基于Web文本内容的不良信息过滤系统进行了研究和设计。 本文主要工作包括: 构建了基于Web文本内容的不良信息过滤系统的模型。 提取Web页面中标记信息和正文文本信息,组成训练文本集。 按照一定的方法从训练文本集中抽取特征项,并经过反复训练,建立起特征词典。 利用特征词典完成对训练文本和测试文本的表示:正文文本建立VSM表示,标记信息采用布尔模型表示。 建立分级匹配策略,完成两者之间的匹配,以决定是否屏蔽测试文本。

全文目录


摘要  3-4
ABSTRACT  4-7
第一章 序论  7-17
  1.1 论文背景  7-11
    1.1.1 问题的提出  7
    1.1.2 研究现状  7-11
      1.1.2.1 技术发展现状  7-10
      1.1.2.2 常用的信息过滤系统  10-11
  1.2 信息过滤概述  11-15
    1.2.1 信息过滤的概念与特点  11-12
    1.2.2 信息过滤与信息检索的关系  12-13
    1.2.3 文本信息过滤模型及阶段  13-14
    1.2.4 文本过滤结果的评价指标  14-15
  1.3 本文主要内容和论文结构  15-17
第二章 系统总体结构设计  17-21
  2.1 系统总体结构设计  17-18
  2.2 系统设计涉及的主要方面  18-21
第三章 基于网址的信息过滤技术  21-24
第四章 文本信息过滤中的关键理论和技术  24-69
  4.1 中文自动分词  24-37
    4.1.1 中文分词的概述  24-27
    4.1.2 中文分词算法的分类  27-31
      4.1.2.1 基于词典的分词算法  27-30
      4.1.2.2 无词典的分词算法  30-31
    4.1.3 歧义切分字段的处理  31-32
    4.1.4 中文分词词典的组织结构  32-35
    4.1.5 本系统中使用的中文自动分词系统介绍  35-37
  4.2 文档表示  37-45
    4.2.1 Web文档结构特点  37-39
    4.2.2 Web文档中文本信息的提取  39
    4.2.3 文本表示模型  39-45
  4.3 特征抽取  45-57
    4.3.1 常用的特征抽取方法  46-50
    4.3.2 中文文本特征抽取的实现  50-57
  4.4 用户信息需求模型  57-61
    4.4.1 用户信息需求的表示方法  57-58
    4.4.2 用户信息需求模型的改进  58-61
  4.5 文本模式匹配技术  61-65
    4.5.1 基于KNN的自动文本分类方法  61-62
    4.5.2 本系统文本模式匹配的策略  62-65
  4.6 相关度反馈  65-67
  4.7 实验数据  67-69
第五章 结束语  69-71
  5.1 工作总结  69
  5.2 进一步的工作  69-71
致谢  71-72
参考文献  72-74

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  4. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  5. 移动网络综合告警管理系统的设计与实现,TN929.5
  6. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  7. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  8. 基于关联技术的中文文本分类研究,TP391.1
  9. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  10. 基于词和基本短语模式的特征提取方法,TP391.1
  11. 基于文本过滤隔离技术的研究,TP393.08
  12. 网络图片中文本区域的定位技术研究,TP391.41
  13. 基于网络信息审计的文本过滤的研究与实现,TP391.1
  14. 中文文本分类研究,TP391.1
  15. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  16. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  17. 基于数据分布特征的文本分类研究,TP391.1
  18. 基于移动Agent的网络信息检索方法研究与应用,TP391.3
  19. 博客检索的关键技术研究,TP391.3
  20. 企业经营范围自动分类及多语种经营范围术语自动获取,TP391.1
  21. 层次型文本分类阻塞问题研究,TP391.12

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com