学位论文 > 优秀研究生学位论文题录展示
基于Web文本内容的信息过滤系统的研究与设计
作 者: 刘七
导 师: 王树梅
学 校: 南京理工大学
专 业: 计算机应用技术
关键词: 信息过滤 文本过滤 文本特征抽取 空间向量模型 文本分类 K元最近邻算法 相关度反馈
分类号: TP393.09
类 型: 硕士论文
年 份: 2004年
下 载: 430次
引 用: 16次
阅 读: 论文下载
内容摘要
Internet的迅速发展给人们带来诸多方便的同时,也带来了诸如信息过载、信息迷向、不良信息充斥网上等等很多问题,信息过滤应运而生。中文文本信息过滤是中文信息处理的一个分支,它是根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽其它无用的信息。 本文从过滤不良信息的实用技术角度出发,对基于Web文本内容的不良信息过滤系统进行了研究和设计。 本文主要工作包括: 构建了基于Web文本内容的不良信息过滤系统的模型。 提取Web页面中标记信息和正文文本信息,组成训练文本集。 按照一定的方法从训练文本集中抽取特征项,并经过反复训练,建立起特征词典。 利用特征词典完成对训练文本和测试文本的表示:正文文本建立VSM表示,标记信息采用布尔模型表示。 建立分级匹配策略,完成两者之间的匹配,以决定是否屏蔽测试文本。
|
全文目录
摘要 3-4 ABSTRACT 4-7 第一章 序论 7-17 1.1 论文背景 7-11 1.1.1 问题的提出 7 1.1.2 研究现状 7-11 1.1.2.1 技术发展现状 7-10 1.1.2.2 常用的信息过滤系统 10-11 1.2 信息过滤概述 11-15 1.2.1 信息过滤的概念与特点 11-12 1.2.2 信息过滤与信息检索的关系 12-13 1.2.3 文本信息过滤模型及阶段 13-14 1.2.4 文本过滤结果的评价指标 14-15 1.3 本文主要内容和论文结构 15-17 第二章 系统总体结构设计 17-21 2.1 系统总体结构设计 17-18 2.2 系统设计涉及的主要方面 18-21 第三章 基于网址的信息过滤技术 21-24 第四章 文本信息过滤中的关键理论和技术 24-69 4.1 中文自动分词 24-37 4.1.1 中文分词的概述 24-27 4.1.2 中文分词算法的分类 27-31 4.1.2.1 基于词典的分词算法 27-30 4.1.2.2 无词典的分词算法 30-31 4.1.3 歧义切分字段的处理 31-32 4.1.4 中文分词词典的组织结构 32-35 4.1.5 本系统中使用的中文自动分词系统介绍 35-37 4.2 文档表示 37-45 4.2.1 Web文档结构特点 37-39 4.2.2 Web文档中文本信息的提取 39 4.2.3 文本表示模型 39-45 4.3 特征抽取 45-57 4.3.1 常用的特征抽取方法 46-50 4.3.2 中文文本特征抽取的实现 50-57 4.4 用户信息需求模型 57-61 4.4.1 用户信息需求的表示方法 57-58 4.4.2 用户信息需求模型的改进 58-61 4.5 文本模式匹配技术 61-65 4.5.1 基于KNN的自动文本分类方法 61-62 4.5.2 本系统文本模式匹配的策略 62-65 4.6 相关度反馈 65-67 4.7 实验数据 67-69 第五章 结束语 69-71 5.1 工作总结 69 5.2 进一步的工作 69-71 致谢 71-72 参考文献 72-74
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 移动网络综合告警管理系统的设计与实现,TN929.5
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 基于关联技术的中文文本分类研究,TP391.1
- 面向工程监理的多Agent信息智能检索机制研究,TP391.3
- 基于词和基本短语模式的特征提取方法,TP391.1
- 基于文本过滤隔离技术的研究,TP393.08
- 网络图片中文本区域的定位技术研究,TP391.41
- 基于网络信息审计的文本过滤的研究与实现,TP391.1
- 中文文本分类研究,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 基于移动Agent的网络信息检索方法研究与应用,TP391.3
- 博客检索的关键技术研究,TP391.3
- 企业经营范围自动分类及多语种经营范围术语自动获取,TP391.1
- 层次型文本分类阻塞问题研究,TP391.12
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|