学位论文 > 优秀研究生学位论文题录展示
BBS论坛敏感信息发现与识别技术
作 者: 徐卫
导 师: 陈丽亚;刘功申
学 校: 上海交通大学
专 业: 通信与信息系统
关键词: 未知敏感信息 新词发现 反向最大匹配 属性利用 简单贝叶斯
分类号: TP393.09
类 型: 硕士论文
年 份: 2007年
下 载: 133次
引 用: 1次
阅 读: 论文下载
内容摘要
随着国际互联网的迅速发展,互联网上的应用日趋增多。BBS的出现就是一个众所周知的例子,它在最近几年的发展速度更加迅猛,成为互联网时代的第二春。但是良莠不齐的信息充斥论坛社区,一些新出现的偏激言论或者敏感信息在网络上迅速蔓延,当人们意识到这些广泛传播的信息竟然是新出现的敏感词汇的时候(注:这里的敏感词汇是广泛意义上的敏感,包括反动、色情、社会热点),它们造成的恶劣影响已经达到不可以挽回的地步。人们对于网络与系统安全展开了大量研究,遗憾的是,对于网上媒体信息内容的安全问题,只是在近年来才逐渐得以重视。为了建设和谐的社会主义国家,为了保证国家安全、稳定,同时保护网络用户远离有害信息的侵扰,以及控制对这些信息的访问,有必要采取有力措施对这类信息进行监控,同时也有必要为运行Web服务的各种组织,提供对此类信息的访问加以监控的技术和服务。为此开发先进的文本信息安全监控技术是一项紧急而又重要的课题。针对这一问题,本文结合自然语言理解、中文信息处理、粗糙集理论、决策树构建等相关知识,通过分析各类经典算法的优缺点,结合本实验室文本信息处理目前研究进展,创造性地融合了简单贝叶斯算法和基于帖子属性构造决策树的算法,研究了适合发现未知敏感信息的各种模型和算法等。本文首先描述BBS的发展历史及其所面临的安全隐患,接着论述敏感信息的概念、敏感信息识别和发现的重大意义及迫切性和当前国内外对于这方面的研究现状,在此之后,谈到了中文信息处理中必须解决的分词技术、文本的向量表示、文本特征的提取、经典的降维算法和权重计算TF-IDF。由于出现的新词条具有成为敏感信息的很大可能性,如果不加以早早防御,会带来极大危害,我们接着介绍了目前国内外对于新词发现这一方向的常用算法包括本文采用的RMM算法,并给出伪代码的实现。鉴于我们预先知道帖子的类别,就可以直接从已经被判为敏感类别的帖子中做下一步工作,即敏感信息挖掘的角度考虑,我们引入的文本分类这个自然语言理解中常遇到的问题,并从研究背景、研究历史、分类已有的经典算法、分类的性能指标。最后,我们介绍了本文所采用的基于简单贝叶斯的方法对文本类别进行判断,并给出实验过程和实验数据分析。在针对现有过滤监控技术的速度问题可能成为瓶颈这一问题,我们提出基于帖子的属性信息来构造决策树技术用于实现未知敏感信息的”先知”的必要性和可行性,接下去介绍了决策树的概念、原理、表示方法,并通过具体实例来详细地介绍ID3算法以及本文的实验系统的实现流程。接着,比较了两种方法的优缺点,最后得出的结论是为了较为实时地发现未知敏感信息,可以首先通过基于构建决策树去判断帖子的敏感性与否,如果遇到不能判断的条件下,再通过简单贝叶斯方法对文本进行分类,最后如果得到一篇帖子具有敏感性的可能性很大的前提下,再运用新词发现模块来做下一步的新词发现工作。最后对本文的研究课题进行总结,提出当前研究的可行性和今后一些需要改进的地方,并提出相应的对策。
|
全文目录
摘要 5-8 ABSTRACT 8-12 第一章 绪论 12-17 1.1 BBS 发展现状不容乐观 12-13 1.2 敏感信息与非敏感信息的区别 13-14 1.3 敏感信息发现与识别的概念 14 1.4 敏感信息发现与识别的重要意义 14 1.5 国内外研究现状 14-15 1.6 课题的提出 15 1.7 本文的内容安排 15-17 第二章 中文文本表示技术 17-30 2.1 论坛文本信息的预处理 17 2.2 汉语的几种自动分词技术 17-19 2.3 论坛帖子的向量化表示 19-21 2.4 文本特征的提取 21 2.5 经典的特征降维算法 21-22 2.6 权重计算 22-23 2.7 BBS 新词发现技术 23-30 第三章 已知先验知识的文本过滤 30-37 3.1 文本分类的研究背景 30 3.2 文本分类的研究历史 30 3.3 文本分类主要过程 30-32 3.4 文本分类经典算法 32-35 3.5 文本分类的性能指标 35 3.6 实验分类方法的选择 35-37 第四章 基于Naive Bayes 的论坛文本分类 37-41 4.1 Naive Bayes 原理分析 37-38 4.2 实验过程 38 4.3 实验数据 38-40 4.4 实验小结 40-41 第五章 未知敏感信息的捕获 41-57 5.1 研究的背景概况 41 5.2 决策树思想在未知敏感信息挖掘中的应用 41-46 5.3 实验原理分析 46-49 5.4 实验数据 49-52 5.5 实验小结 52-53 5.6 实验性能比较 53-57 第六章 工作总结与前景展望 57-59 6.1 工作总结 57-58 6.2 未来研究展望 58-59 参考文献 59-70 致谢 70-71 攻读硕士学位期间发表的学术论文 71
|
相似论文
- 基于Web的领域词典构建技术研究,TP391.1
- 面向WI输入法的新词发现技术研究与实现,TP391.14
- 基于条件随机场模型的新词发现系统研究与实现,TP391.1
- Logistic回归与贝叶斯网络在上市公司财务预警中的应用研究,F275
- 汉语新词语发现及其词性标注方法研究,TP391.1
- 中文名实体识别与新词发现技术研究,TP391.1
- 文本分类算法在垃圾邮件过滤中的研究与应用,TP393.098
- 基于内容过滤的反垃圾邮件技术研究,TP393.098
- 基于内容的垃圾邮件过滤研究,TP393.098
- 文本分类在短信过滤中的应用,TN929.5
- Blog文本内容敏感信息的自动提取技术,TP391.1
- 基于分类模型的知识发现过程研究,G302
- 面向服务的多主体协作机制的研究与实现,TP393.09
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- 基于Web的课堂教学视频分析与诊断系统的设计与实现,TP393.09
- 面向业务过程的服务动态组合方法研究,TP393.09
- 公安信息网边界接入平台的设计与实现,TP393.09
- 面向服务的Web报表的研究与设计,TP393.09
- 基于面向服务架构的公众信息系统在新农村信息化建设中的应用研究,TP393.09
- 基于逻辑Petri网的Web服务组合建模与分析,TP393.09
- IP网络QoS技术研究,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com
|