学位论文 > 优秀研究生学位论文题录展示

电子公告系统环境中的数据挖掘技术设计与实现

作 者: 叶磊
导 师: 刘觉夫
学 校: 华东交通大学
专 业: 计算机技术
关键词: 数据挖掘 BBS安全 文本分类
分类号: TP311.13
类 型: 硕士论文
年 份: 2009年
下 载: 57次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet技术的发展,各种网络应用服务越来越多,BBS (Bulletin Boards System)的开设为广大网络用户开辟了自由发表言论的空间,但一些不健康的、反动的言论也给我们的社会和国家带来了负面影响。如何准确的从大量用户言论中有效的清除不文明及反动言论已经成为当前网络管理人员越来越关心的问题。传统的BBS管理方法随着所拥有信息量的急剧增大,不但显得滞后且效率低下,已很难适应时代的发展。数据挖掘正是为了解决传统分析方法的不足,针对大规模数据的分析处理而出现的。因此,如何应用数据挖掘技术来有效、快速地实现BBS的安全管理工作就成为各网站越来越关注的热点。本文通过对数据挖掘领域WEB挖掘技术和文本挖掘技术的探讨,深入研究了数据挖掘技术中的文本分类方法,在基于向量空间模型文本分类方法的基础上介绍了基于类别空间模型的文本分类方法,并根据BBS文本的特点对基于类别空间模型的BBS文本分类方法的特征提取算法进行了改进,提出了组合特征提取算法,大大提高了BBS文本分类的效率。最后,本文在类别空间模型下运用组合特征提取算法的文本分类方法设计开发了“BBS安全监控系统(BBS Content Security Supervision System)”,简化了BBS文档的数据挖掘过程,为甄别和过滤BBS提交的不良信息提供了便捷有效的技术手段。本文所做的工作主要包括:1、对数据挖掘、WEB挖掘、文本挖掘技术进行了分析,提出了如何运用数据挖掘技术提高BBS文本管理的设想。2、通过对基于向量空间模型和基于类别空间的文本分类方法的比较,以及对文本特征提取的复杂性的分析,提出了在类别空间模型下利用组合特征提取算法实现的BBS文本分类方法,并通过实验证明该方法能有效提高分类的精度和速度。3、分析了BBS的构成,在此基础上设计开发了基于类别空间下的BBS文本分类方法的“BBS安全监控系统”。

全文目录


摘要  4-5
ABSTRACT  5-10
第一章 绪论  10-17
  1.1 选题的背景  10-14
    1.1.1 互联网的兴起  10-11
    1.1.2 BBS 的发展及引发的问题  11-13
    1.1.3 BBS 的管理与数据挖掘技术  13-14
  1.2 国内外研究现状  14-15
    1.2.1 国外的研究  14-15
    1.2.2 国内的研究  15
  1.3 本文的组织和主要内容  15-17
第二章 数据挖掘  17-27
  2.1 数据挖掘  17-21
    2.1.1 数据挖掘的概念  17
    2.1.2 数据挖掘的功能  17-18
    2.1.3 数据挖掘的步骤  18-19
    2.1.4 数据挖掘的方法  19-21
  2.2 WEB 挖掘  21-25
    2.2.1 WEB 挖掘的概念  21
    2.2.2 WEB 挖掘的分类  21-22
    2.2.3 WEB 挖掘的步骤  22
    2.2.4 WEB 信息挖掘中的技术  22-25
  2.3 文本挖掘  25-26
    2.3.1 文本挖掘概述  25
    2.3.2 特征提取  25-26
  2.4 小结  26-27
第三章 基于类别空间模型的BBS文本分类  27-37
  3.1 文本分类  27-30
    3.1.1 文本分类的概念  27-28
    3.1.2 文本分类的过程  28-29
    3.1.3 文本分类的方法  29
    3.1.4 分类结果的性能评价办法  29-30
  3.2 基于向量空间模型的文本分类  30-32
    3.2.1 向量空间模型(VSM)简介  30
    3.2.2 基于向量空间模型的文本分类算法  30-32
    3.2.3 向量空间模型的缺点  32
  3.3 基于类别空间模型的文本分类  32-35
    3.3.1 类别空间模型  32
    3.3.2 词语的类别代表性系数  32-34
    3.3.3 类别空间模型的性质  34
    3.3.4 类别空间模型与向量空间模型的比较  34-35
  3.4 基于类别空间模型的 BBS 文本分类  35-36
    3.4.1 BBS 文本的特点  35-36
    3.4.2 BBS 文本分类的步骤  36
  3.5 小结  36-37
第四章 类别空间模型下BBS文本特征提取算法的改进  37-45
  4.1 BBS 文本特征提取的意义  37
  4.2 常用的文本评价特征函数  37-39
  4.3 BBS 文本的组合特征提取的改进算法  39-42
    4.3.1 算法的提出  39-41
    4.3.2 BBS 文本中词的代表性系数  41
    4.3.3 基于类别空间模型的BBS文本分类算法  41-42
  4.4 实验验证  42-44
    4.4.1 实验数据集  42
    4.4.2 实验结果及分析  42-44
  4.5 小结  44-45
第五章 BBS安全监控系统的设计与实现  45-60
  5.1 BBS 的安全监控  45-47
    5.1.1 BBS 的结构  45-46
    5.1.2 常用BBS 监控手段分析  46-47
  5.2 系统设计  47-52
    5.2.1 系统设计思想  47
    5.2.2 系统框架  47-49
    5.2.3 系统主要功能模块  49-52
  5.3 系统实现  52-59
    5.3.1 代码设计  52-58
    5.3.2 系统运行环境  58
    5.3.3 系统的使用情况  58-59
  5.4 小结  59-60
第六章 总结与展望  60-62
致谢  62-63
参考文献  63-66
个人简历 在读期间发表的学术论文  66

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据挖掘技术的保健品营销研究,F426.72
  4. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  5. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  6. Bicluster数据分析软件设计与实现,TP311.52
  7. 基于变异粒子群的聚类算法研究,TP18
  8. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  9. 基于遗传算法和粗糙集的聚类算法研究,TP18
  10. 基于数据挖掘的税务稽查选案研究,F812.42
  11. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  12. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  13. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  14. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  15. 教学质量评估数据挖掘系统设计与开发,TP311.13
  16. 基于数据分布特征的文本分类研究,TP391.1
  17. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  18. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  19. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  20. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  21. 数据挖掘在学校管理和学生培养中的应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com