学位论文 > 优秀研究生学位论文题录展示

基于过滤技术的投诉信息智能分析与实现

作 者: 苑春燕
导 师: 李爱华
学 校: 沈阳理工大学
专 业: 计算机软件与理论
关键词: 垃圾短信 智能分析 中文分词 特征提取 最小风险
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文以建立在统计理论基础上的Bayse分类算法在短信过滤中的应用策略为依据,把投诉平台中针对不良短信的投诉信息作为研究对象,对它们进行智能化的分析与研究,用类别明确的投诉信息指导数据分析的进行,从这些投诉信息中提取垃圾短信的特征,并用于类别未知的投诉信息的分析,最后将整体分析结果以表格形式,提交给相关处理部门作为处理依据,以解决人力对突发性的、大量的举报信息的分析难度。现有短信过滤系统,实际是对以关键词为依据的文本分类的扩展,因此,同样存在文本分类中所具有的缺点:使用内容固定的词典提取关键词,不能适应词的灵活变化;逐条取样分析生成分类器,当测试数据与样本存在差异时,分类器的准确性得不到保证;在整体角度上保证系统的可靠性,没有考虑到关键词提取过程中的风险,因此,从系统的灵活性、通用性和精度三方面对现有过滤策略进行完善,提出了可行有效的解决方法,主要研究内容如下:(1)系统的灵活性:①基本关键词的提取:将基本的最长匹配分词技术与字符串的模糊匹配相结合,仅当基本匹配和模糊匹配同时失败时,才寻找次长词。②提取特征词:将现有短信过滤中的降维思想与文本分类中的类内集中度、类间分散度和类内平均度及加权求和思想相结合,以此提高词对分类贡献所具有的准确性和分类规则的全面性。(2)分类器的通用性:应用概率论中的随机抽样理论采集样本集,避免分类器过分拟合样本数据,使其具有通用性。(3)分类器的准确性:将两类分类问题中使用的最小风险思想进行如下扩展,以使系统所具有的风险最小化:①将它用于多类分类问题;②关键词的提取。基于上述对投诉信息智能分析策略的研究,实现了灵活、高效、准确率高的投诉举报平台系统,经实验数据测试,证明在上述三方面较以往的策略确实有所改善。

全文目录


摘要  5-6
Abstract  6-10
第1章 绪论  10-19
  1.1 课题的研究背景  10-11
  1.2 垃圾短信的定义  11-12
  1.3 国内外研究现状  12-16
    1.3.1 国外在法律上的防范手段  12-13
    1.3.2 国内在技术上的研究现状  13-16
  1.4 课题的研究目标和内容  16-19
第2章 短信投诉平台中样本采集的研究  19-26
  2.1 分层抽样的原理  19-21
  2.2 短信投诉平台中的分层抽样  21-23
  2.3 基于假设检验修正抽样比例  23-25
  2.4 小结  25-26
第3章 短信投诉平台中中文分词的研究  26-42
  3.1 中文文本分词的基本方法  26-30
  3.2 短信投诉平台中中文分词的设计  30-39
    3.2.1 词典组织结构的改进  30-34
    3.2.2 交集歧义的解决  34-35
    3.2.3 停用词处理策略的改进  35
    3.2.4 各种替换手段的识别  35-37
    3.2.5 新词识别策略的研究与完善  37-38
    3.2.6 双向分词结果的选择  38-39
  3.3 举报平台中中文分词的流程  39-40
  3.4 小结  40-42
第4章 短信投诉平台中文本特征提取的研究  42-51
  4.1 文本特征提取的定义  42
  4.2 特征提取的基本原理  42-47
  4.3 短信过滤中特征提取策略的改进  47-48
  4.4 特征提取中风险问题的解决策略  48-50
  4.5 小结  50-51
第5章 Bayse算法在短信投诉平台中的应用  51-56
  5.1 朴素贝叶斯分类器  51-53
    5.1.1 贝叶斯定理  51-52
    5.1.2 朴素贝叶斯分类原理  52-53
  5.2 Bayse在短信过滤应用中策略的改进  53-55
  5.3 小结  55-56
第6章 系统的设计与实现  56-71
  6.1 系统的体系结构  56-57
  6.2 系统各功能模块的实现  57-67
    6.2.1 系统开发环境介绍  57-59
    6.2.2 各功能模块的具体实现  59-67
  6.3 系统测试  67-70
  6.4 小结  70-71
结论  71-72
参考文献  72-75
攻读硕士学位期间发表的论文和获得的科研成果  75-76
致谢  76-77

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 空间交会接近视觉测量方法研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 多币种纸币处理技术的研究与实现,TP391.41
  11. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 移动机器人视觉检测和跟踪研究,TP242.62
  14. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  15. 基于随机森林的植物抗性基因识别方法研究,Q943
  16. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  17. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  18. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  19. 红外图像目标识别及跟踪技术研究,TP391.41
  20. 水下目标特征的压缩与融合技术研究,TN911.7
  21. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com