学位论文 > 优秀研究生学位论文题录展示
基于过滤技术的投诉信息智能分析与实现
作 者: 苑春燕
导 师: 李爱华
学 校: 沈阳理工大学
专 业: 计算机软件与理论
关键词: 垃圾短信 智能分析 中文分词 特征提取 最小风险
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
本文以建立在统计理论基础上的Bayse分类算法在短信过滤中的应用策略为依据,把投诉平台中针对不良短信的投诉信息作为研究对象,对它们进行智能化的分析与研究,用类别明确的投诉信息指导数据分析的进行,从这些投诉信息中提取垃圾短信的特征,并用于类别未知的投诉信息的分析,最后将整体分析结果以表格形式,提交给相关处理部门作为处理依据,以解决人力对突发性的、大量的举报信息的分析难度。现有短信过滤系统,实际是对以关键词为依据的文本分类的扩展,因此,同样存在文本分类中所具有的缺点:使用内容固定的词典提取关键词,不能适应词的灵活变化;逐条取样分析生成分类器,当测试数据与样本存在差异时,分类器的准确性得不到保证;在整体角度上保证系统的可靠性,没有考虑到关键词提取过程中的风险,因此,从系统的灵活性、通用性和精度三方面对现有过滤策略进行完善,提出了可行有效的解决方法,主要研究内容如下:(1)系统的灵活性:①基本关键词的提取:将基本的最长匹配分词技术与字符串的模糊匹配相结合,仅当基本匹配和模糊匹配同时失败时,才寻找次长词。②提取特征词:将现有短信过滤中的降维思想与文本分类中的类内集中度、类间分散度和类内平均度及加权求和思想相结合,以此提高词对分类贡献所具有的准确性和分类规则的全面性。(2)分类器的通用性:应用概率论中的随机抽样理论采集样本集,避免分类器过分拟合样本数据,使其具有通用性。(3)分类器的准确性:将两类分类问题中使用的最小风险思想进行如下扩展,以使系统所具有的风险最小化:①将它用于多类分类问题;②关键词的提取。基于上述对投诉信息智能分析策略的研究,实现了灵活、高效、准确率高的投诉举报平台系统,经实验数据测试,证明在上述三方面较以往的策略确实有所改善。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-19 1.1 课题的研究背景 10-11 1.2 垃圾短信的定义 11-12 1.3 国内外研究现状 12-16 1.3.1 国外在法律上的防范手段 12-13 1.3.2 国内在技术上的研究现状 13-16 1.4 课题的研究目标和内容 16-19 第2章 短信投诉平台中样本采集的研究 19-26 2.1 分层抽样的原理 19-21 2.2 短信投诉平台中的分层抽样 21-23 2.3 基于假设检验修正抽样比例 23-25 2.4 小结 25-26 第3章 短信投诉平台中中文分词的研究 26-42 3.1 中文文本分词的基本方法 26-30 3.2 短信投诉平台中中文分词的设计 30-39 3.2.1 词典组织结构的改进 30-34 3.2.2 交集歧义的解决 34-35 3.2.3 停用词处理策略的改进 35 3.2.4 各种替换手段的识别 35-37 3.2.5 新词识别策略的研究与完善 37-38 3.2.6 双向分词结果的选择 38-39 3.3 举报平台中中文分词的流程 39-40 3.4 小结 40-42 第4章 短信投诉平台中文本特征提取的研究 42-51 4.1 文本特征提取的定义 42 4.2 特征提取的基本原理 42-47 4.3 短信过滤中特征提取策略的改进 47-48 4.4 特征提取中风险问题的解决策略 48-50 4.5 小结 50-51 第5章 Bayse算法在短信投诉平台中的应用 51-56 5.1 朴素贝叶斯分类器 51-53 5.1.1 贝叶斯定理 51-52 5.1.2 朴素贝叶斯分类原理 52-53 5.2 Bayse在短信过滤应用中策略的改进 53-55 5.3 小结 55-56 第6章 系统的设计与实现 56-71 6.1 系统的体系结构 56-57 6.2 系统各功能模块的实现 57-67 6.2.1 系统开发环境介绍 57-59 6.2.2 各功能模块的具体实现 59-67 6.3 系统测试 67-70 6.4 小结 70-71 结论 71-72 参考文献 72-75 攻读硕士学位期间发表的论文和获得的科研成果 75-76 致谢 76-77
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|