学位论文 > 优秀研究生学位论文题录展示

多维数据异常点识别方法的研究

作 者: 高玉霞
导 师: 郑凯
学 校: 沈阳体育学院
专 业: 体育人文社会学
关键词: 异常数据 多维指标 检验方法 距离
分类号: TB114
类 型: 硕士论文
年 份: 2010年
下 载: 45次
引 用: 2次
阅 读: 论文下载
 

内容摘要


统计数据质量问题一直困扰着我国统计界,是政府和社会各界关心的问题,我们需要一种能检查和审核统计数据的可靠性和准确性、识别异常数据的定量方法和工具。在数据处理的过程中偶尔会出现一些异常的,不合逻辑的统计结果,这种结果的出现很可能是由于所处理的数据中包含异常数据造成的。但目前测量学中所提供的异常数据识别方法,都只针对一维数据,即只针对单一测量指标进行数据检查。然而,在统计实践中我们经常会感到仅仅使用单指标进行数据检查不能有效发现测量数据包含的全部异常。为了探索解决此类问题的方法,提高统计数据的准确性和可靠性,本文通过文献资料法、比较分析法和探究性实验法,在对常用异常数据识别方法进行分析的基础之上,尝试寻找一种可应用于多指标情形下的异常数据的识别方法,为数据分析提供便利的辅助工具。要建立异常点的识别方法,首先应寻找一个可以表达多指标情形下点与点之间关系的、简单易用的数量指标。距离是可以满足这个要求的指标之一,利用距离可以表示点与点间关系。如果某点是样本中的异常点,它必远离样本中的其它点,即与多数点的距离较大,其平均距离也必大。反之,若某点为正常值,则它必与样本中的某些点相邻较近,距离较小,则其平均距离必不大。基于此种思想,本文尝试利用点与点之间的平均距离作为识别多维指标下样本异常值的方法。并分别采用欧氏距离、马氏距离和斜交空间距离进行尝试。利用距离建立多指标情形下的异常点识别方法,虽然只是一种尝试,在简单直观的二维数据的运用效果比较好些,但在多维空间中应用是否有较好的表现,由于缺少直观有效的判据而无法验证,值得深入研究、继续完善。对于本例,三种距离获得的结果差别不大,但从距离定义的差别分析,马氏距离应更优于欧氏距离和斜交空间距离。该方法目前尚未完善,还存在许多问题需要在今后的研究中不断完善。

全文目录


摘要  4-5
ABSTRACT  5-9
1 前言  9-13
  1.1 选题的意义  9-11
    1.1.1 问题的提出  9
    1.1.2 异常值  9-10
    1.1.3 研究的目的  10-11
  1.2 研究方法  11-12
    1.2.1 研究思路  11
    1.2.2 研究对象与方法  11-12
  1.3 论文创新点  12
  1.4 预期结果和意义  12-13
2 常用的异常数据检验方法的比较与分析  13-22
  2.1 正态分布的异常数据检验法  13-15
    2.1.1 戈罗伯斯检验法  13-14
    2.1.2 狄克松检验法  14-15
    2.1.3 偏态检验法或峰态检验法  15
  2.2 指数分布的异常数据检验法  15-17
    2.2.1 检验异常小值的T 型统计量  15-16
    2.2.2 均值比检验法  16-17
  2.3 威布尔分布的异常数据检验法  17-18
  2.4 均匀分布检验法  18-20
    2.4.1 上下α/2 分位点检验法  18-19
    2.4.2 顺序统计量检验法  19-20
  2.5 多维统计数据对数正态分布异常点检验与识别  20-21
  2.6 对常用检验方法的总结  21-22
3 寻找多指标情形下检查并发现异常点的方法  22-29
  3.1 统计数据中多指标情形下异常点的问题  22-23
  3.2 多指标情形下异常点识别的思路  23-25
    3.2.1 马氏距离  23-25
    3.2.2 斜交空间距离  25
  3.3 多指标情形下异常点识别方法的尝试  25-27
    3.3.1 利用欧氏距离  25-26
    3.3.2 利用马氏距离  26-27
    3.3.3 利用斜交空间距离  27
  3.4 小结  27-29
4 结论  29-30
参考文献  30-32
致谢  32-33
作者简介  33-34
攻读学位期间的学术活动情况  34-35
附录  35

相似论文

  1. 基于距离映射码的安全指纹认证研究,TP391.4
  2. 基于粒子群算法求曲线/曲面间最小距离方法,O182
  3. 我国优秀竞走运动员分段距离技术特征运动学分析,G821
  4. 基于数字图像处理的血管管径自动测量技术,R310
  5. 基于非点源污染控制的土地利用优化途径研究,X24
  6. 中国野生大豆的群体结构和连锁不平衡特点以及育种有关性状QTL的关联分析,S565.1
  7. 传播距离与农村政治信息传播效果探究,G206
  8. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  9. 山地浅埋近距离煤层群顶板结构与岩层控制研究,TD327.2
  10. 对于系统发育谱法聚类算法的改进,TP311.13
  11. 群控电梯客流密度实时识别技术研究,TP391.41
  12. 虹膜识别算法的研究与实现,TP391.41
  13. “嫦娥一号”微波探测仪数据预处理与分析,V446.9
  14. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  15. 基于分组的动态加权网络关键节点算法研究,TP393.09
  16. 网络应用层时延测量方法比较研究,TP393.06
  17. 基于砂轮包络廓形的复杂曲面加工刀位轨迹计算,TG659
  18. 手指静脉识别技术研究,TP391.41
  19. 循环步进延时距离选通成像的三维显示研究,TP391.41
  20. 车载自组织网络的连通性研究,TN929.5
  21. 毫米波频率步进雷达一维距离成像MFC编程实现,TN957.51

中图分类: > 工业技术 > 一般工业技术 > 工程基础科学 > 工程数学 > 概率论、数理统计的应用
© 2012 www.xueweilunwen.com