学位论文 > 优秀研究生学位论文题录展示

电信客户流失预测的研究

作 者: Clement Kipkorir Kirui
导 师: 李宏
学 校: 中南大学
专 业: 计算机科学与技术
关键词: 客户流失 数据挖掘 属性集选择 预测 类不平衡
分类号: F626
类 型: 硕士论文
年 份: 2013年
下 载: 8次
引 用: 0次
阅 读: 论文下载
 

内容摘要


客户流失是许多商业部门都极其反感的问题。每个行业都渴望建立和保持一个忠实的客户群。在无线通信行业中,有许多因素会导致客户较容易地流失到竞争对手,这些因素包括激烈的竞争、新技术的出现、低转向成本、新竞争对手的引入。使获得新客户的成本增高的这一实际情况进一步加剧了客户流失问题。电信数据集通常有数百个描述电话详单和和客户资料的属性。然而,并不是所有的属性都具有重要的预测意义,因此有必要选择最佳的流失预测器,以便提高预测模型的性能。此外,流失通常是一个稀有事件,即正类样本是少数类。在这项研究中使用的数据集中,例如,流失客户占总客户的5.6%,其余都是非流失客户。提出了类不平衡问题,这削弱了一些像决策树的数据挖掘算法的学习。在这项工作中,针对不同的特征子集对客户流失预测的影响进行了研究。数据集包含电话详单、客户资料。完整的属性集被分解成多个子集,这些子集分别是网内电话、国际电话、网外电话、增值业务服务电话、客户通话活动信息、、客户资料。然后评估这些属性子集,来确定他们对预测的重要性。接下来,派生出新的属性分为三类:合同的相关属性、电话模式属性、电话模式变化属性。这样的分类为理解这些属性提供了一个简单的框架。合同相关属性描述的特征是指客户与公司的各种协议或合同,这类属性中派生了“任期”属性,它说明了客户使用该公司服务的时间。电话模式属性所描述的特征是指客户通话模式的趋势,这类属性集包含总呼叫持续时间、总电话数量和总语音电话数。假设当总电话数越高,呼叫持续时间越长,客户就不太可能会流失。电话模式变化属性所描述的特征是指客户电话模式的变化。这类属性包含使用分钟的变化,使用频率的变化,影响范围的变化,用户活动的改变,呼叫网外电话持续时间的改变,呼叫网外电话所占的百分比,语音电话打出的百分比。客户呼叫模式的改变量可以是正或是负。对于一些属性如使用频率的变化,如果改变量是正的,这说明用户在后续的月份中有比较多的电话,因此不太可能在短期内流失。另一方面,对于影响范围的变化,如果改变量是负的,这意味着用户在后续的月份中电话数比较少,,因此客户可能早晚会流失。提取了属性之后,将他们组合起来形成一个子集被称为“新属性”,并将它添加到原始数据集中。然后对所有的子集进行评估。在第一组实验中,将所有的子集进行测试并比较它们的预测性能。在第二组实验中,对修改后的数据集和原始数据集中的所有子集进行测试,以确定是否添加新属性后的流失预测率会比原始数据集的流失预测高。由于每个子集的属性维数比较高,所以采用信息增益滤波器的方法来给每个子集的属性按重要性进行排序,每个子集选择排在前面的60个属性。采用C4.5、朴素贝叶斯分类器和贝叶斯网络三种预测技术通过十倍交叉验证来评价属性。在这种技术下,数据集在每一次迭代中被分为十份,数据集中的九份用作训练集来构建预测模型,剩余的一份作为测试集,执行十次迭代。在每种预测技术下,采用TPR和FPR的平均值来生成ROC曲线。从ROC曲线中计算出AUC值,用它作为评价标准选出流失预测的最好的特征子集。实验结果表明,提出的属性的预测性能比原始属性子集要好。为了解决类不平衡的问题,本论文研究了两种抽样方法。在第一个实验中,采用了欠抽样,方法的原理是将训练集中的多数类进行剔除直到得到理想的样子数量。在保持少数类数量不变的情况下,对多数类从它的10%到100%进行抽样。在第二组实验中,运用SMOTH方法对少数类样本进行过抽样,SMOTE是对少数类进行合成,形成训练集,从而对少数类进行过采样控制。在这组实验中,少数类样本以100%到1000%进行过抽样来产生连续的数据点。在第三组实验中,在抽样从100%到1000%的各个样本大小下,将SMOTH与欠抽样方法结合。在三组实验中,均采用C4.5决策树和朴素贝叶斯分类器通过10倍交叉验证进行性能的评估。对于这二种预测技术,记录TPR和FPR的值来生成ROC曲线,并从中计算出AUC值,实验结果表明,欠抽样下的SMOTE方法能够更好地处理类不平衡问题。

全文目录


Abstract  6-8
摘要  8-12
List of Figures  12-13
List of Tables  13-14
List of Abbreviations  14-15
1 Introduction  15-22
  1.1 Background  15-18
  1.2 Motivation for the research  18-19
  1.3 Definition of the problem  19-20
  1.4 Objectives and expected results  20
  1.5 Research method  20-21
  1.6 Order of this dissertation  21-22
2 Theoretical Framework  22-40
  2.1 Introduction  22
  2.2 The Concept of Customet Chum  22-26
  2.3 Techniques for predicting customer churn  26-32
  2.4 Attribute subset selection  32-34
  2.5 Methods of evaluating classifier performance  34-35
  2.6 Class imbalance in churn datasets  35-39
    2.6.1 Alternative evaluation measures  36-37
    2.6.2 Cost-sensitive learning  37-38
    2.6.3 The Receiver Operating Characteritic(ROC)Curve  38
    2.6.4 Sampling-based approaches  38-39
  2.7 Summary  39-40
3 Attribute Subset Selection  40-60
  3.1 Introduction  40
  3.2 Data sampling  40
  3.3 Data preprocessing  40-44
  3.4 Feature extraction  44-47
  3.5 Prediction Techniques  47-53
  3.6 Evaluation Criteria  53-59
  3.7 Summary  59-60
4 Handling Class Imbalance  60-69
  4.1 Introduction  60
  4.2 The dataset  60-61
  4.3 Techniques for handling class imbalance  61-68
    4.3.1 Under-sampling  61-62
    4.3.2 Synthetic Minority Over-sampling Technique (SMOTE)  62-65
    4.3.3 Combining SMOTE with Under-sampling  65-66
    4.3.4 Generating an ROC Curve  66-68
  4.4 Summary  68-69
5 Conclusions and Future Work  69-71
  5.1 Conclusions  69-70
  5.2 Future work  70-71
References  71-76
Research Publications  76-77
Acknowledgements  77

相似论文

  1. K公司计划及预测改进对于合理库存配置的研究,F224
  2. 基于图的标志SNP位点选择算法研究,Q78
  3. 液力减速器制动性能及用于飞机拦阻的仿真研究,TH137.331
  4. 卫星姿态的磁控制方法研究,V448.222
  5. 高精度激光跟踪装置闭环控制若干关键问题研究,TN249
  6. 基于神经网络的水厂投药预测控制研究,TP273.1
  7. 基于数据挖掘技术的保健品营销研究,F426.72
  8. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  9. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  10. 云南省勐腊县南坡铜矿床成矿规律与成矿预测研究,P618.41
  11. 计算智能在数字化卷烟叶组配方中的应用研究,TS44
  12. 地州级卷烟销量预测影响因素研究,F224
  13. 农业昆虫中微RNA基因的生物信息学预测,S186
  14. 广西桂林漓江流域水生态健康评价预测模型研究,X826
  15. 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
  16. 基于小麦群体指标及氮营养状况的籽粒产量和品质预测研究,S512.1
  17. 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
  18. 基于遥感信息与模型耦合的水稻生长预测技术研究,S511
  19. 黄淮和南方地区大豆育成品种籽粒性状遗传构成的分子标记解析及等位变异优选,S565.1
  20. 基于光温的温室春石斛兰生长与外观品质预测模型研究,S682.31
  21. CSB Image-Meater猪智能化影像分级仪瘦肉率预测及猪胴体等级评定标准的研究,S828

中图分类: > 经济 > 邮电经济 > 电信 > 电信企业组织和经营管理
© 2012 www.xueweilunwen.com