学位论文 > 优秀研究生学位论文题录展示
电信客户流失预测的研究
作 者: Clement Kipkorir Kirui
导 师: 李宏
学 校: 中南大学
专 业: 计算机科学与技术
关键词: 客户流失 数据挖掘 属性集选择 预测 类不平衡
分类号: F626
类 型: 硕士论文
年 份: 2013年
下 载: 8次
引 用: 0次
阅 读: 论文下载
内容摘要
客户流失是许多商业部门都极其反感的问题。每个行业都渴望建立和保持一个忠实的客户群。在无线通信行业中,有许多因素会导致客户较容易地流失到竞争对手,这些因素包括激烈的竞争、新技术的出现、低转向成本、新竞争对手的引入。使获得新客户的成本增高的这一实际情况进一步加剧了客户流失问题。电信数据集通常有数百个描述电话详单和和客户资料的属性。然而,并不是所有的属性都具有重要的预测意义,因此有必要选择最佳的流失预测器,以便提高预测模型的性能。此外,流失通常是一个稀有事件,即正类样本是少数类。在这项研究中使用的数据集中,例如,流失客户占总客户的5.6%,其余都是非流失客户。提出了类不平衡问题,这削弱了一些像决策树的数据挖掘算法的学习。在这项工作中,针对不同的特征子集对客户流失预测的影响进行了研究。数据集包含电话详单、客户资料。完整的属性集被分解成多个子集,这些子集分别是网内电话、国际电话、网外电话、增值业务服务电话、客户通话活动信息、、客户资料。然后评估这些属性子集,来确定他们对预测的重要性。接下来,派生出新的属性分为三类:合同的相关属性、电话模式属性、电话模式变化属性。这样的分类为理解这些属性提供了一个简单的框架。合同相关属性描述的特征是指客户与公司的各种协议或合同,这类属性中派生了“任期”属性,它说明了客户使用该公司服务的时间。电话模式属性所描述的特征是指客户通话模式的趋势,这类属性集包含总呼叫持续时间、总电话数量和总语音电话数。假设当总电话数越高,呼叫持续时间越长,客户就不太可能会流失。电话模式变化属性所描述的特征是指客户电话模式的变化。这类属性包含使用分钟的变化,使用频率的变化,影响范围的变化,用户活动的改变,呼叫网外电话持续时间的改变,呼叫网外电话所占的百分比,语音电话打出的百分比。客户呼叫模式的改变量可以是正或是负。对于一些属性如使用频率的变化,如果改变量是正的,这说明用户在后续的月份中有比较多的电话,因此不太可能在短期内流失。另一方面,对于影响范围的变化,如果改变量是负的,这意味着用户在后续的月份中电话数比较少,,因此客户可能早晚会流失。提取了属性之后,将他们组合起来形成一个子集被称为“新属性”,并将它添加到原始数据集中。然后对所有的子集进行评估。在第一组实验中,将所有的子集进行测试并比较它们的预测性能。在第二组实验中,对修改后的数据集和原始数据集中的所有子集进行测试,以确定是否添加新属性后的流失预测率会比原始数据集的流失预测高。由于每个子集的属性维数比较高,所以采用信息增益滤波器的方法来给每个子集的属性按重要性进行排序,每个子集选择排在前面的60个属性。采用C4.5、朴素贝叶斯分类器和贝叶斯网络三种预测技术通过十倍交叉验证来评价属性。在这种技术下,数据集在每一次迭代中被分为十份,数据集中的九份用作训练集来构建预测模型,剩余的一份作为测试集,执行十次迭代。在每种预测技术下,采用TPR和FPR的平均值来生成ROC曲线。从ROC曲线中计算出AUC值,用它作为评价标准选出流失预测的最好的特征子集。实验结果表明,提出的属性的预测性能比原始属性子集要好。为了解决类不平衡的问题,本论文研究了两种抽样方法。在第一个实验中,采用了欠抽样,方法的原理是将训练集中的多数类进行剔除直到得到理想的样子数量。在保持少数类数量不变的情况下,对多数类从它的10%到100%进行抽样。在第二组实验中,运用SMOTH方法对少数类样本进行过抽样,SMOTE是对少数类进行合成,形成训练集,从而对少数类进行过采样控制。在这组实验中,少数类样本以100%到1000%进行过抽样来产生连续的数据点。在第三组实验中,在抽样从100%到1000%的各个样本大小下,将SMOTH与欠抽样方法结合。在三组实验中,均采用C4.5决策树和朴素贝叶斯分类器通过10倍交叉验证进行性能的评估。对于这二种预测技术,记录TPR和FPR的值来生成ROC曲线,并从中计算出AUC值,实验结果表明,欠抽样下的SMOTE方法能够更好地处理类不平衡问题。
|
全文目录
Abstract 6-8 摘要 8-12 List of Figures 12-13 List of Tables 13-14 List of Abbreviations 14-15 1 Introduction 15-22 1.1 Background 15-18 1.2 Motivation for the research 18-19 1.3 Definition of the problem 19-20 1.4 Objectives and expected results 20 1.5 Research method 20-21 1.6 Order of this dissertation 21-22 2 Theoretical Framework 22-40 2.1 Introduction 22 2.2 The Concept of Customet Chum 22-26 2.3 Techniques for predicting customer churn 26-32 2.4 Attribute subset selection 32-34 2.5 Methods of evaluating classifier performance 34-35 2.6 Class imbalance in churn datasets 35-39 2.6.1 Alternative evaluation measures 36-37 2.6.2 Cost-sensitive learning 37-38 2.6.3 The Receiver Operating Characteritic(ROC)Curve 38 2.6.4 Sampling-based approaches 38-39 2.7 Summary 39-40 3 Attribute Subset Selection 40-60 3.1 Introduction 40 3.2 Data sampling 40 3.3 Data preprocessing 40-44 3.4 Feature extraction 44-47 3.5 Prediction Techniques 47-53 3.6 Evaluation Criteria 53-59 3.7 Summary 59-60 4 Handling Class Imbalance 60-69 4.1 Introduction 60 4.2 The dataset 60-61 4.3 Techniques for handling class imbalance 61-68 4.3.1 Under-sampling 61-62 4.3.2 Synthetic Minority Over-sampling Technique (SMOTE) 62-65 4.3.3 Combining SMOTE with Under-sampling 65-66 4.3.4 Generating an ROC Curve 66-68 4.4 Summary 68-69 5 Conclusions and Future Work 69-71 5.1 Conclusions 69-70 5.2 Future work 70-71 References 71-76 Research Publications 76-77 Acknowledgements 77
|
相似论文
- K公司计划及预测改进对于合理库存配置的研究,F224
- 基于图的标志SNP位点选择算法研究,Q78
- 液力减速器制动性能及用于飞机拦阻的仿真研究,TH137.331
- 卫星姿态的磁控制方法研究,V448.222
- 高精度激光跟踪装置闭环控制若干关键问题研究,TN249
- 基于神经网络的水厂投药预测控制研究,TP273.1
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 云南省勐腊县南坡铜矿床成矿规律与成矿预测研究,P618.41
- 计算智能在数字化卷烟叶组配方中的应用研究,TS44
- 地州级卷烟销量预测影响因素研究,F224
- 农业昆虫中微RNA基因的生物信息学预测,S186
- 广西桂林漓江流域水生态健康评价预测模型研究,X826
- 八种昆虫转录组数据中OBP、CSP和RyR基因预测及序列分析,S433
- 基于小麦群体指标及氮营养状况的籽粒产量和品质预测研究,S512.1
- 基于HJ卫星混合像元分解的水稻生长监测技术研究,S511
- 基于遥感信息与模型耦合的水稻生长预测技术研究,S511
- 黄淮和南方地区大豆育成品种籽粒性状遗传构成的分子标记解析及等位变异优选,S565.1
- 基于光温的温室春石斛兰生长与外观品质预测模型研究,S682.31
- CSB Image-Meater猪智能化影像分级仪瘦肉率预测及猪胴体等级评定标准的研究,S828
中图分类: > 经济 > 邮电经济 > 电信 > 电信企业组织和经营管理
© 2012 www.xueweilunwen.com
|