金融风控实战第五课:评分卡 课程笔记


学员号:505476
逻辑回归

问题

短信类别分类(催收、、、)

统计某类短信的词,命中关键词即是
确定某一个词,对某种类别的贡献度(重要度)
迭代去做
数据敏感性

解释数据怎么分析(数据需要对比分析)
评分卡

A卡比较重要,决定进入平台的样本
B卡做提额,加入用户在平台的行为表现
C卡 贷后
入参之--自建模型:

person_info: 个人信息分数
finance_info:金融信息分数
credit_info:之前平台贷后表现分数
active_info:平台活跃表现
问题阶段1

1.A卡用的变量还会有到B卡中么?(不一定,看公司决策)

那如果大家都是用三方生成的特征,建出来的模型是不是都差不多?(主要看每一个建模的人自己对数据的理解和利用率)
逻辑回归中l2与l1 的正则化的区别,l2会比l1高一个点

样本不均衡,可把样本权重class_weight变大

sample_weight 表示对不同样本赋值不同权重,比如离正样本近的负样本,权重小一些

ks 与auc 有什么相同点和不同点?(本质上一样,auc的横轴是负样本累计捕获率,纵轴是正样本累计捕获率)

模型评价

auc是业内比较主流的评价指标
建完模型需要画一下auc看曲线是否部分隆起导致的模型ks表现好,其他地方并不好
业内标准答案是训练集跟验证集差5个百分点以内
用vif进行特征选择,一般vif<10 即可;或者特征少的话,就一个个特征去掉尝试

xgboost为什么要做单调性变换和做分箱?

增加模型鲁棒性
xgboost解释下较差,可能45个特征,用户只跑了其中10个就被拒绝了
很多公司线上用xgb,线下用逻辑回归保证解释性,要保证线上线下一致,所以会对xgb入参进行bivar单调性变换
xgboost 怎么保证模型稳定性?

保证变量稳定
变量做分箱, 可以用iv做分箱
评分卡监控

看每档捕获率,每档坏帐是否递减
监控的时候每个月也看一下1中的报告
分数分布
psi(模型,变量)
低分原因
捕获率
ks值越往后越好
评分卡更新之后,用户的评分卡映射区间要保证跟上一次相同

评分卡score 的ks 要跟变换之前一样

为什么在报告里ks在前几箱突然下降就代表模型比较差?ks 开始下降的点越靠后,说明前ks之前的区分能力比较有保证
已邀请:

要回复问题请先登录注册