金融风控实战第六课:集成模型 课程笔记


学员号:505476
上周遗漏

ks应该在越前面越好,坏账率倒置在越后面越好
低分的原因:某天分数(评分卡)较低,需要查一下原因,关注系数为负的变量的分布(人数分布)
集成模型

xgboost 问题

去掉相互替代性比较强的特征
变量之间相关性很强的话,在树模型的分化中会时不时相互替代,导致变量重要性降低
用xgb选特征在用xgb建模?不符合模型间差异性原则,一般用xgb跑选特征,用到逻辑回归
特征重要性选择一般直接用weight就行
xgb的解释性:线上xgb,线下逻辑回归找问题
为什么两层xgb的模型和逻辑回归很像?
Consistent Individualized Feature Attribution for Tree Ensembles https://arxiv.org/abs/1802.03888
xgb减小偏差,随机森林是减少方差
xgb参数

通用参数 (一般不用改)
集成(增强)参数
eta 学习率
gamma 分割的时候设置的损失减小的最小值
max_depth 树深
min_child_weight 最小子节点权重,权重相等时,为样本个数
max_delta_step
subsample 行采样
colsample_bytree 每颗数分化的列采样
colsample_bylevel 每一棵树每一层分化的时候的列采样
lambda l2正则
alpha l1正则
tree_method 空间搜索方法
scale_pos_wegiht 样本不均衡是设置(正负样本100:1)
其他一般不需要调整
任务参数
xgb调参方法

训练模型时希望达到的效果:auc或ks最大(oot)
希望不要过拟合(train_ks - oot_ks <= 5%)
调参目标要求达到argmax(oot_ks) - argmin(train_ks - oot_ks) = argmax(oot_ks + k(oot_ks-train_ks)) 一般k=0.8
一般不用xgb做规则,直接用树模型做
airbnb反欺诈结合业务定义损失函数
lightgbm
特征选择:按时间排序,分成n份,每次选择n-1份作为试验机,1分做验证集,选n次的交叉特征
如何用集成模型做评分卡

用评分卡不用概率的原因:更容易向领导用户解释,画阈值方便
报告参考上一节
xgb生成的分数没有逻辑回归均匀
已邀请:

要回复问题请先登录注册