金融风控实战第四课:特征工程下 课程笔记


学员号:505476

特征筛选

import featuretools as ft
特征选择

特征是否发散:方差(方差接近于0,对样本区分并没有用),需要归一化
特征与目标的相关性:与目标相关性高的特征,应当优先选择
filter(过滤法)

移除低方差的特征
单变量特征选择
wrapper(包装法)

embedded (嵌入法)

用机器学习算法
基于l1的特征选择(l1范数会把特征权重归一到0)
特征选择目的

减少数量,降维,使模型泛化能力更强(减少过拟合还有一种方法是进行粗粒度分箱)
增强对特征和特征值之间的理解
移除低方差的特征

去掉取值变化较少的特征
单变量特征筛选
会遇到的问题

模型效果不好
训练集效果好,跨时间效果测试不好(在跨时间样本上训练一个模型,并用其入模变量训练原始训练及数据)
跨时间效果也好,上线之后效果不好(变量逻辑出了问题,可能是特征出现穿越)
上线之后效果还好,几周之后分数分布开始下滑(有一两个变量没有在跨时间上面表现的很好)
一两个月内都比较稳定,突然分数分布骤降(去关注外部环境,是否政策原因)
没有明显问题,但模型每月逐步失效()
分等级一般在跨时间验证集
逻辑回归为什么要求变量之间线性无关?sigmoid(wx+b),wx本质是算w与x的相似度
线上KS变动多大了就模型不行了呢?一般看每个月通过率的监控,通过率下降过多,就会调整
在工作中更倾向于使用变量?

变量必须对模型有贡献
逻辑回归要求变量之间线性无关(希望是正交基,否则学习原始w会出现问题)
逻辑回归评分卡希望变量呈现单调趋势
客群在每个变量上分布稳定
变量重要性

iv值
卡方检验
模型筛选
三者选其一使用就行
多用几种模型做筛选,用交叉特征就行(lightgbm,xgb)
变量共线性

相关系数
方差膨胀系数
xgboost 为什么要看相关性?
单调性

bivar图
稳定性

psi
跨时间交叉检验(把样本按照月份切割,每月当单独的箱,每次用一个月当跨时间样本,将每次得到的跨时间样本特征按重要性取交集)
已邀请:

要回复问题请先登录注册