金融风控实战第二课:业务数据分析+模型生成规则 课程笔记


学号:505476
单变量分析

出行公司样例

数据:ft_zodiac.txt
label:zodiac_label.txt
唯一标示:order_id
数据检查(各星座和属相是否正常)
数据重复检查
去除灰色人群(5-15天之间)
分类型变量求每个变量里面每个值的badrate
可以看badrate的最高值与最低值的差值判断变量是否有效(一倍差距)
pd.crosstab
决策树

生成考虑局部最优(当前区分度最大的原则)
剪枝考虑全局最优
基于数的结构进行决策
三个停止条件

当前节点包含的样本属于同一类别
当前属性集为空或者所有的样本在属性上取值相同
当前节点为空


熵的值越大,说明集合值越杂乱,值越小,纯度越高
最佳划分属性

信息增益 id3

划分前熵-(权重1x划分1熵+权重2x划分2熵+。。。)
有几个取值就分成几个分支
问题:针对离散型数据;特征取值越多,效果越好,容易选取值太多的变量做分化
信息增益率

c4.5
基尼指数

cart
信息增益率 与基尼指数结果差别不大
cart树

每次都是二分类
数值型直接分割
分类型类似于one-hot(如:是否为男)
最小化不纯度
多用于回归树
对于特征利用是重复的,但是上面其他两棵树是不重复的
树如何做回归

均方差最小原则
bagging

有放回重抽样
代表方法,随机森林(行采样和列采样)
规则生成

数据集:oil_data_for_tree
x:加油数量、金额、渠道、加油种类。。。
流程

数据去重
数值变量做聚合
文本变量做cnt
缺失处理(数值:0,分类:nan)df.isna().sum()
df.describe()
变量衍生(cnt,num,max,min,var,max-min,mean/var,distinct,)
决策数建模:一般两三层即可
策略即决策数结果路径
或者决策数结果交叉A卡结果
已邀请:

要回复问题请先登录注册