金融风控实战第一课:风控业务解析 课程笔记


学号:505476
风控历史

人审
银行风控规则
评分卡
机器学习
评分卡分数

还款概率映射
风控模型

服务于策略
将用户分层n类
模型的作用一定是用于分类的
不同分数段做不同策略,比如额度,费率
风险定价的时候求极值(收益最大化)
完整风控体系

A卡:信用评分卡

购买外部数据,如多头,征信数据
预A卡:用不花钱的数据提前删掉一部分用户(高覆盖,自有数据,如通讯录,通话记录)
B卡:行为评分卡

C卡:催收评分卡

反欺诈

风控规则

四要素验证(姓名,手机号,身份证,银行卡)
利用规则,买欺诈名单,黑名单
人口统计学规则,如年龄
用户经历流程

数据采集
跑preA
反欺诈引擎(规则和模型,模型主要是无监督和社交网络已经深度学习)
准入规则(策略,数据分析和数据挖掘,用监督和无监督方法得到对业务很重要的变量,用户撞库,看命中规则情况)
风控模型
催收
失联补全模型(社团,关系网络找二度三度联系人)
几个概念

坏人占比 badrate
mob(month on book) 开卡时长
vintage分析法
roll-rate分析
客户好坏定义

时间窗口
pd1 pass due 1 逾期1天
pd7 pass due 7
m0 逾期30天内
贷款产品时间长度不同,定义坏用户所用的逾期时间长度不同(一般15天)
入门资料:

利用python进行数据分析--第二版
信用评分模型
本质只有模型和规则

反欺诈引擎,没有标签,一般是无监督
风控模型一般是是有监督模型
准入规则就是规则
提问环节

现在的反欺诈主要是黑中介,欺诈团伙
反欺诈模型的标签,用确定的人染色,作为标签
课程首页,金融风控12问
外部数据源

头脑风暴

用户基本属性

手机号

手机号前缀跟其他来申请的人是否相同
手机号归属地是否相同
是否虚拟运营商
流量卡还是通话卡
通讯录备注姓名

昵称符合固定规律(中文+数字)
备注是否符合某值亲密称呼
出生日期

年龄
星座
生肖
性别

某天性别是否失衡
密码

某天申请人密码是否相同
身份证号

年龄 与手填核对
身份证与其他数据源身份证是否相同
性别
身份证所在地
邮箱

是否是一次性邮箱(有公司可以做判断)
username是否满足特定规律
邮箱服务商提取 与平时邮箱服务商占比对比
邮箱里面数据(账单)
学历

相似性 某天学历分布是否会变化
住房

租房情况是否雷同(住址,大小,价格,与前面统计)
积分

是否超过某个阈值
签到

相似性
ip

是否同一号段
每次登陆是否相同
是不是临时ip
ip与gps是否能对上
gps

经纬度相似性
国家 省份 城市 相似性
ip与gps是否能对上
wifi

ssid 相似性
手机wifi list
贷款前的几分钟有没有切换过wifi
申请时间

时间切片
注册所用时间(太快,太慢都有问题)
一共申请了几次
login_time

时间切片
登录次数和频率
最后一次登录时间距贷款时间的间隔
同一时间登录做校验(同一时间多人登录)
ua(user_agent)

每次打开是否同一ua
渠道

app/h5/微信
渠道id属于违规渠道
app版本

每次app版本号是否相同
app版本会不会太老(老版本app有bug,可能会被黑中介用来攻击)
联系人/推荐人

匹配名字(是否在很多人通讯录或者联系人中)
手机号匹配
设备指纹

imei(一个手机的唯一标示)

是否相同(同一时间申请的用户之间)
每次登陆imei号是否相同
deviceid

同imei号
分辨率

手机型号和屏幕分辨率是否一致
手机品牌

手机品牌相似度
手机型号相似度
操作系统(os)

每次打开操作系统是否相同
来申请的人os是否相同
os的版本是否太旧
错别字可考虑转换成拼音做相似度匹配

地址

地址标准化
模糊匹配
相似度计算(余弦距离,词向量)
company

正则
字节拆分
关键字提取
相似度计算
错别字/同音字识别
第三方数据

人行征信

公司信息是否一致
学历是否一致
居住地址是否一致
手机号是否一致
逾期数据
运营商

是否有相同的联系人
是否有黑名单
通话最频繁的几个人所在地与本人匹配
社保公积金

工资(工资与贷款额度是否匹配)
社保(断缴情况,稳定性)
公积金余额
强反欺诈规则一般不入后面模型
已邀请:

要回复问题请先登录注册