金融风控面试十二问


本文是七月在线集训营兼金融风控课程的梅老师所写。

写在最前面的话
最近看集训营的有些同学在找金融风控方面的工作。咱们集训营课程涉及到的,主要是建模的过程。有些同学对整个业务框架不是很了解,所以总结了一下平时面试聊的比较多的一些点。
前九道题都是工作中一定会碰到的基本内容,如果有一些这方面的工作经验,基本上都会聊到。后面的因人而异,工作经验少的同学,面试官可能会重点看一下对算法的理解,以及一些SQL能力。
PS:我们的风控项目是很精彩,也是我们的简历的核心内容,但是不要写的太过详细了,感觉像是在读一个完整的建模文档一样。最好是每一步写几个概括性的词语,细节留在面试的时候给面试官讲出来,不然面试的时候,就成了你背简历,他读论文......

第一题:你们公司的主要业务是什么?
属于什么类型的贷款产品(现金贷、消费分期等等)
客户一般来自什么渠道,是特定的群体(比如滴水贷只借给滴滴平台的司机),还是面向所有人的(比如常规的p2p公司)
贷款额度、还款周期

第二题:你们的业务做得怎么样?
通过率是多少
pd0、pd7、pd30 大概是多少
注意:这些都反应了你的模型做的如何,通过率越高,逾期率越低,模型越好。
ps:pd0指的是到期当天,pd1指的是逾期一天。

第三题:你都负责哪些业务?
准入策略
风控模型
贷后监控
我们平台的学员,主要是风控模型这块。监控也是必须的,我们要时刻关心模型的通过率和贷后表现是否有异常,警惕欺诈。

第四题:你讲一讲你模型是怎么做的?
确定y如何标记(逾期几天为1,几天为0,每种产品不一样,如果不知道,我建议你说15天为分割点,没什么大问题)
前期数据准备(数据来自 HIVE?MySQL?MongoDB?Spark?)
这里就可以接上学过的风控项目
包括各种算法,建模技巧,基本上都是这里引出的。

第五题:你是标记客户好坏的?
逾期天数作为标记好坏的依据
因为本身样本不均衡,会偏向扩充坏人的数量(比如以pd1来标记好坏,坏人肯定比pd15会多很多)
注意很多公司建模的时候,去除一部分灰色客户(比如去掉pd1~pd5的客户)

第六题:你做模型时用到了哪些数据源?
征信数据
运营商数据
埋点数据
平台自有数据
用户手填数据
数据有很多,每家都各有不同,小心点也可能问你数据来自哪家平台哦。
ps:见过很多小型公司都喜欢用运营商数据,因为便宜,很多都是免费的。

第七题 模型的效果怎么样?
测试集和跨时间验证集的KS和AUC是多少
上线后一个月或者几个月后,模型的KS是多少,AUC是多少

第八题:你们模型是怎么部署上线的?
我经历过的几种上线方法可以分享给大家。
最简单的,把评分卡每个区间加多少分减多少分,怎么做映射的逻辑,讲给开发小哥,他会帮你在线上写 if else
生成一个pmml文件,给开发小哥调用
公司自己做的决策引擎,或者是租的,自己写变量逻辑上线
用flask或者Django自己写接口上线

第九题:上线需要注意什么?
线上线下变量的逻辑必须完全一致,这是最重要的
很多公司会做类似于A\B test,两套模型竞争(一个champion做决策,和一个challenger空跑,也有可能champion 70%,challenger 30%)

第十题:推导一下逻辑回归 & XGBOOST
对于别人可能有些难度,但我相信咱们平台的学员是完全没有问题的

第十一题:讲一下评分卡的分数映射公式
推导主要是换底公式,详见评分卡文档
如果现在刻度区间过大应该如何调整
这里的逻辑要搞清楚,不然通过率出了问题,连怎么调整都不知道

第十二题:手写一下SQL代码
一般算法岗对SQL能力都是有要求的,稍加练习基本没有问题,这里放一个我们公司的笔试题。
请取出,每个班级 所有课程 平均分大于80分的 学生名字

希望你们都是offer收割机~
已邀请:

微博用户439205

赞同来自:


什么时候开课

要回复问题请先登录注册