金融风控100道面试题:传统银行开发转行互金top3公司并年薪40多万


我是机器学习集训营第四期的学员,我2016年从北京某211学校计算机科学与技术/生物技术双学位本科毕业,在国企中做了两年传统的银行系统开发,主要是c语言开发贷款系统,在做本科毕业设计的时候就用过计算机神经网络,对这方面一直都在关注着,一直想进入人工智能领域,苦于一直没有找到合适的学习机构和学习方法。

后来我同事给我分享了七月在线的人工智能课程,我看了一下课程表,里面是我想学的内容, 经过考虑,我和同事一起报名了集训营4期的课程,这个课程是晚上8点到10点授课,有批改作业等环节,刚好适合我们这种平时白天上班晚上回来学习的上班族。

边上班边学习了两个多月课程结束后,我开始投简历,先后收到了百度,阿里,搜狐,滴滴,京东等大厂和很多小公司的面试邀请,由于是刚开始面试,准备的不是很充分,也是想试一试水,因为缺乏项目经验,且数据结构方面的算法知识我没有复习,刚开始面试的时候很多问题回答的不是很好,经过不断地面试总结和再面试,后面回答得就比较顺畅了。

最后2018.9月底我拿到了我比较满意A公司的offer,做的是金融风控,待遇是22k*15+期权,还有京东的offer,京东的offer是做推荐的,因为我个人比较喜欢金融,所以选择去了A公司,在A公司工作了快1年,在A公司期间学到了很多东西,做了不少的项目,金融风控方面的项目经验丰富了很多,积累了很多技能和业务知识,我现在跳槽到了B公司,B公司是比A公司做得更早和更大的Top3互联网金融公司,平台更好,工资也涨到了28*15。

感谢七月在线让我成功从传统的国企转到了现在头部的互联网金融公司,成功转到了心怡的ai金融领域,给我的事业发展带来了更广阔的天空,实现了自我突破。

以下是我面试中被问到的和自己总结的,我觉得面试时比较重要的知识点,希望对新学员有所帮助(小编注:绝大部分面试题的答案都在题库里哦:https://www.julyedu.com/question):
1、用python写出AUC的计算过程
1、常见的激活函数有哪些,各自的区别和使用场景
2、梯度弥散和梯度爆炸
3、Relu在0值处是不可导的,谈谈对这个问题的看法
4、在你自己的场景里如何解决样本不平衡问题以及为什么要这样做
5、你所参与的项目里实时性如何保证
6、项目的背景 数据量 数据如何切分 建模的流程以及这么做的考量点是什么
7、金融的话,主要是LR+树模型,当然模型问的东西一般都会根据简历上的项目来问
8、数据结构面试问题,我知道的常问题;10大排序算法,中后序遍历 有序数组合并 打印倒三角
9、Xgboost的推导,这个是在说项目的时候涉及到了这些,所以就让我推了一些,再说了一些细节的东西,比如正则化的作用,和GBDT的区别。
10、排列组合算法

11、自己对接的业务现在用什么方法去做
12、如何把一堆正数和负数分开,回答完后会再问如果有0怎么办
13、了解什么机器学习算法,说一下LR的损失函数,聚类的方法,K值怎么选取
14、怎么计算TF-IDF
15、怎么进行类别划分(根据什么,怎么训练)
16、分类与聚类的区别
17、特征怎么选择(特征工程还需要学习)怎么知道选出来的是最好的
18、SVM核函数的选择、核函数的主要作用是什么,SVM与LR的异同点(从样本集、目标函数、优化方向)
19、常用的性能评估指标与计算方式,它们之间的比较
ROC、AUC、精确率,错误率,召回率
20、Bagging与boosting的区别,(RF与xgboost的区别) bagging与boosting的偏差与方差

21、怎么根据数据集选择模型,不同模型之间的差异
22、简历中写的东西要了解的面面俱到,尤其细节
23、SVM为什么使用拉格朗日乘子法?软间隔怎么做?
24、关于word2vec上下文词怎么表示中心词,输入是什么,上下文词权重,中心词怎么得到、怎么把词向量放到模型中训练,(LR的输入)分词之后拿到重点词之后怎么处理
25、项目中的特征组合是怎么组合的,为什么,有何指导意义,组合形成了什么,对脱敏数据怎么进行组合
26、项目中把项目名称”某”词去掉,省得面试官觉得是假项目
27、什么是负采样,原理是什么?正负样本不平衡时该怎么采样,采样出的结果是什么(比例)
28、模型细节,怎么调参
29、连续值特征离散化有什么好处?
30、朴素贝叶斯的输入是什么,怎么进行分类,如何进行计算的

31、有一个几百GB级数据文件,数据中每行都是一个词,如何统计输出Top10(集群与不用集群)
32、Xgboost/RF1 GBDT是怎么选择出特征重要度的(内部怎么计算的)
33、L1和L2的区别,各自的优点
34、评价指标:AUC、ROC、精确率、召回率
35、混淆矩阵、降维
36、分类模型:
38、LR逻辑回归
39、LR的损失函数是什么,为什么不用L2loss
40、逻辑回归和最大似然函数的关系

41、LR样本均衡怎么处理
42、 如果对LR样本采样,怎么在预估时还愿真实的概率P
43、L1和L2的区别
44、DT决策树
1)决策树建模过程(停止生长和生长方式)
2)ID3、C4.5、CART区别/联系
3)DT缺失值,处理方式
4)回归树构建方式
5)DT怎么控制过拟合
45、NB朴素贝叶斯
1)贝叶斯公式
2)有什么假设条件
3)遇到计数为0的项怎么计算概率p
46、SVM
1)SVM原理
2)求解SVM时为什么把原问题转换为对偶问题
3)为什么引入核函数
4)有什么kernel,怎么选
5)什么函数可以作为kernel function
6)SVM对缺省数据敏感吗
7)rbf、kernel为什么能把原始维度映射到无穷多维
47、集成模型
1)RF/GBDT/Adabost/Xgboost
2) xgboost和GBDT的区别
3)xgboost为了控制过拟合做了什么优化
4)xgboost的并行化是怎么做的
5)xgboost树生长的精确分裂与近似分裂分别怎么做的
48、为什么要进行特征离散化
49、KS,AUC详解,会画图解释推导
50、时间复杂度,空间复杂度、边界考虑、代码风格

51、算法要从头到尾讲清楚
52、从面试中积累问题、反思、回顾、积累答不上来的问题
53、hadoop/Spark加分项,不会大量花时间在这上面;数据流程会问,数据处理能力
54、卷积神经网络的卷积层为什么加padding
55、gru和lstm的区别
56、lstm的结构和原始rnn区别为啥能缓解梯度弥散
57、数据不均衡怎么办
58、损失函数、优缺点
59、为什么dropout能缓解过拟合
60、神经网络需要调哪些超参数、参数有啥作用,对结果有啥影响

61、为什么用神经网络做文本分类
62、有哪些激活函数,求导、特点
63、什么时候会出现梯度弥散、梯度爆炸、之前的网络怎么处理这些问题的
64、卷积神经网络的结构是什么样的网络
65、典型的神经网络有哪些、每一个网络的出现有啥优化。
66、介绍一下在做项目的时候怎么判断网络过拟合了
67、手推LR、GBDT、xgboost和自己项目里用到的算法
68、随机森林和xgboost的区别
69、把算法里面的思想和原理讲清楚,项目里面用到的算法要全方位弄清楚

70、Xgboost为什么要用二阶泰勒展开
71、Xgboost什么时候是残差
72、为什么xgboost不用lr
73、xgboost怎幺处理缺失值?
74、xgboost中哪些参数可以控制过拟合?
Xgboost调参优化的一般方法
GBDT vs Xgboost vs LightGBM
75、最大似然估计原理
76、逻辑回归与线性回归的联系、异同?
77、为什么逻辑回归比线性回归好

78、LR和SVM的关系
79、你们公司线上模型的ks,逾期率,线上有多少模型
80、工作中用的数据源及其底层的逻辑
91、你觉得做模型最重要的是什么?即一个好的模型算法工程师所必须的技能有哪些?
已邀请:

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~