双非研究生学习历程及面试总结


个人学习经历

本人本科是通信工程专业,本科毕设做的是基于支持向量机的时间序列预测,研究生是信息与通信工程专业,在2017年9月选导师的时候了解到导师新开了机器学习方向,本人也想往这方面发展,于是选了本人的导师。

刚开始的时候就在网上搜机器学习的资源,比较有名的书籍有李航的统计学习方法(当时还没有出第二版)、周志华的机器学习、机器学习实战、花书等,视频有吴恩达的机器学习、李宏毅机器学习,进阶的还有斯坦福CS231、CS224等课程。于是研一期间一边上课一边自学,主要是理论方面看统计学习方法和西瓜书(个人以统计学习方法为主,遇到看不懂的就再去看西瓜书,个人建议是两本书结合着看,相互补充),等到11月大概过完一遍了,就开始看吴恩达的视频课(本人看吴恩达的主要是因为吴恩达的课太火了,后面也看了一些李宏毅的课程,也很不错)。吴恩达的课程会涉及深度学习,所以在这个过程中又穿插着看花书,主要还是以视频为主。

这个过程持续的比较久,到18年5月份的时候参加了天池的一个比赛,虽然没有取得很好的成绩,但是开拓了视野,明白了比赛和项目的重要性。参加完比赛就在做实验室的项目了,也是使用Python做数据分析,用了LightGBM做预测,一直持续到九月。

这时候自己感觉对于基本的概念知识点都了解,但是缺乏系统性,也缺乏项目和实战经验,一个人学习的话也很难抓住重点,就考虑系统的学习一下。此时经过比较了好几家类似的机构,最终选择了七月在线这个平台,加入了集六的大家庭。

集训营开课之前会有一段时间来学习预习课程,主要有数据结构、数学、Python和机器学习,我由于时间有限只看了Python和机器学习的部分内容(时间充足的话一定要提前看完,好好掌握,不然开课之后就会出现跟不上的情况)。

开课之后三个月的时间是每天都有学习计划,我周内要做实验室的项目,只能晚上和周末进行学习,导致有些地方学得不扎实(建议一定要多看几遍视频,好好自己整理复习)。课程中给的资料都很棒,省了自己很多时间,而且还有一些很棒的案例,自己消化一下就可以拿来用(小抄全集是真的好用)。学习结束之后会要求组队做比赛或者项目,这是一个很好的锻炼自己的机会。

学习完到2019年了,自己感觉还有好多内容没有消化,需要自己整理沉淀。6月份之前在忙着写论文,直到6月份才有时间复习整理,投了一些暑期实习的岗位,从七月份开始到九月份也实习了三个月时间。期间也投递了一些秋招提前批和正式批,参加了一些笔试和面试。

面试总结

某中小公司(自然语言处理算法工程师):

一面:用过哪些中文分词工具(jieba),原理是什么(HMM),为什么使用它而不是别的(简单好用开源),遇到的问题(准确率一般)。
TF-IDF算法(计算公式,为什么加IDF项,为什么取对数,为什么加1),好处(计算速度快),存在的缺陷(静态,依赖于语料库)。
了解PageRank算法吗(了解,但是具体公式忘了,说了一下思想),如何将PageRank算法用于文本(其实就是textrank,说了一下不一样的地方)。

场景题:目前有一批文本内容,每一条包括题目、关键词和正文三部分,如何提取关键词?(我的回答是:从题目中提取名词,从正文中使用tf-idf提取top-k的关键词,和原本关键词一起去重后作为召回的关键词,可以通过给标题、关键词和正文赋予不同的权重来对关键词做重要性排序)

二面:聊实验室做的项目,数据量有多少,数据来源,数据缺失值处理方式,异常值处理方式,使用的评价指标有哪些。
为什么使用lightgbm,效果怎么样,调节了哪些超参数,怎么调节的,如何判断有没有过拟合。有没有和其他模型(如SVM)进行对比,对比结果如何,为什么会出现这种结果。
有没有用过xgboost,lightgbm与xgboost的异同点,,GBDT的原理,和RF的异同点,三种决策树算法的异同(分裂规则,适用问题)。

大型互联网公司

一面:聊做的实验室项目,先阐述项目要解决的问题,再说明设计的解决方案,方案的设计思路,创新点等。
算法题1:类似于两数之和,不过给定数组中的元素允许重复使用,而且不限定使用的元素个数。比如给定数组为[2,3,5],目标值为8,要求输出为[[2,2,2,2],[2,3,3],[3,5]]。可以使用递归来解决,我并没有写出来,讲了下思路。
算法题2:给定一棵二叉树,返回从二叉树右边看到的结点。

二面:牛顿迭代法求一个整数的平方根,爬楼梯问题,求斐波那契数列的第n项(要求时间和空间复杂度为O(1))。共轭分布的定义、二项分布和多项分布的关系。

总结

数据结构与算法:leetcode 剑指offer
机器学习理论知识:统计学习方法/西瓜书 百面机器学习
机器学习实战:机器学习实战:基于sklearn和tensorflow
深度学习理论:花书
已邀请:

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~