学员专访|边学习<机器学习集训营>边参加天池比赛进入复赛TOP 3%


1.jpg


1.现在在哪上学?什么专业方向?在校学习的最大感受和困境是什么?
张杰民:现在就读于辽宁工程技术大学的研究生,软件工程专业,研究方向是推荐系统。在学校的时候,其实自己也清楚很多东西有用,例如:python、爬虫、spark、机器学习等等。但是每当学的时候就不知道怎么办了,总是问自己这个东西有没有用?学了对以后工作有没有帮助,然后徘徊在这样的问题当中,时间就一点点过去了,最后什么都没学到。
每当遇到困境的时候,开始还能坚持解决一下,当问题深入的时候,找不到资源也无从下手的时候,就会产生负面的情绪,这种情绪我感觉是致命的,慢慢的也就放松下来了。

2.怎么知道的七月在线?
张杰民:第一次知道七月在线是通过我们的老师推荐介绍知道的。

3.参加过七月在线的什么课?参加集训营最大的心得和感受是什么?
张杰民:去年十月份的时候参加过七月在线的《10月机器学习算法班》《机器学习集训营》《机器学习项目班》《数据挖掘班》《动态规划实战班》。
通过集训营的学习,使得自身能力的提高,提升了对机器学习与数据挖掘的理解,能够动手解决一些实际问题,比如说:爬取链家的数据,京东的数据以及参加了阿里天池的比赛等,能利用自身所学的知识做一点实实在在的东西了。
切实感受就是自己脑子有东西了,可以做一些事情了。不像在学校的时候,想学还找不到方向。

4.最近有在参加阿里天池一个比赛?可否简单分享下参赛经历和经验?
张杰民:是的,近期和集训营的两位同学共同参加了一个阿里云天池的”智慧交通预测挑战赛“:https://tianchi.aliyun.com/com ... 31598,队名是julyteam007,第43名,进入了复赛TOP 3%。
由于是第一次参加,还是踩了不少坑,首先我们就乱了,三个成员自己忙自己的,最后合并的时候出现了问题,导致了前面做的工作都白费了,但是我们也很果断,乱了就不要了,重新来。。。所以,不要乱!不要乱!不要乱!之后我花了一天的时间写了一个baseline版本,之后都是在这个上面操作的,为整个团队节省了不少的时间,避免了不必要的麻烦。

然后就是具体的东西了,包括数据清洗、特征工程、算法模型(包含调参)。
数据清洗的方法就是在集训营中老师讲的箱线图方式进行的清洗,首先对要清洗的数据排序,求出上四分位数和下四分位数,根据四分位数算出上下限,然后对数据判断是否在上下限区间,如果不再则用上下限的值替换掉即可。
数据清洗这部分这部分很重要,复赛在阿里数加平台上做的,由于数据清洗做的不好,成绩一直上不来,评价指标MAPE一直都很高,始终降不下来,后来在寒老师的指导下,重新做了这部分,成绩提升了上来达到了0.34左右,这个成绩是使用xgboost做的,都说这个是比赛神器嘛,所以我们第一个模型也是选择的这个!
特征工程部分,这个东西寒老师说得很对,和具体业务有关,这个比赛的目标是预测道路的通行时间,我们将这个通行时间转换成速度(道路长度/通行时间),利用速度做了很多的统计特征,包括每10分钟的平均速度、每6分钟的平均速度、每4分钟的平均速度以及前14分钟的平均速度以及对应的车流量的信息。
算法模型部分,这个部分我们第一次使用的是xgboost,前面也说过了,最后xgboost的成绩在0.34,并不是很理想,可能是使用方法有问题,后来使用了在集训营中新学的知识----深度学习,搭建了一个7层的神经网络(输入层输出层也算在内),并且我们直接优化的就是MAPE,这一次带来的惊喜还是很大的,这个模型帮助我们降低了7%的点,成绩达到了0.275。

最难的其实才刚刚到来,压力也很大,我们尝试了很多方法,包括增加特征、调整网络结构等等都没有很大的提升了。一连几天的时间都是原地不动。我们只能不断的尝试,可是效果不好。最后将初赛的数据以及填补了2条路在6月份的缺失值,在最后一次提交成绩中降低了千分之五mape。虽然提升不大,但是方向对了,在迷雾中找到方向的感觉还是很快乐的。

最后多说两句,在比赛中,有许多知识都是来到集训营中后学的,比如说:深度学习,这个东西我之前也只是听过,具体的没写过相应的代码,当比赛结束的时候,有集训营中的同学问我:你们用什么模型?我说:深度学习的模型。他又问我:你之前学过吗?我说:都是现学的 23333…
所以,希望大家都可以参加一下天池这个比赛。。。不要等什么都学会了在去做,应该在边做边学,这样学得快,而且还能知道具体的应用场景。

第一期<机器学习集训营>6名学员自发组成两队参加阿里云天池一比赛,两队都进入了复赛TOP 3%。本篇发的是对其中一队的专访。

BTW
<机器学习集训营第二期>火热报名
2人组团各减500!
扫 码 组 团 立 减 500!


2.jpg

0 个评论

要回复文章请先登录注册

返回顶部