实战课程学习感想


两个月前报名了七月在线的kaggle数据科学实战班。虽然没有完全学完,听了老师的讲解,我发现自己以前对于模型还是有很多误解。
以前总是觉得把数据的缺失值删除,保证数据完全clean,通过学习,对这些missing value用平均值或者最常见的值替代,甚至进一步拟合能很大程度提高模型的accuracy。如果直接删除,会损失很多宝贵的信息。
还有对特征的处理,要理解各个特征和他们之间的内在联系,而不是处理完缺失值就直接放入模型运算。一些redundant的特征可以通过groupby的方法提取,还有一些需要一个或者多个特征进行运算所得。
已邀请:

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~