逻辑回归里的损失函数用L2正则,为啥不用L1正则呢?


这个是考虑具体业务吗?用L2正则是不是意味着学到的theta幅度都差不多呢,这样是不是就使得feture的权重趋于接近呢?在什么情况下用L1正则更好呢?请韩老师回答,非常感谢。
已邀请:

寒老师

赞同来自: jasoncoco pirlo21 堂仔


因为实际场景中的特征维度很高,比如可能会到亿以上的级别。

L2正则化是缩放效应,也就是大部分特征都会拿到theta权重,只是数都很小。
L1正则化是截断效应,也就是相关性比较弱的特征拿不到theta权重,直接是0。

实际很多工业界项目中
1)用L2正则化训练起来很慢的;
2)我们是要实时预测的,L1正则化产出的模型,我们只需要存储不为0的特征,因此会节省很多空间,同时计算更高效。
3)这么高维的特征下,L1比L2效果差别也不太大。

要回复问题请先登录注册