预处理过程中的数据归一化问题


机器学习预处理过程中,都会对数据进行归一化处理,典型的libsvm中有归一化模块
问题是:
数据在归一化的时候多维特征是按照每维特征的最大最小值进行各自缩放到[0,1]或者[-1,1];
为什么不是所有特征按照统一的最大值最小值,同比例的进行缩放?
比如计算出所有特征的唯一最大值与最小值作为range

请教大牛们给予理论上的讲解,谢谢
已邀请:

pnofish - 以前不学现在无术

赞同来自: smartleon justing kiminh


抛砖引玉……
每维特征的数值区间大小范围各不同,因此使得实际上在目标函数中不同的特征实际的贡献度不同,数值范围绝对值越大的特征,对结果的影响越大,每个vector拆开来看就相当于这一维的特征自带了一个权重大的hyper parameter。对每维特征各自归一化,相当于平衡了各自的权重,使得同个feature space上每个feature对目标函数和结果的影响度是相同的。
如果所有维度一起用统一标准归一化,按上述目的来看,应该是相当于什么都没做吧。

等大牛们的严谨讲解。顺便跪求举点栗子讲讲不同的归一化方法在实际问题中到底各自适用于什么场景特点中。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~