数据集具有倾斜性或呈长尾分布问题


@寒老师 在分类问题中,当数据集有倾斜性或呈长尾分布时,有什么好的方法可以提高分类的准确性?
已邀请:

寒老师

赞同来自: July LostOsiris zy123


如果你说的是样本类别倾斜的话:
1、采样
2、修改loss function,给少的类别更大的loss权重
3、1:10的正负样本比,构建10个1:1的分类器,做bagging等等...

数据长尾的话,你想想人能分得出来吗,我自己是觉得词要出现一定词频才可能做判定,你每个正负样本里都是新的词,又没有附加词表这种先验知识的话,我觉得计算机做不好...

要回复问题请先登录注册