正负样本比例不均衡的时候如何选择训练和测试集?


我有个数据集60w条记录,完全没有标签,貌似只能半监督学习(完全没接触过...);现在随机选了1w条手工标注,我和朋友每人5k条;发现他标注的里面负样本占10%,我的13%。问:1.我应该怎么选择训练,测试样本集的大小呢?2.我前面的做法是否合理?
已邀请:

SuiterChik - 烫烫烫烫烫烫烫烫烫烫烫烫烫

赞同来自: 寒老师 jeff190421


几个思路:
假设A是大类, B是稀有类
1. 采样,随机采样A的子集(减少A),或随机重复B(增加B)
2. SMOTE构建B类样本
3. 集成,假设A是90%, B是10%, 那么构建9个分类器,每个分类器用10%A和全部的B

扩大集合的思路:
标签传播等,不过前提得要空间平滑假设成立,然而实际中很多情况下是不成立的,摊手┑( ̄Д  ̄)┍

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~