CRF训练时,人工标注数据很少,如何达到好的效果


在做CRF标注训练的时候,人工标注的比较少,怎么用模型来自动标注,达到一个好的效果,谢谢?

自己的一个想法:

用这少量的人工标注,训练多个CRF,然后用这几个CRF去标原始数据,然后如果都标得一样,就认为是正确的,然后加入到训练集,等标到一定量时,再去训练CRF,再标,循环下去。

但是这个量应该调到什么程度才是合适的?
已邀请:

ericx - 读书是为了遇见更好的自己。

赞同来自: July


感兴趣的朋友可以参考下Semi-supervised Sequence Labeling for Named Entity Extraction based on Tri-Training:Case Study on Chinese Person Name Extraction

PS.还没法发外链,自己scholar.google.com吧。

要回复问题请先登录注册

收藏七月在线,一起向大牛进阶

ctrl+D或command+D可以快速收藏哦~