全球人工智能技术创新大赛【赛道三】
很高兴能获得这次的周周星,基本follow了之前周周星大佬们的idea,我这里稍微做个补充:
- 预训练corpus:单句 + pair(s1 + s2) + 反pair(s2 + s1)
- finetune的数据增强:就是大家都介绍过的数据传递,这里给个参考
- ESIM:最初尝试的模型,疯狂调参后5折效果线上只能到0.88多,最后放弃
- ELECTRA/BERT/NEZHA:先pre-train,再fine-tune
线上效果是ELECTRA > NEZHA > BERT,不过我的预训练都没有之前大佬的效果好,目前ELECTRA单折线上0.903,五折0.909,榜上的成绩是这3个模型融合结果。 看之前似乎没人推荐ELECTRA,用了发现效果不错,速度也还行。
- 均按照苏神思路,词频对齐后直接加载模型继续预训练
- mask直接采用transformer官方动态随机的MLM
- 训练参数也是官方的,基本训练200 epochs后拿来用
- 参照SWA思路,把预训练最后几轮的model weights拿来取平均作为最后的model是有提升的,不过最后发现和直接把最后几轮的model预测的结果直接融合效果差不多
- 直接使用CLS层embedding全连接到分类层
- 用了CosineAnnealingWarmRestarts的权重衰减
- fgm能稳定提升0.3%,我这的epsilon=0.1提升最大,提升不明显的可以多试试调调这个参数