相较于Bert
改进版的RoBERTa到底改进了什么?
-
- 静态Masking vs 动态Masking
-
- with NSP vs without NSP
-
- 更大的mini-batch
- 原本的BERTbase 的batch size是256,训练1M个steps。RoBERTa的batch size为8k。
-
- 更多的数据,更长时间的训练
-
- BPE编码
版权声明:本文为KazeHelloWorld原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。