Roberta – 小飞侠

Roberta

Post author:xfxia
Post published:2023年10月17日
Post category:其他

相较于Bert

改进版的RoBERTa到底改进了什么？

1. 静态Masking vs 动态Masking
1. with NSP vs without NSP
1. 更大的mini-batch
- 原本的BERTbase 的batch size是256，训练1M个steps。RoBERTa的batch size为8k。
1. 更多的数据，更长时间的训练
1. BPE编码
- BPE

版权声明：本文为KazeHelloWorld原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/KazeHelloWorld/article/details/119960804