Roberta

  • Post author:
  • Post category:其他


相较于Bert


改进版的RoBERTa到底改进了什么?

    1. 静态Masking vs 动态Masking
    1. with NSP vs without NSP
    1. 更大的mini-batch
    • 原本的BERTbase 的batch size是256,训练1M个steps。RoBERTa的batch size为8k。
    1. 更多的数据,更长时间的训练
    1. BPE编码



版权声明:本文为KazeHelloWorld原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。