bpe 中文tokens

  • Post author:
  • Post category:其他

一分钟搞懂的算法之BPE算法 – 知乎来自 深度学习自然语言处理 微信公众号 作者 zenRRan昨天总结实验数据分析的时候发现一个机器翻译的其中的一个脚本,其中用到的算法就是BPE算法,刚开始感觉很高大上的,因为总是听到带上算法帽子的东西就觉得666…https://zhuanlan.zhihu.com/p/38130825

bpe如上所述讲的很细。

中文词编码,目前主要是vocab.txt,是21128版本,在chinese_clip或者chinese_bert中都是这个版本。

bpe英文词编码,目前是dalle和clip都使用的bpe_simple_vocab_16e6版本,262145版本。


版权声明:本文为u012193416原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。