LLMs Tokenizer 篇

来自： AiGC面试宝典

Byte-Pair Encoding(BPE)篇

注：GPT2、BART和LLaMA就采用了BPE。

1 WordPiece 与 BPE 异同点是什么？

本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并

• BPE是选择频次最大的相邻子词合并;• WordPiece算法选择能够提升语言模型概率最大的相邻子词进行合并，来加入词表

注：BERT采用了WordPiece。

简单介绍一下 SentencePiece 思路？

把空格也当作一种特殊字符来处理，再用BPE或者来构造词汇表。

注：ChatGLM、BLOOM、PaLM采用了SentencePiece。

1 举例介绍一下不同大模型LLMs 的分词方式？

模型	词表大小	分词结果	长度
LLaMA	32000	['男’，'<0xE5>，'<0x84>，'<0xBF>，何'，'不'，'<0xE5>'，'<0xB8>’ <0xA6>'，'<0xE5>'，'<0x90>，'<0xB4>'，'<0xE9>'，'<0x92>'， <0xA9>，’，，“收，取’，'关，"山'，'五’，十，'州，。]	24
ChineseLLaMA	49953	[男，儿，何，不，带，吴，钩，，，“收取，‘关，山，五十，州”	14
ChatGLM-6B	130528	[男儿，何不，带，吴，钩，，“收取，关山，五十，州，。	11
ChatGLM2-6B	65024	[男”，儿，何，不，带，吴，钩，，，“收取，关，“山，五十，州’，	14
Bloom	250880	[男，儿，何不，“带’，吴，钩，，‘“收取，关，“山，五十，州，。]	13
Falcon	65024	[男，儿，？，？，？，不，带，吴，？，？，？，？，？，“收，取，，，山，‘五，十，‘州，。]	22

LLaMA的词表是最小的，LLaMA在中英文上的平均token数都是最多的，这意味着LLaMA对中英文分词都会比较碎，比较细粒度。尤其在中文上平均token数高达1.45，这意味着LLaMA大概率会将中文字符切分为2个以上的token。
Chinese LLaMA扩展词表后，中文平均token数显著降低，会将一个汉字或两个汉字切分为一个token，提高了中文编码效率。
ChatGLM-6B是平衡中英文分词效果最好的tokenizer。由于词表比较大，中文处理时间也有增加
BLOOM虽然是词表最大的，但由于是多语种的，在中英文上分词效率与ChatGLM-6B基本相当。