扫码 查看更

LLMs 训练数据 和 数据量 对比如何?

模型训练数据数据量C
LLaMA以英语为主 的拉丁语系1T/1.4T tokens
LLaMA2以英语为主 的拉丁语系2T tokens
Falcon英语、法语1.5T tokens
Bloom46种自然语 言和13种编 程语言350B tokens
ChatGLM -6B中英双语 中英文比例 为1:11T tokens
ChatGLM 2-6B中英双语 中英文比例 为1:11.4T tokens
balchuan中英双语1.2T
tokens