72_LLMs_对比篇

2025-03-09

大模型

约 195 字预计阅读 1 分钟

文章目录

扫码查看更

LLMs 训练数据和数据量对比如何？

模型	训练数据	数据量		C
LLaMA	以英语为主的拉丁语系	1T/1.4T tokens
LLaMA2	以英语为主的拉丁语系	2T tokens
Falcon	英语、法语	1.5T tokens
Bloom	46种自然语言和13种编程语言	350B tokens
ChatGLM -6B	中英双语中英文比例为1:1	1T tokens
ChatGLM 2-6B	中英双语中英文比例为1:1	1.4T tokens
balchuan	中英双语	1.2T
		tokens

文章作者大模型

上次更新 2025-03-09