3_LLMs_激活函数篇
文章目录
LLMs 激活函数篇
来自: AiGC面试宝典
1 介绍一下 FFN 块 计算公式?
$$ F F N(x)=f(x W_{1}+b_{1})W_{2}+b_{2} $$
2 介绍一下 GeLU 计算公式?
$$ G e L U(x)\approx0.5x(1+t a n h(\sqrt{\frac{2}{\pi}}(x+0.044715x^{3}))) $$
3 介绍一下 Swish 计算公式?
$$ S w i s h_{\beta}(x)=x\cdot\sigma(\beta x) $$
2个可训练权重矩阵,中间维度为 4h
4 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?
$$ \begin{array}{l c L U(x)=\sigma(x W+b)\otimes x V}\ {F F N_{G L U}=(f(x W_{1})\otimes x V)W_{2}}\end{array} $$
5 介绍一下 使用 GeLU 的 GLU 块 计算公式?
$$ G e G L U(x)=G e L U(x W)\otimes x V $$
6 介绍一下 使用 Swish 的 GLU 块 计算公式?
$$ S w i G L U=S w i s h_{\beta}(x W)\otimes x V $$
3个可训练权重矩阵,中间维度为 $4\mathrm{h}^{\ast}2/3$
各LLMs 都使用哪种激活函数?
模型 | 激活函数 |
GPT3 | GeLU |
LLaMA | SwiGLU |
LLaMA2 | SwiGLU |
baichuan | SwiGLU |
ChatGLM- 6B | GeLU |
ChatGLM2- 6B | SwiGLU |
Bloom | GeLU |
Falcon | GeLU |
$4\mathsf{h}=4^{\star}4096=16384$ 2/3 * 4h = 10022 -> 11008 11008/128 = 86
文章作者 大模型
上次更新 2025-03-09