LLMs 激活函数篇

来自: AiGC面试宝典

1 介绍一下 FFN 块 计算公式?

$$ F F N(x)=f(x W_{1}+b_{1})W_{2}+b_{2} $$

2 介绍一下 GeLU 计算公式?

$$ G e L U(x)\approx0.5x(1+t a n h(\sqrt{\frac{2}{\pi}}(x+0.044715x^{3}))) $$

3 介绍一下 Swish 计算公式?

$$ S w i s h_{\beta}(x)=x\cdot\sigma(\beta x) $$

2个可训练权重矩阵,中间维度为 4h

4 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?

$$ \begin{array}{l c L U(x)=\sigma(x W+b)\otimes x V}\ {F F N_{G L U}=(f(x W_{1})\otimes x V)W_{2}}\end{array} $$

5 介绍一下 使用 GeLU 的 GLU 块 计算公式?

$$ G e G L U(x)=G e L U(x W)\otimes x V $$

6 介绍一下 使用 Swish 的 GLU 块 计算公式?

$$ S w i G L U=S w i s h_{\beta}(x W)\otimes x V $$

3个可训练权重矩阵,中间维度为 $4\mathrm{h}^{\ast}2/3$

各LLMs 都使用哪种激活函数?

模型激活函数
GPT3GeLU
LLaMASwiGLU
LLaMA2SwiGLU
baichuanSwiGLU
ChatGLM- 6BGeLU
ChatGLM2- 6BSwiGLU
BloomGeLU
FalconGeLU

$4\mathsf{h}=4^{\star}4096=16384$ 2/3 * 4h = 10022 -> 11008 11008/128 = 86