ESC
キーワードを入力してください

GQA (Grouped Query Attention)

algorithm
提唱/開発 Google DeepMind
登場日 2023年5月
表示形式

Multi-Head Attention の Key/Value を複数 Query で共有し、推論メモリと計算量を削減するアルゴリズム。

Llama 2/3 等で採用。