GQA (Grouped Query Attention)
algorithm
提唱/開発
Google DeepMind
登場日
2023年5月
表示形式
Multi-Head Attention の Key/Value を複数 Query で共有し、推論メモリと計算量を削減するアルゴリズム。
Llama 2/3 等で採用。
🔗 外部リンク
次に進む
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。
Multi-Head Attention の Key/Value を複数 Query で共有し、推論メモリと計算量を削減するアルゴリズム。
Llama 2/3 等で採用。
目的に合わせて、学ぶ・比較する・相談するの3つの導線から選べます。