本文へスキップ
統計ロードマップ
Glossary

Flash Attention

読み: ふらっしゅあてんしょん英: Flash Attention1効率的アーキテクチャ

定義

Dao et al. 2022。GPU メモリ階層を意識した Attention 実装で、数学的に同一のまま 2〜4 倍高速化。現代の LLM 学習・推論で標準採用。

関連教材

関連する教科書の節を見る →

関連する用語(効率的アーキテクチャ)