Glossary

ViT

読み: びてぃー英: Vision Transformer1級コンピュータビジョン

定義

画像を 16×16 パッチに分割し、Transformer で処理する画像分類モデル。十分な学習データで CNN を超える。

関連する用語(コンピュータビジョン)