本文へスキップ
統計ロードマップ
Glossary

MDP

読み: えむでぃーぴー英: Markov Decision Process1強化学習

定義

強化学習の数学的枠組み。(S, A, P, R, γ) で状態 ・ 行動 ・ 遷移 ・ 報酬 ・ 割引率を定義。

関連する用語(強化学習)