ホーム›用語集›MDPGlossaryMDP☆読み: えむでぃーぴー英: Markov Decision Process1級強化学習定義強化学習の数学的枠組み。(S, A, P, R, γ) で状態 ・ 行動 ・ 遷移 ・ 報酬 ・ 割引率を定義。関連する用語(強化学習)RLHFあーるえるえいちえふQ-learningきゅーらーにんぐDQNでぃーきゅーえぬPolicy GradientぽりしーぐらでぃえんとPPOぴーぴーおーActor-CriticあくたーくりてぃっくBellman 方程式べるまんほうていしき報酬関数ほうしゅうかんすう割引率わりびきりつ経験再生けいけんさいせい指数型分布族しすうがたぶんぷぞく十分統計量じゅうぶんとうけいりょう← 用語集トップへサイト内を検索