ホーム›用語集›Q-learningGlossaryQ-learning☆読み: きゅーらーにんぐ英: Q-learning1級強化学習定義状態行動価値 Q(s, a) を学習し、最大 Q を選ぶ方策に従う強化学習アルゴリズム。Bellman 方程式に基づく。関連する用語(強化学習)RLHFあーるえるえいちえふMDPえむでぃーぴーDQNでぃーきゅーえぬPolicy GradientぽりしーぐらでぃえんとPPOぴーぴーおーActor-CriticあくたーくりてぃっくBellman 方程式べるまんほうていしき報酬関数ほうしゅうかんすう割引率わりびきりつ経験再生けいけんさいせい指数型分布族しすうがたぶんぷぞく十分統計量じゅうぶんとうけいりょう← 用語集トップへサイト内を検索