Sutton本の第5章の内容のメモです 前章で扱ったDPとの関係性 価値関数の計算や方策評価,改善といった基本的な考え方は一緒 DPと違って環境の完全な知識(期待報酬, 遷移確率など)は必要とせず、経験のみから価値を推定 エピソード的(=終わりがある)タスク限定…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。