shugo's kitchen

コンピュータサイエンスを美味しく調理していきたい

強化学習

強化学習 Sutton本8章一般化と関数近似

強化学習読書メモ

Sutton本の第8章の内容のメモです関数近似の背景これまでの章ではテーブル形式の推定価値関数を用いてきたそれぞれの状態(行動対)について1つの推定値を持っておかねばならない表を保持するためのメモリや、表を埋め尽くすための計算量が膨れ上がる限定…

強化学習 Sutton本5章モンテカルロ法について

強化学習読書メモ

Sutton本の第5章の内容のメモです前章で扱ったDPとの関係性価値関数の計算や方策評価,改善といった基本的な考え方は一緒 DPと違って環境の完全な知識(期待報酬, 遷移確率など)は必要とせず、経験のみから価値を推定エピソード的(=終わりがある)タスク限定…