変数使用報酬の振動 #265
shnarazk
announced in
Journal (JP)
変数使用報酬の振動
#265
Replies: 1 comment
-
一発でいきなりベストを更新(48xx)したので、こっちに乗り換えよう。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
大きな振幅から1.0に収束させるものだと思っていたけど、過学習的なものを見ていてむしろ0.995〜1.0の振幅から広げて行くもののような気がしてきた。
これは元に戻すようにも思えるが今回はsigmoid関数をつかっているので十分deep searchできるんじゃなかろうか。
さらに値が確定した後の挙動も筋が通っているような気がする。
さて、焼きなましの逆過程はうまくいくだろうか。連続焼きなましなので類するものはないのだろうか。
Beta Was this translation helpful? Give feedback.
All reactions