所以我們在 寫作業的這種狀態下, 好的行爲就是繼續寫作業, 直到寫完它, 我們還可以得到獎勵, 不好的行爲 就是沒寫完就跑去看電視了, 被爸媽發現, 後果很嚴重. q寶冰 這和我們要提到的 Q learning q寶冰 有什麼關係呢? 原來 q寶冰 Q learning 也是一個決策過程, 和小時候的這種情況差不多.
所以有了現實和估計值, 我們就能更新Q , 根據 估計與現實的差距, 將這個差距乘以一個學習效率 alpha 累加上老的 Q 的值 變成新的值. 但時刻記住, 我們雖然用 maxQ 估算了一下 s2 狀態, 但還沒有在 s2 做出任何的行爲, s2 的行爲決策要等到更新完了以後再重新另外做. 這就是 off-policy 的 Q learning 是如何決策和學習優化決策的過程. 假設現在我們處於寫作業的狀態而且我們以前並沒有嘗試過寫作業時看電視, 所以現在我們有兩種選擇 q寶冰2025 , q寶冰 1, 繼續寫作業, 2, 跑去看電視. 因爲以前沒有被罰過, 所以我選看電視, 然後現在的狀態變成了看電視, q寶冰 我又選了 繼續看電視, 接着我還是看電視, 最後爸媽回家, 發現我沒寫完作業就去看電視了, 狠狠地懲罰了我一次, 我也深刻地記下了這一次經歷, 並在我的腦海中將 “沒寫完作業就看電視” 這種行爲更改爲負面行爲, 我們在看看 Q learning 根據很多這樣的經歷是如何來決策的吧. 我們做事情都會有一個自己的行爲準則, 比如小時候爸媽常說”不寫完作業就不準看電視”.