Invatare prin recompensa [624010]
Invatare prin recompensa
Q-learning
Algoritmul Q -learning
initializeaza Q(s, a) pentru toate starile s si actiunile a
pentru fiecare episod
alege s
repeta
alege actiunea a
executa actiunea a, noua stare devine s’, se obtine recompensa r
Q(s, a) = r + δmax a’ Q(s’, a’)
s = s’
pana la starea de stop
Recompense imediate:
Stare Stare urmatoare
A B C D E F
A -5 0 – – – –
B 0 -5 0 0 – –
C – 0 -5 0 – 100
D – 0 0 -5 0 –
E – – – 0 -5 100
F – – 0 – 0 –
Resurse:
1. Curs 3 – Q learning
2. http:/ /people.revoledu.com/kardi/tutorial/ReinforcementLearning/index.html
Copyright Notice
© Licențiada.org respectă drepturile de proprietate intelectuală și așteaptă ca toți utilizatorii să facă același lucru. Dacă consideri că un conținut de pe site încalcă drepturile tale de autor, te rugăm să trimiți o notificare DMCA.
Acest articol: Invatare prin recompensa [624010] (ID: 624010)
Dacă considerați că acest conținut vă încalcă drepturile de autor, vă rugăm să depuneți o cerere pe pagina noastră Copyright Takedown.
