De cada vez que consegue sair, atribui uma recompensa à casa anterior à saída, e assim sucessivamente, até obter um caminho com várias recompensas.
Inicialmente o cenário é composto por células pretas(obstáculos) e brancas (caminho livre).

Posteriormente as casas que possuem uma recompensa, são marcadas com a cor azul, onde a tonalidade da cor é relevante, quanto mais escura, maior é a recompensa, logo está mais próximo da saída.

Neste exemplo já foi encontrado o caminho, ou seja a solução já convergiu.
A casa representada a vermelho consiste na posição actual do robô.
Q-Learning
Finalmente um pequeno vídeo para demonstrar, espero que gostem.
Sem comentários:
Enviar um comentário