O objectivo deste trabalho é implementar uma técnica de aprendizagem por reforço denominada por QLearning, que consiste num tipo de aprendizagem não supervisionada, onde o "robô" anda a explorar o cenário, evitando os obstáculos até conseguir chegar à saída.
De cada vez que consegue sair, atribui uma recompensa à casa anterior à saída, e assim sucessivamente, até obter um caminho com várias recompensas.
Inicialmente o cenário é composto por células pretas(obstáculos) e brancas (caminho livre).
Posteriormente as casas que possuem uma recompensa, são marcadas com a cor azul, onde a tonalidade da cor é relevante, quanto mais escura, maior é a recompensa, logo está mais próximo da saída.
Neste exemplo já foi encontrado o caminho, ou seja a solução já convergiu.
A casa representada a vermelho consiste na posição actual do robô.
Q-Learning
Finalmente um pequeno vídeo para demonstrar, espero que gostem.
Sem comentários:
Enviar um comentário