
Simular um robô móvel que:
Actue como um agente que possua aprendizagem.
Desloque-se num ambiente desconhecido, efectuando a detecção de obstáculos.
Obtenha informação sobre o ambiente, através de um sistema sensorial.
Defina estados consoante a informação obtida.
O agente tenta obter uma política que maximize a recompensa obtida ao longo do tempo, isso é feito através da seguinte equação.

Podemos verificar um cenário possível onde o robô vai aprender o caminho para chegar ao farol de forma automática.

Ao longo do tempo verifica-se que o robô efectua cada vez menos passos para atingir o seu objectivo.

E que a qualidade das acções também aumenta ao longo do tempo.

Os resultados obtidos demonstraram a capacidade do agente de navegar pelo cenário efectuando uma aprendizagem contínua ao longo das acções efectuadas.
Verificou-se que quanto mais complexo o cenário, mais iterações eram necessárias para o robô obter a solução óptima para alcançar o farol.
Sem comentários:
Enviar um comentário