mobotlearn aprendizado por reforço aplicado à navegação de robôs aluno: bruno toshyaki maeda...
TRANSCRIPT
MobotLearnAprendizado por reforço aplicado à navegação de robôs
Aluno: Bruno Toshyaki Maeda TrevelimOrientadora: Profa. Dra. Anna Helena Reali Costa
Objetivo
•Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.
Motivação
•Pesquisa acadêmica.•Conhecimento nas áreas de Aprendizado
de Máquinas e Robótica.•Extensão do projeto para aplicações
específicas como, por exemplo, exploração de terrenos.
Aprendizado por reforço (AR)
•Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente.
•Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.
Aprendizado por reforço (AR)
AMBIENTE
AGENTE
ação
estado
recompensa
Aprendizado por reforço
•1 – O agente observa o estado do ambiente.
•2 – O agente escolhe e aplica uma ação, baseado em uma política de controle.
•3 – o agente recebe uma recompensa imediata do ambiente.
Recompensa
•Define as metas do problema.•Mapeamento Estado x Recompensa
▫Quantifica numericamente a “desejabilidade” dos estados do ambiente.
Política de Controle
•Representa o comportamento do agente diante de determinadas situações.
•Mapeamento Estado x Ação.
•O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).
Avaliação de Política
•Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema.
•Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a).▫Q(s, a) é o valor de se tomar uma ação a no
estado s e depois seguir com com a política de controle a partir do novo estado.
Q-Learning
•Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.
Implementação
•Linguagem de programação C++.•Bibliotecas (libraries) de auxílio:
▫Boost▫ARIA: conexão com o robô.▫SonARNL: sistema de localização por meio
dos sensores do robô.•MobileSim (MobileRobotics): simulador
do robô.•MobileEyes(MobileRobotics): interface
remota de monitoramento do robô.
Implementação
Arquitetura
Arquitetura - RLCore
Plataforma
•Robô Pioneer P2-DX▫8 sonares▫Odômetro
•Computador de bordo▫Notebook conectado ao robô
Resultados esperados
•Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.
Ambiente de Testes I•6 x 6 metros•Discretização
▫x – 1 metro▫y – 1 metro▫theta – 45°
6 x 6 x 8 estados(288estados)
Plano de atividades•1 – Estudo de AR•2 – Familiarização com o robô Pioneer P2-DX e
seus comandos•3 – Definição da arquitetura do sistema•4 – Implementação do sistema•5 – Experimentos iniciais em ambiente
simulado•6 – Avaliação do desempenho e ajuste da
modelagem•7 – Experimentos exaustivos no ambiente real•8 – Escrita da monografia
Plano de atividades
FIM