mobotlearn aprendizado por reforço aplicado à navegação de robôs aluno: bruno toshyaki maeda...

MobotLearnAprendizado por reforço aplicado à navegação de robôs

Aluno: Bruno Toshyaki Maeda TrevelimOrientadora: Profa. Dra. Anna Helena Reali Costa

Objetivo

•Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.

Motivação

•Pesquisa acadêmica.•Conhecimento nas áreas de Aprendizado

de Máquinas e Robótica.•Extensão do projeto para aplicações

específicas como, por exemplo, exploração de terrenos.

Aprendizado por reforço (AR)

•Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente.

•Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.

Aprendizado por reforço (AR)

AMBIENTE

AGENTE

ação

estado

recompensa

Aprendizado por reforço

•1 – O agente observa o estado do ambiente.

•2 – O agente escolhe e aplica uma ação, baseado em uma política de controle.

•3 – o agente recebe uma recompensa imediata do ambiente.

Recompensa

•Define as metas do problema.•Mapeamento Estado x Recompensa

▫Quantifica numericamente a “desejabilidade” dos estados do ambiente.

Política de Controle

•Representa o comportamento do agente diante de determinadas situações.

•Mapeamento Estado x Ação.

•O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).

Avaliação de Política

•Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema.

•Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a).▫Q(s, a) é o valor de se tomar uma ação a no

estado s e depois seguir com com a política de controle a partir do novo estado.

Q-Learning

•Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.

Implementação

•Linguagem de programação C++.•Bibliotecas (libraries) de auxílio:

▫Boost▫ARIA: conexão com o robô.▫SonARNL: sistema de localização por meio

dos sensores do robô.•MobileSim (MobileRobotics): simulador

do robô.•MobileEyes(MobileRobotics): interface

remota de monitoramento do robô.

Implementação

Arquitetura

Arquitetura - RLCore

Plataforma

•Robô Pioneer P2-DX▫8 sonares▫Odômetro

•Computador de bordo▫Notebook conectado ao robô

Resultados esperados

•Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.

Ambiente de Testes I•6 x 6 metros•Discretização

▫x – 1 metro▫y – 1 metro▫theta – 45°

6 x 6 x 8 estados(288estados)

Plano de atividades•1 – Estudo de AR•2 – Familiarização com o robô Pioneer P2-DX e

seus comandos•3 – Definição da arquitetura do sistema•4 – Implementação do sistema•5 – Experimentos iniciais em ambiente

simulado•6 – Avaliação do desempenho e ajuste da

modelagem•7 – Experimentos exaustivos no ambiente real•8 – Escrita da monografia

Plano de atividades

mobotlearn aprendizado por reforço aplicado à navegação de robôs aluno: bruno toshyaki maeda...

Documents