mobotlearn aprendizado por reforço aplicado à navegação de robôs aluno: bruno toshyaki maeda...

20
MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Upload: internet

Post on 21-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

MobotLearnAprendizado por reforço aplicado à navegação de robôs

Aluno: Bruno Toshyaki Maeda TrevelimOrientadora: Profa. Dra. Anna Helena Reali Costa

Page 2: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Objetivo

•Implementação de um Sistema de navegação autônoma para robôs móveis em ambientes fechados, que seja capaz de adequar sua política de atuação de acordo com o ambiente.

Page 3: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Motivação

•Pesquisa acadêmica.•Conhecimento nas áreas de Aprendizado

de Máquinas e Robótica.•Extensão do projeto para aplicações

específicas como, por exemplo, exploração de terrenos.

Page 4: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Aprendizado por reforço (AR)

•Descreve os objetivos de um sistema de planejamento por meio de reforços (recompensas) recebidos nas interações do agente com o ambiente.

•Eficaz em sistemas que atuam em ambientes nos quais não se conhece os modelos da dinâmica.

Page 5: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Aprendizado por reforço (AR)

AMBIENTE

AGENTE

ação

estado

recompensa

Page 6: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Aprendizado por reforço

•1 – O agente observa o estado do ambiente.

•2 – O agente escolhe e aplica uma ação, baseado em uma política de controle.

•3 – o agente recebe uma recompensa imediata do ambiente.

Page 7: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Recompensa

•Define as metas do problema.•Mapeamento Estado x Recompensa

▫Quantifica numericamente a “desejabilidade” dos estados do ambiente.

Page 8: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Política de Controle

•Representa o comportamento do agente diante de determinadas situações.

•Mapeamento Estado x Ação.

•O aprendizado consiste em atualizar iterativamente a política de forma a maximizar as recompensas recebidas à longo prazo (utilidade).

Page 9: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Avaliação de Política

•Quantifica o quão “bom” é estar em determinado estado de forma a cumprir a meta do problema.

•Uma forma de medir a qualidade da política é por meio da função valor-ação Q(s, a).▫Q(s, a) é o valor de se tomar uma ação a no

estado s e depois seguir com com a política de controle a partir do novo estado.

Page 10: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Q-Learning

•Técnica de AR que avalia e atualiza a função valor-ação Q por meio de sucessivas interações com o ambiente.

Page 11: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Implementação

•Linguagem de programação C++.•Bibliotecas (libraries) de auxílio:

▫Boost▫ARIA: conexão com o robô.▫SonARNL: sistema de localização por meio

dos sensores do robô.•MobileSim (MobileRobotics): simulador

do robô.•MobileEyes(MobileRobotics): interface

remota de monitoramento do robô.

Page 12: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Implementação

Page 13: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Arquitetura

Page 14: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Arquitetura - RLCore

Page 15: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Plataforma

•Robô Pioneer P2-DX▫8 sonares▫Odômetro

•Computador de bordo▫Notebook conectado ao robô

Page 16: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Resultados esperados

•Abordagem eficaz e eficiente para a navegação autônoma de robôs móveis, comprovada por meio de experimentos tanto em ambiente simulado quanto real.

Page 17: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Ambiente de Testes I•6 x 6 metros•Discretização

▫x – 1 metro▫y – 1 metro▫theta – 45°

6 x 6 x 8 estados(288estados)

Page 18: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Plano de atividades•1 – Estudo de AR•2 – Familiarização com o robô Pioneer P2-DX e

seus comandos•3 – Definição da arquitetura do sistema•4 – Implementação do sistema•5 – Experimentos iniciais em ambiente

simulado•6 – Avaliação do desempenho e ajuste da

modelagem•7 – Experimentos exaustivos no ambiente real•8 – Escrita da monografia

Page 19: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

Plano de atividades

Page 20: MobotLearn Aprendizado por reforço aplicado à navegação de robôs Aluno: Bruno Toshyaki Maeda Trevelim Orientadora: Profa. Dra. Anna Helena Reali Costa

FIM