xavier: navegação baseado em pomdp sven koenig, reid g. simmons apresentador: pedro mitsuo shiroma

35
Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Upload: oswaldo-coradelli-quintao

Post on 07-Apr-2016

220 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Xavier: Navegação Baseado em POMDP

Sven Koenig, Reid G. Simmons

Apresentador: Pedro Mitsuo Shiroma

Page 2: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Definição do Problema

• Navegação robusta de um robô móvel, por longos períodos de tempo, em um ambiente interno não-estruturado.

• Caminhar por corredores, por longos períodos de tempo, sem perder-se.

Page 3: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Dificuldades

X

Imprecisão nos atuadores

X

Imprecisão nos sensores.

Page 4: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Abordagens Existentes

• Mapas métricos• + Fácil atualização dos dados de odometria para

o mapa,• - Problema de dead-reckoning

• Mapas topológicos• + Compactação dos dados• - Incerteza nos sensores

Page 5: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

• Navegação métrica

Abordagens Existentes

relatório do sensor

relatório de movimento

•Navegação baseado em landmark

X

Page 6: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Abordagens Existentes

• Incapazes de lidar:• Com múltiplas possibilidades para a postura do robô,

• E lidar, de forma unificada, com as incertezas nos:• atuadores,• sensores,• interpretação dos dados,• posição inicial,• caráter estático da cena

Page 7: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Trabalhos Relacionados

• Como trabalhar de maneira segura em um ambiente impreciso?

• Filtro de Kalman – Unimodal • Redes Bayesianas – Espaço discreto• POMDP

Page 8: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Trabalhos Relacionados: Dervish

• Dervish:• Mapa topológico• Planejamento externo• “Intuição”

• Xavier:• Misto de mapa topológico e métrico• Planejamento inerente à arquitetura• Formalismo matématico (POMDP)

Page 9: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Navegação POMDP

•Partially Observable Markov Decision Process

Page 10: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Markov• AFN:

• Alfabeto = ações, • Transição = probabilidades,

• Propriedade de Markov: O próximo estado é determinado exclusivamente pelo estado atual e a ação tomada.

cara coroa

Jogar/0.5

Cair no chão/0.9

Cair no chão/0.1 Jogar/0.5

Jogar/0.5

Jogar/0.5

Page 11: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov

• 4-upla: (S, A, T, R):•S = Conjunto de estados,•A = Conjunto de ações,•T:S£A ! ? = função de transição de estado,•R:S£A !< = função de recompensa

• A melhor ação nem sempre é aquela que traz a maior recompensa imediata: Planejamento a longo prazo.

Ações Determinísticas =S x Estocásticas = p(s’/s,a)

Prog. Dinâmica (Bellman):V(s) = maxa2 A [R (s)+ s’ 2 Sp(s’/s,a)V(s’)]

Page 12: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov

• Solução para um MDP: Política • Política: : S ! A

• Programação linear• Value Iteration Algorithm: Horizonte de tempo:

1, 2,..., 1

Page 13: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Exemplo

?

a(s) = arg maxa2 A [R (s,a) + s’ 2 Sp(s’/s,a)V(s’)]

Page 14: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov

1. Determine o estado corrente s,2. Execute a ação s3. Volte para o primeiro passo,• Assume observação total: O novo estado é

conhecido pelo sistema

Page 15: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov Parcialmente Observável

• Observações O,• Uma distribuição para as observações,• e para o estado inicial.

Page 16: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov Parcialmente Observável

• M = (S, O, , A, s, p, q, r), onde :• S = conjunto de estados,• O = conjunto de observações, = distribuição do estado inicial,• A(s) = ações possíveis para o estado s,• s = estado atual,• p(s’/s,a) = função de transição,• q(o/s,a) = função de observação,• r(s/a) = função de recompensa.

Page 17: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov Parcialmente Observável

Page 18: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov Parcialmente Observável

• O estado atual é observado,• Decisão requer manter um histórico do

ponto de partida, ações tomadas, observações realizadas: Não-Markoviano,

• É necessário manter o histórico?• Não! Estado de crença: “Onde eu acho que

estou”

Page 19: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov Parcialmente Observável

• Solução exata: NP –difícil• Heurísticas:

• MLS (Most Likely State),• Votação,• Witness

• Grid-based• Fatorar dependências.

Page 20: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Processo de Decisão de Markov Parcialmente Observável

• q,p: Estimativa inicial, aprendizado,• Mapa métrico = estados,• Modelo atuador = p,• Modelo sensores = q.

Page 21: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Arquitetura Xavier

Planejador TarefasPlanejador TrajetóriasNavegadorDesvio de ObstáculosParada Emergencial

Comportamento ObjetosMudanças no mundoIdentificação objetosMonitoramento MudançasConstrução mapasExploraçãoVagarDesvio de Obstáculos

Subsumption ArchitectureArquitetura Xavier

Page 22: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Arquitetura XavierMapa topológicoModelo atuadoresModelo sensoresModelo portas

POMDP Geração da política

Seleção diretivas

Geração movimentos

MotoresOdometriaSonar

Grade de ocupação

Relatório sensores Relatório atuadores

Localização

Alvos

Xavier

Mudanças na direção e distância percorrida

Detector de portas, espaços livres.

Estimação da(s) postura(s)

Processo Off-line

Compilador POMDP Movimentos

desejados

Desvio de obstáculos

Page 23: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Relatórios

• Movimento: Discretizado com 1 metro• Sensores:

• Esquerda: Incerto, parede, abertura pequena, abertura média, abertura grande;

• Direita: Incerto, parede, abertura pequena, abertura média, abertura grande;

• Frente: Incerto, parede.

Page 24: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Modelo Orientação

• Robô possui 6 d.o.f.: Como representar rotações?

• Cada postura é representada por quatro estados:

Page 25: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Modelo Corredor

• Conhecimento métrico preciso

Page 26: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Modelo Corredor

• Conhecimento métrico impreciso

Page 27: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Modelo Junção

Page 28: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Exemplo

Page 29: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Exemplo

Page 30: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Exemplo

Page 31: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Exemplo

• Animação

Page 32: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Como Alinhar-se?

• Detector de retas na grade de ocupação:• Escorregamento rotacional não é tratado pelo

modelo proposto.

Page 33: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Múltipla detecção de características

Page 34: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Conclusões

• Caminhar por corredores, que formam ângulos retos, por longos períodos de tempo, sem perder-se completamente.

• Vantagens:• Representação multimodal;• Acoplado com o planejamento;

• Desvantagens:• Requer discretização do ambiente;• Milhares de estados: Custo computacional;

Page 35: Xavier: Navegação Baseado em POMDP Sven Koenig, Reid G. Simmons Apresentador: Pedro Mitsuo Shiroma

Conclusões

• Exemplo prático pobre,• Modelar especificamente as junções,• Localização de Monte-Carlo:

• Utiliza Filtro de Partículas;• Espaço contínuo;• Computacionalmente tratável.