modelagem e simulação de um sistema de aprendizado de ... · 3departamento de engenharia...

1
Modelagem e Simulação de um Sistema de Aprendizado de Reforço para Robôs André Luiz Carvalho Ottoni 1 ; Rubisson Duarte Lamperti 2 ; Erivelton Geraldo Nepomuceno 3 ; Marcos Santos de Oliveira 4 ; Fernanda Felipe de Oliveira 5 . 1 DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] 2 PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] 3 DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] 4 DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA - UFSJ. Email: [email protected] 5 DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS E CONTÁBEIS - UFSJ. Email: [email protected] Introdução As máquinas inteligentes ou robôs estão cada vez mais presentes na sociedade e nas indústrias. Participam de operações que necessitam de alta precisão. Além disso, poupam o esforço e a vida humana ao executar tarefas consideradas perigosas. Em algumas indústrias os robôs participam dos processos de produção e são importantes para garantir o sucesso final da tarefa. Mas para garantir um produto de qualidade, é necessário que esses robôs estejam programados de forma eficiente. O Aprendizado por Reforço é uma técnica de aprendizado de máquina, na qual o agente aprende por meio de interação direta com o ambiente e seu algoritmo converge para uma situação de equilíbrio (Sutton and Barto, 1998). No AR, um agente pode aprender em um ambiente não conhecido previamente, por meio de experimentações. Dependendo de sua atuação, o agente recebe uma recompensa ou uma penalização e, desta forma, o algoritmo encontra um conjunto de ações que levam o agente a percorrer o caminho ótimo. A este conjunto, formado pelas melhores ações, dá-se o nome de política ótima. Objetivos Baseando-se na importância da robótica atualmente e nas pesquisas de inteligência artificial que envolve o futebol de robôs, pretende-se alcançar com esse projeto a resolução de problemas de cooperação em sistemas multiagentes, via aprendizado por reforço. Dessa forma, os objetivos deste trabalho foram: Modelagem e simulação de um sistema de Aprendizado por Reforço para um sistema multiagente (multirrobô) cooperativo. A plataforma adotada é o futebol de robôs simulado em duas dimensões da Robocup (Fig. 1). Análise da evolução do desempenho de um sistema multiagente cooperativo que utiliza o algoritmo Q-learning de Aprendizado por Reforço, através do índice de aprendizagem. Fig. 1: Imagem do Simulador2D da Robocup. Metodologia A metodologia adotada para a desenvolvimento da estratégia de aprendizagem é dividida em quatro etapas, as quais são: 1. Definição e discretização das ações dos agentes: Drible Lento; Drible Lento; Drible Normal; Passe/Chute; Avançar. 2. Definição e discretização dos estados do ambiente no qual os agentes estão inseridos; Adversário Longe Atrás; Adversário Perto Atrás; Adversário Muito Perto Atrás; Adversário Longe Frente; Adversário Perto Frente; Adversário Muito Perto Frente. 3. Definição dos valores dos reforços da tabela R, para cada par Estado (S) X Ação (A); 4. Implementação no Simulador RcSoccerSim da Robocup de Futebol de Robôs. Tabela 1: Matriz de Recompensa Imediata. Estado/Ação A1 A2 A3 A4 A5 A6 E1 -1 -1 -1 20 -1 -1 E2 0 -1 0 -1 -1 0 E3 5 -1 -1 -1 -1 -1 E4 -1 -1 -1 20 -1 -1 E5 -1 5 0 0 -1 0 E6 -1 -1 -1 10 10 -1 Análise dos Resultados 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 -6 -5 -4 -3 -2 -1 0 Saldo de Gols Jogos Fig. 2: Média de Saldo de Gols Acumulado. Fig. 3: Índice de Aprendizagem. Agradecimentos: Agradecemos ao UaiSoccer2D, UAIrobots, GCoM, PPGEL, FAPEMIG e UFSJ. Na tentativa de analizar os resultados das simulações foi proposto o índice de aprendizagem. Esse índice indica a predominância de uma sequência de resultados acima da média de saldo gols (índice positivo) ou a predominância de resultados abaixo da média de saldo de gols (índice negativo). Os calculos demostraram que entre as simulações 31 e 60 o time de robôs obtiveram convergência positiva do índice. Ou seja, nesse trecho o sistema de aprendizado mais aproximou de um controle ótimo dos robôs. Conclusões

Upload: trannga

Post on 08-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelagem e Simulação de um Sistema de Aprendizado de ... · 3DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: nepomuceno@ufsj.edu.br ... Email: mso@ufsj.edu.br 5DEPARTAMENTO

Modelagem e Simulação de um Sistema de Aprendizado de Reforço para Robôs

André Luiz Carvalho Ottoni1; Rubisson Duarte Lamperti2; Erivelton Geraldo Nepomuceno3; Marcos Santos de Oliveira4;

Fernanda Felipe de Oliveira5.

1DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected]

3DEPARTAMENTO DE ENGENHARIA ELÉTRICA - UFSJ. Email: [email protected] DE MATEMÁTICA E ESTATÍSTICA - UFSJ. Email: [email protected]

5DEPARTAMENTO DE CIÊNCIAS ADMINISTRATIVAS E CONTÁBEIS - UFSJ. Email: [email protected]

Introdução

As máquinas inteligentes ou robôs estão cada vez mais presentes na sociedade e nas indústrias.

Participam de operações que necessitam de alta precisão. Além disso, poupam o esforço e a vida

humana ao executar tarefas consideradas perigosas. Em algumas indústrias os robôs participam

dos processos de produção e são importantes para garantir o sucesso final da tarefa. Mas para

garantir um produto de qualidade, é necessário que esses robôs estejam programados de forma

eficiente.

O Aprendizado por Reforço é uma técnica de aprendizado de máquina, na qual o agente

aprende por meio de interação direta com o ambiente e seu algoritmo converge para uma situação

de equilíbrio (Sutton and Barto, 1998). No AR, um agente pode aprender em um ambiente não

conhecido previamente, por meio de experimentações. Dependendo de sua atuação, o agente

recebe uma recompensa ou uma penalização e, desta forma, o algoritmo encontra um conjunto de

ações que levam o agente a percorrer o caminho ótimo. A este conjunto, formado pelas melhores

ações, dá-se o nome de política ótima.

Objetivos

Baseando-se na importância da robótica atualmente e nas pesquisas de inteligência artificial

que envolve o futebol de robôs, pretende-se alcançar com esse projeto a resolução de problemas

de cooperação em sistemas multiagentes, via aprendizado por reforço. Dessa forma, os objetivos

deste trabalho foram:

Modelagem e simulação de um sistema de Aprendizado por Reforço para um sistema

multiagente (multirrobô) cooperativo. A plataforma adotada é o futebol de robôs simulado em

duas dimensões da Robocup (Fig. 1).

Análise da evolução do desempenho de um sistema multiagente cooperativo que utiliza o

algoritmo Q-learning de Aprendizado por Reforço, através do índice de aprendizagem.

Fig. 1: Imagem do Simulador2D da Robocup.

Metodologia

A metodologia adotada para a desenvolvimento da estratégia de aprendizagem é dividida em

quatro etapas, as quais são:

1. Definição e discretização das ações dos agentes:

• Drible Lento; Drible Lento; Drible Normal; Passe/Chute; Avançar.

2. Definição e discretização dos estados do ambiente no qual os agentes estão inseridos;

• Adversário Longe Atrás; Adversário Perto Atrás; Adversário Muito Perto Atrás;

Adversário Longe Frente; Adversário Perto Frente; Adversário Muito Perto

Frente.

3. Definição dos valores dos reforços da tabela R, para cada par Estado (S) X Ação (A);

4. Implementação no Simulador RcSoccerSim da Robocup de Futebol de Robôs.

Tabela 1: Matriz de Recompensa Imediata.

Estado/Ação A1 A2 A3 A4 A5 A6

E1 -1 -1 -1 20 -1 -1

E2 0 -1 0 -1 -1 0

E3 5 -1 -1 -1 -1 -1

E4 -1 -1 -1 20 -1 -1

E5 -1 5 0 0 -1 0

E6 -1 -1 -1 10 10 -1

Análise dos Resultados

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79

-6

-5

-4

-3

-2

-1

0Saldo de Gols

Jogos

Fig. 2: Média de Saldo de Gols Acumulado.

Fig. 3: Índice de Aprendizagem.

Agradecimentos: Agradecemos ao UaiSoccer2D, UAIrobots, GCoM, PPGEL,

FAPEMIG e UFSJ.

Na tentativa de analizar os resultados das simulações foi proposto o índice de aprendizagem.

Esse índice indica a predominância de uma sequência de resultados acima da média de saldo gols

(índice positivo) ou a predominância de resultados abaixo da média de saldo de gols (índice

negativo). Os calculos demostraram que entre as simulações 31 e 60 o time de robôs obtiveram

convergência positiva do índice. Ou seja, nesse trecho o sistema de aprendizado mais aproximou

de um controle ótimo dos robôs.

Conclusões