universidade estadual do oeste do paraná mindstorms nxt ... · aplicado o mel cepstrum (envolve...

Universidade Estadual do Oeste do Paraná

Controle De Robô Lego® Mindstorms NXT por

Comandos de Voz Utilizando MATLAB®

Diego Henrique Pagani

Bolsista: PET - MEC/SiSU

Ciência da Computação - 2009

Adriana Postal – CCET/Cascavel

Introdução

Objetivo

Justificativa

Sistema de Reconhecimento de Comandos de Voz

Fase de treinamento

Fase de testes

Experimento

Resultados obtidos

Considerações finais

Trabalhos futuros

Introdução

Objetivo

Estudar e implementar um sistema de manipulação do Robô Lego® NXT utilizando a voz

Justificativa

Tornar a interação humano-robô mais eficiente;

Desenvolvimento de tecnologias assistivas Cadeiras de rodas motorizadas

Comandar utensílios domésticos por voz

Batedeira, liquidificador, fogão

Sistema de reconhecimento

Módulo de treinamento

1. Captura da voz

2. Pré-processamento

3. Classificação manual

4. Armazenagem

Módulo de testes

1. Captura da voz

2. Pré-processamento

3. Classificação pelo sistema

4. Envio ao robô

Pré-processamento Som é coletado com

11.000 amostras por segundo

16 bits

1 canal

É utilizado o MFC (mel frequency cepstral)

Espectro do som capturado diretamente traz ondulações;

Com isso o som é filtrado para remover as imperfeições;

Aplicado o Mel Cepstrum (envolve FFT e normalização);

Retirado os níveis de energia em cada tom, normalizado pela escala Mel

Para o reconhecedor, o fator mais importante é a mudança do espectro da voz(PLANNER,2005)

Amostra de um som capturado, antes do pré-processamento

Amostra de som, após o pré-processamento

Várias amostras do comando “Frente”, depois de pré-processadas

Fase de treinamento Captura múltiplas amostras

Realiza o pré-processamento

Classifica o comando manualmente

Armazena estas informações Utilizando o formato próprio do MATLAB®

Coleta de

várias amostras

Pré-processamento

Classificação manual

Armazenagem

Fase de testes 1. Captura o comando a ser avaliado;

2. Realiza o pré-processamento;

3. Carrega o banco de dados

4. Faz a comparação com a base de dados.

Algoritmo da distância de Levenshtein:

Retorna o total de operações necessárias para alterar um elemento A para que seja igual a um elemento B;

X = bananna

Y = canana

Levenshtein(X,Y) = 2

O Experimento 2 Locutores

3 comandos

Base: 10 amostras por comando

Teste: 33 amostras por comando

Base A Base B Base A+B

Locutor 1 96% 85% 96%

Locutor 2 49% 72% 75%

Resultados obtidos

Problemas Metodológicos

Falta de padronização de captura do som;

Local para coleta sucetível a ruídos externos.

Do Sistema

Carência de locutores/amostras de diferentes tons e intensidades;

Poucos testes realizados;

Falta: avaliar se os tons, intensidades e timbre influenciam na classificação.

Revisão bibliográfica

Falta de explicações concretas

Considerações Finais

O Sistema apresentou resultados esperados;

Faltam testes a serem feitos;

Locutores com maior diferença entre voz

Aumentar quantidade de locutores

Outros métodos de classificação

Revisar a Implementação;

Trabalhos futuros

Avaliar outros métodos de classificação

Redes Neurais

Árvores de decisão

Portar o Sistema para outra linguagem

C++

Java (aplicação em dispositivos móveis)

Revisão bibliográfica

Outros métodos de processamento da voz e filtragem

Agradecimentos

Ao Programa de Educação Tutorial do Ministério da Educação (PET-MEC/SISU) pelo apoio à pesquisa.

Ao Grupo PETComp

universidade estadual do oeste do paraná mindstorms nxt ... · aplicado o mel cepstrum (envolve...

Documents