integrando sensores para a criação de instrumentos ... · instrumentos e solucionar problemas...

PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

EDUARDO SANTOS SILVA

Integrando Sensores para a Criação de

Instrumentos Musicais Digitais

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

Recife 2015

EDUARDO SANTOS SILVA

Integrando Sensores para a Criação de Instrumentos Musicais

Digitais

Dissertação apresentada como requisito parcial

para a obtenção do título de Mestre, pelo

Programa de Pós-Graduação em Ciência da

Computação do Centro de Informática da

Universidade Federal de Pernambuco.

Orientador: Geber Lisboa Ramalho, PhD.

Coorientador: Giordano Ribeiro Eulalio Cabral,

PhD.

Recife 2015

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S586i Silva, Eduardo Santos da

Integrando sensores para a criação de instrumentos musicais digitais / Eduardo Santos da Silva. – 2015.

134 f.:il., fig., tab. Orientador: Geber Lisboa Ramalho. Dissertação (Mestrado) – Universidade Federal de Pernambuco. CIn,

Ciência da Computação, Recife, 2015. Inclui referências e apêndice.

1. Inteligência artificial. 2. Computação musical. I. Ramalho, Geber Lisboa (orientador). II. Título. 006.3 CDD (23. ed.) UFPE- MEI 2017-182

Dissertação de Mestrado apresentada por Eduardo Santos Silva à Pós-Graduação em

Ciência da Computação do Centro de Informática da Universidade Federal de

Pernambuco, sob o título “Integrando Sensores para a Criação de Instrumentos

Musicais Digitais” orientada pelo Prof. Geber Lisboa Ramalho e aprovada pela Banca

Examinadora formada pelos professores:

______________________________________________

Profa. Verônica Teichrieb

Centro de Informática / UFPE

______________________________________________

Prof. João Paulo Cerquinho Cajueiro

Departamento de Engenharia Mecânica/ UFPE

_______________________________________________

Prof. Geber Lisboa Ramalho

Centro de Informática / UFPE

Visto e permitida a impressão.

Recife, 21 de agosto de 2015.

___________________________________________________

Profa. Edna Natividade da Silva Barros Vice-Coordenador da Pós-Graduação em Ciência da Computação do

Centro de Informática da Universidade Federal de Pernambuco.

Aos meus pais.

Agradecimentos

Aos meus pais, por todo o apoio e por me incentivarem a correr atrás do que é

importante para mim.

Às minhas irmãs Carolina e Júlia e ao meu irmão Renato pelas conversas,

brigas, trelas e cumplicidades.

À minha família, por todo o apoio.

À Geber, por todas as discussões, pelas anotações incompreensíveis e por

incentivar a realização do projeto.

À Giordano que sempre possui um olhar crítico e comentários pertinentes ao

tema, e por buscar organizar as ideias malucas e discussões dentro de um

método científico rigoroso.

À Filipe Calegário, João Tragtenberg e Jerônimo Barbosa por toda a ajuda

durante o projeto, tirando dúvidas sobre programação, dúvidas sobre sensores,

ou compartilhando informações pertinentes ao trabalho.

À Hugo Bessa que me ajudou bastante com a implementação do sistema nas

etapas decisivas.

À Paulo Sérgio Nunes pelas conversas e pela ajuda na construção de um

sistema físico para a versão final. Uma grande fonte de conhecimento sobre

materiais.

À Catarina Apolônio pela ajuda na avaliação do artefato e pelos relevantes

comentários sobre a qualidade do áudio do sistema.

À Veronica Teichrieb, pelo apoio no começo da pesquisa, pela disponibilidade

quando foi preciso tirar dúvidas e por disponibilizar o uso do Leap Motion© no

início do projeto, quando o dispositivo ainda não havia sido lançado.

À Lucas Figueiredo, do Voxar Labs, por toda a ajuda na tentativa de resolver os

problemas encontrados e pela disponibilidade na discussão de possíveis

soluções.

Ao meu primo Pedro Menezes pela ajuda na gravação de sons e por todo o

incentivo.

À Jáder Abreu pela implementação do primeiro protótipo com o Leap Motion© e

ter feito a gente tocar a música tema de “Missão Impossível” em um pedaço de

vidro!

À Janiel Almeida pela parceria, pelas conversas sobre jogos e pelo apoio ao

projeto.

Ao pessoal do grupo de pesquisa MusTIC: Luca, João Paulo, Rodrigo, Sofia,

Braz, Mariane, Scholz, Pedro Aléssio e Ricardo Brazileiro, por todas as

contribuições.

À Anaís Simões, Pedro Reis, Danilo Coêlho, por todas as noites de filme e todas

as saídas.

À Renato Gusmão, Cláudia Matos, Raíssa Simões e Pedro Sette, pelos eventos

de Superbowl, Champions League e pelas noites mexicanas.

Ao pessoal do Nerd Soccer por sempre proporcionarem momentos épicos.

Francamente...

Ao grupo de músicos que participaram do questionário online.

Resumo

Nos últimos anos, novas tecnologias de interface gestual emergiram com

os lançamentos de eletrônicos como smartphones, tablets e controladores de

videogames como o Nintendo Wii Remote© e o Microsoft Kinect©. O surgimento

dessas novas interfaces proporcionou o crescimento em pesquisas na área de

Interface Humano-Computador (HCI). Particularmente na área de Computação

Musical, essas tecnologias oferecem a possibilidade de criação de novos

Instrumentos Musicais Digitais (DMIs). Entretanto, apesar do grande número de

demonstrações de DMIs (presentes em sites de compartilhamento de vídeos),

os resultados da avaliação formal destas tecnologias muitas vezes não condizem

com o que é apresentado ao público. Diversos trabalhos acadêmicos relatam

grandes restrições de algumas dessas tecnologias de interface gestual, entre

eles o reconhecimento de nuances gestuais, latência no sistema e ausência de

feedback háptico. Estes são obstáculos na construção de um DMI que possa ser

utilizado pelo público profissional. Neste contexto, este projeto busca avaliar

novas tecnologias de interface gestual para analisar a capacidade de capturar

as nuances gestuais visando aprimorar a expressividade musical destes

instrumentos e solucionar problemas encontrados em pesquisas anteriores. Em

particular, exploramos a ideia de integração de sensores como forma de

proporcionar a captura de nuances expressivas a um baixo custo de

desenvolvimento. Para testar e aprimorar esta abordagem, foi desenvolvido um

DMI que busca simular um instrumento de percussão que integra 3 sensores:

Leap Motion©, sensor piezoeléctrico e um sensor de pressão FSR. Tal DMI foi

desenvolvido seguindo a filosofia de design iterativo que envolve as etapas de

inspiração, investigação, ideação, prototipação e avaliação do artefato. Também

seguimos os princípios do design centrado no usuário que procura solução para

os problemas de uma determinada área a partir do conhecimento das pessoas

que estão inseridas naquele contexto. Os protótipos desenvolvidos foram

avaliados de forma quantitativa, investigando a capacidade do sistema de

solucionar os problemas encontrados em trabalhos anteriores. Além disso, o

instrumento foi apresentado a um músico profissional, de forma a coletar

informações complementares sobre a experiência do usuário. Os resultados

mostram que a abordagem de integração de múltiplos sensores apresenta um

grande potencial (com baixo custo de implementação) para reconhecimento de

nuances de expressividade e apresentando baixa latência, que podem contribuir

no desenvolvimento de DMIs expressivos. Todavia, novos avanços nessa área

ainda podem contribuir para a resolução de todos os problemas levantados

durante a análise da literatura.

Palavras-Chave: Interfaces Gestuais. Instrumentos Musicais Digitais. Avaliação

de Tecnologias. Integração de Múltiplos Sensores. Expressividade Musical.

Abstract

In recent years, new gestural interface technologies emerged after the

release of consumer electronics such as smartphones, tablets and videogame

controllers like the Nintendo Wii Remote© and Microsoft Kinect©. The rise of

these new interfaces provided the growth in the Human-Computer Interaction

(HCI) research field. Particularly in the Computer Music area, those technologies

offer the possibility of creating new Digital Music Instruments (DMIs). However,

despite the wide number of DMI demonstrations (available at video sharing

websites), the findings from the formal evaluation of these technologies are not

consistent with what is presented to the public. Several academic research

describe the limitations of some of these gestural interface Technologies,

including the tracking of gestural nuances, system latency and the lack of haptic

feedback which become obstacles in developing a DMI for professional

musicians. In that context, this project aims to evaluate new gestural interface

technologies to investigate their capabilities to capture gestural nuances in order

to enhance their musical expressivity and solve those problems found in previous

research. Particularly, we explore the idea of multisensor integration as an

approach to achieve gestural nuance tracking at low implementation cost. To test

and enhance this approach, a DMI that simulates an acoustic percussion

instrument was implemented integrating 3 sensors: the Leap Motion Controller©,

a piezoelectric element and a FSR pressure sensor. This DMI was implemented

following a philosophy of iterative design which involves the steps of inspiration,

investigation, ideation, prototyping and evaluation of the artifact. It was also used

a user-centered design approach which follows the principle that the solution of

the problems of a certain area emerges from the knowledge of the people

inserted in that context. The developed prototypes were evaluated following a

quantitative approach, to investigate the system capabilities to solve problems

found in previous research. Moreover, the instrument was presented to an

professional musician to gather complementary information on the user’s

experience. The findings show that the multisensor integration approach presents

great potential (with low implementation cost) to capture nuances of expression

and providing low latency, that can contribute to the development of expressive

DMIs. However, new advances in this field of research can contribute to solve the

problems found during the literature review.

Keywords: Gestural Interfaces. Digital Music Instruments. Technology

Evaluation. Multisensor Integration. Musical Expressivity.

Lista de Figuras

Figura 2.1: Eletronic Numerical Integrator and Computer (ENIAC). ................. 23

Figura 2.2: Xerox Alto (direita) e Xerox Star (esquerda). ................................. 24

Figura 2.3: Wii Remote (esquerda) e barra de captura (direita). ...................... 26

Figura 2.4: Steve Jobs apresentando o iPad. .................................................. 27

Figura 2.5: Sensor Kinect da Microsoft. ........................................................... 28

Figura 2.6: Sensor Leap Motion. ...................................................................... 29

Figura 2.7: Microsoft Hololens. ......................................................................... 30

Figura 2.8: Sintetizador Moog. ......................................................................... 32

Figura 2.9: Controladores MIDI com diferentes interfaces. .............................. 33

Figura 2.10: Modelo de DMI. ............................................................................ 34

Figura 2.11: ACPAD. ........................................................................................ 36

Figura 2.12: DMIs inspirados em instrumentos acústicos. ............................... 36

Figura 2.13: ReacTable. ................................................................................... 37

Figura 4.1: o vBow (Extraído de Nichols, 2002). .............................................. 56

Figura 4.2: MudPad (Extraído de Jansen, Karrer e Borchers, 2010). ............... 57

Figura 4.3: MAX/MSP (em cima) e puredata (em baixo). ................................. 60

Figura 4.4: Matriz de coocorrência de sensores no NIME (Extraído de

MEDEIROS; WANDERLEY, 2014a). ............................................................... 65

Figura 5.1: Microcontrolador arduino UNO. ...................................................... 71

Figura 5.3: Open Tone. .................................................................................... 78

Figura 5.4: Muffled Tone. ................................................................................. 78

Figura 5.5: Slap Tone. ...................................................................................... 79

Figura 5.6: Closed Slap. ................................................................................... 79

Figura 5.7: Pressed Slap. ................................................................................. 79

Figura 5.8: Bass Tone. ..................................................................................... 80

Figura 5.9: Heel Tone. ...................................................................................... 80

Figura 5.10: Tip Tone. ...................................................................................... 80

Figura 5.11: Gliss Tone. ................................................................................... 81

Figura 6.1: Campo de Visão do Leap Motion SDK (v1.0). ................................ 83

Figura 6.2: Arquitetura do frame de reconhecimento. ...................................... 85

Figura 6.3: Visualizador do Leap Motion (SDK v2.0). ....................................... 86

Figura 6.4: Sensor piezoeléctrico. .................................................................... 86

Figura 6.5: Esquema de conexão do piezo com o arduino. ............................. 87

Figura 6.6: Esquema de conexão do FSR com o arduino. ............................... 87

Figura 6.8: Diferentes microcontroladores arduino. .......................................... 89

Figura 6.9: Ambientes de programação do Arduino (à esquerda) e Processing (à

direita). ............................................................................................................. 90

Figura 6.10: Interface do Ableton Live 9. .......................................................... 91

Figura 6.11: Drum Rack do Ableton Live (Extraído de

http://en.wikiaudio.org/Ableton_Live:Drum_rack). ............................................ 92

Figura 6.12: Configuração do mapeamento MIDI de parâmetros sonoros. ...... 93

Figura 6.13: Folha de vidro com marcações. ................................................... 95

Figura 6.14: Perspectiva do usuário. ................................................................ 95

Figura 6.15: Configuração do protótipo versão beta 1. .................................. 101

Figura 7.1: Formato de onda de percussão.................................................... 106

Figura 7.2: Ritmo 1 – Four Stroke Ruff. .......................................................... 113

Figura 7.3: Ritmo 2 – Flam Tap. ..................................................................... 113

Figura 7.4: Ritmo 3 – Heel-Tip Technique. ..................................................... 113

Figura 7.5: Ritmo 4 – Tumbao. ....................................................................... 113

Figura 7.6: Cajón virtual (esquerda) e cajón acústico (esquerda). ................. 115

Figura 7.7: Mapa mental da entrevista. .......................................................... 118

Lista de Tabelas

Tabela 1: Capacidade de rastreamento dos sensores Wii Remote e Kinect

(Extraído de SILVA, 2012)................................................................................ 40

Tabela 2: Sensores que aparecem em artigos da conferência NIME (Extraído de

MEDEIROS; WANDERLEY, 2014). ................................................................. 64

Tabela 3: Movimentos capturados pelas interfaces. ........................................ 84

Tabela 5: Reconhecimento dos gestos da conga com apenas uma mão. ..... 110

Tabela 6: Reconhecimento dos gestos da conga com ambas as mãos. ........ 110

Sumário

1 INTRODUÇÃO ...................................................................................... 16

1.1 Motivação ............................................................................................ 16

1.2 Objetivos .............................................................................................. 18

1.3 Abordagem e método ......................................................................... 19

1.4 Estrutura da Dissertação .................................................................... 20

2 EVOLUÇÃO DA INTERFACE HOMEM-MÁQUINA NAS TAREFAS

COTIDIANAS E NA MÚSICA ............................................................... 22

2.1 Avanços Tecnológicos em HCI ......................................................... 22

Primeiros computadores ....................................................................... 23

O conceito do Desktop ......................................................................... 24

Interfaces Gráficas e a implementação do modelo WIMP .................... 24

Surgimento das Interfaces gestuais ...................................................... 25

2.2 Novas formas de interação musical ................................................. 30

Descoberta da eletricidade e um grande salto tecnológico .................. 31

Os avanços com o protocolo MIDI ....................................................... 33

O modelo de Instrumentos Musicais Digitais ....................................... 34

Tipos de DMIs ...................................................................................... 35

2.3 Conclusões ......................................................................................... 38

3 DESAFIOS NA CRIAÇÃO DE DMIS ................................................... 39

3.1 Apresentando DMIs ao público profissional ................................... 39

3.2 Questionário sobre as tecnologias de percussão digital existentes

..............................................................................................................41

3.3 Problemas do mapeamento .............................................................. 45

3.4 Problema do entendimento e engajamento .................................... 47

3.5 Latência .............................................................................................. 48

3.6 Feedback háptico e relação física entre o músico e o instrumento .

..............................................................................................................49

3.7 Expressividade do instrumento e virtuosidade do performer ....... 50

3.8 Contextos de uso .............................................................................. 53

3.9 Escopo da pesquisa .......................................................................... 53

4 ESTADO DA ARTE ............................................................................. 55

4.1 Latência .............................................................................................. 55

4.2 Feedback Háptico .............................................................................. 55

4.3 Expressividade musical .................................................................... 57

Protocolos de comunicação ................................................................ 58

Softwares de mapeamento ................................................................. 59

Síntese sonora .................................................................................... 61

Sensores ............................................................................................. 63

5 ABORDAGEM ADOTADA ................................................................. 68

5.1 Princípios utilizados ......................................................................... 68

Integração de múltiplos sensores ........................................................ 68

Baixo custo de implementação ........................................................... 70

Princípios de design ............................................................................ 71

Conexão com tecnologias já existentes .............................................. 72

Mobilidade ........................................................................................... 73

5.2 Métodos de design adotados ........................................................... 73

Método de inspiração .......................................................................... 73

Método de ideação .............................................................................. 74

Métodos de investigação ..................................................................... 74

Método de prototipação ....................................................................... 75

5.3 Escolha do instrumento .................................................................... 75

5.4 Método de aquisição dos samples .................................................. 81

6 CONSTRUÇÃO DO PROTÓTIPO ....................................................... 82

6.1 Sensores Utilizados .......................................................................... 82

Leap Motion© ...................................................................................... 82

Sensor piezoeléctrico .......................................................................... 86

Sensor de pressão .............................................................................. 87

6.2 Tecnologias utilizadas ...................................................................... 88

Integração dos sensores ..................................................................... 88

Arduino ................................................................................................ 88

Ableton Live ........................................................................................ 90

6.3 Protótipo preliminar com o Leap Motion©: Crystal Piano ............. 93

Tecnologias utilizadas ......................................................................... 94

Configuração ....................................................................................... 94

Discussões .......................................................................................... 96

6.4 Versão alfa 1 ...................................................................................... 96


Configuração ....................................................................................... 97

Discussões .......................................................................................... 97

6.5 Versão alfa 2 ...................................................................................... 98


Configuração ....................................................................................... 98

Discussões .......................................................................................... 99

6.6 Versão beta 1 ..................................................................................... 99

Tecnologias Utilizadas ........................................................................ 99

Configuração ..................................................................................... 100

Discussões ........................................................................................ 102

6.7 Versão final ...................................................................................... 102

Tecnologias Utilizadas ...................................................................... 103

Configuração ..................................................................................... 103

Discussões ........................................................................................ 103

7 RESULTADOS OBTIDOS ................................................................. 105

7.1 Métodos de avaliação ..................................................................... 105

Método de avaliação da latência ....................................................... 105

Método de avaliação do reconhecimento de gestos ......................... 106

Método de avaliação qualitativa ........................................................ 107

7.2 Resultados da avaliação da latência ............................................. 108

7.3 Reconhecimento de gestos ............................................................ 108

7.4 Resultados qualitativos .................................................................. 111

Protocolo Experimental ..................................................................... 112

Entrevista .......................................................................................... 114

Reconstrução do mundo do usuário e observações durante o

experimento........................................................................................114

Codificação e Mapa mental ............................................................... 116

Mapa mental ..................................................................................... 118

História Central ................................................................................. 119

8 CONCLUSÕES E TRABALHOS FUTUROS..................................... 121

8.1 Lições aprendidas com o Leap Motion© ....................................... 122

Vantagens ......................................................................................... 122

Desvantagens ................................................................................... 123

Considerações Finais ........................................................................ 123

Referências ..................................................................................... 125

Apêndice A – Modelo do questionário online .............................. 133

16

1 INTRODUÇÃO

Nos últimos anos, diversos dispositivos de interface gestual como smartphones,

tablets, smart TVs, controladores de videogame (como o Nintendo Wii Remote1

e o Microsoft Kinect2), entre outros, despertam a atenção de pesquisadores da

área de Interação Humano-Computador (HCI) e o público geral, com a

possibilidade de se interagir com computadores de maneiras diferentes,

rompendo com os paradigmas de interação consolidados ao longo do tempo nas

interfaces compostas por monitores, teclados, mouses e o modelo WIMP

(Windows, Menus, Icons and Pointable Devices) e possibilitando aplicações que

não haviam sido imaginadas. O uso de interfaces gestuais vem ganhando

espaço nas pesquisas acadêmicas, tendo em vista que interação pode beneficiar

diversos campos de aplicação que abrange artes, auxílio na área de medicina,

simulações, etc. (FREITAS et al., 2012; SINGER; LARKE; BIANCIARDI, 2003;

WONG; YUEN; CHOY, 2008).

Neste contexto, a área de computação musical tem testemunhado um crescente

número de novos instrumentos musicais digitais (DMIs, do inglês Digital Musical

Instruments). Estes foram imensamente beneficiados por estas tecnologias de

interfaces emergentes (JORDA et al., 2005; MILLER; HAMMOND, 2010;

MONTAG et al., 2011).

1.1 Motivação

Diversos destes DMIs podem ser vistos por meio de documentação informal

disponibilizada online em sites de compartilhamento de vídeos como o Youtube3

e Vimeo3. DMIs como o Kin Hackt4 e o Kinectar5, integram a capacidade de

reconhecimento do sensor Kinect com o software Live6, da empresa Ableton,

para composição musical e utilizam gestos como parâmetros de entrada.

Diversos outros projetos, como o V motion project7 desenvolveram artefatos

interativos musicais utilizando um ou mais sensores Kinect para aprimorar a

precisão e reduzir o atraso sonoro do instrumento, ao mesmo tempo em que

também fornecem feedback visual, em tempo real, para fins artísticos.

1 Wii Remote é um controle de movimentos do console Nintendo© Wii, desenvolvido pela Nintendo© Company, Limited. Website do Nintendo© Wii: <http://www.nintendo.com/wii>. 2 Microsoft© Kinect é um sensor de profundidade desenvolvido pela Microsoft© Corporation, inicialmente para o videogame Microsoft© Xbox 360 para servir como um controle de movimentos, porém adaptado para funcionar com os computadores Microsoft© Windows computers. Websites do Microsoft© Kinect: http://www.xbox.com/en-US/kinect and <http://www.microsoft.com/en-us/kinectforwindows/>. 3 Youtube e Vimeo são websites de compartilhamento de vídeos que permitem seus usuários divulger, visualizer e compartilhar vídeos. 4 Vídeo disponível em: <http://www.youtube.com/watch?v=YW86yyz0gj0>. 5 Vídeo disponível em: <http://www.youtube.com/watch?v=qXnLxi2nzrY>. 6 Live é um software de composição musical criado pela empresa Ableton. Website do Ableton Live: <https://www.ableton.com/en/live/>. 7 O video do V motion project está disponível em: <http://vimeo.com/45417241>.

17

Novos instrumentos têm sido explorados utilizando diferentes controles de

movimento de videogame como o Wii Remote (MILLER; HAMMOND, 2010;

SILVA, 2012), projetos utilizando tablets multi-toque como o iPad da Apple

(CALEGARIO, 2013), mesas multi-toque (JORDÀ et al., 2005) ou desenvolvendo

seus próprios DMIs com interfaces inovadoras utilizando os mais diversos

sensores, como o projeto “Hands”8 de Mike Waisvisz’s (na década de 1980).

Além disso, diversos pesquisadores abordam a avaliação de novas tecnologias

e DMIs. Estudos avaliando a precisão da performance em propriedades musicais

como tempo, latência em instrumentos construídos apenas com o controle Wii

Remote (KIEFER; COLLINS; FITZPATRICK, 2008), com a barra de sensor do

console Wii (PENG; GERHARD, 2009) e com diversas plataformas multi-toque

disponíveis naquele momento (MONTAG et al., 2011). Ademais, outros

analisaram os movimentos realizados em um piano utilizando sensores inerciais

conectados ao usuário (HADJAKOS; MÜHLHÄUSER, 2010).

É importante destacar que pelo fato de instrumentos musicais estarem inseridos

num contexto, o qual demanda altamente de precisão temporal, resposta ao

usuário e que, para se tocar os diversos instrumentos existentes é necessária

uma alta precisão e expertise nas técnicas gestuais utilizadas, diversas

propriedades essenciais das tecnologias gestuais podem ser testadas ao se

avaliar DMIs.

Apesar da crescente exploração nesta área e o grande número de

demonstrações online, a maioria destes novos DMIs e destas novas interfaces

não são utilizadas por músicos profissionais. Muitas das tecnologias utilizadas

para construção destes DMIs, quando avaliadas rigorosamente ou quando

apresentadas ao público profissional, não apresentam a mesma qualidade que

prometem e, pelo contrário, possuem diversos problemas essenciais para a

utilização destes instrumentos (SILVA, 2012), levantando dúvidas sobre as

qualidades e reais capacidades destas tecnologias emergentes. Dentre as

limitações, o trabalho citado revelou latência além do desejado, falta de feedback

tátil e/ou visual, ausência de controle de dinâmica do sistema desenvolvido e a

carência de timbres do instrumento.

Estes problemas levantados pelos músicos profissionais estão diretamente

relacionados com a capacidade de expressividade do instrumento desenvolvido

(FELS; GADD; MULDER, 2002; JORDA, 2005; O’MODHRAIN; CHAFE, 2000).

Como diversas vezes, nos trabalhos acadêmicos, o usuário final do instrumento

é o próprio desenvolvedor, pode existir uma certa adaptação do usuário ao

utilizar o sistema, o que pode não revelar suas limitações frente a músicos

profissionais.

8 “Hands” é um Instrumento Musical Digital desenvolvido no STEIM (steim.org). Descrição disponível em: <http://www.crackle.org/TheHands.htm>.

http://www.steim.org/

18

Além disso, diversos trabalhos acadêmicos levantam problemas na construção

de DMIs (CALEGARIO, 2013; JORDA, 2005; MEDEIROS et al., 2014;

WANDERLEY; ORIO, 2002). Várias dessas pesquisas levantam limitações de

sensores para o design de instrumentos que contradizem a qualidade das

demonstrações disponíveis online, principalmente com o sensor Kinect© (HSU

et al., 2013; ODOWICHUK et al., 2011; OKADA et al., 2014; ROSA-PUJAZÓN

et al., 2013; TODOROFF; LEROY; PICARD-LIMPENS, 2011).

Ainda assim, existem empresas que desenvolvem instrumentos musicais digitais

para o público profissional. Esse é o caso de controladores MIDI como teclados

musicais, baterias eletrônicas, violões MIDI, interfaces para DJs e pads de

percussão digital. Porém, um questionário realizado com percussionistas

profissionais sobre instrumentos digitais de percussão mostra que mesmo que o

uso desses instrumentos possua certas vantagens em alguns contextos de uso,

os mesmos ainda possuem características que não agradam o público

profissional.

Em 2012, o dispositivo Leap Motion Controller© foi revelado (Leap Motion inc.,

2015). Este dispositivo de reconhecimento de gestos fornece um campo de visão

de aproximadamente 150º e utiliza um sensor de profundidade para rastrear

características das mãos com precisão de até um centésimo de milímetro. Um

controle de alta-granularidade pode representar uma nova oportunidade para

criação de uma nova geração de DMIs. Entretanto, uma avaliação relacionada

com latência e precisão (entre outros problemas comuns) do sensor deve ser

realizada para analisar as possibilidades de uso.

Outro fator importante na popularização destes DMIs é a construção de um

sistema a um baixo custo de implementação. Isto parte da filosofia de

movimentos como o Makers e o Do-it-Yourself de compartilhamento de

informações, diminuindo as barreiras de desenvolvimento para iniciantes.

1.2 Objetivos

Este projeto apresenta uma avaliação de tecnologias para construção de DMIs.

Partindo dos resultados da pesquisa realizada por (SILVA, 2012) e buscando os

princípios do processo de design utilizados por (CALEGARIO, 2013), este

projeto busca uma nova iteração no processo de avaliação das tecnologias

existentes para a construção de DMIs, visando o baixo custo de implementação

computacional e a integração de múltiplos sensores, de forma a responder a

seguinte pergunta de pesquisa:

“Como seria possível superar alguns desses obstáculos de construção de

Instrumentos Musicais Digitais, particularmente a captura de nuances de

expressão musical e a precisão temporal, utilizando tecnologias de baixo custo

de desenvolvimento? ”

19

Para isto, deve-se desenvolver uma “plataforma” (abordagem) de criação de

DMIs expressivos que possa solucionar os problemas encontrados em

pesquisas anteriores (SILVA, 2012) e considerar as dificuldades de construção

de DMIs no design do artefato deste projeto. Este projeto foca, principalmente,

os problemas de captura de nuances gestuais e precisão temporal (latência),

bem como fornecer algum tipo de feedback visual/háptico para o músico. Assim,

um DMI deve ser desenvolvido e avaliado, e tecnologias e abordagens diferentes

devem ser investigadas com intuito de solucionar este problema.

Assim, buscou-se focar um instrumento de percussão. Visamos os instrumentos

de percussão pela sua grande demanda de precisão espacial e temporal e

buscamos saber o quão perto a interface apresentada está de reproduzir a vasta

expressividade que um instrumento acústico possui. Entretanto, mesmo que este

DMI apresente algumas vantagens em relação ao seu análogo digital, e.g. ser

mais portátil que um kit de percussão ou ser possível tocar diversos instrumentos

diferentes em um único sistema, o objetivo do projeto é construir um sistema que

possua a capacidade de captura de nuances de expressividade musical, mesmo

que não seja um instrumento de percussão. Ou seja, uma plataforma expressiva

para construção de novos DMIs.

1.3 Abordagem e método

Para isso, buscou-se construir um novo DMI destinado ao público profissional,

denominado V-Conga, utilizando essa abordagem. Este DMI utiliza uma

combinação de sensores e novas tecnologias de forma a simular instrumentos

de percussão já existentes e consolidados no mercado. Instrumentos de

percussão foram escolhidos por serem altamente demandantes de precisão

espacial e temporal (para acompanhamento musical).

A abordagem utilizada visou a integração de múltiplos sensores. Assim, procura-

se utilizar as informações provindas de diferentes sensores de forma

complementar, visando tirar o melhor proveito de cada um deles. Diferente da

filosofia de utilização de um único sensor, e.g. uma câmera RGB convencional,

que demandaria de um alto nível técnico para implementação de algoritmos

complexos de processamento de imagem, a integração de múltiplos sensores

pode se munir de tecnologias que seguem a filosofia DIY, e.g. o Arduino, que

diminuem o custo de implementação desses sistemas.

Entretanto, apesar de possíveis vantagens que o sistema possa trazer quando

comparado com os instrumentos acústicos análogos, o projeto não busca a

criação de um novo produto que funcione como instrumentos já existentes. A

prioridade é saber se as tecnologias emergentes podem resolver problemas

encontrados na Computação Musical para aprimorar a expressividade de DMIs

e como estas tecnologias podem ser usadas para isso. Além disso, esta

20

contribuição pode também beneficiar o campo de HCI com a avaliação de

tecnologias para construção de novas interfaces.

Utilizando uma abordagem de design centrado no usuário, na qual partimos do

princípio de que o usuário que possui a solução para o problema, o processo

partiu de pesquisas já nesta área utilizando a mesma linha de avaliação (SILVA,

2012) e seguiu um ciclo envolvendo investigação, concepção, prototipação e

avaliação do produto.

Este processo de design fez com que o método utilizado para criação do

protótipo final fosse aprimorado. O mesmo incorpora múltiplos sensores, o

mínimo de programação necessária e um custo relativamente baixo, para facilitar

a adesão de novos pesquisadores e principalmente artistas que pretendem

expandir a expressividade de suas performances.

Os resultados mostram que, apesar de certos problemas na utilização de

sensores com câmera, a integração de múltiplos sensores pode contribuir para

solucionar os obstáculos encontrados e são capazes de reproduzir a maioria das

nuances encontradas em instrumentos acústicos, provando que esta é uma

direção interessante a ser tomada na criação de novos instrumentos digitais

musicais.

Entretanto, apesar de o sistema conseguir capturar a maioria das nuances

gestuais necessárias na utilização do instrumento e possuir uma baixa latência,

a instabilidade na robustez apresentada pelo sensor de rastreamento (Leap

Motion©), neste estágio de desenvolvimento do kit de desenvolvimento de

software (SDK, do inglês Software Development Kit), permite identificar que

novos avanços na área de rastreamento devem acontecer para atender as

demandas do contexto dos percussionistas profissionais.

1.4 Estrutura da Dissertação

A estrutura da dissertação é apresentada abaixo:

O capítulo 2 apresenta um breve histórico sobre como os avanços tecnológicos

proporcionaram o desenvolvimento de novas interfaces de interação homem-

máquina e como elas modificaram os paradigmas de interação computacional –

da manipulação direta de componentes eletrônicos até as interfaces gestuais.

Além disso, mostra como os avanços tecnológicos possibilitaram novas formas

de interação com a música – o desenvolvimento de instrumentos eletrônicos, a

mídia digital e as criações de protocolos de comunicação entre instrumento e

computador e instrumentos digitais musicais (DMIs).

Os capítulos 3 e 4 apresentam informações obtidas a partir da análise da

literatura. O capítulo 3 descreve as dificuldades e problemas encontrados em

pesquisas anteriores (relativas à construção de instrumentos musicais digitais),

21

explicitando o escopo da pesquisa. Já o capítulo 4 apresenta o estado da arte

do artefato desenvolvido neste projeto.

No capítulo 5, é apresentada a abordagem adotada durante o projeto. São

descritos, os princípios seguidos durante esse processo, os métodos de design

adotados e a justificativa da escolha do instrumento.

O capítulo 6 descreve o processo de construção do sistema final (V-Conga),

explicitando as escolhas dos sensores e tecnologias e apresentando a evolução

cronológica do sistema, detalhando as abordagens utilizadas e discutindo cada

etapa de iteração do processo.

O capítulo 7 apresenta os resultados obtidos na avaliação do sistema. São

explicitadas as avaliações quantitativas de latência e reconhecimento de

nuances gestuais e a avaliação qualitativa feita a partir do experimento realizado

com o músico profissional.

Por fim, no capítulo 8 são apresentadas as conclusões obtidas durante o projeto

de pesquisa e são discutidos os trabalhos futuros.

22

2 EVOLUÇÃO DA INTERFACE HOMEM-MÁQUINA NAS

TAREFAS COTIDIANAS E NA MÚSICA

A palavra “tecnologia” é comumente associada com novos dispositivos e

sistemas criados. Mesmo exercendo impacto em todos as áreas de

conhecimento, muitas vezes é apenas relacionada com o campo da Computação

ou das engenharias. Entretanto, a utilização de técnicas aprimoradas

desenvolvidas com os avanços de conhecimento, também fazem parte do

conjunto que engloba a etimologia da palavra. Este é um campo funciona por

retroalimentação, ou seja, o avanço do conhecimento proporciona evolução nas

técnicas de pesquisa e de criação de novos dispositivos que, por sua vez, podem

aumentar a capacidade de entendimento sobre uma certa área que irá aumentar

o conhecimento dos pesquisadores e desenvolvedores e assim por diante.

Neste capítulo, veremos os qual foi o impacto dos avanços tecnológicos na

evolução das interfaces de interação homem-máquina e no meio musical, e

como estas interfaces possibilitaram a criação de novos instrumentos musicais.

2.1 Avanços Tecnológicos em HCI

Nesta seção, vemos como a interação homem-máquina se beneficiou com os

avanços científicos ao longo da história, apresentando a evolução nos

dispositivos de interface e como o surgimento dos mesmos mudaram os modelos

de interação em HCI.

A tecnologia sempre exerceu um importante papel na interação homem-

máquina. O homem utiliza os avanços tecnológicos para extrair máxima

capacidade de artefatos já conhecidos e aprimorar modelos já consolidados. Em

1911, Frederick Winslow Taylor (1856-1915) publicava o Princípio da

Administração Científica, obra que revolucionou a economia mundial. Para

Chiavenato (CHIAVENATO, 2003, p. 55):

“O ponto de partida de Taylor foi a aplicação dos

princípios da tecnologia de sua época ao

trabalho manual. Procurou aplicar às operações

manuais os mesmos princípios que os

projetistas aplicavam às operações das

máquinas no século XIX. Para tanto, ele

identificava o trabalho a ser feito, decompunha-

o em suas operações individuais, designava a

maneira certa de realizar cada operação e,

finalmente, reunia as operações na sequência

que permitia realizá-lo mais rapidamente e com

maior economia de tempo e movimentos. ”

(CHIAVENATO, 2003, p. 55).

23

Chiavenato descreve a aplicação do método cartesiano criado por René

Descartes e utilizada por Taylor, na administração, de forma a aprimorar o

modelo econômico industrial de sua época. Apesar de diversos problemas

relacionados com o modelo de Taylor, o mesmo serviu de base para a

administração atual e também serviu como inspiração para os novos princípios

que o sucederam, como os aplicados por Henry Ford (1863-1947) na Ford Motor

Co. fundada em 1903 e publicadas em seu livro Minha filosofia de indústria, os

quais aplicou novos avanços tecnológicos de forma a padronizar não só o

maquinário utilizado na indústria, mas também o produto e seu desenho, o

material e a mão de obra.

Primeiros computadores

O sucesso dos computadores mainframe, como o Mark I9 desenvolvido pela

universidade de Harvard, proporcionou que, em 1946, novos avanços

tecnológicos levassem à criação do primeiro computador programável para uso

geral: o Eletronic Numerical Integrator and Computer (ou ENIAC). Desenvolvido

por John Eckert e John Mauchly, na escola de engenharia elétrica Moore School

of Electrical Engineering, com apoio do departamento militar, o ENIAC teve o

propósito de ser utilizado prioritariamente como instrumento de pesquisa

balística para as forças armadas (GOLDSTINE; GOLDSTINE, 1946).

Figura 2.1: Eletronic Numerical Integrator and Computer (ENIAC).

A interface desenvolvida para ele ser operado era baseada em manipulações de

componentes eletrônicos como cabos, switches, válvulas e relês, mas também

a partir da leitura de cartões numéricos desenvolvidos pela empresa IBM. O

problema computacional e as estimativas iniciais para o mesmo eram

introduzidos na unidade de processamento central chamada master programmer

que eram realizadas pelas unidades aritméticas da máquina (HARTREE, 1946).

9 Mais Informações no site: <http://chsi.harvard.edu/markone/function.html>.

24

O conceito do Desktop

Contrária a ideia de utilizar estes sistemas para aplicações numéricas estava a

visão de utilizar estes sistemas para tarefas mais cotidianas. Na mesma década

do ENIAC, Vannevar Bush já imaginava o conceito de um computador compacto

que se assemelhava a uma mesa de trabalho, ou desktop: o MEMEX (BUSH,

1945).

Ligada a essa possibilidade de utilizar estes sistemas de forma a auxiliar as

tarefas que precisavam ser realizadas, surgiu a necessidade de aprimorar a

forma com a qual os homens interagiam com estas máquinas. Esta necessidade

é um dos grandes pilares das pesquisas desenvolvidas por Douglas Carl

Engelbart (1925-2013) em seus estudos para aprimorar a capacidade do usuário

em realizar uma determinada tarefa utilizando os computadores(ENGELBART,

1962; ENGELBART; ENGLISH, 1968). Estes estudos levaram a diversas

descobertas tecnológicas apresentadas alguns anos depois na demonstração

conhecida por “Mother of All Demos”10, em 9 de dezembro de 1968, como o

conceito de hipertexto, teleconferência e o primeiro protótipo do mouse que

usamos atualmente.

Interfaces Gráficas e a implementação do modelo WIMP

Outro grande marco na área de HCI foram os lançamentos do Xerox Alto e do

Xerox Star. Sistemas compactos composto por uma unidade de processamento

que incluía um display, um teclado - interface de escrita que se assemelhava a

uma máquina de escrever (que já era amplamente utilizada e já consolidada no

mercado), um mouse e ainda apresentava as primeiras interfaces gráficas do

usuário (GUIs, do inglês Graphical User Interface).

Figura 2.2: Xerox Alto (direita) e Xerox Star (esquerda).

Entretanto, introduzir as interfaces gráficas foi apenas um dos avanços

tecnológicos dos sistemas. O software do Alto foi pioneiro ao construir a ideia

10 Vídeos disponíveis em: <http://dougengelbart.org/events/1968-demo-highlights.html>.

25

arquivos e janelas, nas quais os variados programas seriam executados, além

de já incorporar a ideia de compartilhamento de informações e rede de conexão

entre sistemas (LAMPSON; TAFT, 1976; WADLOW, 1981). Este sistema

proporcionou a evolução do paradigma de interface que utilizamos atualmente.

Já o Star, lançado em 1981, pode ser considerado mais um salto tecnológico na

direção das interfaces utilizadas atualmente. O mesmo eliminava diversos

problemas encontrados em sistemas anteriores e aumentava a capacidade de o

usuário final focar mais nas tarefas a serem realizadas. Notoriamente, a

introdução do conceito de ícones junto aos outros anteriormente consolidados

pelo Alto foi revolucionária e rapidamente difundida para os outros sistemas

(JOHNSON et al., 1989). O sucesso deste sistema de interação se deve

indubitavelmente aos dispositivos que eram utilizados para operar o Xerox Star

– uma interface visual construída suportada pelo teclado e mouse - serviu como

base para a elaboração do paradigma de interação utilizado na maioria das

interfaces utilizadas atualmente: o paradigma conhecido como WIMP (“Windows,

Icons, Menus and Pointable devices” – que pode ser traduzido em “Janelas,

Ícones, Menus e Dispositivos apontadores”).

Antes do lançamento do Star, diversos pesquisadores já documentavam novas

formas de se interagir com os computadores. Estas inovações buscavam uma

alternativa ao modelo de interfaces com botões (que foi consolidada com o

modelo WIMP). Particularmente, a primeira interface gestual digital formalmente

documentada, criadas para servir como dispositivo de entrada para

computadores, foi criada em 1982 na universidade de Toronto, pelo cientista

Nimish Mehta, e utilizava uma câmera e princípios básicos de iluminação para

detectar os gestos realizados pelos usuários, e alavancou as pesquisas na

mesma área. Pouco tempo depois, em 1983, Myron Krueger lançou a demo da

Video Place/Video Desk11, um sistema rico em interações gestuais com

tecnologia baseada câmeras e visão computacional desenvolvido alguns anos

antes (BUXTON, 2007). Diversas outras interfaces ainda surgiram na mesma

década, incluindo pesquisas que mostram superfícies de contato multi-toque

(BUXTON; HILL; ROWLEY, 1985; LEE; BUXTON; SMITH, 1985; WESTERMAN;

ELIAS; HEDGE, 2001) com um ou mais usuários realizando gestos

independentemente (DIETZ; LEIGH, 2001). Entretanto, estas interfaces ainda

eram produtos altamente custosos de forma que seu acesso era limitado.

Surgimento das Interfaces gestuais

Em 2006, Jefferson Y. Han apresentou uma palestra no TED Talks na qual

apresentava uma demonstração intitulada “The radical promise of the multi-touch

interface”12 da sua mais nova interface de interação: um protótipo de baixos custo

11 Vídeo disponível em: <https://www.youtube.com/watch?v=dqZyZrN3Pl0>. 12 Vídeo disponível em: < https://goo.gl/emHhNV>.

26

e tempo de resposta de uma superfície multi-toque facilmente replicável (HAN,

2005).

Saffer (SAFFER, 2008, p.2) acredita que este foi um dos grandes momentos de

transição na forma em que as grandes indústrias e pesquisadores pensavam

sobre as novas interfaces:

“Since then, consumer electronics

manufacturers such as Nintendo, Apple, Nokia,

Sony Ericsson, LG, and Microsoft have all

released products that are controlled using

interactive gestures. Within the next several

years, it’s not an exaggeration to say that

hundreds of millions of devices will have gestural

interfaces. ” (SAFFER, 2008, p.2).

Certamente, em 2005, a empresa japonesa de videogames Nintendo anunciou

o, até então, mais novo console de última geração: o Nintendo Wii, que viria a

ser lançado no ano seguinte. O lançamento do Nintendo Wii pode servir como

marco para o lançamento de novas interfaces gestuais produzidas em larga

escala e disponibilizada para o público.

O Wii trazia consigo uma tecnologia inovadora de interação gestual, vista poucas

vezes anteriormente no contexto de jogos digitais, se afastando, mas também

incorporando, o modelo de interação por botões utilizado até então.

Diferentemente de interfaces anteriores, o Wii Remote (como é conhecido o

controle do console) é um controle de alta precisão que contém um acelerômetro

e um sensor infravermelho (IR, do inglês Infrared) que é detectado por uma

pequena barra de captura que contém sensores IR.

Figura 2.3: Wii Remote (esquerda) e barra de captura (direita).

Fazendo uma triangulação a partir dos sensores IR contidos no controle e na

barra de captura, pode-se localizar a posição espacial (x, y, z) do sensor contido

no Wii Remote e, consequentemente, a posição da mão do usuário. Além disso,

27

o acelerômetro contido no controle consegue identificar a rotação realizada pelo

usuário no controle.

Aproximadamente 3 meses após o lançamento do Wii (janeiro de 2007), Steve

Jobs (1955-2011), junto à Apple Inc., lançava a primeira geração do iPhone

(KERRIS; DOWLING, 2007). O iPhone possuía diversos sensores dos quais

pode-se destacar a tela multi-toque, um acelerômetro e um dispositivo Wi-fi.

Versões mais recentes já possuem um giroscópio e GPS, entre outros sensores.

No ano seguinte, a Apple lançou a loja virtual de aplicativos (Apple App Store) e

o kit de desenvolvimento de software (SDK, do inglês Software Development Kit),

o suporte para os desenvolvedores da plataforma iOS (sistema operacional

utilizado pela empresa) baseado na linguagem de programação Objective-C.

Mais tarde, em 2010, a Apple lançaria o iPad: seu primeiro tablet que possuía

diversos dos sensores embutidos no iPhone, porém com um display maior

(SMITH; EVANS, 2010).

Figura 2.4: Steve Jobs apresentando o iPad.

Até então, a área de reconhecimento de gestos em três dimensões, era feito

majoritariamente utilizando câmeras e técnicas de visão computacional, padrões

de textura e cor da pele e modelos estatísticos como o Modelo Oculto de Markov

(ou Hidden Markovian Model – HMM) (MITRA; ACHARYA, 2007). Entretanto,

todo o processamento de dados era realizado pelo próprio computador, o que

pode demandar tempo e prejudicar as aplicações (dependendo da capacidade

do processador do mesmo).

Apenas em 2010 a Microsoft lançaria o Kinect©, um sensor de reconhecimento

de gestos, reconhecimento facial e também podia realizar tarefas por comando

de voz que possuía a capacidade de processar essas informações internamente.

Este dispositivo foi lançado junto ao console da própria empresa, o Xbox 360,

com o intuito de ampliar a experiência do usuário introduzindo novas formas de

interação com os jogos digitais, como forma de concorrência ao Nintendo Wii e

28

o Playstation Move (Interface gestual lançada em 2009 pela Sony como forma

de concorrência do Nintendo Wii Remote).

Figura 2.5: Sensor Kinect da Microsoft.

O Kinect possui uma câmera RGB, um sensor de profundidade IR, além de

microfones para captura de voz. Estes sensores são utilizados de modo a

capturar uma cena 3D numa forma de nuvem de pontos, na qual cada um desses

pontos possui uma informação IR com a qual o software do dispositivo é capaz

de calcular sua posição espacial (x, y, z) e já é pré-programado para reconhecer

48 pontos da articulação do corpo humano (Silva, 2012), o que facilita o

desenvolvimento de novas interfaces de interação.

Interfaces de interação com o Kinect se tornaram bastante populares não só pelo

fato de o sensor ter sido popularizado com as vendas do videogame, com o qual

ele vinha atrelado, mas também pelo fato do dispositivo suportar aplicações

desenvolvidas em C++, C#, Visual Basic ou qualquer outra linguagem de

programação .NET.

Em outubro de 2012 a companhia startup Leap Motion Inc. lançou o programa

de desenvolvedores de um projeto que vinha sendo desenvolvido, por seus

fundadores, desde 2008. O Leap Motion Controller© (“Leap Motion”, 2015), que

seria lançado para o público consumidor no ano seguinte (2013), é um sensor

de reconhecimento gestual que visa aprimorar tanto a precisão de rastreamento

quanto a latência relativa ao mesmo.

29

Figura 2.6: Sensor Leap Motion©.

Tentando combinar a capacidade de reconhecimento espacial de dispositivos

como o Kinect da Microsoft ou o Xtion© da Asus, com a baixa latência e robustez

de interfaces multi-toque de smartphones e tablets top de linha como o iPad© da

Apple e o Galaxy© da Samsung, o Leap Motion Controller© utiliza novas técnicas

de rastreamento em três dimensões para reduzir o tempo de processamento e,

consequentemente, a latência nas aplicações.

Estes avanços proporcionaram um crescente número de interfaces incorporadas

(embodied interfaces), ou seja, interfaces em que a comunicação homem-

computador utiliza o próprio corpo do usuário como parâmetros de entrada.

Atualmente, eletrônicos para consumo geral, como smartphones, notebooks,

tablets e televisores (como as smart TVs), já utilizam gestos para controlar suas

interfaces. Principalmente interfaces multi-toque, às vezes combinadas a gestos

no ar, ganharam bastante espaço com o sucesso dos smartphones.

Além disso, com os avanços nas áreas de realidade virtual (VR) e realidade

aumentada (AR), diversas pesquisas buscam combinar interações gestuais com

um ambiente de VR ou AR. Variando entre uso de luvas e marcadores para

reconhecer movimentos como o FingARtips (BUCHMANN et al., 2004),

utilizando objetos tangíveis como o Geomagic Touch Haptic Device – uma

caneta que possui feedback de força (haptic feedback) – para ser utilizado em

ambientes virtuais, ou utilizando movimentos do corpo como o Microsoft

Hololens© que utiliza gestos para interagir com ambientes de realidade

aumentada.

30

Figura 2.7: Microsoft Hololens.

Paralelamente à chegada desses novos sensores, diversos algoritmos de visão

computacional continuam a ser aprimorados visando reconhecimento facial e de

gestos, utilizando uma ou mais câmeras, para aplicações em HCI (SATO;

SAITO; KOIKE, 2001; WACHS et al., 2011).

Neste contexto, as interfaces gestuais incorporam uma gama de possibilidades

que não eram possíveis ou não eram tão eficazes com as interfaces

desenvolvidas apenas com botões. Algumas dessas possibilidades são a

flexibilidade nas formas de interação, a ausência da dependência de diversos

tipos de hardware, interações mais naturais e principalmente a capacidade de

expressar as nuances dos movimentos (SAFFER, 2008).

Apesar de apresentarmos as diversas tecnologias de interfaces e como foi a

evolução nessa área de pesquisa, o campo de HCI não se beneficia puramente

das interfaces, e sim em como será a interação entre o homem e os

computadores. Para isso, as tecnologias e interfaces emergentes devem ser

avaliadas e testadas com o público alvo. Todavia, avaliar estas tecnologias

proverá expertise aos designers ao lidar com as mesmas para projetar novas

interfaces, alertar possíveis problemas ao trabalhar com elas e como estes

problemas podem ser contornados.

2.2 Novas formas de interação musical

Esta seção mostra os avanços tecnológicos que influenciaram a criação de

novos instrumentos musicais e como os mesmos permitiram que o homem

interagisse com o som de maneiras diferentes. Além disso são apresentados os

Instrumentos Digitais Musicais (DMIs), os quais são o objeto de estudo deste

projeto.

Blades (BLADES, 1992, p. 34–35) acredita que os primeiros passos na

descoberta de instrumentos de percussão data da era paleolítica. Mesmo que a

maioria das descobertas arqueológicas recuperaram diversos instrumentos de

ossos, pedra, argila e metal, acredita-se que os primeiros passos da descoberta

31

da percussão bem como os primeiros instrumentos a serem aprimorados foram

a partir de colisão de membros corporais com outros objetos ou com partes do

próprio corpo:

“The seeds of the first instrument were sown

unconsciously by an early man as he stamped

upon the ground, beat upon his throat, clapped

his hands, or slapped his body. He produces

contrasting sounds with hollowed hands, flat

palms, heels or toes, or by striking either bony or

fleshy parts of the body.

[...] Percussion – the act of striking – was an art

in which primitive man was well skilled. He

survived by the dexterity of his blow; from which

it is fair to assume that the first instruments to

augment the hand clap and stamp of the foot

may have been the implements or weapons

upon which he relied for food or survival. ”

(Blades, 1992 pp. 34-35).

Novas formas de tratamento do couro de animais para criação de novos

instrumentos servem como evidencias do aperfeiçoamento da luteria (termo

atribuído ao processo de criação e manutenção de instrumentos musicais). Além

disso, o domínio de técnicas para se produzir metais, bronze e diversos outros

instrumentos musicais precursores dos instrumentos musicais acústicos atuais.

Descoberta da eletricidade e um grande salto tecnológico

A descoberta da eletricidade fez com que novas formas de geração sonora

fossem possíveis. Particularmente, Gohn (GOHN, 2001) considera a invenção

do telefone, por Alexander Graham Bell (1847-1922) em 1876, como peça

fundamental na evolução dos instrumentos e criação de instrumentos

eletrônicos. Pela primeira vez, existia a possibilidade de se transformar ondas

sonoras em eletricidade e vice-versa.

Os impactos causados pela invenção de Bell repercutiram na criação de diversos

instrumentos musicais que buscaram utilizar a eletricidade para aprimorar

instrumentos acústicos, criar novas formas de produzir som e explorar novas

texturas sonoras. O primeiro instrumento que utilizava a eletricidade para

geração sonora data do começo século XX, quanto Thaddeus Cahill (1867-1934)

criou o Telharmonium ou Dynamophone. O Dynamophone utilizava

componentes elétricos para produzir diferentes frequências que eram passadas,

por uma interface de piano, para receptores de telefone (SHEPARD, 2013).

32

Vale ressaltar que diversos instrumentos elétricos que utilizamos atualmente

foram concebidos nesta época, já que muitos inventores tentaram combinar a

eletricidade para amplificar o som de instrumentos aústicos. Além disso, um dos

instrumentos que, discutivelmente, estava mais à frente do seu tempo também

foi inventado pouco tempo após o Dynamophone: o Thérémin. Leon Thérémin

(1896-1993), em 1920, construiu um instrumento elétrico que utilizava a posição

das mãos do músico em relação a duas antenas metálicas para determinar a

frequência e o volume do som produzido (MANNING, 2013). O conceito de

utilizar a eletricidade para criar novos sons, por trás do Dynamophone e do

Thérémin, já remete aos primeiros sintetizadores.

A década de 1960 foi marcada pela criação dos primeiros sintetizadores

controlados por voltagem. Em 1964, Robert Moog (1934-2005) construiu um

oscilador e amplificador controlado por voltagem que só depois atribuiria o nome

de sintetizador. Talvez pela inovação e pelo sucesso do Mixtur-Trautonium na

concepção de trilhas sonoras para filmes em Hollywood, e também a facilidade

de interação do sistema somada a familiaridade da interface do piano, os

sintetizadores controlados por voltagem fizeram enorme sucesso e no final da

década de 1960, quatro grandes empresas já concorriam pela liderança deste

mercado (MANNING, 2013).

Figura 2.8: Sintetizador Moog.

Paralelamente a este avanço instrumental, as descobertas feitas no campo de

armazenamento de som, provenientes das invenções do fonógrafo, grafofone e

gramofone, trouxeram novas formas de interação com áudio (GOHN, 2001) –

como a fita magnética, compactic disks e LP – que abriram as portas para que,

após a criação dos computadores, o conceito de gravação de áudio culminasse

na criação da mídia digital.

33

Os avanços com o protocolo MIDI

A chegada de microprocessadores e a incorporação do som digital trouxeram

novas possibilidades de se interagir com som. (MANNING, 2013) destaca que

muitos dos processamentos de som e as descobertas feitas anteriormente à

década de 1980 estavam sendo transferidas para o meio digital. Nesta mesma

época, houve uma revolução na forma em que os instrumentos eram construídos

e um protocolo de comunicação foi desenvolvido para facilitar a integração dos

instrumentos musicais na era digital: o protocolo MIDI ou (“Musical Instruments

Digital Interface” ou “Interface Digital para Instrumentos Musicais”).

O protocolo serial MIDI simplifica a forma com que instrumentos digitais possam

se comunicar com computadores. Mandando informações numéricas e

simbólicas, o instrumento pode comunicar quais notas estão sendo tocadas,

mudanças em parâmetros de controle, como alterações em efeitos e volume,

velocidade na qual as notas são tocadas, pressão feita ao tocar uma ou mais

notas, a partir de valores entre 0 e 127 para cada um dos 16 canais disponíveis.

O computador recebe estes valores por uma interface física, geralmente uma

interface MIDI-USB, ou sem fio.

A tecnologia MIDI foi bem aceita pela comunidade e levou à criação de diversos

controladores que, diferentemente dos instrumentos elétricos convencionais, o

output de saída é um sinal MIDI. Os controladores MIDI são construídos das

mais variadas formas. Como o sinal MIDI pode ser processado de qualquer

forma, o som que sai do instrumento não é necessariamente o som do

instrumento físico que está sendo tocado, ou seja, um violão MIDI pode gerar o

som de uma flauta, saxofone, vozes, ou até ser utilizado para controlar outros

parâmetros como iluminação, ser utilizado como teclado de um computador, etc.

O que vai diferenciar a utilidade do controlador é como o sinal será processado

pelo computador. Atualmente, diversos instrumentos elétricos (mais comumente

nos teclados e instrumentos de percussão) possuem também uma saída MIDI.

Figura 2.9: Controladores MIDI com diferentes interfaces.

O aumento na capacidade de processamento dos computadores junto à

possibilidade de utilização destes para realiza múltiplas tarefas e a difusão dessa

tecnologia proporcionaram o desenvolvimento de novos algoritmos de

34

processamento de áudio e tecnologias, possibilitaram a invenção de interfaces

de interação inovadoras, novas formas de se interagir com áudio e novas

possibilidades de criação de instrumentos (MIRANDA; WANDERLEY, 2006). As

chamadas interfaces gestuais podem utilizar gestos, movimentos e/ou posições

estáticas em uma cena em duas ou três dimensões, reconhecidos por meio de

diversos tipos de sensores emergentes, para interagir com estes instrumentos.

O modelo de Instrumentos Musicais Digitais

Existem diferentes visões entre como definir Instrumentos Musicais Digitais

(DMIs, do inglês Digital Musical Instruments), que valem a pena ser consideradas

(CALEGARIO, 2013), porém, para o escopo deste projeto, os DMIs são artefatos

construídos com a finalidade de produzir um resultado musical, nos quais a

interface de controle que vai receber os parâmetros de entrada (inputs), sejam

eles puramente gestos, ou interagindo com algo tangível, é independente da

saída (output) sonora, porém ambas estão relacionadas por um mapeamento

(mapping) escolhido pelo designer. Sendo assim, Rovan et. al. (ROVAN et al.,

1997) propõem o seguinte modelo para um DMI:

Figura 2.10: Modelo de DMI.

Miranda e Wanderley (2006, p. 4) nos falam que:

“The idea behind our approach to DMIs is

analogous to breaking apart an acoustic

instrument so that one could separate the two

functionalities of gestural interface and sound

generator and combine them in any desired way.

Therefore, the notion of a fixed causality

between an action and a sound in a DMI does

not necessarily apply.” (MIRANDA;

WANDERLEY, 2006, p. 4).

Isto quer dizer que, nos instrumentos acústicos, os sons reproduzidos por

movimentos específicos estão diretamente relacionados com a mecânica

35

vibracional do ar, levando em conta o material do instrumento e o seu formato,

os quais irão modelar a dinâmica do ar, fazendo com que estes resultados

sonoros possuam características únicas. Por outro lado, no caso dos DMIs, o

controle gestual é separado da produção sonora, e cada designer fará suas

escolhas de mapeamento, então, um mesmo gesto pode ser mapeado em

diferentes sons ou, num caso mais extremo, diferentes parâmetros de controle,

i.e., uma certa pose (ou movimento) num espaço de coordenadas (X, Y, Z) pode

disparar um determinado som ou mudar certa camada de loop musical, ou ainda

pausar um fundo musical.

Tipos de DMIs

Com esta independência, as possibilidades de criação de novos instrumentos

são imensas. Ao combinar os diversos sensores de captura gestual com os mais

variados parâmetros de controle sonoro, nota-se uma grande variedade de

DMIs.

Algumas características específicas podem distinguir certos DMIs de outros. É

possível, assim, classificá-los (MIRANDA; WANDERLEY, 2006; WANDERLEY,

2001) da seguinte maneira:

Instrumentos musicais aumentados: Instrumentos acústicos que

utilizam diversos sensores para aprimorar ou complementar sua

capacidade sonora.

Simuladores de instrumentos acústicos: São DMIs contruídos para

reproduzir tanto o controle gestual quanto o resultado sonoro de

instrumentos acústicos já existentes.

DMIs inspirados em instrumentos acústicos: DMIs que se munem do

controle gestual de instrumentos acústicos já existentes, porém com

finalidade sonora diferente. Estes podem ser criados também para

solucionar limitações existentes nos instrumentos originais, mesmo que

não pretendam reproduzi-los.

Controles Gestuais Alternativos: Instrumentos que não possuem

semelhança com instrumentos acústicos. Mesmo assim podem possuir o

resultado sonoro de instrumentos acústicos.

É importante ressaltar que esta não é uma forma de classificação rígida, ou seja,

um determinado DMI não está inserido em uma classe e apenas nela. Ele está

inserido em um espectro contínuo que é relativo à sua semelhança com

instrumentos acústicos já existentes.

Um exemplo de instrumento aumentado (augmented instruments) é o ACPAD13,

criado pelo músico Robin Sukroso em parceria com Indian Institute of

Technology Bombay. Desenvolvido para funcionar em instrumentos acústicos

13 Mais detalhes em: http://acpad.com/

36

sem precisar de fios, o ACPAD é um dispositivo MIDI flexível que pode ser

inserido no corpo de um violão e possui diversos sensores discretos e contínuos

para aumentar a capacidade expressiva do instrumento acústico.

Figura 2.11: ACPAD.

Diversos controladores de DMIs são desenvolvidos para simular instrumentos

(instrument-like DMIs) já existentes variando de instrumentos como os teclados

e baterias eletrônicas (mais comumente vistos), a clarinetes, xilofones e guitarras

(JORDA, 2005). Além disso, instrumentos como o Smomid14 (à direita na figura

abaixo), criado por Nick Demopoulos, ou o Seaboard15 (à esquerda na figura

abaixo) da empresa ROLI, que utilizam gestos herdados do violão e piano,

respectivamente, para obter resultados completamente diferentes.

Figura 2.12: DMIs inspirados em instrumentos acústicos.

Na figura 2.14, podemos ver o ReacTable, criado por Sergi Jordà. O instrumento

foi desenvolvido utilizando algoritmos de visão computacional para reconhecer

objetos, que possuem marcadores, dispostos em uma mesa e determinam o tipo

do objeto, a posição, a orientação, entre outros, e os movimentos das mãos

realizados pelo usuário do sistema (JORDA et al., 2005). A partir deste

14 Detalhes e demonstrações disponíveis em: http://www.nickdemopoulos.com/smomid.html 15 Detalhes e demonstrações disponíveis em: https://www.roli.com/products/seaboard-grand

37

reconhecimento, o DMI utiliza estas informações para modificar determinados

parâmetros musicais.

Figura 2.13: ReacTable.

Este é um exemplo de DMI classificado como alternative ou alternate intruments.

Ou seja, instrumentos que não têm nenhuma relação nem com os instrumentos

acústicos, com exceção da geração sonora, que pode ser o som de um

instrumento já conhecido. Estes instrumentos podem possuir diversos formatos

e funcionalidades, já que são o tipo que possui mais liberdade nos controles

gestuais.

Certas propriedades como flexibilidade nas formas de interação, a ausência da

dependência diversos tipos de hardware, interações mais naturais e

principalmente a capacidade de expressar as nuances dos movimentos, não

eram possíveis nas interfaces com botões (Saffer, 2008). Estas são algumas

vantagens de se utilizar interfaces gestuais para produzir instrumentos musicais.

Todavia, este tipo de interface está longe de ser considerado perfeita para todos

os tipos de interação. (SAFFER, 2008) ainda enfatiza uma preocupação

expressada por Bill Buxton (BUXTON, 2007), ao desenvolver novas interfaces

gestuais, na qual “quando se trata de tecnologia, tudo é melhor para certas

coisas e pior para outras e gestos interativos não são exceções”16. É

imprescindível investigar o problema a ser solucionado e quais tecnologias

dispostas serão mais eficazes e podem ser utilizadas para produzir a melhor

interação possível, sejam elas botões, reconhecimento por voz, gestos, etc.

Cabe, então, ao designer e/ou pesquisador, a decisão de utilizar este tipo de

interface para solucionar o problema encontrado ou realizar certa tarefa.

Particularmente, no caso dos DMIs, a investigação do uso destas tecnologias é

apenas um dos desafios a serem enfrentados durante o seu desenvolvimento.

16 “when it comes to technology, everything is best for something and worse for something else and interactive gestures are no exception” (Saffer, 2008 p.16)

38

Diversos fatores devem ser considerados na concepção e criação deste tipo de

instrumento.

2.3 Conclusões

Neste capítulo, foi mostrado como os avanços tecnológicos influenciaram as

formas de interação homem-máquina. A criação de novas tecnologias e o

aumento na capacidade de processamento dos computadores permitiram a

exploração de novas interfaces que rompem com os paradigmas de interação já

consolidados (que utilizam o modelo WIMP e interfaces compostas por mouse,

teclado e monitor).

No contexto musical, a evolução das tecnologias e o surgimento dos

computadores forneceram novas formas de interação com a música. O

surgimento das interfaces gestuais proporcionou possibilidades de criação de

Instrumentos Musicais Digitais (DMIs). Estes instrumentos utilizam gestos do

usuário como entrada para controlar parâmetros sonoros, por meio de uma

estratégia de mapeamento escolhida pelo designer do sistema.

39

3 DESAFIOS NA CRIAÇÃO DE DMIS

Este capítulo apresenta os desafios encontrados na construção de interfaces

gestuais, mais especificamente dos DMIs, bem como demonstra algumas

preocupações que foram levantadas na literatura a respeito destes novos

instrumentos. Entretanto, é importante enfatizar que ao levantar estas

dificuldades, deve-se explicitar o escopo, no qual estas estão inseridas.

Com estas infinitas possibilidades de criação de DMIs, é possível notar que a

liberdade de processar as informações vinda dos instrumentos da maneira que

for mais conveniente e a independência entre os parâmetros de controle e os

módulos de geração sonora facilitam a “redução da sobrecarga de controle

humano” (JORDA, 2005, p. 27).

A intenção deste capítulo é discutir as dificuldades de projetar DMIs que seriam

realmente utilizados pelo público profissional com intuito de usufruir ao máximo

as capacidades expressivas destes instrumentos. (MEDEIROS et al., 2014;

SILVA, 2012).

Primeiramente, este capítulo apresenta um trabalho realizado pelo grupo de

pesquisa que o autor desta dissertação faz parte (MusTIC), no qual DMIs que

simulam instrumentos de percussão foram avaliados por músicos profissionais

que levantaram problemas relativos à expressividade desses instrumentos

(SILVA, 2012). Ademais, são apresentados os resultados de um questionário

realizado com percussionistas profissionais de modo a investigar se

controladores digitais de percussão são usados por esse público, além de

levantar vantagens e desvantagens nesses sistemas.

Em seguida, são descritos os diversos desafios enfrentados no design de DMIs

(MEDEIROS et al., 2014). Estes desafios podem ser separados em duas classes

que estão relacionadas com os fatos desses DMIs serem artefatos digitais e

serem artefatos musicais. Buscou-se relacionar estes desafios com os

problemas levantados pelos músicos profissionais.

Por fim, os problemas investigados neste projeto são especificados, reduzindo o

escopo dos desafios apresentados. Com isso, foi possível desenvolver a

pergunta de pesquisa, além de propor objetivos para sua solução (apresentados

no capítulo 1).

3.1 Apresentando DMIs ao público profissional

Em 2012, Silva (SILVA, 2012) apresentou uma pesquisa, na qual explorava a

avaliação de tecnologias para construção de DMIs de percussão. Nesta

pesquisa, duas tecnologias foram utilizadas para o desenvolvimento destes

DMIs: o Nintendo Wii© Remote e o Microsoft Kinect© versão 1.

40

A construção destes instrumentos levou a um estudo detalhado sobre as

capacidades de captura de movimentos destas duas tecnologias, baseadas nos

movimentos primitivos do corpo, restritos pela anatomia humana. Para

instrumentos de percussão, o foco na análise da captura dos membros

superiores do corpo – ombros, braços, antebraços, punhos e mãos (separando

a movimentação dos dedos) – é justificada pelo fato de que os gestos musicais,

principalmente nos instrumentos de percussão, “são feitos em sua maioria com

as mãos e braços, com algumas exceções” (SILVA, 2012, p. 40).

Tabela 1: Capacidade de rastreamento dos sensores Wii Remote e Kinect

(Extraído de SILVA, 2012).

Os estudos destas capacidades mostraram primeiramente a limitação destas

tecnologias no rastreamento de movimentos curtos e de precisão.

Principalmente movimentos realizados com os dedos não são bem reconhecidos

pelos sistemas utilizados. Portanto, a limitação da capacidade de rastreamento

de nuances gestuais, relacionada com a precisão e resolução dos sensores, foi

levantada previamente à avaliação junto ao público alvo – músicos profissionais.

Com o intuito de seguir uma abordagem de design centrado no usuário, foram

escolhidos alguns instrumentos de percussão para que DMIs simuladores destes

instrumentos fossem construídos e avaliados pelos músicos profissionais, de

forma a avaliar as tecnologias estudadas e levantar os possíveis problemas

destes instrumentos digitais quando comparados com os seus análogos

acústicos. Para maiores detalhes sobre o protocolo experimental, recomenda-se

a leitura de (SILVA, 2012).

Silva (SILVA, 2012) nos diz que os músicos levantaram diversos problemas com

os instrumentos a ponto de um usuário se sentir “perdido” e sentir-se como “não

houvesse tocado nada na vida”. Quatro problemas são destacados na pesquisa.

Lembrando que estes experimentos foram realizados com músicos profissionais,

o primeiro remete ao fato deles estarem realizando gestos no ar, diferentemente

de tocarem no corpo do instrumento acústico, levantou preocupações com a

ausência de feedback háptico do instrumento e as pistas visuais que o corpo

do instrumento proporciona – ao delimitar o ponto de ataque que irá produzir o

som, fazendo com que o músico tenha consciência de onde fará o instrumento

41

soar. Os outros problemas estão relacionados com a procura de nuances

gestuais e imprecisão dos gestos, variações de timbre em um mesmo

instrumento, controle da intensidade das notas e latência dos instrumentos em

movimentos rápidos. Portanto, problemas relativos à expressividade do

instrumento.

3.2 Questionário sobre as tecnologias de percussão digital

existentes

Para entendermos melhor a relação do músico profissional com instrumentos de

percussão digital, foi preciso realizar um questionário que primeiramente

investigasse se estes instrumentos são realmente utilizados, em que contexto

eles são utilizados e que funcionalidades e características destes instrumentos

agradam ou não agradam os músicos profissionais.

Para isto, foi escolhida a plataforma SurveyMonkey para a condução deste

questionário. O SurveyMonkey é uma plataforma online intuitiva desenvolvida

para auxiliar os seus usuários a conduzirem questionários para pesquisas

diversas, oferecendo diversos planos e serviços (gratuitos e pagos) para isto. O

site não só oferece a possibilidade de criação de questionário, como já produz

resultados à medida em que as respostas são obtidas. Além disso, ainda fornece

dicas e modelos de questionários para pesquisadores iniciantes.

Assim, foi gerado um questionário que levantava questões sobre o uso de

instrumentos de percussão digital. Exemplos desses sistemas são as baterias

eletrônicas e pads de percussão, como o HandSonic17 (da Roland), o

Wavedrum18 (da Korg).

O questionário (modelo apresentado no Apêndice I, página 116) envolveu oito

perguntas (quatro objetivas e quatro discursivas) que são descritas abaixo:

Qual é a sua idade?

Há quanto tempo você trabalha no cenário musical?

Você utiliza algum instrumento de percussão digital?

Se sim, o que lhe levou a utilizar esse(s) instrumento(s)?

Se não, por que não?

Em que contexto você utiliza esse(s) instrumento(s)?

O que você gosta nesse(s) instrumento(s)?

O que você NÃO gosta nesse(s) instrumento(s)?

O link do questionário foi repassado por meio de fóruns a músicos profissionais,

e também foi repassado manualmente a músicos ligados ao autor deste trabalho.

17 Informações disponíveis em: <http://roland.com.br/products/handsonic_hpd-20/>. 18 Informações disponíveis em: <http://goo.gl/TkvBR1>.

42

Figura 3.1: Perfil dos percussionistas no questionário.

Apesar de apenas 7 (entre 21 e 35 anos) músicos profissionais – dentre os quais

6 são percussionistas – terem respondido o questionário, todos possuem mais

de 7 anos no meio musical (4 já trabalham a mais de 10 anos) e já conheciam

este tipo de instrumento.

Um caso particular foi o de um violonista que utiliza este tipo de instrumento para

produzir acompanhamento rítmico em seus trabalhos. Ele utiliza estes

instrumentos para os mais variados contextos – ensaios, estudos, performances

43

e gravação. Entretanto, mesmo não sendo percussionista, as respostas aos

questionamentos abertos e os comentários feitos, coincidem bastante com os

músicos, já que utiliza este sistema de forma profissional e não há um

instrumentista rítmico em seu grupo.

Figura 3.2: Gráfico representativo do uso de controladores digitais de

percussão.

O gráfico mostra que um pouco menos da metade dos músicos que responderam

o questionário não utilizam este tipo de instrumento, particularmente metade dos

percussionistas (3 usuários).

44

Figura 3.3: Contexto de uso de controladores digitais de percussão.

A partir do gráfico acima, é possível perceber uma variedade no contexto de uso

(apenas um usuário não os utiliza em performances ao vivo) desses

controladores. Isto pode estar atrelado às vantagens descritas por eles nas

perguntas discursivas.

Os músicos que utilizam estes instrumentos (incluindo o caso particular)

argumentam que a praticidade em relação ao transporte, o leque de

possibilidades de timbres diferentes e “de instrumentos do mundo todo”, as

vantagens de “não perder tempo passando o som, timbrando em momentos em

que o tempo é curto... não precisa microfonar19, direcionar os canais na mesa,

equalizar, etc.” são fatores que os agradam e que os levaram a aderir este tipo

de instrumento.

Dentre o que levou estes músicos a não usarem esta tecnologia pode se

destacar uma resposta em que o músico fala que “é interessante ser orgânico e

ter a sensibilidade da pele, baqueta, palmada, podendo assim controlar a

dinâmica”.

Ao serem questionados sobre o que eles não gostam nestes instrumentos, os

músicos levantaram problemas como a memória interna pequena para se

armazenar samples, o tempo de duração destes samples e a “falta de recursos

para manipular os sons do banco de dados no computador ou nele mesmo”. Um

19 Técnica utilizada posicionando microfones em locais específicos dos instrumentos para capturar os sons e enviá-los à mesa de som, para que a regulagem desses sons seja feita.

45

usuário ainda disse que acha “o som artificial, diferente do natural”. Outro

especifica que “O timbre de peles realmente é algo interessante”.

Mesmo os percussionistas que utilizam estes instrumentos argumentaram que,

apesar da variedade de possuir suas vantagens, a “pegada” e os próprios

timbres não serem iguais aos dos instrumentos orgânicos. Um desses usuários

menciona que “... em algumas ocasiões é muito válido, mas nunca vai se

comparar a um instrumento percussivo acústico”, enquanto outro usuário diz que

“os timbres e a pegada não são iguais aos instrumentos orgânicos”.

A partir destes resultados, é possível observar que mesmo quando há uma

motivação por parte do músico em utilizar estes instrumentos, os fatores como o

timbre e o material do instrumento proporcionam obstáculos a serem superados.

Mesmo assim, pode-se notar vantagens quanto ao uso de tecnologias digitais

para diversos usos de contexto, incluindo a praticidade e versatilidade nos

timbres do instrumento.

3.3 Problemas do mapeamento

Para esclarecimento dos problemas de mapeamento enfrentados no

desenvolvimento de um DMI é preciso entender as possibilidades e parâmetros

de entrada (controles gestuais) e de saída (geração sonora) do mesmo.

Os gestos utilizados pela interface de controle podem ser classificados de acordo

com várias abordagens. O trabalho de Calegario (2013) apresenta duas formas

de classificação de controles gestuais que ajudam a entender a dimensão do

problema em destaque. A primeira, apresentada na pesquisa de Wobbrock,

Morris e Wilson (WOBBROCK; MORRIS; WILSON, 2009), classifica os gestos

de acordo com o que está acontecendo com o sistema:

Gestos Discretos: Pode ser dividido em gestos estáticos, e.g. uma pose

ou postura no espaço X, Y, Z, e dinâmicos – gestos associados a algum

tipo de movimento. Entretanto, a resposta do sistema só acontece após o

gesto ser realizado.

Gestos Contínuos: Neste caso, a resposta acontece durante a

realização do gesto, um exemplo análogo é o caso do Thérémin, onde o

movimento das mãos próximo às antenas do instrumento muda a

frequência e/ou a amplitude do sinal.

A segunda, segue a linha de classificação utilizada na pesquisa de McGlynn

(2011), que prioriza a maneira pela qual os dados do controle gestual serão

utilizados:

Dados Brutos: Estes dados podem ser discretos – como botões ou

sensores digitais que apresentam valores quando estão ligados e

46

desligados – ou contínuos, como dados de rastreamento num espaço em

duas ou três dimensões.

Dados Simbólicos: Muitas vezes relacionados com combinações

específicas dos dados brutos, e.g. uma posição determinada no espaço

X, Y, Z.

Dados Gestuais: Relacionados com o movimento predefinido.

O controle direto a partir dos Dados Simbólicos está, na maioria das vezes

relacionados com os Gestos Discretos, enquanto que os Dados Brutos e

Dados Gestuais podem estar relacionados tanto com os Gestos Discretos –

e.g. apertar um botão e ligar um efeito ou fechar a mão e desligar o efeito –

quanto com os Gestos Contínuos – e.g. aumentar o ganho de um efeito com

um potenciômetro ou afastando as duas mãos.

Miranda e Wanderley (2006) ainda abordam o caso de a obtenção do controle

gestual ser direta, indireta ou fisiológica:

Obtenção Direta: Diversos sensores são utilizados para capturar os

gestos que estão sendo realizados pelo usuário.

Obtenção Indireta: Geralmente, neste caso, os sensores utilizados são

microfones, os quais capturam informações de áudio que os gestos

provocam e, a partir de técnicas de processamento de sinal em tempo

real, é possível capturar informações sobre os gestos.

Obtenção Fisiológica: Neste caso, os sensores obtêm informações

provenientes do corpo do usuário, como, por exemplo, que músculos

estão sendo contraídos para realizar aquele gesto.

No outro extremo do DMI, pode-se classificar o controle sonoro da seguinte

maneira apresentada por Schloss (SCHLOSS, 1990):

Nível de Timbre: Controle contínuo sobre parâmetros que irão afetar o

timbre da saída sonora, e.g. mudar a frequência de uma nota ou adicionar

um efeito.

Nível de Nota: Controle, geralmente discreto, que muda diferentes notas

de um instrumento, como em um teclado MIDI.

Nível de Processo: Pode controlar parâmetros já predefinidos, como

samples, redução de ruído, entre outros.

Entendidas as possibilidades dos extremos do modelo de um DMI (controles

gestual e sonoro), o mapeamento será a relação entre eles. Entretanto, existem

diversas formas de mapear os parâmetros de entrada e saída. Miranda e

Wanderley (2006) classificam as formas de mapeamento como Implícito ou

Explícito. O último ainda pode ser dividido em quatro categorias.

47

Mapeamento Implícito: Utiliza algoritmos computacionais, como

reconhecimento de padrões, redes neurais, entre outros, para mapear as

entradas e saídas.

Mapeamento Explícito: utiliza uma estratégia predefinida pelo designer

do instrumento.

Este último ainda pode ser destrinchado em três categorias dependendo das

escolhas de mapeamento (ROVAN et al., 1997):

Mapeamento um-para-um: Cada parâmetro de entrada está associado

com apenas um parâmetro de controle sonoro. Formato mais simples de

mapeamento, porém, geralmente, o menos expressivo.

Mapeamento Divergente (um-para-muitos): Cada gesto está

relacionado com mais de um parâmetro de entrada. Muitas vezes essa é

a escolha utilizada para redução da “sobrecarga de controle humano”

(Jordà, 2005).

Mapeamento Convergente (muitos-para-um): Diversos parâmetros de

entrada são combinados para um controle mais preciso. Embora seja

mais complexo, normalmente este tipo de mapeamento é mais

expressivo.

Muitas vezes as interfaces de entrada ou saída estão relacionadas de acordo

com uma metáfora gestual específica, sendo assim, a estratégia de mapeamento

é muitas vezes escolhida para cada caso (FELS; GADD; MULDER, 2002).

Portanto, a falta de um método bem estabelecido para construção de DMIs

constitui um problema, já que as possibilidades são vastas (CALEGARIO, 2013).

3.4 Problema do entendimento e engajamento

Ligado ao problema de mapeamento, o entendimento sobre o que o músico que

está tocando, por parte do público, pode ser afetado por uma estratégia de

mapeamento descuidada. Como já dito anteriormente, nos DMIs a ligação causal

entre o gesto e o som não existem como nos instrumentos acústicos, e estão

relacionados pelas estratégias de mapeamento escolhidas pelo designer. Tendo

isto em mente, diversos pesquisadores levantam a questão que esta liberdade

influencia diretamente a compreensão da audiência sobre o que está

acontecendo (O’MODHRAIN, 2011; SCHLOSS, 2003). Sendo assim, o

engajamento da plateia está diretamente relacionado com o entendimento do

instrumento que resultará no entendimento da performance.

Isto aparece na literatura como a transparência do instrumento. Esta é o grau de

entendimento das estratégias de mapeamento, que um instrumento possui, na

visão da plateia e do usuário do mesmo. A pesquisa de Fels, Gadd e Mulder

(FELS; GADD; MULDER, 2002) nos diz que, paralelamente, no caso dos

instrumentos acústicos, dois fatores são fundamentais para a transparência. O

primeiro, parte do princípio de que os gestos realizados para se tocar um

48

instrumento acústico são predeterminados por suas restrições físicas, fazendo

com que exista um repertório de gestos que são ensinados ao longo de

gerações. O segundo é exatamente a carga cultural que a audiência e o

performer trazem em si.

Por exemplo, pelo fato de o piano ser um instrumento já bem estabelecido,

ambos o performer e a audiência já esperam o resultado sonoro que o

instrumento fará quando o performer realiza certos gestos. Com isso, ele fornece

uma boa transparência. Ademais, informações visuais – sejam elas fornecidas

por feedback visual ou pela escolha dos gestos do controle de entrada –

colaboram na transparência do instrumento aos olhos da plateia (SCHLOSS,

2003).

Esta transparência é fundamental para aumento da expressividade do artista.

Ou seja, se a audiência compreende o que o artista está fazendo, é possível que

este consiga a expressividade necessária para a performance (FELS; GADD;

MULDER, 2002).

O engajamento do músico com um DMI depende dentre diversos fatores.

O’Modhrain (O’MODHRAIN, 2011, p. 34) argumenta que, primeiramente, o

instrumento deve apresentar um “desafio a ser dominado, estimulando o

desenvolvimento de uma virtuosidade”. Ademais, a pesquisa de Calegario

(CALEGARIO, 2013) faz um comparativo do engajamento do músico com um

grande problema no balanceamento de dificuldade em design de jogos digitais,

no qual se o desafio é muito pequeno o usuário não se estimulará para

desenvolver suas habilidades e se, por outro lado, for muito difícil, o sentimento

de frustração suprime a vontade de melhorar.

Além disso, outras questões relativas ao engajamento são os fatos da ausência

de repertório que inspire o músico a se motivar a aprender o instrumento que

está ligado a questões de virtuosidade, que serão exploradas mais abaixo.

3.5 Latência

É importante lembrar que como “o tempo é característica central na música”

(WANDERLEY; ORIO, 2002, p.72), solucionar os problemas relativos à latência

e jitter são imprescindíveis para a construção de um instrumento que será

utilizado por músicos profissionais.

Para se entender o problema, primeiramente deve-se estar em mente os

conceitos de latência e jitter:

Latência: atraso temporal que distancia a ação feita no controle de

entrada e a resposta obtida no módulo de saída.

Jitter: diferença de latência entre dois eventos.

49

A pesquisa de Calegario (CALEGARIO, 2013) destaca uma extensa análise feita

na pesquisa de Jordà (JORDA, 2005), cuja qual nos diz que diferentes eventos

sonoros são compreendidos pelo ouvido humano de formas diferentes, ou seja,

os níveis de tolerância da latência dependem da complexidade do resultado

sonoro. Enquanto sons simples, como dois cliques, podem ser percebidos em

um intervalo de 2 milissegundos (ms), sons mais complexos ainda são

percebidos simultaneamente mesmo quando separados de um intervalo de 20 -

30 ms.

Além disso, alguns autores relatam que percussionistas profissionais possuem

um controle de notas com precisão de 1 ms em certas técnicas instrumentais,

para isso delimitam a tolerância máxima de latência em 10 ms (WESSEL;

WRIGHT, 2002).

Em contrapartida, algumas aplicações possuem maior tolerância em relação à

latência. Instrumentos que relacionam o controle gestual com controles sonoros

contínuos (e.g. aumento de um efeito em um fundo musical) podem não

demandar uma baixa latência, contrariamente à sistemas que disparam eventos

(e.g. disparo de samples e notas) (CALEGARIO, 2013).

Como discutido na seção 3.1, no caso de sistemas digitais de percussão (caso

do sistema desenvolvido), a baixa latência foi identificada como elemento crucial

para a experiência do usuário.

3.6 Feedback háptico e relação física entre o músico e o

instrumento

Em toda interface – gestual ou não – feedback é importante para que o sistema

seja responsivo ao seu usuário. i.e., “Toda ação realizada por um humano em

uma interface gestual, não importa quão pequena, deve ser acompanhada de

algum reconhecimento daquela ação sempre que possível e o mais rápido

possível” (SAFFER, 2008, p. 20).

Para os instrumentos musicais, esta relação não é diferente. Estes instrumentos,

por demandarem alta precisão espacial e temporal e por estarem inseridos em

um meio de comunicação e interação com o seu usuário, também necessita de

uma resposta à toda ação realizada pelo músico que o utiliza. Além disso, o uso

de feedback pode “melhorar a precisão na hora de tocar um DMI” (CALEGARIO,

2013, p. 35).

Para melhor contextualização, seguindo a taxonomia de (Miranda e Wanderley,

2006), feedback pode ser classificado em:

Primário ou Secundário: Em que o primário é fornecido ao usuário pelo

controle gestual e o secundário pelos módulos de geração sonora.

50

Passivo e Ativo: Feedback passivo é resultante das características

físicas do instrumento (e.g. a sensação tátil ao tocar as cordas de um

violão). Por outro lado, o feedback ativo é a resposta do instrumento à

uma ação realizada pelo usuário (e.g. o som produzido pelo instrumento

ou a vibração causada pelo som no corpo do instrumento).

O modelo de DMIs (Figura 2.10, página 19) utilizado nesse projeto facilita a

distinção entre esses dois tipos de feedback.

Como já mencionado anteriormente, em um instrumento acústico, todo o

processo de produção sonora é decorrente da mecânica do ar e das limitações

físicas do próprio instrumento. Além disso, a relação física entre o instrumento

está contida no material do instrumento e na mentalidade construída dominando

suas técnicas por meio de um aprendizado motor (PAINE, 2013).

Tomando como exemplo um instrumento de percussão como o bongô, ao

mesmo tempo em que o som é produzido pela vibração do ar decorrente do

gesto aplicado em sua pele, tanto o feedback sonoro quanto a força que a pele

faz em resposta ao gesto (feedback háptico) estão sendo proporcionados ao

músico, já que a produção sonora é uma consequência mecânica da vibração

do material do instrumento.

Além disso, esta relação cultural e motora estabelecida pelo músico ao aprender

um instrumento permite com que ele possa prever como este irá funcionar antes

de tocá-lo, resultante da experiência adquirida. Pesquisadores da área de

música chamam estes de gesto mental (FREITAS, 2008), o qual incorpora

ambas as ideias sonora e do movimento que são e serão realizados pelo músico.

Medeiros et al. (MEDEIROS et al., 2014) destacam que esta relação é descrita

por (PAINE, 2013) como uma relação incorporada (do inglês, embodied

relationship).

Portanto, a ausência de feedback háptico e de uma relação entre o DMI, como

artefato físico, e o músico são problemas a serem considerados no

desenvolvimento deste DMI.

3.7 Expressividade do instrumento e virtuosidade do performer

Na área musical, a expressividade é indispensável para a comunicação da

interpretação. De fato, alguns pesquisadores ainda afirmam que o estudo da

música como uma comunicação expressiva é “Um dos temas fundamentais”

(LINDSTRÖM et al., 2003, p. 1) nesta área de pesquisa. Os autores ainda

levantam diversos achados de outros pesquisadores que descrevem a

capacidade da música de “mover a plateia” ou de o performer “tocar com

sentimento”.

51

A expressividade tratada neste projeto é a "expressividade na performance”

descrita na pesquisa de Dobrian e Koppelman (DOBRIAN; KOPPELMAN, 2006),

a qual envolve a forma com que o performer irá tocar a música, ou seja, a

expressividade da interpretação daquela composição.

Pesquisas realizadas pelo grupo de pesquisa MusTIC, no qual o autor deste

projeto está incluído, destacam que a limitação dos sensores (principalmente

relativas à precisão e ausência da captura de nuances gestuais), a latência do

sistema e a ausência de feedback háptico e visual influenciam na expressividade

do performer (SILVA, 2012).

Pode-se considerar três parâmetros, utilizados na pesquisa de Wanderley

(WANDERLEY, 2001), fundamentais na escolha de sensores: Sensitividade,

Estabilidade e Repetitividade (SMITH, 1993).

Sensitividade: a resolução de um sensor, ou seja, a capacidade de

mudança de valores que estão sendo medidos.

Estabilidade: capacidade de um sensor de manter a medida estável, sem

que haja flutuações.

Repetitividade: capacidade do sensor de medir os mesmos valores,

dadas as mesmas condições do sistema, após ser avaliado diversas

vezes (levando em consideração os erros de medida).

Para os controles de entrada, esta precisão irá depender “da resolução do

conversor analógico-digital (ADC) e da taxa de amostragem da informação”

(JORDA, 2005). Por exemplo, no caso de informações passadas via protocolo

serial pelo Arduino, a resolução da informação é de 10-bit, i.e., os valores

capturados pelo sensor variam entre 1024 valores – de 0 a 1023. O protocolo

MIDI, por outro lado, possui uma resolução de 7-bit por canal, o que resulta em

128 valores diferentes para cada canal. Assim, é possível perceber que uma

maior resolução dos sensores escolhidos proporcionará um controle mais

refinado dos parâmetros de entrada, aumentando as possibilidades de captura

de nuances de controle do instrumento.

Outra preocupação está relacionada com o fato de que alguns sensores não são

capazes de capturar informações importantes para o sistema, causando

limitação de na descrição dos controles gestuais e, consequentemente, na

expressividade do sistema (MEDEIROS et al., 2014).

Com isso em mente, alguns autores destacam que sistemas mais complexos –

e.g., eletrônicos de consumo como o iPhone ou Wii Remote – utilizam a

combinação de sensores, de forma complementar, para a captura de nuances

de movimento e combinação de gestos (SAFFER, 2008). Entretanto, os sistemas

mencionados possuem um alto custo de implementação para serem

desenvolvidos, demandando um alto nível técnico do designer (muitas vezes

desenvolvidos por uma ou mais equipes dentro de uma empresa).

52

Embora esses sistemas possuam alto custo de implementação para serem

desenvolvidos, as APIs disponíveis podem exigir um baixo custo de

desenvolvimento para acesso das informações rastreadas. Entretanto, como

visto anteriormente, uma avaliação conduzida pelo grupo de pesquisa no qual o

autor deste projeto está inserido relata que alguns desses sistemas complexos

ainda não solucionam as demandas de captura de nuances de expressividade

na construção de DMIs (SILVA, 2012).

Com isto em mente, acredita-se que o uso de múltiplos sensores pode suprir

esta carência, utilizando as informações provenientes de diferentes sensores de

forma complementar. Desta forma, o sistema proporcionaria informação

suficiente sobre o que está sendo capturado. Entretanto, busca-se explorar se

essa captura de nuances pode ser atingida com baixo custo de implementação.

Outro fator importante é qualidade e variedade dos módulos de geração sonora.

Independentemente do resultado sonoro desejado pelo designer, deve existir

uma certa variação sonora para corresponder às diferentes nuances de controle

gestual. A ausência disso prejudica o feedback secundário, mascarando as

nuances de controle do instrumento e, consequentemente, afetando a sua

expressividade.

Portanto, é importante que o controle gestual possua uma alta granularidade e a

capacidade de capturar nuances, que os módulos de saída possuam uma boa

qualidade sonora e variações de timbre correspondentes a essas nuances de

controle e que o mapeamento seja desenvolvido de forma clara, tendo em mente

as limitações dos sensores escolhidos.

Outro fator que contribui para a performance é o virtuosismo, ou seja, a

capacidade técnica e musical que um músico possui com o instrumento utilizado.

Não somente o domínio das técnicas, mas “todas as capacidades daquele

instrumento com relativa facilidade” (DOBRIAN; KOPPELMAN, 2006, p. 3).

Entretanto, para alcançar este nível de domínio, músicos devem estudar e

praticar as tarefas específicas do instrumento durante vários anos. De fato,

músicos novatos passam por diversas dificuldades tanto físicas quanto

cognitivas ligadas ao aprendizado de um novo instrumento que são superadas

com a prática (WESSEL; WRIGHT, 2002).

Como se o tempo necessário para se dominar um instrumento não fosse

problemático o bastante, o engajamento de um músico com um instrumento

(acústico ou digital) envolve, muitas vezes, a aproximação deste músico com um

repertório que demonstre as capacidades expressivas e busque “amplificas as

características daquele instrumento” (PAINE, 2013, p. 77) ou pelo simples fato

do som produzido pelo instrumento ser agradável ao músico – meramente pelo

timbre ou por uma performance de um virtuoso daquele instrumento –

(MEDEIROS et al., 2014).

53

Ademais, pelo fato de os usuários necessitarem de tempo de prática ao engajar

em um novo instrumento, é difícil distinguir os problemas que estão associados

com o design do instrumento e as barreiras iniciais de aprendizado (MEDEIROS

et al., 2014).

3.8 Contextos de uso

Outro critério importante a ser considerado no design de um DMI é o contexto no

qual ele será utilizado. Diferentes contextos e perspectivas – perspectivas do

performer, da plateia, do designer e do fabricante – irão necessitar que certos

parâmetros sejam alterados e certos critérios de design sejam atingidos

(MEDEIROS et al., 2014; O’MODHRAIN, 2011). Por exemplo, um DMI

desenvolvido para ser tocado em conjunto com outros instrumentos deve possuir

algumas características como maiores amplitude e coesão sonoras que, se for

desenvolvido para ser tocado solo, este mesmo DMI pode possuir uma amplitude

um pouco menor e uma variação de timbres mais abrangente. Outros contextos

envolvem a utilização do DMI para o estudo, para performance ao vivo, para

tocar um tipo de música específico, entre outros. Com isto “o processo de design

é mais difícil quando deve-se considerar múltiplos contextos que podem

influenciar a experiência do usuário” (MEDEIROS et al., 2014, p. 7).

Os critérios de sucesso de um instrumento estão ligados a diversos fatores

intrínsecos e extrínsecos. Os fatores mencionados anteriormente neste capítulo

contribuem para a aceitação do instrumento, entretanto esta aceitação vai muito

além das características do instrumento. Aspectos culturais, como a criação de

um estilo musical próprio para aquele instrumento, comercialização e outros

fatores também influenciam a adesão de novos usuários (MEDEIROS et al.,

2014). Isto dificulta a avaliação destes DMIs, já que a adesão a um instrumento

pode levar anos e, às vezes, não ser aceito pelo público geral.

Contrariamente, os instrumentos acústicos possuem milhares de anos de

evolução e adesão cultural que determinaram o sucesso dos mesmos. Schloss

(2003) ainda argumenta que apenas agora a música computacional atingiu um

nível que pode ser considerado “maduro” o suficiente para ser explorada e

utilizada em performances ao vivo.

3.9 Escopo da pesquisa

Neste capítulo, foram apresentados diversos desafios, relativos ao degin de

DMIs, levantados durante a revisão da literatura. Fatores como latência,

transparência no mapeamento, limitações dos sensores, feedback háptico, entre

outros, não somente afetam a experiência do usuário, mas estão diretamente

relacionados com a capacidade de expressão musical do instrumento

desenvolvido.

54

Este trabalho pode ser visto como uma continuação da pesquisa de Silva (SILVA,

2012), realizada no mesmo grupo de pesquisa (MusTIC), cujos resultados são

apresentados na seção 3.1. Assim, os desafios abordados neste projeto focam

nos problemas da Latência do instrumento, do Feedback Háptico e

principalmente da Expressividade do instrumento e captura de nuances

gestuais.

Particularmente, o problema do feedback abordado aqui é relativo apenas à

necessidade levantada pelos percussionistas profissionais por uma superfície de

contato que proporcionasse informações visuais e aspectos físicos do

instrumento que está sendo tocado.

Sendo assim, este projeto pode ser considerado como uma nova iteração no

processo de design de DMIs, buscando usar os princípios do processo de design

utilizados em outra pesquisa do mesmo grupo (CALEGARIO, 2013) e visando o

baixo custo de implementação computacional e a integração de múltiplos

sensores.

55

4 ESTADO DA ARTE

Este capítulo descreve alguns avanços da área que buscam resolver os

problemas descritos no capítulo anterior, bem como apresenta projetos similares

na criação de interfaces artísticas (principalmente musicais), destacando o

desenvolvimento de novos DMIs para percussão, qual foi a abordagem utilizada

para isto e se houveram resultados relevantes às dificuldades encontradas.

4.1 Latência

Apesar do tempo ser característica central na música, poucos trabalhos

científicos abordam, especificamente, métodos para solução dos problemas de

latência na construção de instrumentos musicais. Entretanto, os estudos

relativos à tolerância de latência em instrumentos musicais (JORDA, 2005;

WESSEL; WRIGHT, 2002) e sistemas operacionais (WRIGHT; CASSIDY;

ZBYSZYNSKI, 2004) fornecem parâmetros para guidelines na construção de

DMIs.

Algumas pesquisas que abordam soluções para os problemas de latência se

baseiam em um alto custo de implementação. Uma destas abordagens focou no

desenvolvimento completo de um novo sintetizador digital na linguagem de

programação Java (AUERBACH et al., 2007). Outro utiliza linguagens de

descrição de hardware para programar um circuito integrado FPGA (Field

Programmable Gate Array) que fornece módulos que transmitem informações de

áudio e MIDI, módulos que possuem conversores analógico-digitais (ADC, do

inglês Analog-to-Digital Converter) e módulos que transmitem informações

gestuais por meio de pacotes User Datagram Protocol (UDP) – protocolo OSC

que será descrito mais a frente – (WESSEL; WRIGHT, 2002).

A pesquisa feita por Bååth aponta outras possíveis soluções para os problemas

de latência na construção de DMIs (BÅÅTH, 2011). Primeiramente, uma das

abordagens é a utilização do protocolo MIDI para “disparar de sons pré-

carregados ou registrar as batidas do usuário”, embora ainda haja problemas

relativos a latências internas dos sistemas e APIs desenvolvidos (BÅÅTH, 2011,

p. 2). A outra abordagem se baseia em utilizar tecnologias que operam em um

nível próximo ao hardware especificamente para estas tarefas. Por exemplo,

tecnologias como o Arduino operam sem a necessidade de sistemas

operacionais e utilizam configurações de simples implementação.

4.2 Feedback Háptico

Pesquisas na área de DMIs buscam, frequentemente, descobrir novas formas

de aprimorar controladores digitais já existentes e atribuir novas características

aos seus conceitos para que o resultado final crie mais expressividade musical.

Desta forma, a busca de implementação de feedback háptico em controladores

musicais pode não só produzir informações visuais que melhorariam a relação

56

do músico com o instrumento (SILVA, 2012), mas também podem melhorar a

precisão com a qual este é tocado (O’MODHRAIN; CHAFE, 2000).

Referente à esta última, Nichols buscou desenvolver um sistema que

melhorasse o feedback de violinos MIDI (NICHOLS, 2002). Partindo de uma

dificuldade pessoal ao utilizar este tipo de sistema, foi possível notar que as

nuances gestuais, que são realizadas ao se tocar com o arco do violino, não

eram devidamente capturadas utilizando as informações do protocolo MIDI –

pitch e velocity. Para resolver este problema, foi desenvolvido o vBow: um

sistema em acrílico que incorpora o arco do violino e possui 4 servo-motores

para introduzir o feedback. Utilizando uma maneira similar de obtenção dos

movimentos, outras pesquisas também implementaram feedback háptico em

violinos (GROSSHAUSER; HERMANN, 2009).

Figura 4.1: o vBow (Extraído de Nichols, 2002).

O sistema simula cordas virtuais, num software de síntese musical, para que os

servo-motores introduzidos capturem informações do quanto o arco está sendo

movido – usando as rotações do eixo do motor, a rotação do arco paralelamente

às cordas, a distância acima das cordas e a distância ao longo do corpo do

violino, melhorando, assim, a capacidade de controle gestual do instrumento e

uma maior expressividade.

Outro sistema que inclui feedback háptico para diversas aplicações (incluindo

aplicações musicais) é o MudPad. O Mudpad é uma superfície multi-toque que

possui quatro camadas sobrepostas para produzir diferenças de feedback

háptico – variações de interações com objetos virtuais e texturas (JANSEN;

KARRER; BORCHERS, 2010).

57

Figura 4.2: MudPad (Extraído de Jansen, Karrer e Borchers, 2010).

A camada mais baixa é composta por diversos eletroímãs que geram um campo

magnético local. Acima desta, existe uma camada multi-toque resistiva, uma

camada que possui um fluido magnético - magnetorheological fluid – e a última

camada de látex branco para a projeção. Variando o campo magnético, é

possível criar diferentes feedbacks e texturas para diferentes aplicações: rígida,

pulso único, constantemente vibrando e macia. As aplicações podem variar de

aplicações mais comuns de interação computacional a instrumentos musicais

como pianos e sequenciadores virtuais mais expressivos. Além disso, como a

tela multi-toque resistiva permite que o usuário toque levemente sobre a mesma,

o sistema também pode utilizar o feedback da textura sem ativar o trigger da tela

(JANSEN; KARRER; BORCHERS, 2010).

Outras pesquisas utilizaram feedback háptico a partir de um transdutor –

dispositivo que transforma um tipo de energia em outro – (MONTAG et al., 2011)

em mesas multi-toque. Nesta pesquisa, os autores ainda destacam outros

sistemas que utilizam feedback háptico em mesas multi-toque. Ademais, outros

sistemas apresentam este tipo de feedback em um sistema de joysticks e mouse

(STEINER, 2004) para controle de parâmetros musicais.

Vale lembrar que, como visto no capítulo anterior, pesquisas descrevem a

preocupação dos músicos com o feedback (SILVA, 2012). Entretanto, esta

preocupação é, a priori, apenas para localização espacial do instrumento.

4.3 Expressividade musical

Esta seção busca demonstrar tecnologias recentes de interfaces digitais e seu

impacto na expressividade musical. Aqui são apresentadas as tecnologias que

foram desenvolvidas para solucionar problemas de expressividade musical.

Além disso, alguns DMIs são apresentados de forma a exemplificar como estas

58

tecnologias são utilizadas em projetos acadêmicos, pessoais e/ou industriais e

alguns resultados obtidos na avaliação de tecnologias existentes.

Protocolos de comunicação

Como já descrito na seção 2.2.2, a criação do protocolo MIDI proporcionou

diversos avanços na criação de novas tecnologias musicais digitais. A

capacidade de processar as informações enviadas (por meio desse protocolo)

de qualquer maneira, utilizando softwares computacionais, proporciona diversos

avanços para a expressividade musical.

Entretanto, algumas pesquisas acadêmicas levantam problemas relacionados

com o protocolo MIDI (MCMILLEN, 1994; MOORE, 1988; WRIGHT, 1994).

Segundo essas pesquisas, o protocolo MIDI não é preparado para lidar com

variações de nuances de controle. Não apenas a largura de banda da

comunicação desse protocolo é insuficiente para transmitir informações I/O de

notas, mas também é insuficiente para reproduzir informações continuas de

múltiplas características desses instrumentos simultaneamente.

Segundo Wright, as mensagens MIDI podem ser divididas em duas categorias.

A primeira categoria enquadra as mensagens I/O de notas e os chamados

aftertouchs (que especificam parâmetros como a pressão exercida em cada

nota) são informações que atuam especificamente no nível da nota. A segunda

categoria inclui modulações, controle de efeitos e outros parâmetros que são

aplicados aos canais (não apenas às notas).

Além disso, os eventos MIDI são passados por meio de sequências, o que

influencia na latência da chegada dessas informações ao computador. McMillen

exemplifica que um acorde de 10 notas em um teclado musical é passado ao

computador com um atraso de cerca de 6,7 milissegundos (ms), uma latência

que é próxima à tolerância proposta pela pesquisa de Wessel e Wright para

apenas duas notas consecutivas (WESSEL; WRIGHT, 2002).

Com intuito de resolver essas restrições do protocolo MIDI, o protocolo Open

Sound Control (OSC) foi desenvolvido em 1997, por Adrian Freed e Matthew

Wright, para prover informações musicais entre computadores, sintetizadores

sonoros e instrumentos, adaptando esse protocolo de informações às

tecnologias de rede da época (e.g. comunicações Ethernet) (WRIGHT, 2005).

Além disso, esse protocolo envia informações através de pacotes User

Datagram Protocol (UDP), por meio de um padrão de endereços similares às

URLs, contendo argumentos, cujos tipos podem variar entre int32, float32, Osc-

string (composto primariamente por caracteres ASCII), Osc-timetag (em

números 64-bit), cores RGBA (em 32-bit), entre outros. Essas informações são

enviadas por meio de mensagens OSC, que transmitem um endereço seguido

dos argumentos (ou seguido de nenhum argumento) (WRIGHT, 2002). Ademais,

59

a capacidade do protocolo OSC de enviar e atualizar informações em múltiplos

canais com uma maior resolução fornece uma maior possibilidade de

processamento de nuances de controle.

Os protocolos MIDI e OSC são os mais comumente utilizados na construção de

DMIs, devido à padronização na transmissão de informações e a grande

variedade de sistemas que incorporam essas tecnologias, entre elas

controladores, instrumentos e softwares digitais.

Softwares de mapeamento

Softwares de mapeamento foram criados para auxiliar no desenvolvimento de

sistemas digitais, como, por exemplo, o MAX/MSP20, Puredata21 (Pd),

OSCulator22, libmapper, o Ableton Live (software de composição musical, mas

que possui features de mapeamento), entre outros.

Diversas ferramentas de programação emergiram para aproximar leigos da

possibilidade de criar sistemas de forma mais prática e rápida. Ferramentas

como o MAX/MSP e o puredata ajudam iniciantes a romper as barreiras iniciais

de aprendizado de sintaxe de linguagens, fornecendo uma interface de

programação gráfica baseada em fluxo de informações e módulos lógicos –

caixas que possuem objetos computacionais como operadores, estruturas de

controle, entre outros.

20 Informações disponíveis em: <https://cycling74.com/products/max/>. 21 Informações disponíveis em: <http://puredata.info/>. 22 Informações disponíveis em: <http://www.osculator.net/>.

60

Figura 4.3: MAX/MSP (em cima) e puredata (em baixo).

Este tipo de programação fornece um alto grau de abstração, facilitando o

controle de parâmetros mais próximos do usuário e das estratégias de

mapeamento.

O sistema OSCulator recebe informações provindas de dispositivos conectados

ao computador e lista os parâmetros de controle e suas respectivas saídas em

uma interface simples e intuitiva. Desta forma, é possível conectar dispositivos

como o Wii Remote e obter automaticamente seus parâmetros de controle.

Essas informações podem ser enviadas a programas de mapeamento, como os

descritos acima, para serem utilizadas na criação de DMIs.

Outro Sistema similar é o libmapper, desenvolvido no laboratório Input Devices

and Music Interaction Laboratory (IDMIL) da Universadade de McGill no Canadá,

61

que disponibiliza uma lista de parâmetros de entrada e controles de saída dos

dispositivos e softwares conectados ao computador (CALEGARIO, 2013).

Apesar da desvantagem de ser um sistema que envolve um nível técnico

avançado para ser manipulado, o libmapper oferece a possibilidade de modificar

o mapeamento do projeto sem a necessidade de compilar códigos e reiniciar

outros sistemas. Além disso, esse sistema fornece integração com softwares de

mapeamento como o MAX/MSP.

Recapitulando, esses softwares de mapeamento fornecem uma facilidade de

visualização dos parâmetros de controle e de conexão entre esses parâmetros

de entrada e controles sonoros e, consequentemente, facilitando as

possibilidades de mapeamento (descritas no capítulo 3, seção 3.3), deixando a

escolha das estratégias de mapeamento nãos mãos do designer, e

proporcionando maiores possibilidades para expressividade do sistema.

Síntese sonora

Como já mencionado anteriormente, a expressividade do instrumento não seria

possível sem que os módulos de produção sonora possuam alta qualidade e

variedade sonoras (independentemente do tipo de som que se deseja produzir).

Para isso, existem diversas formas de síntese sonora e programas dedicados à

composição musical.

No livro The Computer Music Tutorial, Curtis Roads faz um estudo das diversas

formas de síntese sonora. Eles são compostos por uma combinação elementos

geradores de onda (e.g. osciladores) e modificadores (filtros, amplificadores,

geradores de envoltória, etc.), além de existir casos específicos como o uso de

samples.

Pode-se destacar cinco grandes formas de síntese: Aditiva, Subtrativa, Síntese

FM, Amostragem Digital, Modelagem Física (ROADS, 1996).

Síntese Aditiva: Neste caso, os sons são sintetizados seguindo o

princípio das séries de Fourier, no qual pode-se descrever qualquer onda

como uma soma de ondas cujas frequências são múltiplos inteiros da

onda que se deseja formar. Assim, módulos de geradores de onda com

frequências específicas são combinados para produzir o som desejado.

Síntese Subtrativa: Este tipo de síntese utiliza sinais de áudio complexos

(e.g. ruídos) como ponto de partida. A partir deste ponto, elementos

modificadores são aplicados à amostra inicial para que o resultado sonoro

seja alcançado. Este método era bastante utilizado em sintetizadores

analógicos tradicionais.

Síntese FM: Este caso envolve a manipulação de frequência de duas ou

mais ondas relacionadas por um modelo matemático. Nesse modelo, a

variação de uma certa onda (chamada de onda portadora) pode ser

modificada por meio da variação de frequência de uma segunda onda

62

(chamada onda moduladora). Além disso, diferentes possibilidades se

colocam: as ondas portadoras e moduladoras podem ser uma resultante

de uma combinação de ondas; a onda moduladora pode ser uma outra

onda portadora; e a portadora pode ser uma outra onda moduladora.

Síntese por Amostragem Digital: Esta síntese possui duas vertentes.

Um dos casos é a utilização de samples (ou seja, amostras sonoras

previamente gravadas de instrumentos musicais), disparando-os

conforme forem requisitados ou utilizando-os em laços (loops). A outra

vertente é utilizar uma leitura de múltiplas tabelas. Essas tabelas contêm

diversos módulos sonoros (envoltórias de onda, filtros, samples, entre

outros) e combinam estas informações para gerar o resultado final.

Síntese por Modelagem Física: Neste método, equações matemáticas

são utilizadas para descrever a mecânica de produção sonora de um

instrumento musical. Este tipo de modelo descreve os aspectos físicos do

instrumento musical desejado (geração e acústica). Além disso, da

mesma forma como a luz pode ser considerada como onda e partícula, a

modelagem também pode considerar o som como partículas (síntese

granular).

Estes métodos fornecem formas de geração sonora por intermédio de sistemas

digitais. Entretanto, Roads ainda descreve alguns problemas na utilização destes

métodos de síntese sonora. A maioria deles envolvem um alto custo

computacional ou de implementação para produzirem resultados de alta

fidelidade.

No primeiro caso, as sínteses aditiva, subtrativa e FM envolvem um grande

número de módulos sonoros que acarretam numa alta demanda de

processamento por parte do computador, tornando estes sistemas pouco

viáveis. No caso da síntese por modelagem física, mesmo sendo o sistema que

produz a maior fidelidade sonora, esse método envolve a elaboração de

algoritmos complexos que demandam de um alto nível técnico por parte do

desenvolvedor. Ademais, a utilização de samples possui problemas relativos a

mudanças de timbre que são solucionados com transposição das amostras.

Sendo assim, a utilização de amostras pré-gravadas fornece alto nível de

fidelidade musical com baixo nível de implementação. Para ampliar a

expressividade sonora do instrumento utilizando esse método, é necessário

registrar as diferentes nuances sonoras que corresponderão às nuances

gestuais.

63

Diversos aplicativos digitais como o Ableton Live, GarageBand23, FL Studio24,

Logic Pro25, Sonic Visualizer26, entre outros, incorporam parâmetros sonoros,

sintetizadores virtuais, efeitos e amostrar MIDI ou de áudio, que podem ser

utilizados para fornecer expressividade sonora ao sistema que será

desenvolvido.

Sensores

Como visto no capítulo 2, os DMIs possuem controles gestuais que são

desenvolvidos utilizando sensores. Avaliando os sensores utilizados pela

comunidade científica na conferência New Interfaces for Musical Expression

(NIME), cujo tema central também envolve a criação de novos DMIs, pode-se

classificar os tipos de sensores da seguinte maneira (MEDEIROS;

WANDERLEY, 2014a; MIRANDA; WANDERLEY, 2006):

Sensores analógicos: Sensores que têm como parâmetros de saída

informações contínuas de sinais elétricos.

Sensores digitais: Contrariamente aos sensores analógicos, os

parâmetros de saída de sensores digitais são informações discretas.

Eletrônicos de consumo27: Sensores desenvolvidos por empresas e

comercializados para o público como smartphones, tablets, o Wii© e o

Kinect©.

Captura de movimentos: Normalmente sensores deste tipo utilizam

câmeras – RGB, infravermelho (IR), etc. Esta categoria inclui sensores

como o Kinect©, o Xtion©, o Xsens©, entre outros.

A pesquisa de Medeiros e Wanderley (MEDEIROS; WANDERLEY, 2014a) faz

um levantamento dos sensores utilizados durante os anos de 2001 a 2013 da

conferência New Interfaces for Music Expression (NIME) juntando os resultados

realizados em pesquisas anteriores (MARSHALL, 2008).

Existe uma diversidade enorme de sensores que podem ser utilizados para

capturar diferentes tipos de informações. Estes podem variar entre

acelerômetros, giroscópios, sensores FSR (Force Sensing Resistor), discos

piezoelétricos, sensores termoelétricos, sensores capacitivos, botões,

potenciômetros, câmeras RGB, sensores infravermelho (IR, do inglês Infrared),

sensores de luz, entre diversos outros. Esses sensores captam diferentes

informações como orientação, aceleração, pressão, presença ou ausência de

luz, posição, umidade, etc.

23 Informações disponíveis em: <https://www.apple.com/br/mac/garageband/>. 24 Informações disponíveis em: <https://www.image-line.com/flstudio/>. 25 Informações disponíveis em: <https://www.apple.com/br/logic-pro/>. 26 Informações disponíveis em: <http://www.sonicvisualiser.org/>. 27 Traduzido de consumer eletrônics.

64

Tabela 2: Sensores que aparecem em artigos da conferência NIME

(Extraído de MEDEIROS; WANDERLEY, 2014).

Os autores classificam separadamente eletrônicos como smartphones, tablets,

Wii Remote©, Kinect©, Leap Motion© e sistemas de captura de movimentos

(motion capture). Enquanto eletrônicos de consumo aparecem 71 vezes nas

pesquisas, os sistemas de motion capture aparecem apenas 30 vezes.

Essa enorme quantidade de sensores fornece a possibilidade de captura de

diferentes aspectos do ambiente para desenvolver o controle de entrada.

Ademais, a combinação de sensores (ou integração de múltiplos sensores, como

veremos no capítulo 5) proporciona um maior número de parâmetros de controle

que podem ser utilizados para distinguir gestos. A pesquisa de Medeiros e

Wanderley (MEDEIROS; WANDERLEY, 2014a) ainda oferece informações

sobre a frequência com que estes sensores são utilizados.

65

Figura 4.4: Matriz de coocorrência de sensores no NIME (Extraído de

MEDEIROS; WANDERLEY, 2014a).

A figura mostra uma certa frequência na combinação de sensores

acelerômetros, giroscópios e magnetômetros, ao mesmo tempo que sensores IR

são comumente utilizados com potenciômetros/switches e sensores de pressão

FSR e sensores flexíveis (bend sensors). Outra importante informação dessa

análise é o fato de que os sensores acelerômetros são os que possuem um maior

grau de utilização com outros sensores.

O protótipo desenvolvido neste projeto utiliza o sistema IR do Leap Motion©

combinado com um sensor de pressão FSR e um microfone piezoeléctrico.

Assim, este projeto se encaixa em um grupo próximo ao cluster laranja (infrared,

FSR, potentiometer/switch) da Figura 4.4, porém incorpora o piezo, que não está

inserido no mesmo, e não usa um potenciômetro. É possível notar que entre 5 e

7 pesquisas utilizam integração de IR e FSR. Entretanto, o piezo é pouco

utilizado em combinação com esses sensores, sendo usado mais comumente

com o acelerômetro ou potenciômetros/switches. Desta forma, estamos

utilizando uma combinação de sensores que não foi bastante explorada.

66

Além disso, a comunidade adepta aos movimentos Maker, Do-It-Yourself (DIY)

e tecnologias similares ao Arduino geralmente fornece módulos prontos e

instruções de montagem dos circuitos eletrônicos que facilitam a experimentação

e utilização desses sensores sem a necessidade de um alto conhecimento sobre

instrumentação eletrônica.

É possível encontrar, na literatura, diversos usos desses sensores na construção

de DMIs. Alguns sistemas envolvem o uso de sensores acelerômetros e

giroscópios, acoplados às baquetas de uma bateria, para simular virtualmente

partes de uma bateria (KANKE et al., 2012), a combinação de sensores flexíveis

(bend) e piezoeléctricos para criação de um sistema modular (WEINBERG; AIMI;

JENNINGS, 2002) e o uso de uma combinação de sensores com algoritmos de

aprendizagem de máquina para aumentar a capacidade expressiva de

instrumentos convencionais (como o Sensory Percussion28, desenvolvido pela

empresa Sunhouse©).

Principalmente nos últimos anos, os números de sistemas musicais com

eletrônicos de consumo cresceram nos trabalhos acadêmicos. Com exceção do

Wii (que houve um decaimento de 2012 para 2013), vários DMIs estão sendo

desenvolvidos com essas interfaces gestuais (MEDEIROS; WANDERLEY,

2014a).

No caso do Wii Remote, diversos sistemas musicais foram construídos utilizando

o próprio Wii Remote (HEISE; LOVISCACH, 2008; WONG; YUEN; CHOY, 2008;

TRALDI, AGUIAR, BARREIRO, 2011), a barra de captura IR (PENG; GERHARD,

2009), ou ambos (MILLER; HAMMOND, 2010). Entretanto, algumas dessas

pesquisas mostram a ausência de controle fino dessas interfaces (WONG;

YUEN; CHOY, 2008; TRALDI, AGUIAR, BARREIRO, 2011).

Diversos sistemas desenvolvidos com o Kinect abordam a simulação de

instrumentos de percussão. Todas essas pesquisas demonstraram as limitações

do sensor para ser aplicado profissionalmente. A latência (HSU et al., 2013;

ODOWICHUK et al., 2011; ROSA-PUJAZÓN et al., 2013; TODOROFF; LEROY;

PICARD-LIMPENS, 2011) e o erro no reconhecimento gestual (HSU et al., 2013;

OKADA et al., 2014; TODOROFF; LEROY; PICARD-LIMPENS, 2011) foram as

principais restrições levantadas.

O uso de interfaces multi-toque também é bastante explorado nos trabalhos

acadêmicos. Trabalhos mencionados anteriormente como o reacTable (JORDA

et al., 2005), o MudPad (JANSEN; KARRER; BORCHERS, 2010) e as pesquisas

de Montag et. al. (MONTAG et al., 2011), Davidson e Han (DAVIDSON; HAN,

2006) e Calegário (CALEGARIO, 2013) exploram a capacidade de controle

musical com estas interfaces gestuais.

28 Informações em: <http://sunhou.se/>.

67

Poucos são os sistemas que utilizam o Leap Motion© na construção de

interfaces de interação musical. O AirHarp29 e o AirBeats30 são DMIs

desenvolvidos pela empresa Handwavy que visam simular instrumentos

convencionais, respectivamente a harpa e instrumentos de percussão variados.

Outros sistemas que buscam simular instrumentos acústicos são o Virtual

Bowing31, o Theremix (BARBOSA et al., 2014), o aplicativo Bongos!32, o Air

Piano (BARBOSA et al., 2014) e o trabalho de De Pra et. al. (DE PRA et al.,

2014). Embora alguns desses trabalhos apresentem alguns resultados negativos

relativos ao uso desse sistema, é possível que o uso de integração de sensores

solucione os problemas encontrados (relativos à latência). Além disso,

ferramentas de auxílio na comunicação do Leap Motion© com outros programas,

como o GECO33, possuem features interessantes, e.g. envio das informações do

dispositivo por meio de protocolo OSC, para a construção de DMIs.

Além disso, empresas como a Roland©, Korg© e Alesis© também

desenvolveram DMIs para comercialização. Baterias eletrônicas (como a DM10X

Mesh Kit34) e pads de percussão, como o HandSonic35 e o Wavedrum36, estão

incluídos nesse conjunto de controladores MIDI.

29 Vídeo disponível em: <https://www.youtube.com/watch?v=U2HFcfOwDtI>. 30 Vídeo disponível em: <https://www.youtube.com/watch?v=fU4ZWAPwvcM>. 31 Vídeo disponível em: <https://www.youtube.com/watch?v=kLkPvmr93K8>. 32 Disponível em: <https://apps.leapmotion.com/apps/bongos/windows>. 33 Disponível em: <https://apps.leapmotion.com/apps/geco-midi/windows>. 34 Informações em: <http://www.alesis.com/dm10-x-mesh>. 35 Informações em: <http://roland.com.br/products/handsonic_hpd-20/>. 36 Informações em: <http://www.korg.com/us/products/drums/wavedrum_global_edition/>.

68

5 ABORDAGEM ADOTADA

Neste capítulo, são descritos os princípios utilizados durante a construção do

DMI desenvolvido neste projeto, assim como é apresentado o processo de

design seguido ao longo da pesquisa. Procura-se, aqui, deixar claro os métodos

escolhidos para investigação do problema de pesquisa e desenvolvimento de

uma possível solução.

5.1 Princípios utilizados

Esta seção apresenta os princípios seguidos na elaboração da solução para o

problema de pesquisa e quais as diretrizes adotadas para guiar as escolhas

realizadas durante o projeto.

Integração de múltiplos sensores

Hall e Llinas (HALL; LLINAS, 1997, p.1) argumentam que:

“Humans and animals have evolved the

capability to use multiple senses to improve their

ability to survive. For example, it may not be

possible to assess the quality of an edible

substance based solely on the sense of vision or

touch, but evaluation of edibility may be

achieved using a combination of sight, touch,

smell, and taste. Similarly, while one is unable to

see around comers or through vegetation, the

sense of hearing can provide advanced warning

of impending dangers. Thus multisensory data

fusion is naturally performed by animals and

humans to achieve more accurate assessment

of the surrounding environment and

identification of threats, thereby improving their

chances of survival. ” (HALL; LLINAS, 1997, p.1)

Embora o foco dos autores seja em utilizar este conceito para corroborar a

técnica de fusão de sensores utilizada por eles, o princípio também pode ser

utilizado para as técnicas de integração de múltiplos sensores.

A diferença entre estes termos técnicos é uma linha tênue, mas importante.

Enquanto o último é utilizado para descrever um processo de combinar as

informações de diversos sensores diretamente (de forma sinérgica), o termo

técnico “fusão de sensores” (sensor fusion) descreve uma técnica

computacional, na qual informações capturadas por diversos sensores são

combinadas para gerar novas informações aprimoradas (e.g. para reduzir erros

de medida) que serão utilizadas pelo controle de entrada (MEDEIROS;

69

WANDERLEY, 2014a). A pesquisa de Medeiros e Wanderley ainda faz um

levantamento da escolha do uso de sensores na conferência NIME (no período

entre 2008-2013), juntando às informações do survey conduzido por Marshall

(MARSHALL, 2008) e mostrando a frequência de se utilizar sensores

combinados entre si (como visto na Figura 4.4, na página 49). Os resultados

apresentados pelos autores mostram que, por um lado, projetos que utilizam

sensores mais comuns – acelerômetros, sensores resistivos FSR (Force

Sensing Resistor), giroscópios, sensores de luz – possuem um maior grau de

utilização de múltiplos sensores. Entretanto, poucos são os trabalhos que

utilizam eletrônicos como o Wii© e o Kinect© com outros sensores variados.

Mesmo que estes eletrônicos possuam diversas capacidades sensoriais – o Wii

reconhece a cena a partir de informações obtidas por uma câmera IR e um

acelerômetro e o Kinect possui um sensor de profundidade, uma câmera RGB e

microfones –, presume-se que as dificuldades encontradas em diversos

trabalhos acadêmicos serviriam de motivação para utilizar outros sensores que

as sanassem. Vale relembrar a frase de Bill Buxton (BUXTON, 2007) que “tudo

é melhor para certas coisas e pior para outras”.

Na literatura, algumas pesquisas relacionadas com integração de múltiplos

sensores argumentam que existem vantagens – uso de redundância de

informação para redução de erros, informações complementares, menor custo

na obtenção de informações, entre outros – no uso deste tipo de sistema em

comparação com sistemas que utilizam um único sensor (LUO; KAY, 1990). O

uso de informações provenientes de dois ou mais sensores, de forma

complementar, ajuda a descrever o ambiente com maior precisão. Algumas

pesquisas utilizam essa abordagem para melhor rastreamento de um objeto na

cena (MITICHE; AGGARWAL, 1986) ou para redução de erros de medida (HALL;

LLINAS, 1997). Outras pesquisas seguem a mesma filosofia para o uso de “fusão

de sensores” (MEDEIROS; WANDERLEY, 2014b), utilizando métodos que

exigem um maior custo de implementação, já que envolvem a preparação e

combinação de dados por meio de modelos matemáticos e estatísticos.

Poucas pesquisas relacionam a utilização de múltiplos sensores para captura de

nuances de controle em interfaces gestuais. Enquanto alguns autores

relacionam o uso de múltiplos sensores com sistemas mais complexos (como

eletrônicos de consumo) (SAFFER, 2008), outras pesquisas acreditam que

sistemas mais robustos são necessários, utilizando abordagens de fusão de

sensores (MEDEIROS; WANDERLEY, 2014b). Entretanto, ambos os casos

requerem um maior nível técnico e um maior custo de implementação.

Neste projeto, buscou-se aderir a filosofia de utilizar informações

complementares provindas de diferentes sensores para resolver problemas de

expressividade musical. Utiliza-se integração de sensores para capturar nuances

gestuais que são essenciais na expressividade musical diretamente a partir dos

70

dados obtidos pelos sensores. Entretanto, buscou-se investigar se esta

abordagem é válida em um sistema simples que requer baixo custo de

implementação.

Baixo custo de implementação

A filosofia dos movimentos “faça você mesmo” (DIY, do inglês Do It Yourself) e

Maker encorajam entusiastas a buscar conhecimento e técnicas para realizar

projetos, reparar e/ou modificar objetos, “sem a ajuda de profissionais pagos”

(KUZNETSOV; PAULOS, 2010). Kuznetsov e Paulos realizaram uma pesquisa

com comunidades DIY, levantando suas motivações na realização de projetos e

interação com a própria comunidade, as quais envolvem a divulgação de ideias,

compartilhamento de técnicas e instruções de como realizar determinadas

tarefas.

No contexto computacional, estas comunidades incorporam os princípios de

software livre (Open Source) e buscam compartilhar técnicas e conhecimentos

sobre diversos assuntos e, muitas vezes, disponibilizar os códigos de seus

sistemas em plataformas desenvolvidas para tal. Essa comunidade oferece

diversos módulos e códigos de softwares como o MAX/MSP e o puredata para

auxiliar o engajamento de iniciante.

Como visto no capítulo 4, a linguagem de programação por fluxo de dados

baseada em módulos oferece a possibilidade de o usuário interagir com

parâmetros de controle mais próximos a ele, ao mesmo tempo que os “protege”

de manipulações necessárias no contexto computacional que requerem um nível

técnico avançado (como uma abordagem de “caixa preta”). Mesmo assim,

fornece a possibilidade de o desenvolvedor buscar estas informações em

camadas de abstração mais baixas, para que, à medida que forem aprendendo

(ou se já possuírem um nível de programação mais avançado), possam entender

como cada módulo funciona.

Além disso, empresas como o Arduino, Rasberry Pi, Intel, entre outras, criaram

iniciativas para o desenvolvimento de microcontroladores que facilitam a criação

de projetos eletrônicos, disponibilizando sistemas com interfaces intuitivas e

práticas, facilitando a prototipação de projetos eletrônicos e computacionais, e,

consequentemente, auxiliando na introdução de usuários leigos em um ambiente

de programação.

71

Figura 5.1: Microcontrolador arduino UNO.

Neste projeto, foi escolhida uma abordagem aproveitando estes princípios de

facilidade na implementação visando uma possível extensão do projeto, na qual

o músico seria capaz de personalizar o formato da superfície do instrumento,

possivelmente modificando alguns parâmetros de mapeamento dos sensores.

Ademais, de forma a tornar o artefato mais acessível, foi escolhida uma

abordagem de criação de um sistema, utilizando sensores que não gerassem

um alto custo financeiro. Esta escolha parte do princípio de que se o artefato for

altamente dispendioso e difícil de encontrar, o músico pode optar pelos

instrumentos já consolidados no mercado que lhes trazem “segurança” na

performance e que o seu funcionamento já é conhecido. Disponibilizar um

sistema barato, aumenta as possibilidades de adesão de usuários, considerando

que requisitos de expressividade sejam atingidos.

Músicos de percussão utilizam uma variedade enorme de instrumentos, em seus

kits, para o acompanhamento de diversos ritmos musicais e buscando uma alta

variedade de timbres, proporcionando um alto custo em instrumentos. Para que

os profissionais de percussão possuam uma alternativa barata que lhes

forneçam uma grande variedade de timbre e também para que o alto custo do

produto não se torne um obstáculo na difusão desta tecnologia, foi feita a escolha

de reduzir o custo e, ao mesmo, proporcionar uma experiência musical que

possa ser usada profissionalmente.

Princípios de design

O conceito utilizado ao longo do projeto parte dos princípios de design centrado

no usuário desenvolvidos e publicados por Donald Norman e Stephen Draper

(NORMAN; DRAPER, 1986). Eles partem da ideia de buscar as soluções para

os problemas de uma determinada área a partir das pessoas que fazem parte do

contexto. Segundo Abras, Maloney e Preece (ABRAS; MALONEY-KRICHMAR;

PREECE, 2004, p.1):

72

“For example, some types of UCS consult users

about their needs and involve them at specific

times during the design process; tipically during

requirements gathering and usability testing. At

the opposite end of the spectrum there are UCD

methods in which users have a deep impact on

the design by being involved as partners with

designers throughout the design process. ”

(ABRAS; MALONEY-KRICHMAR; PREECE,

2004, p.1)

Outro conceito, utilizado por Calegario (CALEGARIO, 2013), é o de Running

Lean design, desenvolvido por (MAURYA, 2012), cujos princípios fundamentais

envolvem a rápida prototipação e a adaptação do projeto para suprir

necessidades específicas do contexto no qual ele está inserido.

O processo adotado neste projeto segue a linha da abordagem utilizada em

(CALEGARIO, 2013), a qual utiliza um processo iterativo que pode ser dividido

nos seguintes passos: Inspiração, Investigação, Ideação, Prototipação e

Avaliação.

Os métodos de Inspiração envolvem primeiramente entender o que se sabe

sobre o assunto, e atentar para oportunidades que possam gerar motivação para

o desenvolvimento do projeto.

A Investigação envolve buscar na literatura, formal e informal, o que já foi

pesquisado sobre o assunto. É importante que na primeira fase de iteração do

processo, se elabore uma pergunta de pesquisa (descrita no capítulo 1), para

guiar esta exploração.

A Ideação envolve reunir as informações coletadas na etapa de investigação e

elaborar formas de tentar solucionar o problema de pesquisa.

Prototipação é fundamental para materializar suas ideias geradas e refiná-las,

eliminando características desnecessárias que não contribuirão no processo de

design e experimentando novas ideias.

A Avaliação do sistema deve ser feito ao final de cada processo iterativo. A partir

dela é possível analisar as contribuições apresentadas pelo protótipo criado e

como ele pode ser refinado. Neste passo, pode-se apresentar o protótipo ao

usuário final, para que este possa apontar possíveis problemas que passem

despercebidos pelos designers ou nuances que são essenciais para o projeto.

Conexão com tecnologias já existentes

A difusão dos protocolos MIDI e OSC e as possibilidades de conexão com

diversos sistemas incentivou a aceitação destes protocolos por empresas

73

desenvolvedoras de sistemas musicais (virtuais ou reais), se tornando

“indispensável na produção de música eletrônica” (CHAGAS, 1992, p. 16–17).

As possibilidades de desenvolvimento de interfaces MIDI/OSC com baixo custo

de implementação – facilidade na programação e baixo custo financeiro – junto

à flexibilidade do padrão de comunicação criadas por estes protocolos facilitam

a integração dos mesmos com diversos sistemas computacionais e,

particularmente, musicais (virtuais ou reais).

Portanto, este projeto busca a integração do artefato desenvolvido com sistemas

musicais já existentes e familiares para o público alvo, procurando um maior grau

de adesão e facilidade de uso por parte dos músicos profissionais.

Mobilidade

Como já descrito anteriormente, a capacidade dos protocolos MIDI e OSC de

proporcionar um imenso leque de timbres, facilita a aceitação desta tecnologia

para um público que busca diversas variações de timbre para acompanhamento

musical. Ademais, o fato de os DMIs serem artefatos digitais faz com que seja

possível construir sistemas portáteis.

Além disso, é importante notar a dificuldade no transporte dos kits de percussão

de um músico profissional. Diversos destes instrumentos, principalmente

àqueles projetados para performance ao vivo, normalmente possuem dimensões

que se tornam empecilhos para o transporte, principalmente se levarmos em

consideração a quantidade de instrumentos contidos nestes kits.

Portanto, a abordagem adotada neste projeto ainda leva em consideração a

mobilidade do artefato final.

5.2 Métodos de design adotados

Nesta seção, são apresentadas as escolhas que foram feitas baseadas nos

princípios apresentados anteriormente. São apresentados os métodos de

design, as escolhas de tecnologia, o tipo de instrumento escolhido, bem como

as justificativas para tais escolhas.

Método de inspiração

Este projeto partiu da necessidade de responder questionamentos levantados

em pesquisas anteriores. Músicos profissionais demonstraram interesse em

possuir este tipo de instrumento, porém levantaram diversos problemas

encontrados nos DMIs desenvolvidos com as tecnologias de interfaces gestuais

Wii e Kinect (SILVA, 2012).

Com tantas tecnologias gestuais emergindo, há uma certa necessidade de

explorar as capacidades destas tecnologias para o desenvolvimento de DMIs

para investigarmos há possibilidade de resolver estes problemas encontrados.

74

Ao mesmo tempo se torna uma contribuição para a avaliação das tecnologias

em si.

Método de ideação

Desde o início do projeto, buscou-se definir diretrizes para seguir um método de

desenvolvimento estruturado. A definição destes princípios auxilia o

desenvolvedor a se guiar. Estes princípios, descritos na seção 5.1, são

imprescindíveis para facilitar as escolhas a serem feitas, tendo em vista os

objetivos que se deseja alcançar. Além disso, no desenvolvimento de um

artefato, é importante procurar saber que valores – e.g. baixa latência, alta

precisão, etc. – são realmente necessários para responder a pergunta de

pesquisa e quais são opções almejados pelo designer.

Ademais, é essencial que também seja definido o perfil dos usuários, já que,

partindo dos princípios definidos para a realização deste projeto (descritos na

seção anterior), esta definição ajuda a definir os valores a se entregar e quais os

problemas devem ser investigados.

Como mencionado no método de inspiração, ao explorarem instrumentos

desenvolvidos com tecnologias de interfaces gestuais, percussionistas

profissionais encontraram problemas que afetam a performance ao vivo de

maneira drástica. Isto acontece porque a percussão é altamente demandante de

precisão temporal – alguns autores argumentam que para se realizar certas

técnicas de percussão são controladas pelos músicos com precisão de 1

milissegundo (WESSEL; WRIGHT, 2002) – e precisão espacial para explorar o

material dos instrumentos, buscando as nuances de expressividade.

Portanto, a escolha de percussionistas profissionais como sendo o público-alvo

deste projeto parte de que estes usuários irão demandar que a tecnologia seja

explorada para atingir as altas expectativas e necessidades para uma

performance expressiva.

Métodos de investigação

Os métodos de investigação utilizados para a construção deste projeto partiram

da análise da literatura da área, à procura de artefatos que utilizam interfaces

gestuais para criação de instrumentos musicais. Esta busca de referências na

literatura formal – a partir de trabalhos acadêmicos – e informal – demonstrações

de DMIs disponíveis em sites de compartilhamento de vídeos – introduzem

novos conceitos e possibilidades de técnicas a serem trabalhados e suportam

as tomadas de decisão que deverão ser feitas ao longo do projeto.

Em seguida, após a elaboração de uma primeira hipótese sobre uma possível

solução, a análise das tecnologias existentes e as possibilidades de utilização

de tecnologias emergentes foram estudadas para a construção de um primeiro

protótipo a ser avaliado.

75

Feita a redução do escopo para instrumentos de percussão, foi preciso

compreender melhor os problemas e questionamentos elencados por Silva

(2012) – particularmente se os DMIs são realmente utilizados pelo público

profissional – e buscar informações mais detalhadas sobre controladores MIDI

de percussão já existentes no mercado. Para isto, foi conduzido um questionário

online utilizando a plataforma SurveyMonkey dirigida ao público alvo do projeto

– percussionistas profissionais.

Ademais, também foi realizada uma análise dos gestos do instrumento de

percussão escolhido a ser simulado. Com o levantamento destes gestos, é

possível avaliar as capacidades da tecnologia.

Método de prototipação

O método de prototipação escolhido para este projeto pode ser descrito em duas

etapas: Uma primeira etapa, na qual o desenvolvedor parte apenas de

informações hipotéticas e análises da literatura, e uma segunda etapa que

envolve o aprimoramento das tecnologias escolhidas a partir de novos

conhecimentos adquiridos pela familiarização com estas tecnologias,

descobertas de novas técnicas e avaliação do protótipo construído na primeira

etapa.

Durante a primeira iteração, protótipos preliminares visando resultados similares

devem ser elaborados para se estudar as limitações das tecnologias utilizadas,

para se familiarizar com a arquitetura do sistema e com as possibilidades de

desenvolvimento. Além disso, é nesta fase em que o desenvolvedor procura

descobrir potenciais erros na ideação do projeto, bem como adicionar novas

funcionalidades que havia negligenciado ou necessidades que não sabia que

existiam.

Após esta primeira etapa, tendo um maior conhecimento sobre as tecnologias

escolhidas, os protótipos desenvolvidos começam a ganhar forma e os

resultados das avaliações internas e/ou avaliações com os potenciais usuários

guiarão o designer a explorar novas técnicas, descartar e consolidar técnicas

utilizadas, buscar novas funcionalidades do sistema e procurar solucionar

problemas que não foram resolvidos e/ou problemas que emergirem.

5.3 Escolha do instrumento

Como já mencionado, a escolha de simular instrumentos de percussão parte do

princípio de que estes requerem um alto grau de precisão sonora e espacial.

Entretanto, de forma a reduzir o escopo para uma análise mais efetiva, foi

necessário focar um instrumento de percussão que possuísse diversas nuances

de expressividade.

As tumbadoras (Figura 5.2), também conhecidas como congas, são

instrumentos da classe dos membranofones – classe de instrumentos de

76

percussão, em que o som é produzido pela vibração de uma membrana – que

possuem um grande repertório de gestos e nuances gestuais para serem

tocadas profissionalmente. O formato semelhante a diversos instrumentos de

percussão da mesma classe e o vocabulário sonoro variado permitiram que elas

se tornassem bastante difundidas em todo o globo e utilizadas em ritmos

variados, como, por exemplo, diversos ritmos latino-americanos (conga, rumba,

samba, entre outros), rock, jazz, R&B e até utilização em arranjos de música

clássica (WARDEN, 2005).

Figura 5.2: Tumbadoras (ou Congas).

Portanto, a escolha de simular uma conga parte da versatilidade na utilização

deste instrumento em diversos ritmos musicais, bem como na variedade do

repertório gestual que pode ser utilizado para avaliação das tecnologias

utilizadas neste projeto. Entretanto, as limitações do FOV do Leap Motion©

fizeram com que apenas um tambor pudesse ser simulado.

No caso dos gestos específicos das tumbadoras, diversos vídeos e websites

instrucionais foram analisados a fim de levantar os gestos e as nuances gestuais

utilizadas pelos percussionistas para tocar as congas. Estes vídeos estão

dispostos no site de compartilhamento Youtube e são fornecidos por empresas

e estúdios musicais que produzem materiais instrucionais para percussionistas

iniciantes e avançados.

Diversas nuances e gestos foram encontradas analisando estes vídeos. A maior

parte destas utilizam apenas as duas mãos para serem realizadas, enquanto

algumas são realizadas com uma ferramenta de madeira (uma espécie de

baqueta) que é utilizada para tocar as congas (na pele e no corpo do

instrumento) e abafá-las de diversas maneiras de acordo com a distância entre

a baqueta e a mão.

77

Foram analisados os gestos que produzem as notas Open Tone, Muffle Tone

(Open Tone abafado), Slap Tone, Closed Slap Tone (Slap Tone abafado),

Pressed Slap Tone (Slap Tone abafado com a outra mão), Bass Tone, Heel

Tone, Tip Tone, Gliss (ou Glissando) e as chamadas Grace Notes. As figuras

aqui apresentadas foram extraídas de um site instrucional de uma empresa

chamada Pulsewave37, o qual possui uma seção ensinando os gestos para tocar

congas.

As Grace Notes são “notas que não recebem valor musical, tocadas o mais

próximo possível da nota subsequente, que irá receber o valor musical completo”

(EVANS, 1966). Estas notas chegam ao instrumento para produzir uma nuance

de expressividade que não é possível com apenas uma nota. A Grace Note mais

comum em instrumentos de percussão é chamada de “Flam”. Estas são, na

maioria das vezes, realizadas com duas notas iguais subsequentes. Entretanto,

em alguns casos, outros gestos são utilizados para produzir Grace Notes, como

usar a mão com o punho (a qual foi atribuído o nome Fist Note) fechado antes

de uma nota.

Extrair samples destas notas é uma tarefa bastante complicada, já que elas são

notas que são produzidas quase simultaneamente às notas que as sucedem,

além de suas intensidades serem mais baixas.

No caso de a Grace Note ser feita com a mão em formato de punho – que

também é utilizada com uma nota independente pelos percussionistas –, apesar

de o Leap Motion© conseguir reconhecer o gesto realizado, a nota não foi

incorporada no sistema devido à ausência do sample sonoro produzido pelo

mesmo. Entretanto, para avaliação deste gesto, um sample sonoro de outro

instrumento foi utilizado para que este movimento pudesse ser distinguido dos

demais.

A nota Open Note é tocada com os dedos nas extremidades do instrumento. A

técnica é realizada golpeando a borda do instrumento com a junção entre a

palma e os dedos, permitindo que estes atinjam a pele e produzam o som.

Geralmente, o músico golpeia o instrumento com os dedos separados.

37 http://pulsewave.com/classes-workshops/conga-hand-positions-sounds/

78

Figura 5.3: Open Tone.

O Muff ou Muffled Tone utiliza a mesma técnica anterior, porém o músico

pressiona a pele do instrumento para que esta não vibre completamente,

causando um tom abafado. Muitas vezes, nesta técnica, o músico junta os dedos

da mão (com exceção do polegar), diferentemente do que acontece no Open

Tone.

Figura 5.4: Muffled Tone.

O Slap Tone ou Slap é feito um pouco mais ao centro do instrumento, utilizando

os dedos e parte da palma da mão para fazer o som. No Slap, os dedos da mão

do músico ficam separados, igualmente ao Open Tone. Entretanto, o som

produzido no Slap é mais agudo.

79

Figura 5.5: Slap Tone.

No Closed Slap, os dedos ficam mais próximos e, muitas vezes, a mão faz um

formato curvado. Além disso, pressiona-se a pele do instrumento para abafar a

nota, produzindo um som mais agudo e mais “seco” que o Slap.

Figura 5.6: Closed Slap.

Outro tom derivado do Slap é o chamado Pressed Slap ou Muted Slap. Neste

caso, a outra mão do músico é posicionada mais ao centro do instrumento e é

usada para pressionar a pele. A outra mão irá realizar um gesto similar ao Slap

ou ao Closed Slap (mais frequentemente este último) para produzir um som mais

agudo e mais “seco” do que os outros dois.

Figura 5.7: Pressed Slap.

O Bass Tone, o tom mais grave dentre estes, golpeando o instrumento com toda

a mão (palma e dedos) paralelamente à sua pele e deixam ela bater e voltar.

Este gesto é feito mais ao centro do instrumento. Muitas vezes os músicos

levantam os dedos para que apenas a palma atinja o instrumento.

80

Figura 5.8: Bass Tone.

No Heel Tone, o músico utiliza a base da mão com os dedos levantados para

produzir um som grave mais suave e distinto. Este é frequentemente usado com

o Tip Tone em diversos ritmos musicais.

Figura 5.9: Heel Tone.

O Tip Tone, é realizado com os dedos que estão levantados. Pode-se levantar

um pouco mais a palma para iniciar o movimento e golpear a pele com os dedos

da mão, saindo um som mais agudo, porém similarmente suave ao do Heel

Tone.

Figura 5.10: Tip Tone.

81

Por último temos o Gliss ou Glissando, no qual o músico produz arrastando o

dedo na pele do instrumento. Com isto, pode-se produzir som bastante peculiar

e distinto dos outros sons percussivos.

Figura 5.11: Gliss Tone.

Algumas outras nuances, como utilizar as unhas dos dedos para produzir um

som diferente, ou golpear o instrumento com apenas um dos dedos, ainda

aparecem em diversos vídeos. Entretanto, vários destes são técnicas

particulares que variam para diferentes músicos. A falta do controle sobre a

qualidade do som destas nuances e a particularidade do uso por apenas um

pequeno número de músicos (diversas vezes apenas um), fez com que este

projeto se limitasse a focar nos gestos acima. Outra particularidade mais comum,

é utilizar o cotovelo para abafar as notas. Deste jeito, pode-se obter outra

variação dos tons acima.

5.4 Método de aquisição dos samples

Durante a aquisição dos gestos, a análise dos vídeos proporcionou a aquisição

dos samples sonoros, gerados pelas congas, relativas a estes gestos. Vale

ressaltar que os vídeos, a partir dos quais os samples foram coletados, são

vídeos de instituições profissionais que fornecem vídeo-aulas para músicos de

diversos níveis. Sendo assim, lembrando que o intuito deste projeto é avaliar as

tecnologias e a interface de interação para a construção futura de DMIs

alternativos (e não simular instrumentos acústicos já existentes), os sons

coletados aqui serão utilizados para aplicações puramente acadêmicas e para

este trabalho apenas. Gravações futuras de samples deverão ser feitas para

outras aplicações.

82

6 CONSTRUÇÃO DO PROTÓTIPO

Este capítulo descreve a evolução dos protótipos desenvolvidos ao longo deste

projeto de maneira cronológica. Aqui, são detalhadas as tecnologias e sensores

que foram utilizados no design do DMI que foi denominado V-Conga. Em

seguida, todas as versões são explicitadas, discutindo as mudanças de design

efetuadas e suas justificativas. Os resultados discutidos para cada versão são

posteriormente condensados e apresentados no próximo capítulo. Esta

apresentação cronológica das versões busca mostrar o processo iterativo de

design do DMI.

O primeiro protótipo consiste em um estudo realizado para familiarização com o

dispositivo de captura de gestos (o Leap Motion©) e a construção de um primeiro

instrumento musical com o sistema: o Crystal Piano. Apesar de apresentar

diversos problemas, o piano virtual forneceu uma visão geral sobre o sistema e

as possibilidades de interação musical com este sensor.

Após mudanças de abordagem, outros protótipos foram criados e avaliados com

a tentativa de resolver os problemas apresentados no Crystal Piano, nos

trabalhos acadêmicos revisados na literatura, especialmente o trabalho de Silva

(2012) e os problemas encontrados no questionário realizado com

percussionistas profissionais (apresentados no capítulo 3, seção 3.2).

Todos os protótipos foram implementados e avaliados (com exceção do Crystal

Piano que foi apenas avaliado) em um computador com processador intel i5 (2,6

– 3,1 GHz) e 8 Gb de memória RAM, rodando Windows 8/8.1.

As versões “alfa” são versões que foram avaliadas internamente, pelo autor

deste projeto, sem apresenta-las à músicos profissionais. A versão “beta” foi

apresentada ao público alvo e utilizada para avaliação quantitativa do projeto.

Por fim, a versão final foi implementada de forma a aprimorar a versão

apresentada ao músico e com intuito de construir um artefato físico com um

melhor acabamento.

6.1 Sensores Utilizados

Como era esperado, de acordo com o método de design escolhido, mudanças

ocorreram ao longo do processo de design, ocasionando na construção de

algumas versões diferentes do protótipo. Estas mudanças e suas justificativas

serão apresentadas mais à frente neste capítulo.

Nesta seção, são apresentados os principais sensores que serviram como base

para a concepção do artefato, bem como as justificativas para seu uso.

Leap Motion©

83

O Leap Motion Controller© utiliza duas câmeras infra-vermelho (IR, do inglês

Infrared) e três LEDs IR para realizar o mapeamento dentro de um campo de

visão (FOV, do inglês Field Of View) limitado de aproximadamente 60

centímetros cúbicos com um ângulo de visão de 150 graus.

Apesar de seu campo de visão ser limitado, diferentemente do Kinect que

consegue capturar todo o corpo, desde a primeira versão do SDK, o algoritmo

de reconhecimento do Leap Motion© conseguia extrair mais características das

mãos com um tempo de processamento menor.

Figura 6.1: Campo de Visão do Leap Motion© SDK (v1.0).

O dispositivo opera enviando frames que contém diversas informações a

respeito da cena em questão. Informações como posição e velocidade de

movimento das mãos, ponta dos dedos e juntas de cada osso das mãos,

diâmetro das mãos, o comprimento e largura do polegar e de cada osso do

mesmo e dos demais dedos e seus ossos, vetor que determina para onde os

dedos estão apontando, além de possuir a capacidade de reconhecer alguns

tipos de objetos (com a limitação de serem finos e longos), denominados tools,

disponibilizar a imagem bruta das câmeras e reconhecer alguns gestos

programados previamente pela equipe de desenvolvimento.

Como descrito no capítulo 3, estudos anteriores levantaram o repertório de

gestos que outras interfaces de reconhecimento, mais especificamente o

Kinect© (versão 1.0) da Microsoft e o Wii Remote© da Nintendo, conseguem

identificar e disponibilizar para o desenvolvimento de novos DMIs (SILVA, 2012).

Como visto na Tabela 1 (Seção 3.1, página 24), enquanto o sensor Kinect©

apresentou falhas na captura de movimentos com os dedos, o Wii Remote© não

conseguiu capturar movimentos com os ombros.

84

Elaborando uma tabela comparativa da capacidade de reconhecimento do Leap

Motion© com as interfaces previamente estudadas, pode-se reconhecer o nível

de aperfeiçoamento e precisão do dispositivo. Esta tabela segue a nomenclatura

utilizada na pesquisa de (SILVA et al., 2013).

Gestos Kinect© v1.0 Wii Remote© Leap Motion©

Movimentos com o ombro X X*

Movimentos com o cotovelo X X X*

Rotação do antebraço X X*

Movimentos com o pulso X X X

Movimentos com o polegar

(todas as articulações)

X X

Movimentos com os demais

dedos

X X

Movimento das falanges

proximais (demais dedos)

N/A X


intermediárias (demais

dedos)

N/A X


distais (demais dedos)

N/A X

Tabela 3: Movimentos capturados pelas interfaces.

*Capturados por translação ou rotação das mãos.

Este tipo de granularidade na captura de gestos é extremamente importante para

possibilitar o desenvolvimento de novos aplicativos e interfaces digitais que

sejam capazes de expressar diferentes nuances de movimento, as quais são

imprescindíveis para a expressividade na performance de diversos instrumentos

musicais, incluindo os instrumentos percussivos.

Este resultado apresenta um grande potencial de captura das nuances.

Entretanto, deve ser feita uma análise mais rigorosa da captura dos gestos do

instrumento escolhido, bem como investigar a captura desses gestos durante

uma performance musical, ou seja, enquanto o músico varia os gestos que está

fazendo. Deste modo, pode-se avaliar a capacidade de captura no contexto de

uso e a estabilidade do sistema.

85

Figura 6.2: Arquitetura do frame de reconhecimento.

Este sensor possui a capacidade de reconhecer a cena em três dimensões, na

área limitada pelo seu FOV, e foi projetado especificamente para realizar o

rastreamento das mãos do usuário. Essas informações são fornecidas aos

desenvolvedores a partir de frames (sendo capaz de armazenar os últimos 30

frames na memória). Além disso, a arquitetura da API funciona em um sistema

de múltiplos processos de execução (threads) que facilita a construção de um

sistema que utiliza integração de sensores.

A primeira versão do SDK liberada aos desenvolvedores possuía três modos de

rastreamento e, consequentemente, de processamento de informações. Que

capturava algumas informações. Entretanto possuía limitações no rastreamento

que foram identificadas pelo nosso grupo de pesquisa (SILVA et al., 2013).

Em 2014, a empresa lançou a versão 2.0 do SDK, aprimorando radicalmente o

algoritmo de rastreamento. A versão 2.0 denominada “Skeletal Tracking” (ou

Rastreamento de Esqueleto), trouxe a capacidade de reconhecer todos os ossos

dos dedos e a posição das juntas dos dedos. Alguns meses mais tarde a

empresa lançou o programa de suporte a desenvolvimento específico em

realidade virtual, fornecendo a imagem bruta capturada pelas câmeras e

aprimorando o algoritmo de rastreamento com o sensor em posições não triviais,

como, por exemplo de cabeça para baixo ou conectado a um display de cabeça

HMD (Head Mounted Display).

86

Figura 6.3: Visualizador do Leap Motion© (SDK v2.0).

Nesse novo SDK, as informações de captura eram mais estáveis comparadas à

versão anterior. A captura das informações dos ossos e suas junções permitiram

a captura de maiores nuances – e.g. identificar a base das mãos -, além de

melhorar o algoritmo dos métodos.

Portanto, a escolha da utilização deste sensor se baseia na promessa de que

sua capacidade de captura de gestos mostrou grande potencial para o

reconhecimento das diversas nuances gestuais realizadas para a performance

de um instrumento de percussão.

Sensor piezoeléctrico

O sensor piezoeléctrico (mais conhecido como piezo ou microfone de contato) é

um sensor que capta vibrações de uma determinada superfície pela vibração

consequente do cristal piezoeléctrico contido nele. A vibração do cristal gera um

sinal elétrico entre 0 e 5 Volts (ou valores entre 0 e 1023 no Arduino).

Figura 6.4: Sensor piezoeléctrico.

Como o Arduino processa os dados em um nível muito próximo ao hardware, a

latência de captura das informações do piezo é muito baixa (ou nula). Deste

87

modo, pode-se utilizar o piezo como um trigger para reduzir a latência do

sistema.

O esquema de montagem do piezo é o seguinte:

Figura 6.5: Esquema de conexão do piezo com o arduino.

É importante que um resistor seja conectado ao circuito para proteger a placa

Arduino de picos de voltagem inesperados que podem danificá-la. Para isso, foi

utilizado um resistor de 10KΩ conectado em paralelo.

Sensor de pressão

Os sensores de pressão FSR (Force Sensing Resistor) são compostos por

polímeros condutivos que variam suas resistências de acordo com a pressão

exercida sobre eles (MEDEIROS; WANDERLEY, 2014a). Para obter essa

variação de resistência, o sensor é conectado ao pino de 5 Volts do Arduino,

gerando valores entre 0 e 1023 (similarmente ao piezo).

Figura 6.6: Esquema de conexão do FSR com o arduino.

88

A integração do FSR ao sistema foi feita de forma a capturar as nuances de

abafamento das notas da conga. O sistema proporciona uma nova forma de

abafamento das notas que possui maior similaridade com o gesto realizado no

instrumento acústico. Neste caso, as informações são enviadas

6.2 Tecnologias utilizadas

Nesta seção, são apresentadas as tecnologias que foram escolhidas para a

construção do artefato. O Arduino serve para conectar os sensores piezo e FSR

ao sistema, enviando os dados coletados por eles para computador. Já o Ableton

Live foi a tecnologia escolhida para produção sonora.

Integração dos sensores

A versão final do protótipo construído possui a seguinte arquitetura:

Figura 6.7: Arquitetura do protótipo final.

Como veremos mais detalhadamente na descrição das versões do sistema, essa

integração permitiu que problemas encontrados nas primeiras versões fossem

solucionados. Primeiramente, a captura das características das mãos já

apresentava o potencial de captura das nuances gestuais. Entretanto, o sistema

apresentava latência e algumas nuances não eram reconhecidas.

A descrição das versões do artefato mostra em que etapa de iteração foram

integrados os sensores piezo e FSR.

Arduino

O Arduino (“Arduino”, 2015) é uma plataforma de prototipação de projetos

eletrônicos lançada em 2005 e desenvolvida pelos fundadores Massimo Banzi,

David Cuartielles, Tom Igoe, Gianluca Martino e David Mellis. Foram

desenvolvidos diversos microcontroladores (mais chamadas de placas) que

89

possuem uma interface intuitiva e seu próprio ambiente integrado de

desenvolvimento (IDE, do inglês Integrated Development Environment).

Figura 6.8: Diferentes microcontroladores arduino.

A iniciativa foi criada com intuito de auxiliar entusiastas que não possuem um

nível técnico avançado de instrumentação eletrônica e/ou programação. Assim,

artistas e designers podem se munir de diversas ferramentas tecnológicas para

aprimorar seus projetos.

Possuindo a capacidade de integração com mais diversos sensores existentes

– sensores de luz, capacitivo, resistivo, flexíveis, microfones de contato, entre

outros – os projetos desenvolvidos com estes microcontroladores podem tanto

funcionar conectados a um computador – enviando e recebendo informações –

ou independentemente (projetos stand-alone).

Esta possibilidade de integração com computadores foi possível com o

desenvolvimento do IDE para os sistemas operacionais Windows, Mac e Linux,

implementando o framework Wiring: um framework desenvolvido para

programação de microcontroladores, baseado na plataforma de programação

em Java “Processing”.

90

Figura 6.9: Ambientes de programação do Arduino (à esquerda) e

Processing (à direita).

As placas foram construídas partindo dos princípios da comunidade Open

Source de baixo custo de implementação de projetos, uma interface de

programação clara e simples, possuir integração entre múltiplas plataformas, e

que seus software e hardware pudessem ser expansíveis. Para este último,

foram desenvolvidos os chamados Shields, com os quais novas funcionalidades

podem ser incorporadas às placas originais (GOMES; TAVARES, 2013).

No contexto de programação, a comunidade aderiu esta iniciativa, elaborando

diversas bibliotecas para serem integradas ao IDE do arduino ou de forma a

incorporar a comunicação destas placas em seus amibientes, e.g. a plataforma

de desenvolvimento OpenFrameworks.

Estas placas possuem comunicação utilizando o protocolo serial que podem ser

utilizadas para transmitir as informações dos sensores conectados a qualquer

ambiente de programação que seja capaz de receber este tipo de informação.

Sendo assim, a capacidade de incorporação de diversos sensores diferentes

junto aos baixos custos de implementação e financeiro e a facilidade de

integração desta tecnologia com diversos ambientes de programação, fazem

com que a incorporação da plataforma arduino seja ideal para o desenvolvimento

do artefato deste projeto.

Ableton Live

Ableton Live (“Ableton”, 2015) é um software de composição musical com o qual

usuários podem explorar diferentes maneiras de interagir com o som. O Live é

uma ferramenta poderosa, possuindo diversas características, variando entre

91

gravação de vários canais de áudio, composição utilizando o protocolo MIDI,

incorporação de efeitos sonoros em tempo real e possuindo a capacidade de

integração com diversos instrumentos musicais e módulos de sintetização

sonora físicos ou virtuais.

Como o nome sugere, o software foi desenvolvido para ser utilizado em

composições em tempo real, possuindo uma alta resposta ao se utilizar suas

funcionalidades e baixa latência. Além disso, possui uma imensa diversidade de

samples dos mais variados sons, efeitos e síntese de diversos instrumentos.

A interface do sistema segue um formato modular, na qual cada sample de áudio

ou MIDI que é inserido no programa pode ser processado de maneiras

diferentes: adicionando efeitos independentes, modificando o formato da

envoltória da onda, etc.

Figura 6.10: Interface do Ableton Live 9.

Uma das funcionalidades que se pode destacar neste programa é o Drum Rack.

Este é uma funcionalidade que utiliza o protocolo MIDI, com a qual é possível

mapear os mais variados controles de entrada em samples que são escolhidos

pelo usuário.

92

Figura 6.11: Drum Rack do Ableton Live (Extraído de

http://en.wikiaudio.org/Ableton_Live:Drum_rack).

O Drum Rack possui 128 módulos que podem funcionar de forma independente.

Cada módulo é ativado recebendo um sinal de nota MIDI (de 0 a 127,

possibilitando os 128 módulos), enviado por um (ou mais de um) dos 16 canais

de entrada disponíveis, e possui a capacidade de armazenar um sample musical

que é escolhido pelo usuário. Além disso, ao inserir um sample no módulo, o

usuário pode expandir o módulo para que diversos processamentos de som

possam ser realizados com o sample contido nele.

O Drum Rack ainda possui a capacidade de os samples estarem interligados ou

não. Por exemplo, ao se tocar um determinado som, pode ser desejável que

outro som toque ao mesmo tempo, ou que não seja possível tocar outro som

específico, ou que a envoltória de dois samples sejam modificadas a partir de

um certo parêmetro, entre diversas outras possibilidades.

Além disso, a facilidade na conexão de dispositivos de controle, com o uso do

protocolo MIDI, torna a configuração de sistemas musicais mais acessível para

o público profissional.

93

Figura 6.12: Configuração do mapeamento MIDI de parâmetros sonoros.

Na Figura 5.10, cada funcionalidade destacada em roxo pode ser mapeada em

um parâmetro de controle diferente. Para sua configuração, o usuário precisa

apenas clicar na funcionalidade e depois utilizar o controle específico do

controlador MIDI, ao qual ele deseja mapear naquela funcionalidade. A maioria

dos controladores MIDI são reconhecidos automaticamente pelo sistema – em

alguns casos é necessária a utilização de drivers, principalmente para

controladores virtuais –, tornando mais prática a integração dos mesmos.

Todas estas ferramentas disponíveis no Live, fizeram com que diversos artista

utilizem o Ableton Live para seus projetos, já que as possibilidades de interação

com áudio para performances em tempo real são imensas.

Portanto, o Ableton Live foi utilizado com o intuito de buscar integração com

sistemas que já são familiares aos músicos profissionais e também pelo fato de

o Live possuir uma vasta gama de possibilidades de interação sonora em tempo

real e de fácil conexão.

6.3 Protótipo preliminar com o Leap Motion©: Crystal Piano

De forma a entender melhor o funcionamento do sensor e se familiarizar com a

arquitetura do sistema, foi desenvolvido um primeiro instrumento musical

simulando um piano38. Para o protótipo, também foi desenvolvida uma interface

virtual que produz feedback visual.

38 Vídeo disponível em: <https://youtu.be/W4IkCbcG12Y>.

94

Tecnologias utilizadas

Para o desenvolvimento deste protótipo, uma abordagem exploratória foi

adotada. A implementação do software desta versão, desenvolvida pelo

pesquisador Jáder Anderson Oliveira de Abreu, foi feita utilizando o ambiente de

programação Eclipse e a linguagem de programação Java, a partir do SDK

(versão v0.8.1.6221) disponibilizada no site do dispositivo. Além disso, pela falta

de conhecimento, por parte dos autores do trabalho, sobre o desenvolvimento

de sistemas musicais digitais, o software foi construído baseado em exemplos

também disponibilizados junto ao SDK.

As bibliotecas utilizadas para o desenvolvimento utilizam foram as seguintes:

LeapMotion: Biblioteca oficial fornecida no SDK, a qual permite que o

programa capture informações de estruturas pré-estabelecidas

reconhecidas pelo dispositivo.

LWJGL: Biblioteca Java. Fornece o acesso a bibliotecas multi-plataforma

de alta performance, como OpenGL, OpenCL, OpenAL.

SLICK: Biblioteca compatível com a LWJGL para facilitar a construção de

jogos 2D.

Configuração

Nesta configuração, apenas o Leap Motion© era utilizado para capturar as

características das mãos do usuário. Levando em conta as limitações do campo

de visão (FOV) do sensor, o sistema simulava uma oitava de um piano (da nota

Dó C4 à nota Dó C5).

O sistema utilizava uma folha de vidro de 10 milímetros de espessura, a

aproximadamente 12 centímetros do sensor, proporcionando feedback háptico

(tátil). A folha possuía marcações simulando um piano, oferecendo feedback

visual na própria superfície. As marcações em preto delimitavam as teclas

brancas do piano, enquanto as marcações em vermelho limitavam as teclas

pretas.

95

Figura 6.13: Folha de vidro com marcações.

O mapeamento do sistema foi configurado para que o plano de ativação das

notas estava exatamente na parte de cima da folha de vidro, fazendo com que o

usuário só ativasse as notas quando tocasse a tela, criando um tipo de “tela

multi-toque”.

Além disso, o software possuía uma interface visual que mostrava os dedos do

usuário, constituindo outro tipo de feedback visual que podia ser projetado.

Portanto, o usuário poderia escolher entre tocar olhando apenas para a

superfície de contato ou olhando para a interface projetada.

Figura 6.14: Perspectiva do usuário.

96

Discussões

Para avaliação da latência, foram medidos os sons do usuário golpeando o vidro

e o som do piano, gerado pelo computador. Excedendo 100 milissegundos

(aproximadamente 150 milissegundos), a latência apresentada pelo sistema

causava sérios problemas para o seu uso. O usuário só era capaz de tocar

melodias numa velocidade lenta. Mesmo ao tentar tocar melodias numa

velocidade natural, a enorme latência causava desconforto e “quebra” no fluxo

da música e perda do ritmo da melodia.

Além disso, o sistema apresentava problemas com o rastreamento das mãos.

Neste estado do SDK, o algoritmo não estava desenvolvido o suficiente para

contornar problemas frequentes em rastreamento com câmeras, como a oclusão

de objetos rastreados no espaço. Por exemplo, ao tocar um acorde, os dedos

usados para tocar poderiam obstruir o reconhecimento dos outros dedos da mão,

o que ocasionava em erros de reconhecimento e poderia causa notas falso

positivas ou falso negativas. Outro problema de rastreamento que causava notas

falso positivas ou falso negativas ocorria quando dois ou mais dedos estavam

muito próximos – característica de rastreamento do algoritmo da versão SDK.

Notas falso positivas são notas que o usuário não pretendia tocar, mas o sistema

reconhece a nota e gera o som. Já notas falso negativas são as notas que o

usuário queria tocar, mas, por algum motivo, o sistema não reconhece a nota,

causando frustração no usuário. Solucionar estes problemas é essencial para

que a experiência musical seja possível.

Apesar dos problemas apresentados acima, as capacidades de reconhecimento

dos gestos da mão foram bastante promissoras, rastreando todos os

movimentos apresentados na Tabela 3 (Seção 6.1.1, página 68). Entretanto,

este sistema não possuía controles da dinâmica do instrumento – e.g. controle

na intensidade da nota.

6.4 Versão alfa 1

Após a escolha de simular instrumentos de percussão, particularmente a conga,

foi necessária a busca de uma nova abordagem de desenvolvimento do sistema.

Esta versão39 usava uma nova técnica de implementação para simular uma

conga e produzir o som disparando samples sonoros previamente armazenados

na memória do computador.


A grande latência apresentada pelo Crystal Piano fez com que fosse cogitada a

mudança de linguagem de programação e o método de produção sonora. Para

39 Vídeo disponível em: <https://youtu.be/O-DaIk-vt6Y>.

97

isto a implementação foi realizada na linguagem C/C++ na plataforma de

programação Visual Studio 2012 tentando aprimorar a performance do sistema.

O sistema foi desenvolvido utilizando apenas as bibliotecas fornecidas pelo SDK

do Leap Motion© e bibliotecas inseridas no próprio sistema operacional do

Windows.

Configuração

Para esta versão, o sistema funcionou praticamente da mesma maneira que o

Crystal Piano, entretanto a refração causada pelo vidro fez com que o mesmo

fosse desconsiderado na configuração final desta versão.

Como na conga, diversos gestos realizados para produzir o som são feitos na

borda do instrumento. Neste caso, a refração dos raios emitidos pelo dispositivo

e as dimensões da folha de vidro (medida na versão anterior para simular uma

oitava do piano) causavam problemas de rastreamento das mãos. Ainda assim,

a folha de vidro foi utilizada para medição da latência, já que era possível medi-

la tocando logo acima do sensor.

O sistema utilizava a mesma forma de mapeamento do Crystal Piano. A conga

era simulada virtualmente para o usuário que tocava atravessando as mãos em

um plano imaginário virtual.

Tendo em mente os mesmos problemas encontrados por Silva (SILVA, 2012),

esta versão não foi desenvolvida com o intuito de ser a versão final, a mesma foi

desenvolvida para investigar se a nova abordagem adotada produziria melhores

resultados que a implementação do Crystal Piano.

Discussões

Neste caso foi notada uma redução da latência para aproximadamente 71

milissegundos, o que ainda atrapalhava bastante na performance de músicas em

velocidades mais rápidas, entretanto já representava um grande avanço na

direção de um sistema musical aceitável.

Esta versão já possuía a capacidade de reconhecer seis gestos específicos da

conga: os gestos associados aos sons Open Tone, Muffled (ou Muted Open

Tone), Slap, Muted Slap, Bass Tone e Muted Bass Tone. O sistema realizava

um mapeamento espacial com a variação de a mão do usuário estar aberta com

os dedos espaçados (denominada mão aberta) e mão aberta com os dedos

juntos (denominada mão fechada). Vale ressaltar que, a esta altura, diversas

nuances gestuais ainda não tinham sido percebidas na análise dos gestos da

conga.

98

Assim, o sistema mostrava grande potencial para o desenvolvimento de um

sistema virtual, entretanto o problema da latência ainda constituía um grande

problema que precisava ser resolvido

6.5 Versão alfa 2

Como os resultados obtidos anteriormente, apesar de serem promissores, não

solucionavam os problemas encontrados na literatura, outra abordagem foi

avaliada. Utilizando o mesmo conceito da versão alfa 1, foi necessária a

exploração de outros métodos de mapeamento e foi cogitada, pela primeira vez,

a integração de outros sensores para complementar o sistema.


A partir dos resultados obtidos nas versões anteriores, foi necessário buscar

métodos de reduzir a latência do sistema. A escolha feita, neste momento, foi

incorporar um sensor piezoeléctrico. A integração do piezo com o sistema se deu

por intermédio do Arduino, que fornece uma grande facilidade de integração com

o sistema já existente. Outra vantagem é o fato de que no próprio site do Arduino

já existem alguns esquemas de montagem de sensores (para algumas

aplicações) e um exemplo de código que implementa a conexão do arduino com

outros programas (por meio do protocolo serial).

As informações do piezo são mandadas usando um protocolo serial para o

computador que irá processá-las de acordo com as estratégias de mapeamento

escolhidas. O piezo, nesta configuração, serve como um trigger para o sistema.

Desta maneira, quando o sistema receber as informações do piezo

(armazenando-as em um buffer), ele ativa a nota que é rastreada pelo Leap

Motion© (que está armazenada). Desta forma, a latência é dada pelo tempo que

leva para a informação do piezo chegar ao Ableton Live.

Buscando novas formas de implementação, foi escolhida a linguagem de

programação do puredata. Este foi escolhido por suas facilidades de

desenvolvimento e integração com softwares de composição musical, mais

especificamente com o Ableton Live.

Ainda foram utilizados dois aplicativos para passar as informações de

rastreamento das mãos: o GECO e o ManoOSC.

Configuração

As informações do Leap Motion© eram enviadas ao puredata utilizando o

protocolo OSC por meio dos aplicativos GECO e ManoOSC. A utilização dos

dois aplicativos se deve ao fato de que as informações das características de

mão aberta/mão fechada extraídas pelo GECO não eram bem processadas pelo

programa desenvolvido com o puredata. Então, esta era a única informação

processada pelo ManoOSC.

99

O mapeamento era feito todo pelo puredata, que adquiria as informações do

arduino e enviava notas MIDI para o Drum Rack Ableton Live, o qual continha os

6 samples da conga.

Nesta configuração, a folha de vidro foi testada novamente, a fim de fornecer o

feedback háptico desejado pelos músicos profissionais e testar se a robustez do

sistema havia melhorado, devido à recentes mudanças no algoritmo de

rastreamento do SDK (versão v.1.2.2.11000) do dispositivo.

Discussões

A latência deste sistema foi reduzida consideravelmente para aproximadamente

17 milissegundos graças a incorporação do piezo no sistema. Esta latência já

era aceitável segundo Jordà (JORDA, 2005), porém, como alguns autores

identificavam que certos controles percussivos necessitam uma latência abaixo

de 10 milissegundos (WESSEL; WRIGHT, 2002), era necessário aproximar a

latência do sistema ainda mais deste último valor.

Além disso, o sistema também era capaz de reconhecer os gestos da conga

reconhecidos na versão anterior. Entretanto, apesar de o puredata ser uma

plataforma interessante para controle de fluxos de informação, encontrava

alguns problemas no reconhecimento dos gestos, ocasionando em notas falso

negativas.

Com isto, foi confirmado que a integração com o Ableton Live auxiliaria bastante

na configuração do sistema por parte do usuário. Ademais, facilita a construção

de novos DMIs simplesmente pelo fato de que o músico pode utilizar seus

próprios samples, sejam eles de instrumentos acústicos ou não.

Todavia, o excesso de programas integrados pode causar adições

desnecessárias de latência, levando ao retorno de uma implementação em

C/C++, porém utilizando o protocolo MIDI para enviar as informações ao Live.

6.6 Versão beta 1

Esta versão40 incorpora o princípio de integração de sensores da abordagem da

versão anterior, com a tentativa de alta performance da implementação em

C/C++ buscada na versão alfa 1. Além disso, para reduzir ainda mais a latência

encontrada na versão anterior, esta configuração envolve uma nova abordagem

de captura de gestos.

Tecnologias Utilizadas

Nesta época a empresa Leap Motion© lançava a segunda versão de

rastreamento (o Skeletal Tracking) que envolvia capacidade de reconhecer os

ossos da mão e diversas outras características, e os algoritmos de rastreamento

40 Vídeo disponível em: <https://youtu.be/wpA24R6fFpc>.

100

haviam sido melhorados. Além disso, o suporte da companhia para aplicações

em realidade virtual (VR), fez com que o dispositivo tivesse sua robustez

aprimorada para ser utilizado em outras configurações (anexado a óculos de

realidade virtual, rastreando de cima para baixo, entre outros), contanto que o

sensor esteja estável.

Com isto, a ideia de utilizar este sensor rastreando a cena de cima para baixo

facilitava seu uso em qualquer superfície e também o transporte do sistema, já

que não seria preciso carregar a folha de vidro. Outra vantagem de não utilizar

a folha de vidro é que a problemas de rastreamento, causados por uma possível

refração dos feixes de luz do sensor, não existiriam.

O sistema ainda utilizava o piezo conectado ao arduino, enviando as informações

de trigger para o programa desenvolvido em C/C++ no Visual Studio. O piezo

ainda captura informações relativas à intensidade do golpe do músico na

superfície de contato, à qual ele está anexado, fornecendo assim, um controle

de dinâmica do volume (parâmetro velocity do MIDI) do instrumento. Esta

funcionalidade foi implementada demanda encontrada após a análise dos

resultados do questionário, referente aos controladores digitais de percussão,

realizado com os percussionistas profissionais, os quais mencionaram que a

ausência desta funcionalidade é um fator desagradável neste tipo de

instrumento.

As bibliotecas utilizadas foram a do próprio dispositivo Leap Motion©, a biblioteca

MIDI RtMidi e também as bibliotecas do sistema operacional, as quais se

encarregam de diversas funções, entre elas a comunicação serial com o arduino.

A biblioteca MIDI utilizada foi desenvolvida na universidade de McGill, no

Canadá, por Gary P. Scavone e modificada por diversos outros pesquisadores.

Esta biblioteca multi-plataforma – Mac, Windows e Linux – fornece uma interface

de programação de aplicativo (API, do inglês Application Programming Interface)

que simplifica o protocolo MIDI para os desenvolvedores.

É importante ressaltar que para reduzir a latência do sistema e para que o

protocolo MIDI seja passado para o Ableton Live, dois drivers foram usados: o

ASIO4ALL e um driver MIDI.

ASIO (Audio Stream Input/Output) é um protocolo de som desenvolvido para

fornecer baixa latência e alta performance entre as aplicações do computador e

sua placa de som. O ASIO4ALL é um software gratuito que simula este driver e

disponibiliza o protocolo para usuários que não possuem o driver.

Além disso, um driver MIDI é necessário já que o sistema operacional Window

8/8.1 não possuem um acesso fácil ao mapeamento MIDI da placa de som do

computador.

Configuração

101

A configuração deste sistema contava com o Leap Motion© anexado a um

pedestal improvisado, rastreando a cena de cima para baixo. Deste jeito, o

usuário golpeia uma superfície qualquer, por exemplo uma mesa, na qual o

microfone de contato está colado.

Entretanto, a utilização do sensor apontado diretamente para a mesa faz com

que os feixes IR emitidos pelos LEDs do sensor sejam retrorefletidos pela

superfície, ou seja, refletidos de volta para as câmeras do sensor. Isto “cega” o

dispositivo, que não consegue distinguir os objetos próximos à superfície de

contato.

Para solucionar este problema, uma folha preta fosca de Etil Vinil Acetato (EVA),

mais conhecida como emborrachado, foi posta em cima da superfície. Assim, os

raios IR não são retrorefletidos e o sensor consegue capturar as informações.

Figura 6.15: Configuração do protótipo versão beta 1.

Para reduzir ainda mais a latência do sistema e se aproximar aos valores

descritos por Wessel and Wright (Wessel and Wright, 2002), a abordagem de

rastreamento adotada envolve a delimitação de uma área em três dimensões um

pouco acima da superfície, na qual as características capturadas pelo sensor

são armazenadas em variáveis que serão utilizadas para distinguir os diferentes

gestos. Isto é possível tendo em mente que, quando o músico vai realizar um

determinado gesto, existe uma certa distância da superfície na qual o gesto não

muda – variando apenas outras características do sistema, como intensidade da

nota e pressão na pele do instrumento – e o movimento é realizado pela inércia.

Assim, o sistema identifica o gesto realizado antes de receber a informação do

piezo e gera uma nota MIDI que é mandada para o Ableton Live. Portanto, o

102

rastreamento pode ser feito um pouco acima da superfície, já que a intensidade

é capturada pelo piezo. Ao receber as informações do piezo, o sistema envia a

nota MIDI previamente calculada para o Live.

Discussões

Com este sistema, os requisitos de latência foram alcançados e as medidas de

latência resultaram em aproximadamente 7 milissegundos, mostrando que a

implementação do piezo e a abordagem de rastreamento permitem esta

redução.

Nesta versão, a análise de gestos mostrou a capacidade de captura da maioria

dos gestos da conga. Entretanto certos gestos como o Glissando (ou Gliss), o

abafamento das notas, pressionando a pele com a mão, e o gesto de se tocar

com a mão com o punho fechado não eram reconhecidos pelo sistema.

No primeiro caso, o gesto é realizado pela vibração da pele do material ao se

arrastar o dedo. A tensão aplicada na pele esticada e o atrito com o dedo do

músico causam som distinto. Ou seja, o gesto está diretamente relacionado com

a síntese sonora, o material e o formato do instrumento acústico.

No sistema digital, a diferença de material e a ausência da tensão no mesmo

não provocam a mesma vibração e o microfone o sistema não consegue captar

gesto. Como o controle de entrada gestual e a síntese sonora estão separados

nos DMIs, a captura de alguns gestos não são possíveis, mesmo que possam

ser incorporados de outra forma. Além disso, a escolha de utilizar o piezo para

servir como trigger do sistema e a utilização de samples prejudicam no

reconhecimento deste gesto.

O caso do abafamento das notas também leva em conta o material do

instrumento e a relação direta entre o gesto e a produção sonora. O abafamento

ocorre quando o músico pressiona a pele do instrumento, impedindo que a

mesma vibre como faria normalmente, isto causa a geração de outra sonoridade

do instrumento. Novamente, como a produção sonora numa conga acústica é

causada pela vibração da pele, abafar a mesma produzirá um som diferente, o

que não é possível nesta versão do sistema DMIs.

No último caso, a nota tocada com a mão em formato de punho fechado é

utilizada pelos percussionistas nas chamadas grace notes, são notas muito

rápidas que precedem outras notas com a finalidade de produzir um som

diferenciado. Neste caso, capturar o áudio gerado por estas notas é bastante

complicado. Por isto, mesmo que o sistema seja capaz de capturar o gesto

realizado, o mesmo não possui esta nota pela dificuldade na captura do sample

sonoro.

6.7 Versão final

103

Esta versão segue a mesma linha do último protótipo, entretanto procura resolver

os problemas encontrados no mesmo, i.e., os problemas da falha de captura de

alguns gestos.

Tecnologias Utilizadas

Esta versão utiliza as mesmas tecnologias da versão anterior, com a única

exceção da incorporação de um novo sensor para reconhecimento de novas

nuances gestuais.

A solução do problema de captura das nuances gestuais do abafamento de notas

foi realizada incorporando um sensor resistivo FSR (do inglês, Force Sensitive

Resistor). O sensor é integrado ao sistema utilizando o arduino e seus valores

também são enviados por meio de um protocolo serial.

Neste caso, o valor da resistência gerada pelo resistor varia à medida em que o

usuário o pressiona. Deste modo, é o sensor ideal para simular a pressão

exercida pelo músico na pele do instrumento acústico.

Uma melhoria feita a partir dos resultados da entrevista com o usuário foi a

sensibilidade do sensor piezo. Incorporando um novo algoritmo de detecção do

sensor piezo, modificado de um algoritmo disponível online41, foi possível

aprimorar a captura do mesmo.

Um sistema físico, que está sendo desenvolvido em colaboração com o luthier

Paulo Sérgio Nunes42, ainda incorpora mais microfones de contato para melhorar

a sensibilidade da superfície de contato.

Configuração

Nesta configuração, o EVA é colocado em uma nova camada de madeira que

fica em cima do sensor de pressão. Ao pressionar a superfície, o sensor manda

o valor do FSR para o software que irá processar o valor do abafamento. Este

valor pode ser usado para a distinção de um novo sample ou enviado

diretamente ao Ableton Live, controlando algum efeito de abafamento.

Além disso, o instrumento físico pretende incorporar uma haste para que o Leap

Motion© seja fixo, sem precisar de um pedestal externo. Esta escolha está

relacionada com o aumento da portabilidade do sistema.

Discussões

41 Disponível no site: <http://www.instructables.com/id/Arduino-Xylophone/step7/Connecting-to-the-Arduino/>. 42 Site com informações sobre o luthier: <www.psluthier.com>.

104

Os resultados deste sistema são extremamente similares aos da versão anterior,

com a exceção de que há a capacidade de reconhecimento das nuances de

abafamento das notas.

Além disso, mesmo que o gesto do Glissando não tenha sido reconhecido,

observou-se que ele pode ser incorporado ao sistema utilizando o gesto de

swipe, intrínseco ao Leap Motion©. Entretanto, uma avaliação da usabilidade

deste gesto não convencional integrado aos gestos do instrumento deve ser

feita.

Outro gesto que não é possível de ser capturado, pela configuração do sistema

é o abafamento que alguns percussionistas fazem com o cotovelo. Neste sistema

não é possível distinguir este tipo de abafamento por limitações de rastreamento

do Leap Motion©, já que o mesmo não captura o antebraço nem o ponto do

cotovelo do usuário (como é possível no Kinect©) com uma boa estabilidade,

devido às limitações espaciais do sensor.

Todavia, nesta configuração, a nuance gestual de tocar o instrumento com a mão

fechada em formato de punho foi implementada utilizando outro sample sonoro

para que a avaliação do reconhecimento deste gesto fosse testada.

É importante ressaltar que algumas nuances encontradas online não foram

capturadas pelo fato de serem usadas por indivíduos específicos e pela baixa

qualidade sonora dos vídeos, nos quais elas aparecem.

105

7 RESULTADOS OBTIDOS

Neste capítulo, os resultados obtidos ao longo da pesquisa são explicitados.

Primeiramente, são apresentados os métodos de avaliação quantitativas e

qualitativas. Em seguida, são apresentados os resultados para a latência de

cada versão do protótipo e os resultados relativos às capacidades de

rastreamento do dispositivo, particularmente os gestos do instrumento escolhido

(Congas). Por fim, são apresentados os resultados qualitativos do experimento

realizado com o músico profissional.

7.1 Métodos de avaliação

Após a escolha do instrumento a ser simulado, foi feito um levantamento dos

gestos necessários para realização das nuances musicais possíveis de serem

alcançadas com o instrumento. Assim, avaliando a capacidade do sistema de

reconhecer estas nuances, pode-se desenvolver um sistema musical expressivo.

Esta abordagem parte de uma análise quantitativa do reconhecimento de gestos

por parte das tecnologias utilizadas.

As tecnologias foram testadas seguindo os mesmos princípios de baixo custo de

implementação e, tendo em vista a integração de sensores, a apresentação da

avaliação segue uma cronologia de integração de cada sensor no sistema

desenvolvido e quais nuances podem ser capturadas em cada etapa. Esta

cronologia segue as iterações do processo de design e os protótipos

desenvolvidos ao longo do projeto.

Diferentes métodos foram utilizados, de forma a obter informações quantitativas

e qualitativas complementares que proporcionem uma visão geral sobre as

capacidades de reconhecimento dentro e fora do laboratório. Ou seja, uma

avaliação quantitativa sobre as capacidades de reconhecimento e a

apresentação do protótipo do sistema ao público alvo.

Com isso, busca-se entender o quão longe as tecnologias atuais estão de

permitir a elaboração de sistemas musicais expressivos, como são os

instrumentos acústicos, identificar os problemas apresentados pelo sistema

desenvolvido e responder à pergunta de pesquisa elaborada durante o projeto.

Método de avaliação da latência

Um dos problemas relatados na avaliação das tecnologias analisadas por Silva

(SILVA, 2012) foi a latência dos DMIs construídos.

Com isto, a análise da latência foi considerada essencial, tendo em vista também

os estudos de tolerância de latências dispostos na literatura (JORDA, 2005;

WESSEL; WRIGHT, 2002).

106

A medição foi realizada utilizando um microfone posicionado para capturar o som

das mãos do usuário golpeando a superfície de contato (que fornece o feedback

tátil) e a produção sonora gerada pelo computador. Utilizando o software gratuito

Kristal Audio Engine, foi possível gravar os áudios e enviar para um programa

de análise de áudio para comparar a diferença temporal na saída sonora.

Figura 7.1: Formato de onda de percussão.

Geralmente, o som de um instrumento de percussão possui uma forma similar

ao mostrado na Figura 5.3. Os sons percussivos consistem, na maioria das

vezes, de um ataque súbito seguido de um decaimento, com muito pouca ou

quase nenhuma sustentação. Este formato de onda é propício para distinção de

dois sons no software de análise. Reconhecendo os dois picos do som causado

pelo golpe na superfície e do som gerado pelo computador, pode-se calcular a

latência do instrumento. Apesar de não ser exatamente o momento em que o

áudio realmente começa – primeira amostra com amplitude acima do nível de

ruído –, existe uma dificuldade para medi-lo, principalmente ao comparar dois

sons muito próximos. Como os máximos locais das amostras sonoras

percussivas são muito próximos ao início do som, é possível utilizar este

momento para a medição. Além disso, a diferença temporal entre dois sons

percussivos consecutivos será a mesma medindo da primeira amostra sonora

ou do máximo local.

Método de avaliação do reconhecimento de gestos

Para avaliar a capacidade do sistema em reconhecer os gestos e nuances de

expressividade do instrumento escolhido (congas), foi utilizado um método de

duas etapas, no qual os gestos são realizados um determinado número de vezes

e os erros de reconhecimento são computados para que seja possível avaliar a

confiabilidade no reconhecimento destes gestos.

Na primeira etapa, o usuário realiza os gestos com apenas uma das mãos sendo

reconhecida pelo sistema. O usuário repete este gesto até completar a

quantidade pré-estabelecida e os erros de reconhecimento são computados para

elaboração de uma tabela.

Na segunda etapa, os gestos são realizados com as duas mãos sendo

reconhecidas pelo sistema. Primeiramente, com uma das mãos e,

posteriormente, com a outra mão. Da mesma forma, os gestos que necessitam

das duas mãos para serem reconhecidos são feitos com cada uma das mãos.

107

Desta maneira, é possível identificar a taxa de confiabilidade na captura dos

gestos, e assim determinar se a mesma é válida em diferentes contextos de uso

da interface.

Além disso, partindo de uma abordagem similar à utilizada por Wanderley e Orio

(WANDERLEY; ORIO, 2002), durante a apresentação do protótipo ao público

profissional, foram apresentadas diferentes tarefas musicais foram realizadas.

Com isto pode-se avaliar a capacidade de reconhecimento gestual no contexto

de uso do instrumento, no qual há uma variação dinâmica dos gestos realizados

para produção do acompanhamento musical.

Método de avaliação qualitativa

Após a elaboração do último protótipo, o mesmo foi apresentado ao público

profissional de forma a coletar feedback sobre o sistema para descobrir se o

sistema satisfaz as demandas de contexto de uso, quais funcionalidades

atendem ao público alvo e quais destas não são desejadas por eles.

Foi seguido um método de avaliação qualitativa de DMIs utilizado por alguns

pesquisadores da área (BARBOSA et al., 2011; SILVA, 2012). Este tipo de

avaliação qualitativa pode ser dividido em três etapas:

Exploração livre: Nesta etapa, o instrumento é apresentado ao usuário.

Os gestos são explicitados e o usuário pode testar o instrumento de

maneira mais informal, sem nenhuma restrição.

Exploração guiada: Após a primeira etapa, os usuários devem realizar

certas tarefas rítmicas comuns ao instrumento escolhido, para que uma

análise da captura dos gestos seja feita enquanto o usuário está utilizando

o instrumento normalmente.

Entrevista semiestruturada: Nesta etapa, uma entrevista é conduzida

para coletar informações sobre a experiência do usuário que podem não

ficar claras durante a avaliação quantitativa.

Segundo Stowell et al. (STOWELL et al., 2009), a utilização de métodos

qualitativos proporciona a descoberta de informações que não podem ser

obtidas na avaliação quantitativa. A subjetividade do contexto de uma

performance musical faz com que certos aspectos do sistema, como affordance

– capacidade de um artefato de prover informações suficientes ao usuário de

como ser manipulado –, confiabilidade para um determinado contexto de uso,

confiança do músico ao tocar o instrumento, entre outros, possam não ser

enxergados por avaliações quantitativas.

Desta forma, a realização de entrevistas e a utilização do método de análise de

discurso podem beneficiar a avaliação, complementando os fatos obtidos

quantitativamente com informações mais subjetivas. Assim, pode-se obter

resultados mais realistas.

108

A análise de discurso segue um processo que pode ser dividido da seguinte

maneira (SILVA, 2012, p. 46):

Transcrição: Etapa em que o áudio do material obtido (gravações de

áudio e vídeo) são traduzidos em linguagem textual.

Livre associação: Etapa em que se busca anotar impressões para serem

analisadas posteriormente.

Discriminação: Etapa em que se tenta extrair informações, da

transcrição, sobre os temas relativos à pergunta de pesquisa. O texto é

quebrado em diversos pedaços e informações comuns são reconhecidas,

tendo em mente as terminologias utilizadas durante a avaliação.

Reconstrução do mundo do usuário: Etapa na qual busca-se

reconstruir a experiência do usuário a partir dos elementos emergidos da

etapa anterior, tendo em mente o contexto no qual ele está inserido.

História Central: Nesta etapa, todas as análises são combinadas para

construir a experiência geral e buscar responder à pergunta de pesquisa.

Assim, as informações relativas às experiências particulares podem ser

generalizadas para o contexto de uso do sistema que está sendo avaliado.

Silva ainda mostra que apesar de este método de avaliação possuir 5 etapas, a

“Livre associação” não é estritamente necessária para a análise completa do

sistema. Pode-se, assim, extrair as informações relevantes para a pergunta de

pesquisa utilizando apenas 4 etapas.

7.2 Resultados da avaliação da latência

Como mencionado no capítulo de construção do protótipo, a latência foi

aprimorada durante a construção do artefato, escolhendo novas abordagens e

implementando novos sensores. A tabela abaixo apresenta a latência de cada

versão desenvolvida. Os resultados apresentados já são aproximados.

Crystal

Piano

Versão

alfa 1

Versão

alfa 2

Versão

beta 1

Versão

final

Latência (ms) 150 71 17 7 7

Tabela 4: Latência do artefato desenvolvido.

Entre a versão “alfa 1” e a versão “alfa 2” nota-se uma enorme redução da

latência que se deve ao fato da integração do microfone piezoeléctrico no

sistema. Da versão “alfa 2” para as versões “beta 1” e “final”, a redução da

latência parte da mudança de ambiente de programação e incorporação do driver

ASIO ao sistema.

7.3 Reconhecimento de gestos

109

Nesta seção, são apresentados os resultados da avaliação da captura dos

gestos do protótipo “beta 1” em relação aos gestos específicos das congas.

O sistema desenvolvido neste projeto, consegue capturar a maioria dos gestos

específicos das tumbadoras. Como foi explicado mais detalhadamente no

capítulo 6, a versão beta1 da V-Conga (Seção 6.6) só não é capaz de capturar

os gestos que produzem o Gliss, a nuance de abafamento com o cotovelo e os

abafamentos pressionando a pele do instrumento. Entretanto, as notas que

utilizam a mão pressionando o instrumento puderam ser diferenciadas utilizando

um parâmetro de controle que identifica se os dedos da mão (com exceção do

polegar) estão juntos ou separados – descritos no sistema como “mão fechada”

e “mão aberta, respectivamente.

Já na versão final da V-Conga (Seção 6.7) a integração de um sensor de

“pressão” FSR (Force Sensitive Resistor) permite que outro nível de abafamento

seja implementado. Com isto, um abafamento mais “natural” pode ser simulado,

já que o usuário pode pressionar a superfície do instrumento analogamente ao

instrumento acústico.

Para avaliação da captura dos gestos deste sensor, 60 batidas foram realizadas

e computadas para detecção de possíveis erros de captura. Foram realizadas

batidas com apenas uma mão e batidas com as duas mãos presentes. Neste

último caso, a detecção de cada uma das mãos foi analisada

independentemente.

Como cada gesto está associado a um sample sonoro distinto (a geração sonora

é discreta), pode-se definir que um gesto “correto”, ou a captura “correta” do

gesto, é quando o usuário executa o gesto e o sample correspondente é

disparado. Se o sample disparado estiver associado a outro gesto, ou se o

sistema não disparar nenhum som, é identificado o erro de captura.

Os gestos foram realizados pelo autor desse projeto sem acompanhamento

musical, porém em uma velocidade de 140 batidas por minuto (bpm). Para essa

análise, cada gesto foi feito independentemente, seguindo a sequência de

gestos da tabela abaixo.

Notas Percentagem de Captura

Bass 93,33%

Open 98,33%

Muff 100%

Slap 98,33%

Closed Slap 100%

110

Heel 100%

Tip 96,67%

Fist 100%

Tabela 5: Reconhecimento dos gestos da conga com apenas uma mão.

É possível notar que, com apenas uma mão sendo reconhecida pelo sistema,

todos os gestos são capturados com um alto grau de estabilidade do sistema,

apresentando poucos erros.

No sistema, as notas Tip e Bass são diferenciadas a partir da movimentação da

base da palma da mão em relação à superfície. Possíveis flutuações no

reconhecimento dos gestos podem causar esses erros de reconhecimento. Uma

maior tolerância no rastreamento pode auxiliar o controle do sistema.

A avaliação com ambas as mãos seguiu um protocolo experimental similar.

Neste caso, os gestos foram realizados com uma das mãos (igualmente ao

protocolo anterior), porém o mesmo gesto era avaliado com a segunda mão

antes de passar para o próximo.

Notas Percentagem de

captura da mão 1

Percentagem de

captura da mão 2

Bass 0% 0%

Open 96,67% 5%

Muff 100% 8,33%

Slap 96,67% 6,67%

Closed Slap 91,67% 13,33%

Pressed Slap 100% 8,33%

Heel 100% 5%

Tip 100% 0%

Fist 100% 1,67%

Tabela 6: Reconhecimento dos gestos da conga com ambas as mãos.

Neste caso, foi possível notar a instabilidade do sistema no reconhecimento da

segunda mão. Com exceção da Bass Note, todos os gestos foram reconhecidos

com grande estabilidade na mão 1, enquanto na mão 2 o reconhecimento

apresentou diversas falhas. Elas estão relacionadas com problemas

relacionados com oclusão de uma das mãos e perdas de rastreamento.

111

A partir desses resultados, um aplicativo disponível na galeria de

desenvolvedores do Leap Motion©, chamado VR Intro43, foi testado para verificar

se os problemas de rastreamento eram uma particularidade do sistema

desenvolvido neste projeto. Da mesma forma, o aplicativo apresentou diversos

problemas de perda de rastreamento de uma das mãos ao se aproximar da

superfície do instrumento.

A falta de robustez apresentada pelo Leap Motion© ao ser utilizado na

configuração de cima para baixo, quando o usuário está usando as duas mãos

para tocar o instrumento, faz com que o sensor altere os parâmetros de

descrição da cena. Como o mapeamento das nuances requer uma boa precisão

para que os gestos sejam reconhecidos, uma robustez baixa faz com que notas

falso positivas e falso negativas ainda sejam apresentadas pelo sistema.

Além disso, na apresentação do protótipo ao público profissional, quatro tarefas

foram selecionadas para serem realizadas para também serem computados os

erros. Novamente, nos movimentos dinâmicos, mais rápidos e nos quais as

mãos ficavam muito próximas e se sobrepunham constantemente, os músicos

não conseguiram realizar as tarefas. Uma das tarefas que pôde ser realizada

com apenas uma das mãos, foi computada e ainda apresentou alguns erros.

Esses erros não estão relativos a falhas de reconhecimento do sistema, mas

relativos ao usuário não realizar o gesto na posição espacial correta. Neste caso,

o usuário pretendia tocar a Slap Note, mas não realizava o gesto mais ao centro

do instrumento, o que proporcionava a produção da Open Note.

A implementação do sistema utilizando as mãos do autor deste projeto fez com

que algumas notas não fossem reconhecidas quando o usuário tentava tocar.

Devido às diferentes características de inclinação, tamanho da mão, largura dos

dedos, entre outros, a implementação dos gestos passa a ser mais complicada

para atender à diferentes músicos, que certamente possuirão outras medidas de

mão. Em particular, o Heel Tone, por ser capturado a partir da inclinação da mão

em relação ao plano da superfície, foi um dos gestos que não foram

reconhecidos quando realizado pelo músico.

7.4 Resultados qualitativos

A avaliação do reconhecimento de gestos por meio de uma abordagem

quantitativa proporciona fatos sobre as capacidades do reconhecimento de

gestos do sistema. Entretanto, de forma a levantar vantagens e desvantagens e

analisar a experiência do usuário com este sistema, foi necessário apresentar o

sistema ao público alvo – músicos profissionais. Desta maneira, pode-se coletar

informações que não podem ser obtidas por meio da análise quantitativa44.

43 Aplicativo disponível em: <https://developer.leapmotion.com/gallery/leap-motion-vr-intro>. 44 Vídeo demonstrativo em: <https://youtu.be/4lw_Zfc74Xc>.

112

Devido aos diversos problemas e instabilidade do sistema observados durante o

primeiro experimento, considerou-se prudente realizar a entrevista com apenas

um usuário, já que o sistema não estava suficientemente estável para ser

apresentado aos percussionistas profissionais. Sendo assim, foi feita a escolha

de solucionar estes problemas do sistema antes de apresentá-lo ao público alvo,

deixando uma maior análise qualitativa para trabalhos futuros. Ainda assim, os

resultados do experimento qualitativo são apresentados abaixo.

Mesmo que esses resultados não possam ser generalizados, decidiu-se seguir

rigorosamente o método de avaliação qualitativa.

Protocolo Experimental

O protocolo experimental da avaliação qualitativa que foi desenvolvido possui

três etapas: Exploração Livre, Exploração Guiada e Entrevista semiestruturada.

Na primeira etapa, o usuário é apresentado ao sistema. O usuário explora o

instrumento sem nenhuma instrução, apenas seguindo os conhecimentos

musicais prévios ao experimento. Assim, todos os gestos são apresentados e o

usuário busca testá-los antes de explorar a dinâmica do instrumento.

Já etapa seguinte, quatro tarefas musicais foram escolhidas para testar o

reconhecimento dos gestos em rudimentos de percussão – ritmos utilizados para

treinos e desenvolvimento de técnicas de percussão. Os ritmos escolhidos

tentam explorar os gestos implementados e avaliar a capacidade do sistema de

rastrear as mudanças de gestos. Uma maior variedade de gestos está

diretamente relacionada com um maior repertório sonoro do instrumento que é

essencial na expressividade musical.

Dois dos ritmos selecionados foram retirados do livro “The Book of Contemporary

Conda Techniques” (NECIOSUP; ROSA, 2007), enquanto a técnica do ritmo 3 e

o ritmo 4 são muito comuns no aprendizado de congas e, particularmente o ritmo

4, serve de base para diversas variações rítmicas. Nas notações dos ritmos, as

letras R e L determinam a mão com a qual o músico deve executar determinada

nota: direita e esquerda, respectivamente. Algumas notações ainda mostram

onomatopeias dos sons que são produzidos ao tocar cada nota.

Os ritmos escolhidos foram os seguintes:

“The Four Stroke Ruff”: Ritmo simples de 4 tempos alternando as mãos.

Neste caso, as três primeiras notas são Open Tones (notação O) e a

quarta é um Slap (notação S). Este ritmo foi escolhido por ser simples e

possível de ser executado com apenas uma das mãos ou ambas.

113

Figura 7.2: Ritmo 1 – Four Stroke Ruff.

“The Flam Tap”: Neste ritmo, o usuário executa um Flam e logo em

seguida, executa uma nota qualquer. Escolhendo este gesto pode-se

avaliar a velocidade na detecção das notas do Flam, e variar as notas

subsequentes. Neste ritmo, a notação temporal da velocidade não é

mostrada, já que os autores do livro utilizam este ritmo com o intuito de o

leitor variá-la.

Figura 7.3: Ritmo 2 – Flam Tap.

“The Heel-Tip Technique”: Esta técnica segue a mesma linha do ritmo

anterior. É uma técnica bastante comum em diversos ritmos musicais e

utilizadas em diversos rudimentos. Nesta tarefa, o usuário deve executar

a técnica e aumentar a velocidade para testar a confiabilidade do

reconhecimento deste gesto. Na figura, as notações P e T, denominam

as notas Heel (ou Palm) e Tip, respectivamente.

Figura 7.4: Ritmo 3 – Heel-Tip Technique.

“The Tumbao”: Este ritmo é bastante comum e possui diversas variações

para diferentes estilos musicais. É um exercício básico que utiliza algumas

notas da conga. Neste caso, um ritmo comum, porém mais complexo,

pode testar a robustez do sistema durante a permutação de gestos.

Figura 7.5: Ritmo 4 – Tumbao.

114

Por fim, foi coletada uma entrevista semiestruturada de forma a coletar

informações sobre a experiência do usuário ao utilizar o sistema em questão.

Entrevista

A entrevista foi feita para extrair informações referentes aos seguintes temas:

Como foi a sua experiência com o instrumento?

Você sentiu um algum delay?

O que você achou do material do instrumento?

Quais são as vantagens que você percebeu neste sistema?

Quais são as desvantagens que você percebeu neste sistema?

Quais melhorias podem ser feitas ao sistema?

Esta última pergunta foi respondida ao longo das observações durante o

experimento. O usuário notificava constantemente quando um erro era notado

por ele.

Durante a entrevista, foi utilizado o termo “instrumento” para identificar o sistema,

de forma a facilitar as comparações com instrumento acústicos, o processo

cognitivo do usuário e a análise do discurso.

A transcrição da entrevista está disponível online45.

Reconstrução do mundo do usuário e observações durante o experimento

O experimento foi realizado com um músico profissional formado pelo

Conservatório Pernambucano de música e que trabalha como sound designer,

seguindo o protocolo experimental descrito na seção 7.4.1 e durando

aproximadamente 50 minutos. Durante sua realização, o músico relatou diversos

problemas e possíveis melhorias que podem ser feitas ao mesmo.

Foi observado que mesmo após a explicação dos gestos do sistema – posição

espacial das notas e as características das mãos usadas para o rastreamento –

, o usuário ainda realizava os gestos de acordo com sua formação musical. Os

gestos feitos com apenas uma das mãos foram capturados pelo sistema.

Entretanto, como o mapeamento foi modelado usando a mão do autor deste

projeto, gestos feitos por vezes não correspondiam com os desejados pelo

usuário.

Pelo fato de cada músico executar o gesto de maneira um pouco diferente,

mesmo usando a mesma técnica (e.g. curva da mão no Closed Slap pode ser

maior ou menor ou a inclinação na Heel Note pode variar), observou-se que o

45 Disponível em: <http://www.4shared.com/rar/82yBI9Kcba/Experimento_Conga_Virtual_-_Ed.html>. Acessado em: 04/08/2015.

115

sistema precisa ser ter maior tolerância a variações que podem ocorrer por essas

diferenças ou por questões anatômicas (e.g. tamanho da mão de cada músico).

Durante a primeira parte do experimento (exploração livre), já foi possível notar

a instabilidade do sistema no reconhecimento das duas mãos. Essa instabilidade

causa problemas relativos ao reconhecimento incorreto das características das

mãos e perda de rastreamento que, consequentemente, acarretam em notas

falso negativas e disparo de samples incorretos. Assim, o usuário não pôde

completar a maioria das tarefas musicais escolhidas para a segunda etapa do

instrumento.

Embora o ritmo 1 possua a alternância das mãos, o usuário conseguiu completa-

lo utilizando apenas uma das mãos. Isto foi feito para avaliar se o comportamento

do sistema seria mais estável nesta forma de rastreamento. No caso do ritmo 3,

que também pôde ser feito com uma mão, a diferença anatômica das mãos do

usuário em comparação com as mãos usadas para implementar o sistema fez

com que apenas a Tip Note fosse reconhecida.

Devido a esses problemas observados durante a utilização da conga, outro

instrumento foi apresentado ao usuário para investigar se a direção de

rastreamento do sensor influencia a estabilidade do sistema. O instrumento

escolhido foi um “Cajón” com apenas 4 notas. Este instrumento também é

bastante versátil e utilizado em diversos estilos musicais.

Figura 7.6: Cajón virtual (esquerda) e cajón acústico (direita).

O cajón utiliza a mesma técnica de rastreamento das congas. As diferenças entre

estes dois instrumentos são percebidas na orientação de captura do sensor – de

cima para baixo no caso das congas e de lado no caso do cajón – e no

mapeamento do instrumento (devido à diferença dos gestos).

116

Durante a exploração livre, o usuário percebeu que o sistema apresentou uma

maior estabilidade relatando que o instrumento estava “bem melhor” em

comparação a conga e permitindo que o usuário pudesse tocar um ritmo da sua

escolha. Entretanto, este foi um caso particular, já que foi o único ritmo

completado com as duas mãos durante toda a primeira etapa do protocolo. Já

na segunda etapa, apenas os ritmos 1 e 2 podem ser avaliados no cajón. Mesmo

assim, o sistema ainda apresentou problemas de instabilidade, durante essa

exploração guiada, ao usar as duas mãos.

No caso do cajón, ainda foi possível perceber a presença de notas falso

negativas. Neste caso, isso está relacionado com a sensibilidade do microfone

piezo de capturar os golpes no instrumento. A vibração mínima para o disparo

de uma nota é afetada pela espessura do material no qual o cajón foi

desenvolvido. O músico ainda levantou uma possível melhoria do sistema

relacionada com a mudança para um material mais fino, para que melhorar a

captura do microfone.

Codificação e Mapa mental

Nesta seção, são apresentados os elementos comuns (ou códigos comuns),

emergidos da análise da entrevista, utilizados para construir o mapa mental (que

demonstra as relações entre estes elementos). A definição destes códigos

facilita o entendimento do mapa mental da seção 8.5.

1. Instrumento Virtual – Instrumento, desenvolvido no projeto, que simula um

instrumento de percussão.

2. Instrumento Acústico – Instrumentos de percussão acústicos.

3. Características do Instrumento – Propriedades intrínsecas e extrínsecas

do instrumento.

3.1. Material do instrumento – Material (ou materiais) que fazem parte do

instrumento (madeira, pele, corda, etc.).

3.1.1. Espessura do material – Uma das dimensões de um objeto

tridimensional.

3.2. Vibração do Instrumento – Vibração física do material do instrumento

(corpo e pele).

3.3. Portátil – Capacidade de um objeto de ser transportado facilmente.

3.4. Tolerância para com erros do usuário – Possuir a capacidade de

permitir certos erros que podem acontecer, sem prejudicar a experiência.

3.5. Latência – Atraso relativo ao gesto realizado pelo músico e a produção

sonora.

4. Conhecimento Musical – Conhecimento inerente ao músico.

4.1. Gesto Mental – Gestos formados cognitivamente pelo músico a partir do

seu conhecimento musical. Gestos que são antecipados pelo usuário

durante a performance.

117

5. Novo Aprendizado – Processo de passar a ter conhecimentos sobre algo

novo. Re-aprender.

6. Tempo – Medida de progressão de eventos.

7. Costume – Hábito comum aos membros de um certo grupo social.

8. Estudo – Ato de procurar adquirir o conhecimento sobre algo.

9. Correspondência Gesto e Som – Relação entre o gesto que é feito no

instrumento e o som que é produzido.

10. Estranhamento – Sentimento de achar algo fora do comum.

11. Mobilidade – Relativo ao transporte de certos objetos.

12. Gravação – Processo de registrar composições em estúdios musicais.

13. Sensores – Dispositivos eletrônicos que capturam informações da cena.

13.1. Precisão – Rigor no registro de valores. Exatidão nas medidas.

13.2. Sensibilidade – Qualidade de identificar mínimas variações de

valores de medida de um determinado sensor.

14. Experiência do usuário – Vivência no contexto do uso de determinado

objeto.

15. Vantagem – Pontos positivos do sistema.

16. Desvantagem – Pontos negativos do sistema.

17. Melhorias – Aprimoramentos no sistema.

118

Mapa mental

Figura 7.7: Mapa mental da entrevista.

119

História Central

Essa seção descreve a história central obtida por meio da análise das relações

entre os códigos emergentes na análise da entrevista. Essas relações foram

extraídas a partir da análise da entrevista. Entretanto, as possíveis melhorias

foram extraídas nos relatos do usuário durante o experimento.

A história segue abaixo:

Diversos aspectos afetam a experiência do usuário. As primeiras características

do instrumento notadas são relativas aos aspectos físicos do instrumento. Muitas

vezes, nos DMIs, a ausência do corpo e diferenças dos materiais do instrumento

(em comparação com os instrumentos acústicos) provocam estranhamento por

parte do músico que sente falta da pele do instrumento e da vibração do corpo

do instrumento. Este estranhamento, porém, é superado pelo usuário que se

acostuma com o material do sistema depois de um certo tempo.

Mesmo que a análise quantitativa da latência tenha mostrado resultados abaixo

de 10 milissegundos, o usuário ainda percebeu um pouco de latência vinda do

instrumento. Isto pode ser causado pela perda do reconhecimento da cena. Esse

problema, proporciona notas falso positivas que podem atrapalhar o processo

cognitivo do usuário que interpreta como uma latência.

As principais vantagens desse tipo de instrumento estão relacionadas com os

fatos de o instrumento ser portátil e facilitar a gravação e o estudo. No primeiro

caso, por ser construído a partir de sensores conectados a uma superfície de

madeira e a um computador, o sistema permite uma maior mobilidade,

solucionando um problema que é encontrado na vivência do percussionista

profissional. No contexto de estudo do instrumento, o fato de o som ser gerado

pelo computador se torna uma característica interessante por possibilitar o uso

de fones de ouvido para um estudo privado. O sistema ainda possibilita uma

facilidade no contexto de gravação, já que a saída sonora é uma informação

digital (MIDI).

Entretanto, o sistema ainda possui diversas desvantagens quando comparado

aos instrumentos acústicos. Além da latência sentida pelo músico, problemas

relativos à precisão e sensibilidade dos sensores afetam bastante a experiência

do usuário.

A necessidade de realizar os gestos com precisão faz com que muitas vezes não

haja correspondência entre o movimento do usuário e o som que sai do

instrumento – diferentemente do instrumento acústico que possui maior

tolerância para com erros do usuário. Essa ausência na correspondência

atrapalha o gesto mental do usuário, gerando confusão e afetando a experiência.

No outro caso, a sensibilidade do microfone de contato está diretamente

relacionada com a espessura do material utilizado no instrumento e à captura

120

dos disparos. Problemas com a sensibilidade podem causar notas falso

negativas e disparo de mais de uma nota ao mesmo tempo.

A solução desses problemas é essencial para o progresso do sistema e melhoria

na experiência do usuário.

121

8 CONCLUSÕES E TRABALHOS FUTUROS

Neste projeto, foi apresentada uma abordagem para desenvolver sistemas

digitais, mais especificamente para desenvolver Instrumentos Digitais Musicais

Expressivos. Com o sistema desenvolvido, buscou-se simular um instrumento

acústico de percussão e avaliar as capacidades de tecnologias existentes para

desenvolvimento de instrumentos musicais digitais, em particular para simular

uma conga. Foi dada ênfase em se obter baixa latência, grande capacidade de

reconhecimento de nuances gestuais e no provimento de algum feedback tátil.

Essa abordagem partiu da análise de trabalhos anteriores (principalmente

trabalhos realizados dentro do próprio grupo de pesquisa do autor deste projeto),

nos quais músicos profissionais levantaram os problemas associados com a

expressão musical do instrumento. Ademais, a abordagem focou na integração

de múltiplos sensores e visou baixo custo de implementação, utilizando um

processo de desenvolvimento iterativo que envolve a evolução do instrumento

por meio da avaliação do protótipo ao final de cada iteração.

Tecnologias como o Arduino permitiram utilizar uma abordagem que envolve a

integração de múltiplos sensores com baixo custo de implementação,

desenvolvendo um sistema que combina a alta granularidade de captura de

características das mãos do sensor Leap Motion©, a baixa latência de captura

do sensor piezoeléctrico e um sensor de pressão. Desta maneira foi possível

capturar a maioria das nuances gestuais utilizadas para se tocar uma conga,

ainda oferecendo uma baixa latência e proporcionando feedback háptico ao

usuário. Entretanto, apesar do grande potencial para captura de nuances

gestuais, limitações relativas à robustez do sensor Leap Motion© apresentaram

grandes problemas de instabilidade do sistema. Enquanto os gestos realizados

com apenas uma das mãos era reconhecido pelo sistema, a taxa de

reconhecimento da outra mão do usuário era mínima. Isso fez com que o sistema

apresentasse restrições que afetaram a experiência do músico profissional.

Assim, foi possível desenvolver uma abordagem de criação de DMIs

expressivos, utilizando integração de múltiplos sensores, para solucionar

problemas relacionados com captura de nuances de expressividade, mesmo

utilizando algoritmos de baixo custo de implementação. Para isso, utiliza-se uma

estratégia de design do sistema, na qual cada um dos sensores é utilizado para

capturar características específicas e a complementaridade dessas informações

é usada para solucionar os problemas encontrados durante cada iteração do

processo. Com isso, pode-se construir Instrumentos Musicais Digitais que

possuem controles gestuais bastante refinados.

Ainda assim, embora haja um bom reconhecimento com “uma mão”, a

instabilidade na captura das duas mãos mostra que novos avanços devem ser

realizados para a construção de um sistema que possa ser utilizado por músicos

profissionais. Algoritmos de visão computacional ou aprendizagem de máquina

122

devem ser investigados na tentativa de solucionar os problemas encontrados.

Outra possível melhoria é a implementação de síntese por modelagem física que

resultaria em uma maior fidelidade sonora, ainda incorporando elementos da

acústica do instrumento. Entretanto, a utilização de algoritmos mais complexos

pode trazer um maior custo computacional ao sistema, influenciando na latência

do instrumento.

Além disso, é importante a constante avaliação e aprimoramento do sistema

desenvolvido. Dito isto, mais testes com músicos profissionais e a incorporação

de novas funcionalidades podem levantar novos problemas e oferecer valores

que não foram cogitados ao longo do projeto.

Ademais, é almejada a integração com sistemas de prototipação e

experimentação para construção de DMIs. Sistemas como o Sketchument

(Calegario, 2013) e o Illusio (Barbosa et. al., 2013) fornecem a capacidade de

configuração da interface do instrumento que é de grande ajuda na construção

de novos instrumentos musicais.

Como já discutido anteriormente, a escolha de simular um instrumento de

percussão se deu pelo fato de que estes demandam bastante de uma precisão

temporal e espacial. O intuito deste projeto foi desenvolver um sistema

expressivo que possa ser utilizado para criar DMIs alternativos.

8.1 Lições aprendidas com o Leap Motion©

Nesta seção, busca-se apresentar as conclusões específicas relacionadas com

o Leap Motion Controller©. Visamos relatar, aqui, as vantagens e desvantagens

de uso do dispositivo.

Vantagens

O sensor mostrou a capacidade de captura de diversas características que a

maioria dos sensores disponíveis no mercado não conseguem rastrear.

Conseguir capturar características como a posição, o comprimento, a direção do

vetor, a velocidade, o ângulo (em relação aos eixos do sensor), grau de extensão

para cada articulação e dedos das mãos; grau de abertura, ângulos de rotação,

dimensões e velocidade da palma de cada mão; entre outras características,

mostram o potencial de uso desse sensor para aplicações interativas com

interfaces gestuais.

O sensor foi essencial na captura dos gestos e nuances da conga. O

reconhecimento do ângulo da palma e a abertura das mãos permitiu que o

ângulo de ataque do músico e o abafamento fossem capturados, mostrando a

possibilidade de implementar timbres distintos para cada situação e,

consequentemente, possibilitando a criação de instrumentos mais expressivos.

123

Além disso, a arquitetura do sistema é bastante favorável à construção de

interfaces interativas, particularmente DMIs. A API disponível é altamente

baseada em orientação a objetos, fornecendo uma linguagem simples de

entender e, consequentemente, de implementar. O SDK fornece suporte para

diversas linguagens de programação (JavaScript, Unity, C#, C++, Java, Python,

Objective-C) e um plugin para a engine Unreal. Outro fator positivo é a

arquitetura do sistema, que é naturalmente desenvolvida em múltiplos processos

(threads) simultâneos, o que facilita o desenvolvimento da aplicação e a

integração com outros sensores. Ademais, possui o suporte para aplicações em

realidade virtual (VR), com modos de rastreamento específicos para isso. Assim,

pode-se utilizar o sensor em diversas orientações de rastreamento – existem

guidelines disponíveis para o uso com Head-Mounted Displays (HMDs) (e.g. o

Oculus Rift©), de “cima para baixo”, entre outras.

Desvantagens

O sensor mostrou instabilidade (na captura da segunda mão) na configuração

apresentada, mesmo em aplicativos disponíveis na App Store. Aplicações que

envolvem uma superfície de contato devem ser desenhadas com maior

precaução. Mesmo utilizando uma superfície não refletora (utilizando um

emborrachado de cor preta fosca), o sistema teve problemas com rastreamento

da segunda mão. Isso mostra que mudanças no algoritmo de rastreamento do

dispositivo deve ser aprimorado para que possa ser utilizado nesse tipo de

aplicação.

A arquitetura do sistema não permite que mais de um sensor seja utilizado no

mesmo computador, o que limita o campo de visão da sua aplicação. Ademais,

encarece projetos que utilizam mais de um sensor, já que será necessário outro

computador.

Como consequência de ter sido desenvolvido para aplicações em que o usuário

utiliza apenas as mãos e está na frente do computador, o campo de visão do

sensor ainda é limitado, principalmente quando comparado com sensores como

o Kinect©. Isso restringe as possibilidades de aplicação. Além disso, o

dispositivo deve estar “fixo” para funcionar corretamente em outras orientações.

O sensor apresentou instabilidade ao ser testado de “cima para baixo” e de “lado”

sem estar fixo ao pedestal, mesmo sem a superfície de contato. Ademais, o uso

de aplicativos que usam gestos livre no ar causa fatiga nos braços e mãos.

Ademais, o sensor apresentou uma latência considerável (71 milissegundos) ao

ser avaliado na versão alfa 1 (utilizando C/C++ e disparando samples). Com isso,

foi necessária a integração de um sensor piezoeléctrico para solucionar esse

problema.

Considerações Finais

124

Por ser um dispositivo que captura gestos em três dimensões, o feedback

visual/háptico deve ser implementado para fornecer pistas que facilitem a

interação. Como já foi discutido, o uso de feedback háptico em interfaces

gestuais facilita a interação do usuário. O uso de superfícies transparentes

contribuiu bastante para fornecer um feedback nas primeiras versões do DMI

desenvolvido. Desta forma, pôde-se usar o Leap Motion© na configuração

“natural”. Mesmo assim, o uso de superfícies entre o dispositivo e as mãos pode

causar refração nos raios IR disparados pelo dispositivo, o que pode causar

problemas no rastreamento das mãos.

Pode-se utilizar este sensor para desenvolver DMIs que não necessitem de uma

latência tão baixa quanto instrumentos de percussão que disparem notas ou

utilizá-lo na sua configuração de rastreamento natural, e.g. desenvolver um

ganzá ou um instrumento que controle efeitos no ar. Deste modo, os problemas

levantados podem ser contornados e o designer pode fazer uso da precisão

gestual do sensor.

125

Referências

Ableton. Disponível em: <https://www.ableton.com/>. Acesso em: 17 jul. 2015.

ABRAS, C.; MALONEY-KRICHMAR, D.; PREECE, J. User-centered design. Bainbridge, W. Encyclopedia of Human-Computer Interaction. Thousand Oaks: Sage Publications, v. 37, n. 4, p. 445–456, 2004.

Arduino. Disponível em: <https://www.arduino.cc/>. Acesso em: 17 jul. 2015.

AUERBACH, J. et al. Real-time music synthesis in Java using the Metronome garbage collector. Proceedings of the International Computer Music Conference, Copenhagen, Denmark. Anais...2007. Disponível em: <http://goo.gl/ScXYIu>. Acesso em: 31 jul. 2015.

BÅÅTH, R. Construction of a Low Latency Tapping Board. LUCS minor, v. 17, p. 362–366, 2011.

BARBOSA, A. L. W. et al. Theremix: Uma aplicação musical com Interação Natural. 2014. Disponível em: <http://goo.gl/2BpiHx>. Acesso em 04 ago. 2015.

BARBOSA, J. et al. Towards an evaluation methodology for digital music instruments considering performer’s view: a case study. Proceedings of 13th Brazilian Symposium on Computer Music. Anais...2011. Disponível em: <http://batebit.cc/wp-content/uploads/2014/07/verse3o-final-sbcm.pdf>. Acesso em: 17 jul. 2015.

BLADES, J. Percussion instruments and their history. London, United Kingdom: Bold Strummer Limited, 1992.

BUCHMANN, V. et al. FingARtips: gesture based direct manipulation in Augmented Reality. Proceedings of the 2nd international conference on Computer graphics and interactive techniques in Australasia and South East Asia. Anais...ACM, 2004. Disponível em: <http://goo.gl/oJ6UO2>. Acesso em: 17 jul. 2015

BUSH, V. As we may think. The atlantic monthly: As we may think, v. 176, n. 1, p. 101–108, 1945.

BUXTON, B. Multi-touch systems that I have known and loved. Microsoft Research, v. 56, p. 1–11, 2007.

BUXTON, W.; HILL, R.; ROWLEY, P. Issues and techniques in touch-sensitive tablet input. ACM SIGGRAPH Computer Graphics, v. 19, n. 3, p. 215–224, 1985.

CALEGARIO, F. C. DE A. Sketchument: ambiente de experimentação para criação de instrumentos musicais digitais. Dissertação de mestrado, Universidade Federal de Pernambuco, 2013.

126

CHAGAS, P. Le MIDI et la musique électronique: Quelques remarques esthétiques et techniques. Revue informatique et statistique dans les sciences humaines, v. 28, p. 15, 1992.

CHIAVENATO, I. Introdução à teoria geral da administração. [s.l.] Elsevier Brasil, 2003.

DAVIDSON, P. L.; HAN, J. Y. Synthesis and control on large scale multi-touch sensing displays. Proceedings of the 2006 conference on New interfaces for musical expression. Anais...IRCAM—Centre Pompidou, 2006. Disponível em: <http://dl.acm.org/citation.cfm?id=1142269>. Acesso em: 17 jul. 2015.

DE PRA, Y. et al. Infrared vs. Ultrasonic Finger Detection on a Virtual Piano Keyboard. 2014.

DIETZ, P.; LEIGH, D. DiamondTouch: a multi-user touch technology. Proceedings of the 14th annual ACM symposium on User interface software and technology. Anais...ACM, 2001. Disponível em: <http://dl.acm.org/citation.cfm?id=502389>. Acesso em: 17 jul. 2015

DOBRIAN, C.; KOPPELMAN, D. The’E’in NIME: musical expression with new computer interfaces. Proceedings of the 2006 conference on New interfaces for musical expression. Anais...IRCAM—Centre Pompidou, 2006. Disponível em: <http://dl.acm.org/citation.cfm?id=1142283>. Acesso em: 17 jul. 2015.

ENGELBART, D. C. Augmenting Human Intellect: A Conceptual Framework. Disponível em: <http://www.dougengelbart.org/pubs/augment-3906.html>. Acesso em: 17 jul. 2015.

ENGELBART, D. C.; ENGLISH, W. K. A Research Center for Augmenting Human Intellect. Disponível em: <http://goo.gl/EMySah>. Acesso em: 17 jul. 2015.

EVANS, B. Authentic Conga Rhythms (Revised): A Complete Study: Contains Illustrations Showing the Current Method of Playing the Conga Drums and All the Latin Rhythms. [s.l.] Alfred Music, 1966.

FELS, S.; GADD, A.; MULDER, A. Mapping transparency through metaphor: towards more expressive musical instruments. Organised Sound, v. 7, n. 02, p. 109–126, 2002.

FREITAS, D. et al. Development and evaluation of a Kinect based motor rehabilitation game. Proceedings of SBGames, p. 144–153, 2012.

FREITAS, E. M. C. DE. O gesto musical nos métodos de percussão afro-brasileira. Dissertação de mestrado. Universidade Federal de Minas Gerais, 2008.

GOLDSTINE, H. H.; GOLDSTINE, A. The electronic numerical integrator and computer (ENIAC). Mathematical Tables and Other Aids to Computation, p. 97–110, 1946.

127

GOMES, E.; TAVARES, L. Uma Solução Com Arduino Para Controlar E Monitorar Processos Industriais. Trabalho de Conclusão de Curso Apresentado ao Instituto Nacional de Telecomunicações, 2013.

GROSSHAUSER, T.; HERMANN, T. Augmented haptics–an interactive feedback system for musicians. In: Haptic and Audio Interaction Design. [s.l.] Springer, 2009. p. 100–108.

HADJAKOS, A. Analysis of Piano Playing Movements Spanning Multiple Touches. Proceedings of the International Conference on New Interfaces for Musical Expression. Anais...2010. Disponível em: <http://goo.gl/y58AUS>. Acesso em: 17 jul. 2015.

HALL, D. L.; LLINAS, J. An introduction to multisensor data fusion. Proceedings of the IEEE, v. 85, n. 1, p. 6–23, 1997.

HAN, J. Y. Low-cost multi-touch sensing through frustrated total internal reflection. Proceedings of the 18th annual ACM symposium on User interface software and technology. Anais...ACM, 2005. Disponível em: <http://dl.acm.org/citation.cfm?id=1095054>. Acesso em: 17 jul. 2015.

HARTREE, D. R. The ENIAC, an electronic computing machine. Nature, v. 158, n. 4015, p. 500–506, 1946.

HEISE, S.; LOVISCACH, J. A versatile expressive percussion instrument with game technology. Multimedia and Expo, 2008 IEEE International Conference on. Anais...IEEE, 2008. Disponível em: <http://goo.gl/rSqrsL>. Acesso em: 17 jul. 2015.

HSU, M.-H. et al. Spider King: Virtual musical instruments based on microsoft Kinect. Awareness Science and Technology and Ubi-Media Computing (iCAST-UMEDIA), 2013 International Joint Conference on. Anais...IEEE, 2013. Disponível em: <http://goo.gl/X3WQiT>. Acesso em: 17 jul. 2015.

JANSEN, Y.; KARRER, T.; BORCHERS, J. MudPad: tactile feedback and haptic texture overlay for touch surfaces. ACM International Conference on Interactive Tabletops and Surfaces. Anais...ACM, 2010. Disponível em: <http://dl.acm.org/citation.cfm?id=1936655>. Acesso em: 17 jul. 2015.

JOHNSON, J. et al. The xerox star: A retrospective. Computer, v. 22, n. 9, p. 11–26, 1989.

JORDA, S. Digital Lutherie: Crafting musical computers for new musics performance and improvisation. PhD diss., Universitat Pompeu Fabra, Departament de Tecnologia, 2005.

KANKE, H. et al. Airstic drum: a drumstick for integration of real and virtual drums. In: Advances in Computer Entertainment. Springer, 2012. p. 57–69. Disponível em: <http://ubi.eedept.kobe-u.ac.jp/papers/kanke_ace2012.pdf>. Acesso em: 04 ago. 2015.

128

KERRIS, N.; DOWLING, S. Apple - Press Info - Apple Reinvents the Phone with iPhone. Disponível em: <https://goo.gl/8ZyPGd>. Acesso em: 17 jul. 2015.

KIEFER, C.; COLLINS, N.; FITZPATRICK, G. HCI methodology for evaluating musical controllers: A case study. Proceedings of the 2008 conference on New interfaces for musical expression. Anais... University of Genova, Italy 2008. Disponível em: <http://goo.gl/j7AQAO>. Acesso em: 17 jul. 2015.

KUZNETSOV, S.; PAULOS, E. Rise of the expert amateur: DIY projects, communities, and cultures. Proceedings of the 6th Nordic Conference on Human-Computer Interaction: Extending Boundaries. Anais...ACM, 2010. Disponível em: <http://dl.acm.org/citation.cfm?id=1868950>. Acesso em: 17 jul. 2015.

LAMPSON, B. W.; TAFT, E. Alto User’s Handbook. Xerox Palo Alto Research Center, v. 3333, p. 31–62, 1976.

Leap Motion. Disponível em: <https://www.leapmotion.com/>. Acesso em: 17 jul. 2015.

LEE, S. K.; BUXTON, W.; SMITH, K. C. A multi-touch three dimensional touch-sensitive tablet. ACM SIGCHI Bulletin. Anais...ACM, 1985. Disponível em: <http://dl.acm.org/citation.cfm?id=317461>. Acesso em: 17 jul. 2015

LINDSTRÖM, E. et al. “Expressivity comes from within your soul”: A questionnaire study of music students’ perspectives on expressivity. Research Studies in Music Education, v. 20, n. 1, p. 23–47, 2003.

LUO, R. C.; KAY, M. G. A tutorial on multisensor integration and fusion. Industrial Electronics Society, 1990. IECON’90., 16th Annual Conference of IEEE. Anais...IEEE, 1990. Disponível em: <http://goo.gl/JQuF3c>. Acesso em: 3 ago. 2015

MANNING, P. Electronic and computer music. New York, United States of America: Oxford University Press, 2013.

MARSHALL, M. T. Physical interface design for digital musical instruments. Tese de Doutorado, McGill University, Canadá, Citeseer, 2008.

MAURYA, A. Running lean: iterate from plan A to a plan that works. Califórnia, United States of America: O’Reilly Media, Inc., 2012.

MCGLYNN, P. Towards more effective mapping strategies for digital musical instruments. 2011.

MCMILLEN, K. Zipi: Origins and motivations. Computer Music Journal, p. 47–51, 1994.

MEDEIROS, C. B.; WANDERLEY, M. M. A comprehensive review of sensors and instrumentation methods in devices for musical expression. Sensors, v. 14, n. 8, p. 13556–13591, a 2014a.

129

MEDEIROS, C. B.; WANDERLEY, M. M. Multiple-model linear Kalman filter framework for unpredictable signals. Sensors Journal, IEEE, v. 14, n. 4, p. 979–991, b 2014b.

MEDEIROS, R. et al. Challenges in Designing New Interfaces for Musical Expression. In: Design, User Experience, and Usability. Theories, Methods, and Tools for Designing the User Experience. Springer, 2014. p. 643–652.

MILLER, J.; HAMMOND, T. Wiiolin: a virtual instrument using the Wii remote. Proceedings of the 2010 Conference on New Interfaces for Musical Expression (NIME 2010), University of Technology, Sydney, Australia. Anais...2010. Disponível em: <http://goo.gl/trh4lT>. Acesso em: 10 jul. 2015.

MIRANDA, E. R.; WANDERLEY, M. M. New digital musical instruments: control and interaction beyond the keyboard. [s.l.] AR Editions, Inc., 2006. v. 21. Disponível em: <https://goo.gl/4lWq0K>. Acesso em: 04 ago. 2015.

MITICHE, A.; AGGARWAL, J. K. Multiple sensor integration/fusion through image processing: a review. Optical Engineering, v. 25, n. 3, p. 253380–253380, 1986.

MITRA, S.; ACHARYA, T. Gesture recognition: A survey. Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, v. 37, n. 3, p. 311–324, 2007.

MONTAG, M. et al. A Low-Cost, Low-Latency Multi-Touch Table with Haptic Feedback for Musical Applications. Proceedings of the 2011 conference on New interfaces for musical expression. Anais... University of Oslo, Norway, 2011. Disponível em: <http://goo.gl/W5IdNd>. Acesso em: 17 jul. 2015.

MOORE, F. R. The Dysfunctions of MIDI. Computer music journal, p. 19–28, 1988. Disponível em: <http://goo.gl/8SUguP>. Acesso em: 04 ago. 2015.

NECIOSUP, H. P.; ROSA, J. The Book of Contemporary Conga Techniques. Outskirts Press, United States of America, Contemporary Percussion, 2007.

NICHOLS, C. The vBow: development of a virtual violin bow haptic human-computer interface. Proceedings of the 2002 conference on New interfaces for musical expression. Anais... University of Singapore, 2002. Disponível em: <http://dl.acm.org/citation.cfm?id=1085179>. Acesso em: 17 jul. 2015

NORMAN, D. A.; DRAPER, S. W. User Centered System Design: New Perspectives on Human-Computer Interaction. Hillsdale, New Jersey: Lawrence Erlbaum Associates, Inc., Publishers, 1986.

ODOWICHUK, G. et al. Sensor fusion: Towards a fully expressive 3d music control interface. Communications, Computers and Signal Processing (PacRim), 2011 IEEE Pacific Rim Conference on. Anais...IEEE, 2011. Disponível em: <http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=6033003>. Acesso em: 17 jul. 2015

130

OKADA, K. et al. Virtual Drum: Ubiquitous and playful drum playing. Consumer Electronics (GCCE), 2014 IEEE 3rd Global Conference on. Anais...IEEE, 2014. Disponível em: <http://goo.gl/Ks5DdB>. Acesso em: 17 jul. 2015

O’MODHRAIN, S. A framework for the evaluation of digital musical instruments. Computer Music Journal, v. 35, n. 1, p. 28–42, 2011.

O’MODHRAIN, S.; CHAFE, C. Incorporating haptic feedback into interfaces for music applications. Proceedings of the International Symposium on Robotics with Applications, World Automation Conference. Anais...2000. Disponível em: <http://goo.gl/aafE9n>. Acesso em: 04 ago. 2015.

PAINE, G. New Musical Instrument Design Considerations. MultiMedia, IEEE, v. 20, n. 4, p. 76–84, 2013.

PENG, L.; GERHARD, D. A wii-based gestural interface for computer-based conducting systems. Proceedings of the 2009 conference on new interfaces for musical expression. Anais...2009. Disponível em: <http://goo.gl/Dv4LF3>. Acesso em: 17 jul. 2015.

ROADS, C. The computer music tutorial. United States of America: MIT press, 1996.

ROSA-PUJAZÓN, A. et al. Drum-hitting gesture recognition and prediction system using kinect. I simposio espanol de entrenimiento digital seed. Anais...2013. Disponível em: <http://goo.gl/38VcmP>. Acesso em: 17 jul. 2015.

ROVAN, J. B. et al. Instrumental gestural mapping strategies as expressivity determinants in computer music performance. Kansei, The Technology of Emotion. Proceedings of the AIMI International Workshop. Anais...Citeseer, 1997. Disponível em: <http://goo.gl/G6tO9k>. Acesso em: 17 jul. 2015.

SAFFER, D. Designing gestural interfaces: Touchscreens and interactive devices. [s.l.] O’Reilly Media, Inc., 2008. Disponível em: <https://goo.gl/F172E7>. Acesso em: 06 ago. 2015.

SATO, Y.; SAITO, M.; KOIKE, H. Real-time input of 3D pose and gestures of a user’s hand and its applications for HCI. Virtual Reality, 2001. Proceedings. IEEE. Anais...IEEE, 2001. Disponível em: <http://goo.gl/V5wO98>. Acesso em: 17 jul. 2015.

SCHLOSS, W. A. Recent advances in the coupling of the language Max with the Mathews/Boie Radio Drum. Proceedings of the International Computer Music Conference. Anais...1990. Disponível em: <http://goo.gl/rPykQs>. Acesso em: 17 jul. 2015.

SCHLOSS, W. A. Using contemporary technology in live performance: The dilemma of the performer. Journal of New Music Research, v. 32, n. 3, p. 239–242, 2003.

131

SHEPARD, B. K. Refining Sound: A Practical Guide to Synthesis and Synthesizers. [s.l.] Oxford University Press, 2013.

SILVA, E. S. et al. A preliminary evaluation of the leap motion sensor as controller of new digital musical instruments. Anais do SBCM 2013. Anais.... In: 14o SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO MUSICAL. 2013. Disponível em: <http://compmus.ime.usp.br/sbcm/2013/pt/docs/art_tec_1.pdf>. Acesso em: 3 ago. 2015

SILVA, J. V. S. Avaliando Interfaces Gestuais Para a Prática de Instrumentos virtuais de Percussão. Dissertação de Mestrado, p. 89, 2012.

SINGER, E.; LARKE, K.; BIANCIARDI, D. LEMUR GuitarBot: MIDI robotic string instrument. Proceedings of the 2003 conference on New interfaces for musical expression. Anais...National University of Singapore, 2003. Disponível em: <http://dl.acm.org/citation.cfm?id=1085759>. Acesso em: 10 jul. 2015

SMITH, C.; EVANS, B. Apple - Press Info - Apple Launches iPad. Disponível em: <https://www.apple.com/pr/library/2010/01/27Apple-Launches-iPad.html>. Acesso em: 17 jul. 2015.

STEINER, H.-C. Stickmusic: Using haptic feedback with a phase vocoder. Proceedings of the 2004 conference on New interfaces for musical expression. Anais...National University of Singapore, 2004. Disponível em: <http://dl.acm.org/citation.cfm?id=1085932>. Acesso em: 17 jul. 2015

STOWELL, D. et al. Evaluation of live human–computer music-making: Quantitative and qualitative approaches. International Journal of Human-Computer Studies, v. 67, n. 11, p. 960–975, 2009.

TODOROFF, T.; LEROY, J.; PICARD-LIMPENS, C. Orchestra: Wireless sensor system for augmented performances & fusion with kinect. QPSR of the numediart research program, v. 4, n. 2, p. 29–36, 2011.

WACHS, J. P. et al. Vision-based hand-gesture applications. Communications of the ACM, v. 54, n. 2, p. 60–71, 2011.

WADLOW, T. A. The xerox alto computer. Byte Magazine, v. 6, n. 9, p. 58–68, 1981.

WANDERLEY, M. M. Gestural control of music. International Workshop Human Supervision and Control in Engineering and Music. Anais...2001. Disponível em: <http://goo.gl/p5gqtS>. Acesso em: 17 jul. 2015.

WANDERLEY, M. M.; ORIO, N. Evaluation of input devices for musical expression: Borrowing tools from hci. Computer Music Journal, v. 26, n. 3, p. 62–76, 2002.

WARDEN, N. A History of the Conga Drum. Percussive Notes, v. 43, p. 8–15, 2005.

132

WEINBERG, G.; AIMI, R.; JENNINGS, K. The Beatbug network: a rhythmic system for interdependent group collaboration. Proceedings of the 2002 conference on New interfaces for musical expression. Anais...National University of Singapore, 2002. Disponível em: <http://dl.acm.org/citation.cfm?id=1085197>. Acesso em: 17 jul. 2015

WESSEL, D.; WRIGHT, M. Problems and prospects for intimate musical control of computers. Computer Music Journal, v. 26, n. 3, p. 11–22, 2002.

WESTERMAN, W.; ELIAS, J. G.; HEDGE, A. Multi-touch: A new tactile 2-d gesture interface for human-computer interaction. Proceedings of the Human Factors and Ergonomics Society Annual Meeting. Anais...SAGE Publications, 2001. Disponível em: <http://pro.sagepub.com/content/45/6/632.short>. Acesso em: 17 jul. 2015

WOBBROCK, J. O.; MORRIS, M. R.; WILSON, A. D. User-defined gestures for surface computing. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Anais...ACM, 2009. Disponível em: <http://dl.acm.org/citation.cfm?id=1518866>. Acesso em: 17 jul. 2015

WONG, E. L.; YUEN, W. Y.; CHOY, C. S. Designing Wii controller: a powerful musical instrument in an interactive music performance system. Proceedings of the 6th International Conference on Advances in Mobile Computing and Multimedia. Anais...ACM, 2008. Disponível em: <http://dl.acm.org/citation.cfm?id=1497205>. Acesso em: 10 jul. 2015

WRIGHT, M. A comparison of MIDI and ZIPI. Computer Music Journal, p. 86–91, 1994.

WRIGHT, M. The Open Sound Control 1.0 Specification. Disponível em: <http://opensoundcontrol.org/spec-1_0>. Acesso em: 31 jul. 2015.

WRIGHT, M. Open Sound Control: an enabling technology for musical networking. Organised Sound, v. 10, n. 03, p. 193–200, 2005.

WRIGHT, M.; CASSIDY, R. J.; ZBYSZYNSKI, M. F. Audio and gesture latency measurements on linux and osx. Proceedings of the ICMC. Anais...2004. Disponível em: <http://goo.gl/XHB4rT>. Acesso em: 31 jul. 2015.

133

Apêndice A – Modelo do questionário online

integrando sensores para a criação de instrumentos ... · instrumentos e solucionar problemas...

Documents