identificação de falante: um estudo perceptivo da …...que enriqueceram esta tese: dr. anders...

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO PUC-SP

Renata Christina Vieira

Identificação de falante: um estudo perceptivo da qualidade de voz

Doutorado em Linguística Aplicada e Estudos da Linguagem

São Paulo 2018


Identificação de falante: um estudo perceptivo da qualidade de voz

Doutorado em Linguística Aplicada e Estudos da Linguagem Tese apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de Doutor em Linguística Aplicada e Estudos da Linguagem, sob a orientação da Profa. Dra. Sandra Madureira.

São Paulo 2018

BANCA EXAMINADORA

________________________________________________

________________________________________________

________________________________________________

________________________________________________

________________________________________________

Dedico a todos os meus pacientes, seus familiares e minha família, que tornaram

este momento possível.

Dedico esta tese, com todo o meu amor e saudade,

à Professora Álpia Couto-Lenzi (1933-2017),

Mestra querida, que me apresentou o primeiro

espectrograma de banda larga e fez com que eu

me apaixonasse pelo estudo dos sons da fala.

Muito obrigada por ter acreditado em mim

quando nem eu acreditava.

AUTORIZAÇÃO

Autorizo, exclusivamente para fins acadêmicos e científicos, a reprodução total ou parcial

desta tese por processos de fotocopiadoras ou eletrônicos.


São Paulo_____de ___________de 2018

Esta pesquisa foi realizada com o auxílio de bolsa de estudos oferecida pela

Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), com

processo de número 88887.151038/2017-00.

AGRADECIMENTO ESPECIAL

Aos meus pais, por terem me incentivado sempre a buscar conhecimento.

Ao Mylton, companheiro incansável dos bons e dos maus momentos, que me inspira, diverte, alivia, eleva e acalma. Obrigada por todo incentivo e amor.

AGRADECIMENTOS

A Deus, por ter permitido que eu chegasse até aqui.

A todos os que emprestaram suas vozes para este estudo.

A todos os meus Comandantes que permitiram, durante quatro anos, que eu saísse do Estado do Rio de Janeiro para estudar em São Paulo. Em especial, agradeço ao Cel. BM Roberto Fontenelle Damasceno e ao Cel. BM Mário Martins pela amizade e confiança.

À minha orientadora, Professora Dra. Sandra Madureira, por todo conhecimento transmitido ao longo desse tempo. “Foi um grande privilégio ser orientada por você. Minha eterna admiração!”

À Professora Dra. Zuleica Camargo por todas as contribuições durante as aulas, seminários e qualificação. Suas correções e apontamentos muito ajudaram na elaboração desta pesquisa.

Aos Professores que participaram das bancas de qualificação e trouxeram sugestões que enriqueceram esta tese: Dr. Anders Eriksson e Dra. Aline Pessoa.

À Professora Dra. Lilian Kuhn, por toda colaboração durante meu doutoramento.

Ao meu amigo João Lopes, que com sua serenidade e doçura, muito me amparou ao longo desta jornada.

A todos os colegas do LIAAC, Layla, Roberta, Cristiane, Piedade, Nathalia, Astrid, Amaury, Márcia, Andrea, Juliana, Marta, Hosana, Dilton e Márcia, pela parceria.

À minha irmã, Andrea Baldi, por todo colo, palavra, olhar, sorriso, choro e conquista.

À Maria Lucia, Fátima e Márcia, por todo carinho que tiveram comigo. Com certeza, esse trio tornou a jornada mais leve e tranquila.

À Professora Dra. Maria Inês Rehder, por todo incentivo que me deu para que eu fizesse meu doutorado na PUC-SP.

À Roberta, minha revisora e tradutora, pelo cuidado e carinho.

A todos que de maneira direta ou indireta, participaram deste momento profissional.

Muito obrigada.

RESUMO

Introdução: a identificação de falantes para fins forenses teve início no século XVII.

Apesar disso, ainda parece distante a padronização de procedimentos e uso de um

protocolo único para o reconhecimento vocal. É necessário verificar a contribuição que

a análise perceptiva da qualidade de voz pode trazer para a identificação de falantes.

Objetivo: verificar a aplicabilidade de roteiro Vocal Profile Analysis Scheme (VPAS-

PB) na identificação de falantes, a partir da reflexão acerca dos resultados de um

experimento perceptivo baseado no Modelo Fonético de Descrição da Qualidade

Vocal e de dinâmica vocal. Métodos: o corpus é constituído por amostras de fala

semiespontânea com a leitura de uma frase e a narrativa de duas histórias que, de

alguma maneira, marcaram a vida de 10 sujeitos do sexo masculino. As amostras

foram gravadas simultaneamente através do gravador e do telefone celular.

Participaram da pesquisa 2 grupos de juízes do roteiro VPAS-PB. O primeiro grupo,

composto por 3 juízes experientes na aplicação do instrumento, ouviu as amostras de

fala dos sujeitos e aplicaram o roteiro. O segundo grupo de juízes, composto por 18

acadêmicos de Fonoaudiologia, participaram de curso de treinamento perceptivo com

o VPAS-PB, que teve a duração de 16 horas. Após a realização do curso, o segundo

grupo recebeu como tarefa um exercício contendo 15 arquivos de áudio na extensão

.wav com 5 amostras de fala em cada um (lineups), além de folha de respostas

contendo 15 descrições de qualidade vocal. O objetivo da tarefa foi o de,

individualmente, ouvirem cada lineup e identificarem dentre as amostras de fala do

arquivo qual era a correspondente à descrição que constava na folha de respostas.

As descrições foram feitas a partir da média das descrições do primeiro grupo de

juízes. Resultados: a análise estatística demonstrou a alta confiabilidade de juízes

experientes na aplicação do roteiro VPAS-PB. Os resultados da tarefa perceptiva

realizada após o treinamento demonstraram que os juízes em formação utilizam como

estratégia para identificação da qualidade vocal, primeiramente, os aspectos de

dinâmica vocal. Conclusões: o roteiro VPAS-PB pode ser utilizado como instrumento

complementar na identificação de falantes, por apresentar alto grau de confiabilidade

de juízes experientes. O treinamento perceptivo realizado demonstrou a viabilidade

de ensino do instrumento, ressaltando a importância do mesmo na capacitação de

peritos em identificação de falantes. A experiência com o treinamento e os resultados

encontrados nos fornecem subsídios para aprimorar as estratégias para treinamentos

perceptivos futuros.

Descritores: Fonética; percepção da fala; voz.

ABSTRACT

Introduction: the identification of speakers for forensic means started at the beginning of the eighteenth century. Nevertheless, the standardization of procedures and the use of a single voice recognition protocol still seem to be far from achieving. Thus, it is necessary to ensure the real contribution from perceptual analysis of voice quality to the identification of speakers. Objective: to check the applicability of the script Vocal Profile Analysis Scheme (VPAS-PB) in the identification of speakers, from the results of a perceptive experiment based on the phonetic description of voice quality and dynamic model. Methodology: the corpus is composed by semi spontaneous speech samples taken from the reading of a sentence and the telling of two personal narratives with important facts from the lives of ten male subjects. The samples were recorded simultaneously by a voice recorder and a cellphone. Two groups of judges of the VPAS-PB script have participated in the research. The first group, composed by three experienced judges in the use of the instrument, heard the speech samples and applied the script. The second group of judges, composed by eighteen academics in the Phonoaudiology area, participated in a perceptive VPAS-PB training course, and the individuals in the group were assigned the task of listening to five speech samples and matching each of them to the description of it. They were given fifteen audio files in the extension .way, with 5 speech samples each (lineups) and a sheet of paper containing fifteen voice quality descriptions, which they had to hear, analyze and match. The descriptions were assembled from the average patterns stated by the first group of judges. Results: the statistical analysis has shown a high reliability of experienced judges in the application of the VPAS-PB script. The results of the perceptive task performed after training have indicated that, judges in training rely primarily on the strategy of using aspects of the vocal dynamic for vocal quality identification. Conclusions: the VPAS-PB script can be a useful complementary tool for speakers identification, once it presents a high degree of reliability by experienced judges. The perceptive training carried out has shown the applicability of teaching how to manage the instrument, proving it to be vitally important in the training of experts in speakers identification. The experience with the training and the results found provide us with subsides to improve the strategies in perceptive training in the future.

Descriptors: Phonetics; speech perception; voice.

LISTA DE ILUSTRAÇÕES

Quadro 1 Visualização do material recebido pelos Juízes A 56

Figura 1 Visualização do conteúdo de uma das pastas contida no material enviado para os Juízes A 58

Figura 2 Conteúdo da pasta compartilhada com os alunos participantes da tarefa perceptiva 58

Figura 3 Exemplo de exercício de múltipla escolha da tarefa perceptiva 62 Figura 4 Perfil sociolinguístico dos falantes audiogravados. 62

Quadro 2

Ajustes fonatórios dos 10 perfis de qualidade vocal dos falantes audiogravados nesta pesquisa, utilizando o roteiro VPAS-PB e o VPAS Simplificado 85

Quadro 3 Ajustes de trato vocal, fonatórios e de dinâmica vocal das amostras do exercício 1 91















Quadro 18 Aspectos de dinâmica vocal das descrições do grupo de exercícios com menor grau de acertos 114

LISTA DE TABELAS

Tabela 1 Resultados da Análise Estatística para verificação de confiabilidade da consistência interna entre os Juízes A 65

Tabela 2 Resultados da tarefa perceptiva 78

Tabela 3

Matriz de confusão demonstrando as respostas corretas e as confundidas, em relação as amostras dos falantes, nas tarefas perceptivas realizadas

82

Tabela 4 Porcentagem de acerto dos exercícios perceptivos por falantes audiogravados 83

Tabela 5 Relação de perfis de qualidade vocal de falantes que não foram confundidos com outros falantes, na tarefa perceptiva 90

Tabela 6 Porcentagem de acerto dos exercícios perceptivos por amostra dos falantes audiogravados. 116

SUMÁRIO

1 INTRODUÇÃO 14

2 A PERÍCIA DE IDENTIFICAÇÃO DE FALANTES 20

2.1 O que é a perícia de identificação de falantes 20

2.2 Histórico da identificação de falantes 22

2.3 A perícia de identificação de falantes e o Direito 27

3 O VPAS (Vocal Profile Analysis Scheme) E SEU USO FORENSE 30

3.1 Histórico do modelo descritivo de análise de qualidade de voz 30

3.2 Características do VPAS e sua aplicabilidade 37

3.3 3.4

Aplicações do roteiro VPAS em trabalhos de pesquisa Reflexões sobre descrição de perfil de qualidade vocal

39 45

3.5 O uso do VPAS no contexto forense 48

3.6 Outros instrumentos de análise perceptiva de qualidade vocal e sua utilização no contexto forense

51

4 MÉTODOS 55

4.1 Fase 1 do experimento 55 4.1.1 Falantes audiogravados 56

4.1.2 Material para a coleta das amostras dos falantes audiogravados 57

4.1.3 Procedimentos para a coleta das amostras dos falantes audiogravados 57

4.2 Fase 2 do experimento 59 4.3 Fase 3 do experimento: a tarefa perceptiva dos juízes B 60

5 RESULTADOS 65

5.1 Análise Estatística para verificação de confiabilidade da consistência interna entre os Juízes A

65

5.2 A constituição dos perfis de qualidade vocal dos falantes audiogravados

67

5.3 Resultados do treinamento perceptivo dos Juízes B 70

5.3.1 Dia 1: Introdução ao roteiro VPAS-PB 71 5.3.2 Dia 2: Ajustes de lábios e mandíbula 71

5.3.3 Dia 3: Ajustes de língua 72

5.3.4 Dia 4: Ajustes de faringe, velofaringe e altura de laringe 73

5.3.5 Dia 5: Tensão muscular/elementos fonatórios 75

5.3.6 Dia 6: Elementos fonatórios 76

5.3.7 Dia 7: Dinâmica vocal 77

5.3.8 Dia 8: Prática com lineups 78

5.4 Resultados dos exercícios perceptivos realizados pelos Juízes B 78

6 DISCUSSÃO 84

7 CONSIDERAÇÕES FINAIS 118

8 REFERÊNCIAS 121

ANEXOS 128

14

1 INTRODUÇÃO

A identificação forense de falante é uma realidade nos tribunais desde 1660

na Inglaterra, quando, pela primeira vez, uma voz foi identificada para fins judiciais

(NATIONAL ACADEMY OF SCIENCE, 1979). Apesar disso, ainda parece distante a

padronização de procedimentos e uso de um protocolo único para o reconhecimento

de voz (ROMITO; GALATÀ, 2004).

Em minha trajetória profissional como perita e assistente técnica, deparei-me

com laudos e pareceres técnicos elaborados das maneiras mais diversas, de provas

baseadas apenas em um tipo de análise a laudos baseados em uma combinação de

instrumentais. Foi possível perceber a falta de conformidade nos critérios de

elaboração de laudos e pareceres judiciais, o que considero como comprometedor no

que se refere à confiabilidade da prova pericial.

Sobre essa questão, Page, Taylor e Blenkin (2011) pesquisaram 548

pareceres judiciais em casos em que a perícia foi questionada. Em 15% dos casos, a

prova de identificação foi excluída ou limitada, isso ocorreu devido a questionamentos

quanto à cientificidade da técnica empregada ou quanto à conclusão do perito. Para

os autores, esse resultado sugere que há uma necessidade contínua das ciências

forenses em aperfeiçoar as técnicas de investigação e identificação, para garantir que

os laudos periciais continuem a ser aceitos pelos tribunais.

Sobre a preparação de laudos de identificação de falantes, Tiwari e Tiwari

(2012) defendem que devemos levar em consideração aspectos sintáticos,

morfológicos, fonológicos e fonéticos.

Por concordarmos com os pesquisadores quanto à necessidade do perito se

debruçar sobre o fenômeno linguístico, em nossos laudos, realizamos três tipos de

análises: linguística, perceptiva e acústica. Entendemos que, para um melhor

confronto entre as amostras de fala a serem avaliadas, o perito deve ter um profundo

conhecimento dos aspectos linguísticos (verbais), paralinguísticos (não verbais

relacionados à expressão de atitudes, emoções, fonoestilos, personalidade, entre

outros fatores) e extralinguísticos (não verbais relacionados a características

sociolinguísticas tais como gênero, região e idade).

15

Para a análise dos aspectos linguísticos, paralinguísticos e extralinguísticos

na perícia de fala, a Fonética e a Sociolinguística têm uma grande contribuição a dar

(Eriksson, 2012; Vieira, 2017).

Para Eriksson (2012), o processo pericial de análise de fala pode ser

detalhado da seguinte maneira: audição das amostras de fala, transcrição dessas

amostras, análise das carracterísticas sociolinguísticas e fonético-acústicas e síntese

dos achados. Dessa maneira, alterações de fala, idiossincrasias, sotaques,

características perceptivas e acústicas podem ser detectadas por análises de oitiva e

por medições de formantes, frequência fundamental média e desvio padrão, taxa de

elocução, entre outros tipos de medições acústicas.

O primeiro estudo internacional de comparação de práticas de identificação

de falantes foi realizado por Gold e French (2011) Participaram do estudo 36

profissionais de 13 países e responderam uma série de perguntas sobre suas práticas.

De acordo com a pesquisa, não há consenso entre os peritos sobre a melhor maneira

de se realizar a identificação de falantes, incluindo métodos utilizados e parâmetros a

serem pesquisados.

Os métodos empregados pelos sujeitos envolvidos consistem em: análise

perceptiva apenas, análise acústica apenas, análise perceptiva e acústica juntas,

reconhecimento automático de voz apenas (que é realizado a partir de um software

especializado com o mínimo de intervenção humana) e, ainda, reconhecimento

automático de voz aliado às análises perceptiva e acústica. (GOLD; FRENCH, 2001).

Observando os resultados de acordo com a nacionalidade dos peritos, foi

possível verificar que peritos holandeses e americanos costumam utilizar apenas a

análise perceptiva em seus laudos, os peritos italianos preferem o uso da análise

acústica. A combinação das análises perceptiva e acústica foi a escolha de

australianos, austríacos, brasileiros, chineses, alemães, holandeses, espanhóis,

turcos, americanos e britânicos.

Para os peritos que participaram da pesquisa, a característica mais importante

na identificação de falantes é a qualidade da voz (33%), seguida pelo sotaque e

formantes das vogais (ambos com 29%). O ritmo e a frequência fundamental são as

características mais importantes para 21% dos peritos, enquanto para 17% deles, o

léxico e as realizações das vogais e consoantes são as características mais úteis em

uma perícia de identificação de falantes. Os processos fonológicos e a fluência da fala

são úteis para 13% dos peritos.

16

A maioria dos peritos que participaram da pesquisa concordaram que, apesar

de alguns parâmetros terem individualmente maior relevância para a confecção de um

laudo de identifcação de falantes, a análise do conjunto dos parâmetros é fator

essencial para uma realização bem sucedida (GOLD; FRENCH, 2011).

O fato da qualidade de voz ter sido apontada pelos peritos no estudo de Gold

e French (2011) como uma das características mais importantes na identificação de

falantes aponta para a relevância de se pesquisar essa temática no âmbito da

Fonética Forense.

A qualidade de voz pode ser abordada em termos de aspectos perceptivos e

acústicos. A avaliação perceptiva da voz remonta ao século XIX. Sua realização se

dava por meio da aferição da voz, com base no ouvido humano como instrumento de

avaliação (FERREIRA et al., 1998). Atualmente, essa análise é reconhecida como

padrão ouro da avaliação vocal, sendo amplamente utilizada na documentação dos

distúrbios da voz na rotina clínica (BEHLAU et al, 2001; BRASSOLOTO; REHDER,

2010).

A análise perceptiva da voz é uma forma de avaliação que possibilita a

descrição da qualidade vocal dos estímulos de fala. Por se tratar de análise de oitiva,

seu resultado depende do treinamento, do tipo de estímulo, da instrução da tarefa e

da experiência e formação do avaliador (NEMR et al. 2006; PATEL, SHRIVASTAV,

2007).

O primeiro modelo fonético descritivo da qualidade de voz foi o desenvolvido

por Laver (1980). Esse modelo é um marco nos estudos fonéticos, pois introduziu uma

unidade analítica para a descrição fonética das qualidades de voz e mudou o

panorama de análises impressionísticas previamente existente.

De acordo com as bases teóricas do modelo fonético de descrição de

qualidades de voz, um roteiro de avaliação preceptiva para a análise de qualidades

foi proposto, aplicaddo e revisto ao longo dos anos e originou, em sua versão 2007

(Laver e Mackenzie-Beck, 2007) um instrumento que fornece meios de se avaliar

perceptivamente ajustes de qualidade e dinâmica vocal. Esse roteiro foi traduzido e

adaptado para o português por Camargo e Madureira (2008).

Acreditamos que, para fins de perícia de fala, o VPAS1 (Vocal Profile Analysis

Scheme) seja o roteiro mais completo para a análise das qualidades vocais, pois sua

1 VPAS é um instrumento de avaliação perceptiva de qualidade de voz, constituído por uma relação de descritores.

17

característica integrativa permite a descrição das qualidades de voz a partir de um

conjunto de características, os ajustes de qualidade de voz combinados. Diferentes

combinações de ajustes resultam em qualidades de voz específicas. Consideramos

que este instrumental seja complementar à investigação de natureza acústica,

facilitando assim a tarefa de identificação de falantes.

Com base no exposto, é possível constatar a necessidade da investigação

acerca da aplicabilidade desse protocolo de avaliação perceptiva para fins de

identificação de voz forense.

Dada a relevância de se considerar a descrição das qualidades de voz na

identificação de falantes e dada a inclusão de parâmetros perceptivos em laudos

periciais de identificação de falantes ser amplamente defendida e considerada

essencial por pesquisadores que investigam questões forenses, entre os quais

destacamos Nolan (1983), Porto e Gonçalves (2007), Cicres (2007) e Eriksson

(2012), enfocaremos nesta tese, o potencial da utilização do roteiro VPAS para a

identificação de vozes de falantes.

Como o roteiro é de natureza perceptiva, para a análise dos dados deste

trabalho são utilizados procedimentos metodológicos da pesquisa fonética voltada

para a realização de experimentos perceptivos. Segundo Thomas (2010), a parte mais

trabalhosa da realização dos estudos perceptivos é o seu planejamento, pois

demanda a contemplação de um conjunto de critérios: decidir o tipo de tarefa

perceptiva que os sujeitos serão expostos; escolher o que usar como base para as

amostras de fala; resolver o tipo de tratamento a ser aplicado nas amostras de fala;

gravar as amostras de fala; encontrar juízes adequados para responder a tarefa

perceptiva; aplicar a estatística adequada; e descrever os instrumentos a serem

utilizados. Esses critérios nos serviram de guia para a construção dos experimentos

nesta tese.

A teoria que ancora a presente pesquisa é o Modelo Fonético de Descrição

da Qualidade Vocal (LAVER, 1980), modelo que, até o presente momento, configura-

se como referência na área de investigação das Ciências de Fala.

O presente estudo possui como objetivo geral verificar a aplicabilidade de

roteiro VPAS-PB na identificação de falantes, a partir da reflexão acerca dos

resultados de um experimento perceptivo baseado no Modelo Fonético de Descrição

da Qualidade Vocal e de dinâmica vocal.

18

A fim de verificar a aplicabilidade do roteiro, foram criadas duas tarefas, uma

de avaliação perceptiva para juízes experientes e outra de formação de novos juízes

e avaliação da performance destes (com menor tempo de experiência com o uso do

roteiro) em avaliar vozes.

Desse modo, como objetivos específicos, temos:

i) Apresentar dados sobre confiabilidade de juízes experientes no uso do

instrumento VPAS-PB;

ii) Apresentar as condições no processo de treinamento de identificação de

falantes por meio do VPAS-PB;

iii) Discorrer sobre as condições de respostas e aproximações dos

julgamentos realizados por juízes recém-treinados.

Esta tese consta desta introdução e mais 6 capítulos.

No segundo capítulo, apresentamos a perícia de identificação de falantes, seu

histórico, a relação desta com o Direito, bem como a formação desejada do perito.

No terceiro capítulo, tratamos do Modelo Fonético de Qualidade Vocal e do

roteiro de análise perceptiva inspirado nele, o VPAS (Vocal Profile Analysis Scheme).

Descrevemos o histórico do desenvolvimento do modelo e enfocamos aplicações no

modelo da clínica fonoaudiológica, na análise da expressividade da fala, na análise

de fala de bilíngue e no contexto forense. Também contrastamos o roteiro com outros

tios de análise perceptiva utilizados no contexto forense.

No quarto capítulo, detalhamos a metodologia da pesquisa, explicitando os

procedimentos das três fases do experimento realizadas. Na fase 1, amostras de fala

semiespontânea foram gravadas por um grupo de sujeitos. Na fase 2, foi realizada

uma tarefa de avaliação perceptiva dessas amostras para juízes experientes na

utilização do VPAS. Esses juízes traçaram o perfil das vozes das amostras. Na fase

3, foi aplicado um treinamento em VPAS-PB para um grupo de sujeitos e realizada,

pós-treinamento, uma tarefa perceptiva na qual esses sujeitos recebiam um perfil de

qualidade de voz e tinham de identificar, entre cinco amostras de fala (lineups), a qual

das amostras se referia o perfil.

No quinto capítulo, demonstramos os resultados das fases do experimento

bem como o passo a passo do treinamento perceptivo realizado. Os resultados

demonstraram: a confiabilidade dos julgamentos de qualidades de voz com juízes

19

experientes na utilização do VPAS; a viabilidade de ensino do instrumento; e a

potencialidade da aplicação do roteiro para a identificação de falantes no contexto

forense.

Nos capítulos 6, 7 e 8, discutimos os resultados encontrados, apresentamos

nossas considerações finais sobre a utilização do roteiro de descrição e ajustes de

qualidade de voz VPAS na capacitação de peritos em identificação de falantes.

Consideramos que o roteiro VPAS-PB pode ser utilizado como instrumento

complementar na identificação de falantes a julgar pelo alto grau de confiabilidade

encontrado na realização da tarefa de avaliação perceptiva pelos juízes experientes.

20

2 A PERÍCIA DE IDENTIFICAÇÃO DE FALANTES

Este capítulo aborda a perícia de identificação de falantes, apresentando,

inicialmente, a definição deste tipo de perícia e como é realizada. A seguir, mostra o

histórico da identificação de falantes, percorrendo desde o primeiro caso de

identificação de falantes registrado em 1660 até os dias atuais. Em seguida, descreve

a relação entre a perícia de identificação de falantes e o Direito, bem como a formação

desejada para o profissional que trabalha na área.

2.1 O que é a perícia de identificação de falantes

A identificação forense do falante, também conhecida como perícia de voz,

pode ser definida como a comparação de duas amostras de fala com o objetivo de se

determinar se pertencem ou não a um mesmo indivíduo. Para a realização desse tipo

de análise pericial, é necessária a comparação de uma amostra de fala padrão à

amostra questionada.

A amostra padrão, utilizada como referência no confronto, pode ser obtida

através de gravações autorizadas de escuta telefônica ou coletada in loco. Quando as

gravações são realizadas in loco obtém-se características como o tempo de

amostragem maior e áudio de melhor qualidade. A amostra denominada questionada

é a que será utilizada na comparação com a amostra padrão a fim de se determinar

se pertencem ou não a mesma pessoa. Essa amostra, quando obtida através de

interceptação telefônica (grampo), pode apresentar pior qualidade de som, além das

características da transmissão telefônica, como o limite de frequências entre 300Hz e

3400Hz.

O reconhecimento de falantes é dividido em dois tipos: o reconhecimento

simples e o técnico (ROSE, 2002). O reconhecimento simples é o que qualquer

ouvinte faz ao escutar uma voz familiar. Quando uma vítima identifica um suspeito

pela voz, faz um reconhecimento simples, pois utiliza apenas a sua habilidade

auditiva. Esse tipo de reconhecimento é considerado como prova testemunhal, mas é

frágil porque depende apenas de um dos sentidos.

O reconhecimento técnico é feito por especialista e tem por objetivo

transformar amostras gravadas de voz em prova técnico-científica (SILVA, 2011).

21

Para isso, o perito utiliza determinadas técnicas, como as análises perceptiva e

acústica. (NOLAN, 1983; BROEDERS, 2001).

O reconhecimento técnico de falantes é dividido em verificação e

identificação. Entende-se por verificação a comparação de uma amostra de fala do

sujeito com outra amostra padrão do mesmo indivíduo, com o objetivo de atestar se

realmente pertencem a mesma pessoa. Nesse tipo de reconhecimento, as duas

amostras são conhecidas, ou seja, é um processo de escolha binária (FIGUEIREDO,

1994). Atualmente, a verificação de falantes é bastante utilizada para fins comerciais

e de segurança.

A identificação de falantes consiste em descobrir a identidade do autor dentre

um conjunto de amostras (NOLAN, 1983; KÜNZEL, 1994). Na prática forense, pode

ocorrer a necessidade de comparação de uma amostra de fala de locutor conhecido

com uma ou mais amostras de vozes questionadas, ou ainda, a comparação de uma

amostra de fala de locutor desconhecido com dois ou três locutores questionados

(GONÇALVES, 2013).

Para um perito comparar e concluir que duas amostras de fala foram

produzidas pela mesma pessoa, é importante que o profissional se atenha ao grau de

variabilidade intrafalante que pode existir entre os materiais de fala investigados.

Espera-se que o grau de variação entre sujeitos seja sempre maior que entre um

mesmo sujeito. Por isso, a escolha dos parâmetros a serem pesquisados depende da

natureza do material de fala a ser analisado.

São critérios para a escolha de um parâmetro: ter alta variabilidade

interfalante e baixa variabilidade intrafalante; ser resistente à tentativa de disfarce; ser

facilmente observado (independente do tamanho da amostra de fala) e mensurável,

além de ser robusto a diferenças de transmissão (NOLAN, 1983; ROSE, 2002).

Como consequência, entendemos que, para a realização de perícia de

identificação de falantes, é importante que a investigação das amostras se baseie no

maior número de parâmetros possível, a partir de diferentes dimensões linguísticas,

entre elas a léxico-estrutural, a discursiva, a sociolinguística, a perceptiva, e a

acústica.

22

2.2 Histórico da identificação de falantes

O primeiro caso registrado da identificação de alguém pela voz foi em 1660

em um tribunal inglês, quando uma testemunha identificou o réu através de sua voz

(NATIONAL ACADEMY OF SCIENCE, 1979). Ainda na Inglaterra, entre 1754 e 1780,

o magistrado Sir John Fielding, que era cego desde os 19 anos de idade, enquanto

chefiava a primeira polícia profissional inglesa, Bow Street Runners, identificou pelas

vozes centenas de criminosos. Sir John Fielding ficou conhecido como Blind Justice,

por ter sido capaz de reconhecer mais de 3.000 criminosos apenas pelo som de suas

vozes (LAW AND HISTORY REVIEW, 2007).

O caso mais polêmico de identificação de falante ocorreu em Nova Jersey, no

ano de 1932. As investigações do "Caso Charles Lindberg" fizeram referência a uma

prática de identificação fonética. Nesse crime, o filho de Charles Lindberg, de um ano

e oito meses, foi sequestrado de sua casa. Algum tempo depois, Charles Lindberg

recebeu um pedido de resgate através de carta. A entrega do resgate foi combinada

em um cemitério e seria entregue pelo negociador voluntário Dr. John F. Condon. No

local, Condon desceu do carro e Lindberg ficou aguardando. De onde estava, Charles

não tinha a visão do sequestrador, porém ouviu sua voz dizendo para Condon: "Aqui

Doutor, sobe aqui, aqui!"

Em setembro de 1934, vinte e nove meses depois dessa noite, Lindbergh,

disfarçado no escritório de um departamento de investigações, ouviu o suspeito,

Richard Bruno Hauptmann, repetir a frase dita no cemitério e identificou positivamente

como a voz ouvida no cemitério. No julgamento de Hauptmann, em janeiro de 1935,

Charles afirmou ter reconhecido a voz ouvida no cemitério, e isso serviu como prova

contra Hauptmann (ERIKSSON, 2005).

Essa forma de prova causou questionamentos acerca da exatidão do

reconhecimento e alcance da memória auditiva, por isso, em 1937, foram iniciados os

estudos sobre a identificação do falante. Para esclarecer a questão, Francis

McGehee, professor de psicologia da Universidade Johns Hopkins, Baltimore,

Maryland, Estados Unidos, realizou dois estudos, sendo o primeiro em 1937 e o

segundo em 1944.

Os experimentos de McGehee demonstraram que a taxa de erro na

identificação de voz aumentou dramaticamente quando as vozes foram apresentadas

aos ouvintes após mais de uma semana de intervalo. Dessa forma, a memória de

23

longo prazo para vozes é um fator limitante na identificação de voz (MCGEHEE, 1937;

MCGEHEE, 1944; ERIKSSON, 2005; YARMEY, YARMEY E TODD, 2008).

Durante a Segunda Guerra Mundial (1939-1945), as pesquisas sobre

identificação de falantes passaram a ter o intuito de monitorar transmissões militares

de rádio. A tecnologia para a identificação foi desenvolvida nos Laboratórios Bell, em

Nova York, por Ralph Potter e equipe. Dr. Potter criou um instrumento que fornecia

dados sobre qualquer fenômeno de onda sonora, chamado de espectrógrafo.

O primeiro espectrograma eletromecânico acústico foi criado em 1941 e era

capaz de apresentar a fala visualmente. Acreditava-se que a observação da

espectrografia seria suficiente para identificar um falante. Esse método gerava um

gráfico do sinal da voz, que apresentava informações como frequência, tempo e

intensidade do sinal sonoro.

Ao final da segunda guerra, a pesquisa foi abandonada por não ter atingido

os objetivos pretendidos, já que o trabalho não tinha sido totalmente desenvolvido

(KERSTA, 1962 apud NOLAN, 1983).

No final dos anos 50, ocorreram inúmeros casos de ameaças de bombas em

aviões, feitas através de mensagem telefônica. Em consequência, o interesse pela

espectrografia ressurgiu e levou o departamento de polícia de Nova Iorque a solicitar

aos laboratórios Bell que retomassem os estudos acerca da identificação de falantes

através da espectrografia.

Os laboratórios Bell destinaram esta missão ao físico Lawrence G. Kersta, que

foi o cientista responsável por um programa de dois anos sobre a identificação de

falantes. Uma das premissas desse estudo foi não se basear em nenhum apoio

auditivo, apenas na inspeção visual de espectrogramas (KERSTA, 1962 apud

NOLAN, 1983).

Em 1944, Gray e Kopp entusiasmados com o projeto de Bell, criaram o termo

voiceprint para o resultado obtido através da análise espectrográfica, devido a sua

semelhança com o termo fingerprint identification (KERSTA, 1962 apud NOLAN,

1983). Apesar disso, os termos voiceprint e fingerprint são fundamentalmente

diferentes um do outro.

Uma impressão digital fingerprint é uma representação gráfica direta de

características anatômicas, os sulcos na pele. O padrão dos sulcos para uma

determinada pessoa permanece essencialmente inalterado ao longo da vida e nunca

houve um caso de duplicação de impressão digital de dois dedos diferentes. Ao

24

contrário da impressão digital, um espectrograma de fala é uma representação indireta

de um processo complexo de produção vocal (FIGUEIREDO, 1994; GILLIER, 2011). .

A pesquisa de Kersta foi bastante controversa, visto que não era capaz de

reproduzir uma situação forense. Figueiredo (1994) explicita que a pesquisa é falha

do ponto de vista metodológico por dois motivos. Em primeiro lugar, as palavras

utilizadas no experimento foram produzidas isoladamente, condição impossível de ser

encontrada em uma situação forense, em que as palavras sempre estão em um

determinado contexto.

Em segundo lugar, o experimento de Kersta foi uma testagem fechada, ou

seja, uma amostra sempre vai estar relacionada a uma amostra de referência. Na

situação forense, uma amostra de fala pode ser de qualquer pessoa (FIGUEIREDO,

1994). No entanto, Kersta continuou suas pesquisas e, finalmente, abriu seu próprio

laboratório e serviço forense, usando o método voiceprint até sua aposentadoria em

1973.

Em 1972, O Dr. Oscar Tosi, professor e diretor da Speech and Hearing

Sciences Resesarch Laboratory da Universidade Michigan, e sua equipe, realizaram

pesquisa com o objetivo de aproximar o experimento à situação forense e determinar

a validade e confiabilidade do método voiceprint, usado por Kersta.

Na pesquisa, que durou aproximadamente três anos, os participantes

receberam treinamento durante um mês, período em que tiveram noções de fonética

e receberam instruções para realizar a identificação dos falantes. Os índices de acerto

da pesquisa foram menores que os encontrados por Kersta (TOSI, 1981).

A partir do ano 2000, foram realizadas pesquisas relevantes nas línguas

chinesa, polaca, eslovaca e japonesa sobre a identificação de falantes, utilizando a

análise acústica. Zhang, Weijer e Cui (2006) analisaram a variação intra e interfalante

através da análise acústica de todas as sílabas formadas pela lateral /l/ do chinês

padrão, produzidas por 10 falantes. Realizaram a medição dos quatro primeiros

formantes de cada sílaba, que posteriormente foram comparados quantitativamente.

Os resultados da pesquisa mostraram que a variação intrafalante é menor que a

variação interfalante. Segundo os autores, os resultados da pesquisa são promissores

para a identificação de falantes, mas lembram que o estudo foi realizado em

laboratório e com situações normais de fala. Seria importante que mais estudos

fossem feitos em situações reais.

25

Amino e Arai (2006) afirmaram que a precisão da identificação de falantes

através de uma análise perceptual depende do tipo de som apresentado ao ouvinte.

O estudo analisou a eficácia do som nasal e, para isso, foi realizada análise acústica

de sílabas contendo uma das seguintes seis consoantes: / m /, / n /, / t /, / d /, / s /, e /

z /. Os resultados mostraram que as nasais /m/ e /n/, sons ressoantes, são eficazes

para identificação de falantes.

Os autores justificaram o resultado obtido devido às características de

ressonância das consoantes nasais, pois as cavidades de ressonância estão

envolvidas na sua articulação e ao controle das estruturas presentes nesta cavidade,

não dependendo da vontade do falante. Tais autores complementaram que os

resultados foram ainda mais confiáveis quando as consoantes nasais foram

acompanhadas das vogais /o/,/u/ e /a/, porém a razão de terem chegado a essa

conclusão não foi examinada nesse estudo.

Amino e Arai (2009) realizaram dois experimentos a fim de verificar os efeitos

que o estímulo e a familiaridade com os falantes auxiliam na percepção de falantes.

Os resultados mostraram que os estímulos incluindo um som nasal foram eficazes na

identificação precisa do falante; além disso, o som nasal línguo-alveolar foi mais eficaz

do que a nasal labial e a familiaridade com os falantes proporcionava uma grande

influência sobre o desempenho.

As tendências citadas acima foram observadas tanto em identificações de

falantes familiares quanto de desconhecidos. O artigo proporcionou a compreensão

da interação da informação fonológica e das informações transmitidas pelos falantes

durante o processo da fala e pesquisou os mecanismos através dos quais as pessoas

reconhecem seres humanos pela fala.

Klus e Trawiñska (2009) realizaram estudo sobre as línguas eslovaca e

polaca, em que apresentaram questões relacionadas ao método linguístico-acústico

para a identificação de falantes. O objetivo da pesquisa foi analisar a eficácia do

método de análise de identificação em relação aos falantes nativos e não nativos de

uma determinada língua. As conclusões foram formuladas com base nos resultados

da análise linguística e nos resultados da medição dos parâmetros acústicos.

Na primeira parte do artigo, os autores definiram as diferenças entre as

línguas polaca e eslovaca, concentrando-se principalmente nos fenômenos que

devem ser considerados como os mais úteis no processo de identificação do falante.

26

Em seguida, o artigo apresentou semelhanças e diferenças entre as formas de realizar

estudos de identificação.

Sobre a variabilidade intrafalantes, o grupo de pesquisa liderado por Francis

Nolan desenvolveu o Projeto DyViS- Dynamic variability in speech: a forensic phonetic

study of British English (Variabilidade dinâmica na fala: um estudo fonético forense do

inglês britânico). O DyViS investigava a relação entre a identidade do falante e a

variabilidade dinâmica na fala de acordo com as características dinâmicas acústicas

através de informações específicas intrafalante, levando em conta o dinamismo

diacrônico como fonte de diferenças interfalantes (NOLAN et al, 2006).

Ainda sobre a variabilidade intrafalantes, no Brasil, existem poucas pesquisas

sobre o tema. Podemos citar como importantes contribuições os trabalhos de

Figueiredo (1994), Machado (2012), Passetti (2015), Constantini (2014) e Gonçalves

(2013).

Figueiredo (1994) examinou a eficiência de diversos parâmetros acústicos

(formantes vocálicos, frequência fundamental, espectro de longo termo, velocidade de

fala, consoantes nasais e VOT), através da gravação de 8 falantes, em ambiente sem

tratamento acústico. Gonçalves estudou as taxas de elocução (TE) e de articulação

(TA), através da análise da comparação de amostras de gravações de interceptações

telefônicas e de entrevistas com 7 falantes.

Machado (2012) investigou a eficácia de um conjunto de medidas acústicas

no reconhecimento da fala de um indivíduo em um grupo de dez falantes do português

brasileiro. Concluiu que os parâmetros que menos sofrem variação devido à mudança

de canal de transmissão são os parâmetros rítmicos e os temporais. Além disso, os

aspectos temporais, por serem os mais variáveis intersujeito, possuem grande poder

discriminador.

Passetti (2012) estudou os efeitos causados ao sinal da fala pela transmissão

telefônica de linhas móveis a fim de analisar os parâmetros acústicos afetados por

essa transmissão. A pesquisa identificou as seguintes alterações de parâmetros: F1

e F3 apresentam alteração de 14% na condição telefônica; a análise de dispersão de

F2 evidencia que a transmissão telefônica aumenta artificialmente as frequências de

vogais com baixos valores de F2 e diminui as frequências de vogais com altos valores

de F2; a baseline e duração interpicos de F0 não apresentam diferenças entre a

gravação via celular e face a face; o aumento nas frequências de F1 resulta no

abaixamento global do espaço vocálico na gravação telefônica; a diminuição dos

27

valores de F2 para as vogais anteriores e o aumento nos valores deste formante para

vogais posteriores reduz o espaço vocálico na maioria dos sujeitos.

Constantini (2014) analisou, inicialmente, parâmetros prosódicos de amostras

de fala, com o objetivo de caracterizar e diferenciar sujeitos de diferentes variedades

faladas no português brasileiro (PB). Posteriormente, a autora incluiu ruído nas

mesmas amostras de fala para a melhor compreensão de como os parâmetros

prosódicos se comportam quando há inclusão de ruído. Constantini concluiu que a

análise da estrutura rítmica é mais robusta em situações de ruído.

2.3 A perícia de identificação de falantes e o Direito

O Direito admite como meios de prova as provas orais e as materiais. São

exemplos de tipos de prova a confissão, o depoimento das partes, documentos em

geral, indícios, testemunhos e exames periciais.

Perícia é o exame técnico realizado por especialista com o objetivo de

transformar um determinado material em prova pericial (ALBERTO FILHO, 2010). O

perito é o profissional dotado de capacidade técnica, experiência e habilidade, que, a

pedido da Justiça, transforma o material questionado em prova (JULIANO, 2009).

O juiz nomeia o perito quando existe a necessidade de conhecimento técnico

específico para que um fato seja elucidado. O produto final da investigação pericial é

o laudo, prova material que passa a fazer parte do processo, ajudando na solução do

caso.

De acordo com Alberto Filho (2010):

perito é todo homem que tiver comprovada habilitação técnica especializada, com autorização profissional para elucidar sobre um fato objeto de qualquer contenda, seja judicial ou administrativa, desde que com espeque em conhecimentos científicos específicos.

O perito deve atender ao que consta no artigo 145 do Código de Processo

Civil (apud JULIANO, 2009):

Quando a prova do fato depender de conhecimento técnico ou científico, o juiz será assistido por perito, segundo o disposto no artigo 421.

28

§1º Os peritos serão escolhidos entre profissionais de nível universitário, devidamente inscritos no órgão de classe competente, respeitado disposto no capítulo VI, seção VII, deste Código. §2º Os peritos comprovarão sua especialidade na matéria sobre que deverão opinar, mediante certidão do órgão profissional em que estiverem inscritos. § 3º Nas localidades onde não houver profissionais qualificados que preencham os requisitos dos parágrafos anteriores, a indicação dos peritos será de livre escolha do juiz.

A identificação de falantes vem sendo utilizada em processos civis e criminais

como prova judicial e consiste em uma investigação científica pericial para identificar

a autoria do material gravado. Essa perícia pode ser realizada por profissionais que

comprovem conhecimento nas áreas da sintaxe, da semântica, morfologia,

lexicologia, dialetologia, sociolinguística, da psicolinguística, além da fonética

articulatória e da fonética acústica, dentre outras. Tais áreas contribuem para a

comparação entre amostras de fala e possível identificação do falante.

De acordo com o Parecer do Conselho Federal de Fonoaudiologia número 36,

de 30 de julho de 2014, que "dispõe sobre a competência do Fonoaudiólogo para atuar

em Perícia de Voz, Fala e Linguagem – Exame de Comparação Forense de Falantes",

é necessário que o fonoaudiólogo possua a seguinte formação para atuar como perito:

a. Ter, no mínimo, o Título de Especialista com pesquisa e resultados direcionados à Perícia de Voz, Fala e Linguagem ou áreas afins; b. Comprovar aperfeiçoamento na área pericial (Voz, Fala e Linguagem), realizado em Sociedades, Associações, Academias, Entidades e Instituições relacionadas à Perícia; c. Adquirir conhecimentos sólidos em Fonoaudiologia, Fonética Forense, Fonéticas Articulatória, Experimental, Perceptiva Estilística, Análise do Discurso, Acústica e Informática, com domínio dos métodos, instrumentos e programas utilizados (grifo nosso); d. Conhecer os equipamentos e dominar os procedimentos de colheita de material padrão, de digitalização de áudio, de filtragem de ruídos, de autenticação da veracidade/fidelidade do material sonoro e de análise de conteúdo e perfil do falante.

O perito é o profissional especialista de confiança do juiz, e o assistente

técnico é de confiança da parte. O perito elabora um laudo, enquanto o assistente

29

técnico elabora um parecer técnico. Quando o perito elabora o laudo e o assistente

técnico concorda com ele, podem assinar juntos e o assistente técnico deve expressar

concordância com o perito através de petição isolada.

O assistente técnico deve emitir seu parecer após ter acesso ao laudo do

perito, para que possa fazer considerações sobre o mesmo. O prazo para a entrega

do parecer é de dez dias após a entrega do laudo do perito. De acordo com o artigo

433 do CPC (JULIANO, 2009), o perito apresentará o laudo em cartório, no prazo

fixado pelo juiz, pelo menos 20 (vinte) dias antes da audiência de instrução e

julgamento.

Expostas, neste capítulo, questões sobre a perícia de identificação de

falantes, passaremos, no próximo capítulo desta tese, a considerar o elemento

prosódico que entendemos ser de crucial importância para a realização desse tipo de

perícia.

30

3 O VPAS (Vocal Profile Analysis Scheme) E SEU USO FORENSE

Este capítulo apresenta uma revisão da proposta de modelo fonético de

descrição de qualidade de voz demonstrado por Laver (1975) em sua tese. Além do

detalhamento do conteúdo da tese defendida por Laver, este capítulo aborda a obra

de Laver (1980) e o roteiro de análise perceptiva VPAS (Laver et al, 1981), o qual foi

inspirado na proposta de modelo fonético de qualidade vocal por ele desenvolvido.

As aplicações do roteiro na clínica fonoaudiológica, na análise da expressividade

de fala, na fala de bilíngues e no contexto forense são abordadas.

3.1 Histórico do modelo descritivo de análise de qualidade de voz

Em sua tese de doutoramento, intitulada “Individual Features in Voice Quality”,

John Laver (1975) apresenta suas considerações sobre Qualidade Vocal e apresenta

o seu modelo, de base fonética. A tese é dividida em quatro capítulos.

No capítulo 1, “Principles of labelling voices”, Laver apresenta questões de

ordem semiótica que estão subjacentes à descrição vocal. O autor inicia seu texto

definindo um padrão descritivo e um padrão indexical para vozes. O padrão descritivo

é dividido em impressionístico e fonético.

Padrões impressionísticos necessitam de demonstração auditiva dos tipos

vocais referidos para que o ouvinte possa reconhecê-los. Padrões fonéticos partem

do estabelecimento de um vocabulário fonético e de definições aceitas pelos

foneticistas.

Padrões fonéticos compartilham as mesmas características da taxonomia

para descrições fonéticas, e descrições holísticas são evitadas. É importante ressaltar

que, para os foneticistas em treinamento, também é necessário que os padrões

fonéticos sejam demonstrados auditivamente.

Laver enfatiza duas questões referentes aos padrões impressionísticos: a

primeira é a invariabilidade anatômica e fisiológica do aparato vocal do falante; e a

segunda é o fato do falante habitualmente fazer superposições na sua configuração

fisiológica básica para os diferentes tipos de ajustes musculares.

Sobre a base anatomofisiológica, o autor exemplifica com os termos

convencionais para diferentes tipos de voz cantada, como tenor e barítono. Sobre os

ajustes musculares como unidades de análise, Laver os divide em logitudinais,

31

latitudinais, velares de tensão e laríngeos, que são melhor explicitados no capítulo 3

da referida tese.

Padrões indexicais estão relacionados aos aspectos intrínsecos e extrínsecos

das vozes. Os intrínsecos são os que fogem ao controle do falante, se referem a

constituição física do trato vocal e, por isso, demonstram as características

relacionadas ao sexo, à idade e ao estado de saúde do indivíduo. Os aspectos

extrínsecos são passíveis de ser regidos pela vontade do falante, ou seja, podem ser

controlados. Estes aspectos incluem a articulação dos segmentos e maneiras de

utilização da dinâmica vocal, além da possibilidade de controlar os ajustes musculares

que compõem a qualidade de voz.

Laver dá destaque aos aspectos relacionados ao sotaque e aponta como

características extrínsecas que podem ser percebidas por meio da qualidade vocal do

indivíduo: sua origem regional, condição social, profissão, o status interacional, o tipo

de interação que o falante está participando no momento, efeitos perlocucionários e

características psicológicas.

No capítulo 2, “The History of Voice Quality Analysis”, Laver apresenta um

conteúdo histórico em que são apresentados escritos clássicos sobre qualidade vocal,

desde Cícero e Quintiliano até os anos setenta. O capítulo explora a estreita relação

entre a qualidade vocal e a articulação dos segmentos, intermediada pelo princípio da

susceptibilidade, que é apresentado no capítulo 3 de sua tese.

No capítulo 3, “The Phonetic Description of Voice Quality”, temos a parte

principal da tese. Nesse capítulo, Laver nos traz as bases do Modelo Fonético de

Qualidade Vocal, as noções de setting e segmento fonético, ajuste neutro, bem como

os ajustes de natureza supralaríngea, fonatória e de tensão. O autor inicia o capítulo

relembrando os aspectos extrínsecos e intrínsecos abordados no capítulo 1 e

apresentando o conceito de setting. Os fatores intrínsecos são decorrentes da

anatomia do aparelho fonador do falante e os extrínsecos, ou settings, são derivados

de ajustes musculares de longo termo do aparelho fonador intrínseco.

Em seguida, é apresentada, de um ponto de vista histórico, a relação dos

settings e dos segmentos fonéticos. Laver aponta que o conceito é utilizado desde o

século XVII, mas que o termo setting foi utilizado primeiramente por Honikman (1964).

Posteriormente, são apresentados o ajuste neutro e os settings supralaríngeos,

fonatórios e de tensão do sistema vocal.

32

O modelo que o autor nos apresenta, o Modelo Fonético de Qualidade Vocal,

postula a existência de um ajuste neutro e todos os ajustes são descritos a partir de

alterações em relação a este. O ajuste neutro está relacionado a uma gama de ajustes

que acontecem de forma sincrônica em vários pontos do trato vocal. Esse ajuste é

assim descrito (LAVER, 1975, 1980):

i) os lábios não estão projetados nem estirados;

ii) a laringe não se encontra nem abaixada nem levantada;

iii) o diâmetro do trato vocal supralaríngeo se mantém praticamente

uniforme ao longo do seu comprimento;

iv) as articulações orais anteriores são realizadas pela lâmina da língua;

v) a raiz da língua não está nem avançada nem recuada;

vi) não há constrições no trato vocal;

vii) a mandíbula não está acentuadamente aberta ou fechada;

viii) a nasalidade só é ouvida nos segmentos caracterizados linguisticamente

por modo de articulação nasal;

ix) a vibração das pregas vocais é regularmente periódica;

x) uso eficiente da corrente de ar, sem geração de ruído;

xi) as pregas vocais vibram com tensão longitudinal e adutora moderada e

com compressão medial moderada;

xii) o montante de tensão muscular por todo o aparelho fonador não é alto,

nem baixo.

Laver (1975) define o ajuste neutro, do ponto de vista acústico, com a

frequência do primeiro formante em torno de 500 Hz e formantes mais altos com

valores múltiplos ímpares deste. Esses valores estão baseados em um trato vocal de

17 cm, sem que haja acoplamento com a cavidade nasal.

Os ajustes de natureza supralaríngea são os ajustes que se dão no nível

articulatório. Laver descreve três tipos de mudanças do trato vocal supralaríngeo em

relação ao ajuste neutro: longitudinais, latitudinais ou velofaríngeos.

Os ajustes longitudinais derivam de quatro tipos de deslocamento dos órgãos

da sua posição neutra: abaixamento laríngeo, elevação laríngea, protrusão labial e a

labiodentalização, que foi incluída como ajuste longitudinal em Laver (1980).

33

Os ajustes latitudinais referem-se à tendência em manter o efeito de

constrição ou expansão na seção transversal em algumas posições ao longo do

comprimento do trato vocal. Essas tendências são provocadas pelos lábios, língua,

faringe e mandíbula.

Os ajustes latitudinais labiais descritos na tese são:

i) expansão horizontal de espaço interlabial verticalmente neutro;

ii) expansão vertical de espaço interlabial horizontalmente neutro;

iii) constrição horizontal;

iv) constrição vertical;

v) expansão horizontal com expansão vertical;

vi) constrição horizontal com constrição vertical;

vii) expansão horizontal com constrição vertical;

viii) constrição horizontal com expansão vertical.

Os termos mais comuns utilizados para os ajustes labiais são:

i) lábios estirados, para a ocorrência de expansão horizontal;

ii) lábios arredondados, para a ocorrência de constrição horizontal;

iii) lábios arredondados e abertos, para a constrição horizontal com

expansão vertical;

iv) lábios arredondados e fechados, para constrição horizontal e constrição

horizontal com constrição vertical.

Os ajustes latitudinais linguais envolvem, no plano sagital, a ponta e lâmina

da língua, e o corpo a sua base. Utilizando a tradicional análise de ponto de

articulação, temos como settings de corpo de língua: dentalização, alveolarização,

palato-alveolarização, palatalização, velarização, uvularização, faringalização e

laringofaringalização.

Os ajustes de ponta e lâmina de língua são articulação de ponta, articulação

de lâmina e articulação retroflexa. Os ajustes de base de língua são língua avançada

e língua retraída.

Os ajustes dos arcos fauciais ou pilares podem comprimir a parte posterior do

trato vocal, mais precisamente a seção coronal posterior da língua, próximo à faringe.

34

O ajuste relacionado é a faucialização (tradução nossa). Sua principal função, no que

diz respeito à qualidade vocal, é contribuir com as características acústicas da

nasalidade.

Os ajustes faríngeos são responsáveis pelos movimentos de expansão e

constrição faríngea, e Laver os descreve como faringalização. Os movimentos

mandibulares ocorrem em quatro dimensões, a saber: vertical, horizontal, lateral e

rotacional. Os ajustes descritos por Laver são: abertura e fechamento e protrusão

mandibular.

Os ajustes velofaríngeos produzem voz nasal e denasal. Os ajustes de

natureza fonatória são ajustes que ocorrem na glote, de acordo com as características

vibratórias das pregas vocais. O ajuste neutro da fonação é denominado modal voice,

que pode ser do tipo voz de peito ou de cabeça. A voz modal é produzida com

moderada tensão longitudinal e adutora e moderada compressão medial, a vibração

das pregas vocais é regularmente periódica, com uso eficiente da corrente de ar e

sem geração de ruído.

Os ajustes fonatórios são, além da voz modal, os seguintes, a saber: falsetto,

whisper, creak, harshness e breathiness.

Laver aponta como características acústicas do falsetto a frequência

fundamental mais alta que na voz modal, o modo de vibração das pregas vocais com

alta taxa de vibração e contato apenas nas bordas livres, e declínio espectral

acentuado, da ordem de cerca de 20 dB por oitava.

O ajuste whisper é descrito como abertura triangular da glote e pouca

economia de ar.

A descrição do ajuste creak é conhecido como vocal fry ou glottal fry, baixa

frequência fundamental, com efeito auditivo de séries rápidas de batidas ou pulsos.

Laver descreve o ajuste harshness como característica acústica de irregularidade da

onda sonora. A característica auditiva é de um som áspero. O correlato fisiológico é a

tensão laríngea. O uso paralinguístico no Inglês denota raiva.

No ajuste breathiness, temos esforço muscular mínimo, modo de vibração das pregas

vocais insuficiente e leve fricção audível.

O autor divide os ajustes fonatórios em três tipos diferentes de categorias. Os

ajustes da primeira podem ocorrer sozinhos ou combinarem-se com outros tipos, mas

nunca podem acontecer simultaneamente; os ajustes modal e falsetto estão nessa

categoria, e não é possível produzi-los juntos. Os ajustes da segunda categoria podem

35

ocorrer sozinhos, simultaneamente, ou combinados com os ajustes da primeira

categoria; nessa categoria se encontram os ajustes whisper e creak.

Os ajustes da terceira categoria são elementos modificadores que ocorrem

apenas em tipos compostos de fonação; estão nessa categoria harshness e

breathiness. Laver esclarece que há incompatibilidade fisiológica entre os ajustes

breathiness e falsetto. De acordo com as categorias estabelecidas por Laver, os

ajustes fonatórios possíveis são: modal; whispery voice; creaky voice; whispery creaky

voice; harsh voice; breathy voice; harsh whispery voice; harsh whispery creaky voice;

whisper; whispery creak; falsetto; whispery falsetto; creaky falsetto; whispery creaky

falsetto; harsh falsetto; harsh whispery falsetto; harsh creaky falsetto; harsh whispery

creaky falsetto; creak.

Os ajustes de tensão muscular inerentes ao trato vocal supralaríngeo e ao

mecanismo fonatório da laringe resultam em trato vocal tenso ou relaxado e laringe

tensa ou relaxada.

No capítulo 4, “A Semiotic View of Spoken Comunication”, Laver analisa, do

ponto de vista semiótico, os atributos sociais do falante e a relação entre as qualidades

de voz e as características fonéticas, além de refletir sobre as implicações desta

relação para a teoria linguística de uma maneira geral e, mais especificamente, a partir

do olhar sociológico. No apêndice, o autor apresenta dois artigos (LAVER, 1967,

1968), além da gravação de 72 amostras de fala com exemplos de ajustes de

qualidade vocal.

Em 1980, John Laver lançou o livro “The phonetic description of voice quality”.

A partir daí, o Modelo Fonético de Qualidade Vocal é apresentado e, inspira o VPAS

– Vocal Profile Analysis Scheme (Laver et al, 1981). De maneira geral, o livro é o

capítulo 3 da tese apresentada acima, com o acréscimo de considerações, das quais

destacamos as características: descritiva, de replicabilidade e integrativa do modelo;

atomística; relações entre os segmentos fonéticos e os settings; princípios que regem

as relações entre os ajustes; usos paralinguísticos dos ajustes fonatórios.

Laver explicita as características do modelo fonético na introdução do livro,

esclarecendo que o modelo é científico por não partir de descrições baseadas em

impressões, e é descritivo por sistematizar a análise auditiva e buscar correlatos de

natureza articulatória, fisiológica e acústica, o que também marca a característica

integrativa do mesmo.

36

A característica replicável também é apontada, visto que juízes podem ser

treinados para o uso desse método de análise. Devido à possibilidade de localização

dos pontos do aparelho fonador relacionados aos efeitos sonoros detectados

auditivamente, o modelo possui natureza atomística.

Sobre as relações entre os segmentos fonéticos e os settings, Laver esclarece

que a diferença entre segmento fonético e setting está relacionada ao tempo. Os

segmentos fonéticos são curtos, enquanto que os settings são ajustes de longo termo.

Os segmentos fonéticos são ações momentâneas e o setting ocorre sobreposto a ele

no aparelho fonador.

O princípio que regula a relação entre os settings de qualidade vocal e os

segmentos é o da suscetibilidade. Esse princípio baseia-se no grau de vulnerabilidade

dos segmentos em relação aos ajustes. Quando o ajuste apresenta características

distintas do segmento, ele se torna mais influenciável pelo “setting”. É o que

chamamos de “segmento suscetível”.

Sobre os usos paralinguísticos dos ajustes fonatórios, o autor ressalta que o

ajuste falsetto possui função paralinguística em muitas culturas, como na língua Maia,

em que o ajuste possui aspecto honorífico. O ajuste whisper é utilizado de maneira

paralnguística para sinalizar segredo ou confidencialidade. O ajuste creak é apontado

como regulador da interação na troca de turno. O uso do ajuste breathiness demonstra

intimidade.

Além disso, o livro apresenta de maneira mais explícita, em seu primeiro

capítulo, os princípios que regem as relações entre os ajustes, que são os princípios

de interdependência e de compatibilidade. O princípio da interdependência ocorre nos

níveis acústico e fisiológico e se baseia no fato de que um ajuste possa interferir no

outro, tornando sua execução facilitada ou alterando-a. Alguns ajustes podem ocorrer

de forma interdependente do trato vocal laríngeo e supralaríngeos.

O princípio da compatibilidade ocorre no nível fisiológico, auditivo e acústico

e se baseia no fato de que, na relação entre os ajustes, pode acontecer: apagamento

de um deles devido à incompatibilidade; acréscimo nos efeitos devido à

compatibilidade; decréscimo da proeminência do ajuste mais vulnerável. É importante

ressaltar a importância da relação entre ajuste e anatomia: a anatomia do indivíduo

irá determinar o grau de facilidade do sujeito na produção do ajuste.

37

Ao final da publicação, encontramos uma convenção escalar para os padrões

de qualidade vocal e um sistema notacional que é demonstrado em uma lista de

símbolos e diacríticos para a notação dos ajustes.

O modelo descritivo de qualidade de voz motivou a criação do roteiro para

anotação de ajustes de qualidade de voz VPAS. A primeira versão do roteiro surgiu

em 1981 (LAVER et al., 1981). Outras versões surgiram em 2000 (LAVER, 2000) e

em 2007 (LAVER, MACKENZIE-BECK, 2007). A versão de 1981 serviu de inspiração

para a criação de um roteiro (ANEXO 1) para avaliação de qualidades de voz

disfônicas (CASSOL, BEHLAU, MADUREIRA, 1998). A versão de 2007 foi traduzida

e adaptada para o português por Camargo e Madureira (2008).

3.2 Características do VPAS e sua aplicabilidade

O roteiro VPAS foi criado a partir do modelo fonético de qualidade vocal que

tem por unidade de análise o setting ou ajuste. Podemos entender o ajuste como uma

tendência do falante em manter uma postura fonatória ou articulatória por certo

período de tempo. Todos os ajustes são propostos e descritos em relação a um ajuste

de referência, o ajuste neutro.

O roteiro possibilita uma avaliação perceptiva de qualidade vocal em termos

das seguintes categorias de ajustes: de trato vocal, fonatórios, de tensão muscular e

prosódicos.

O VPAS permite avaliar os graus de ajustes utilizando uma escala numérica

de 1 a 6, em que o grau “1” está relacionado a uma pequena diferença em relação ao

ajuste neutro, o grau “2” para uma leve diferença em relação ao ajuste neutro, o grau

“3” para moderada diferença em relação ao ajuste neutro. Desse modo, os graus 1, 2

e 3 se referem aos ajustes compatíveis com a fala normal. Os graus 4, 5 e 6 estão

relacionados com as alterações vocais, sendo o grau “4” relacionado a uma notável

diferença em relação ao ajuste neutro, o grau “5” para marcante diferença em relação

ao ajuste neutro e o grau “6” para extrema diferença em relação ao ajuste neutro.

A aplicação do roteiro é dividida em duas passadas. Na primeira passada, o

objetivo é ouvir a amostra de fala e identificar os ajustes não neutros nas seguintes

categorias: ajustes de trato vocal (ou supralaríngeos); ajustes fonatórios; ajustes de

tensão muscular; elementos de dinâmica vocal.

38

A segunda passada é dividida em duas partes. Na primeira parte, o juiz deve

ouvir novamente a amostra de fala, prestando atenção nos segmentos susceptíveis

para identificar de que maneira os ajustes não neutros são produzidos. Na segunda

parte, cada ajuste não neutro deve ser graduado com base no desvio da neutralidade.

A gradação varia de 1 a 6.

É importante observar como ocorre a identificação dos graus nas diferentes

categorias. Nas categorias do trato vocal e de tensão muscular, a identificação do grau

ocorre da seguinte forma: quando o juiz considera que há um ajuste moderado, deve

escolher entre o grau 1 e 3. Quando o ajuste ocorre de forma severa, o juiz deve

escolher entre os graus 4 e 6. Na categoria fonatória, a gradação ocorre em relação

ao ajuste neutro. Nos ajustes em que predomina o ajuste modal (neutro) em relação

a outro ajuste associado, o juiz deve graduar entre 1 e 3. Nos ajustes em que

predomina o outro ajuste associado em relação ao ajuste modal (neutro), o juiz deve

graduar entre 4 e 6.

Devido à abrangência e à possibilidade de descrição vocal precisa e

detalhada que o Modelo Fonético de Descrição de Qualidade Vocal oferece, o roteiro

VPAS é um instrumento utilizado em pesquisas dos mais diversos fins. De acordo com

Camargo e Madureira (2008b, p. 94):

a aplicabilidade do VPAS em nosso meio pode significar um importante avanço nas atividades clínicas e científicas na área de voz, cobrindo as necessidades daqueles que procuram por reabilitação e assessoria vocal, que estudam as variantes regionais e o reconhecimento de falantes.

Mackenzie-Beck (2005) detalha algumas aplicações do roteiro, tais como:

definição de bases de normalidade; o estudo da qualidade vocal na interação entre

mães e filhos; estudos de populações; a relação entre qualidade vocal e afeto;

estudos sobre atribuição de intenção de acordo com as características da qualidade

vocal; ensino de língua estrangeira; ensino de teatro; fonética forense e aplicações

clínicas. Além disso, a autora apresenta temas para pesquisas futuras, como: dados

normativos sobre línguas diferentes, características relacionadas a sotaque, gêneros

e a faixas etárias; aspectos tonais e comunicação não verbal; e pesquisas mais

rigorosas para aplicações clínicas.

39

As aplicações do roteiro destacadas por Mackenzie-Beck têm sido alvo

privlegiado de pesquisas no âmbito do Laboratório Integrado de Análise Acústica e

Cognição (LIAAC), da Pontifícia Universidade Católica de São Paulo.

Apresentaremos, a seguir, trabalhos de pesquisa, desenvolvidos no LIAAC,

que se pautaram pelo modelo fonético de descrição de qualidades de voz e pela

aplicação do roteiro VPAS à clínica fonoaudiológica, à análise de expressividade da

fala e à descrição de línguas.

3.3 Aplicações do roteiro VPAS em trabalhos de pesquisa

a) Pesquisas realizadas pelo Laboratório Integrado de Análise Acústica e

Cognição (LIAAC), da PUC-SP, sobre qualidade vocal nas patologias:

Camargo (2002, p. 30), defende a perspectiva fonética adotada por Laver e

seu uso na clínica fonoaudiológica, pois acredita que “a descrição fonética pode

colaborar para a mudança do panorama de dissociação entre qualidade vocal e fala”.

A adoção do modelo na Fonoaudiologia torna possível o estudo da produção sonora

pelo aparelho fonador a partir das correlações acústicas, perceptivas e fisiológicas.

Na referida obra de 2002, Camargo realizou um estudo sobre qualidade vocal

na paralisia unilateral da prega vocal ou fibrose de região glótica. A autora investigou

através de análise acústica e eletroglotográfica de amostras de fala (emissões da

vogal [a] e fala encadeada), de quatro falantes disfônicos do sexo feminino, na faixa

etária de 51 a 72 anos. Também analisou um sujeito do mesmo sexo e faixa etária,

sem alterações vocais, para servir de referência. Os resultados da pesquisa apontam

a importância e correlação entre espectros de longo e de curto termo.

Para a análise perceptiva, o VPAS foi o protocolo utilizado. Na investigação

da fisiologia, foi possível estabelecer relações entre os resultados dos exames

eletroglotográficos e laringológicos, e estes também se correlacionaram aos

resultados da análise acústica. A autora aponta a importância da análise integrada.

Cukier (2006) investigou a qualidade vocal de um grupo de indivíduos

asmáticos com e sem disfunção paradoxal de pregas vocais em relação a um grupo

de indivíduos sem problemas respiratórios. Para a avaliação perceptiva das vozes

utilizou o roteiro VPAS conforme proposta de Camargo (2002).

40

Camargo e Madureira (2009) investigaram as alterações de qualidade vocal

nas disfonias, através da análise perceptual e de correlatos acústicos e fisiológicos. O

grupo estudado era composto de 4 falantes do sexo feminino, entre 51 e 72 anos, com

algum grau de incompetência glótica e de uma falante referência de 52 anos sem

alterações vocais. Foram coletadas amostra de fala por meios acústicos e

eletroglotográficos, e dados de exame otorrinolaringológico. Os sujeitos leram três

vezes um texto, emitiram vogais (três vezes a vogal [a:], e três vezes [a/a/a]).

A análise perceptiva foi realizada através de julgamentos da qualidade vocal

e reconhecimento de fala. Na análise acústica, foram utilizados procedimentos de

análise de longo e curto termo. Das amostras de EGG, foram extraídas medidas de

f0, coeficiente de contato, jitter, shimmer e índice de velocidade. Através de exame

otorrinolaringológico, a função laríngea foi observada e foram descritos o fechamento

glótico, periodicidade, simetria de fase e amplitude, onda mucosa, indícios de

atividade supraglótica e detalhamento das fases de ciclo vibratório.

Os resultados da pesquisa demonstram a validade do uso do protocolo VPAS.

Através desse estudo, foi possível observar correlações entre a análise perceptiva e

as descrições acústicas e fisiológicas. Além disso, a análise acústica revelou

correspondência entre os resultados das análises de longo e curto termo. Os

resultados do EGG também puderam ser correlacionados às informações obtidas por

meio da avaliação otorrinolaringológica.

Canheti et al (2012) investigaram, dos pontos de vista perceptivo e acústico,

característica de voz e fala de mulheres asmáticas e disfônicas, a fim de verificar o

uso de ajustes de qualidade de voz e a produção e percepção de plosivas não

vozeadas.

Para a investigação da produção das plosivas, na análise acústica, foram

extraídos Voice Onset Time (VOT) e duração das vogais adjacentes; na análise

perceptiva, foram investigados aspectos fonatórios e de trato vocal. Para a

investigação da percepção das plosivas, foi realizado teste de reconhecimento

auditivo.

Os resultados da investigação do plano acústico foram valores de VOT e

duração com diferenças estatísticas para [p], [t], [k]. Na percepção das plosivas,

alterações foram encontrados para [p], [t], seguidos de [b], [d] no grupo disfônico.

Sobre a qualidade vocal, o grupo disfônico apresentou em maior frequência ajustes

41

glóticos (como voz áspera, soprosa e hiperfunção) e supraglóticos (corpo de língua

abaixado).

Pessoa (2012) investigou, dos pontos de vista fonético acústico e perceptivo,

a qualidade vocal em amostras de fala de crianças com deficiência auditiva, usuárias

de implante coclear. A análise perceptiva compreendeu a avaliação auditiva da

qualidade de voz realizada por meio do roteiro VPAS-PB e o julgamento de descritores

semânticos com o auxílio de questionário de diferencial semântico. A adoção desses

procedimentos conjugados permitiu a elaboração do perfil da população investigada

na pesquisa.

Medina (2013) investigou, sob as perpectivas fonético-acústica e perceptiva

perfis de qualidade de voz de indivíduos portadores da síndrome de imunodeficiência

adquirida. Utilizou para a constituição dos perfis, o VPAS.

Cury (2014) pesquisou, através de análise acústica e perceptiva, a fala do

acromegálico. Devido às alterações fisionômicas de trato vocal ocorridas por conta do

excesso do hormônio do crescimento, é típico da acromegalia o alargamento do nariz,

aumento labial, prognatismo, má oclusão dentária, macroglossia e aumento das

extremidades. Em consequência, são esperadas alterações na fala e voz desses

indivíduos.

A autora avaliou amostras de fala de vogais e realizou medidas

antropométricas faciais. Para a análise acústica, extraiu as frequências dos formantes

(F1, F2, F3 e F4). Para a análise perceptiva, o protocolo VPAS foi utilizado por três

juízes.

Sobre a análise acústica, as frequências dos formantes F3 e F4 puderam ser

relacionadas a ajustes de dimensão faríngea e altura e laringe. Sobre a qualidade

vocal, os ajustes de extensão diminuída e protraída de mandíbula, hipofunção laríngea

e corpo de língua recuado se evidenciaram entre o grupo de falantes acromegálicos.

b) Pesquisas realizadas pelo Laboratório Integrado de Análise Acústica e

Cognição (LIAAC), da PUC-SP, sobre qualidade vocal e expressividade da fala e

línguas:

O estudo de Madureira (1996) analisou o papel dos aspectos prosódicos,

especialmente a qualidade de voz, na expressão de efeitos de sentido, considerando

as relações que se estabelecem entre a matéria fônica e sentido, considerando as

42

relações que se estabelecem entre matéria fônica e sentido, e os recursos fônicos na

construção de estilos no discurso oral.

Chun (2000) abordou o estudo de voz sob a perspectiva da

multidimensionalidade, focando o estudo da voz na interação social. Como base

teórica para a conceituação da qualidade de voz, utilizou o modelo fonético de

descrição de qualidade de voz desenvolvido por Laver (1980). Sua pesquisa forneceu

evidências do uso de variação de qualidades de voz na interação social, concluindo

que a interação transforma a voz.

Bonfim et al (2007) aplicaram o roteiro VPAS com o intuito de investigar as

características dos falantes adultos de João Pessoa. As autoras encontraram a

incidência de ajustes de corpo de língua, sendo predominantes, nos falantes

masculinos, os ajustes de laringe baixa, corpo de língua retraído e voz crepitante. Nos

falantes do gênero feminino, foram encontrados com maior frequência os de

mandíbula aberta, corpo de língua retraído, corpo de língua abaixado e voz soprosa.

Camargo, Madureira e Schmitz (2013) investigaram a dinâmica e a qualidade

vocal da fala bilíngue do ponto de vista acústico e perceptivo. Os autores utilizaram

amostras de fala semiespontânea e leitura de textos em inglês, espanhol e português.

Para a análise perceptiva, foi utilizado o roteiro VPAS-PB. Para a avaliação

acústica, as medidas f0, primeira derivada de f0 (df0) e intensidade em longo termo,

incluindo medidas de declínio espectral. Para tal, foi utilizado o script SGExpression

Evaluator (BARBOSA, 2009). Os resultados evidenciaram a importância da qualidade

de voz para o estudo do multilinguismo.

Fontes (2014) investigou as funções da prosódia gestual (vocal e visual) na

avaliação de emoções básicas e valência. Para isso, o autor utilizou testes de

avaliação perceptiva e caracterização de propriedades acústicas e visuais. Para a

análise acústica, foi utilizado o script ExpressionEvaluator. Para os testes percepção

de valência e das emoções básicas, foi utilizado o ambiente GTrace, que contou com

a participação de 34 juízes. Para a descrição de gestos faciais, foram usadas variáveis

de movimentação e direcionalidade em roteiro para avaliação de gestos faciais. Para

a descrição de ajustes de qualidade vocal, foi utilizado o VPAS-PB.

Para correlacionar as variáveis da pesquisa, foram utilizados testes não

paramétricos. Fontes (2014) identificou que os ajustes de laringe elevada e pitch

elevado (que foram avaliados através do VPAS-PB), e as medidas acústicas mednf0

43

e quan995f0 foram as que apresentaram o maior peso na correlação entre a

expressão de emoções na fala e a gestualidade vocal.

Madureira e Fontes (no prelo) investigaram a expressividade da fala com base

em análises perceptiva e acústica. Para tal, analisaram trecho em vídeo de poema

recitado por Paulo Autran. Para a análise, foram utilizados os seguintes protocolos:

VPAS para a análise perceptiva de qualidade de voz e de dinâmica vocal; SDK

Affectiva para a análise dos gestos faciais; um questionário de análise de composição

semântica para avaliar usos expressivos de fala, bem como o script

ExpressionEvaluator para a análise acústica. As correlações entre características

faciais, vocais, acústicas e semânticas são discutidas e processadas em vários níveis

por meio de análise estatística multidimensional.

A investigação sobre a expressividade da qualidade vocal sob a perspectiva

do modelo fonético de descrição da qualidade vocal também foi realizada para enfocar

o canto (Salomão, 2008; Menegon 2013), a locução publicitária (Fontana, 2012), a

declamação (Viola, 2006) e o estilo de locução profissional (Madureira, Fontes e

Fonseca, 2016).

c) Pesquisas realizadas pelo Laboratório Integrado de Análise Acústica e

Cognição (LIAAC), da PUC-SP, sobre treinamento para a aplicação do VPAS:

Em 2008, Camargo e Madureira (2008a) traduziram e adaptaram o roteiro

VPAS para o Português Brasileiro, a qual denominaram VPAS-PB. A versão foi

proposta a partir do modelo de LAVER e MACKENZIE-BECK (2007). As alterações

realizadas pelas autoras levaram em consideração os avanços nas pesquisas em

fisiologia e sinal de fala.

As principais mudanças são relativas aos aspectos fonatórios, principalmente

acerca dos termos escape de ar e irregularidade laríngea. Na tradução para o

português, o breathiness costuma ser referido pelo termo soprosidade. No modelo de

Laver, whisper significa escape de ar, e breathiness pode ser compreendido como o

que entendemos como murmúrio.

Para a adaptação do VPAS para o português brasileiro, Camargo e Madureira

revisaram a terminologia com o objetivo de adequar os termos por equivalência à

semântica, facilitando a assimilação dos conceitos pelos pesquisadores brasileiros,

visto que, no Brasil, o termo voz soprosa tem paridade com o que John Laver chamaria

44

de whispery voice. Sendo assim, o VPAS na versão brasileira utiliza whispery voice

para voz soprosa e breathy voice para voz murmurada. O termo voz murmurada é

muito utilizado em fonética descritiva, mas não foi incorporado na tradução.

Camargo e Madureira (2008a), no relato sobre a aplicação do VPAS no

contexto brasileiro, descrevem o seguinte processo: investigação dos usos linguístico,

paralinguístico e extralinguístico da qualidade vocal e a investigação dos correlatos

acústicos e fisiológicos por meio do uso de eletroglotografia, laringoestroboscopia e

videoquimografia. Além disso, as autoras mostram como se deu a introdução do

modelo em workshops, o material instrucional e o treinamento de juízes para a

aplicação do roteiro.

Camargo e Madureira (2008) apontam que os aprendizes tiveram maior

dificuldade no julgamento dos ajustes corpo de língua recuado e expansão faríngea.

Foi possível perceber que os aprendizes linguistas tiveram maior facilidade em relação

aos ajustes supralaríngeos, enquanto os aprendizes fonoaudiólogos foram melhores

nos ajustes laríngeos.

As autoras acreditam que a facilidade dos linguistas em relação aos ajustes

supralaríngeos ocorreu porque a terminologia é baseada na descrição fonética

segmental, enquanto que os fonoaudiólogos tiveram maior facilidade nos ajustes

laríngeos porque, na clínica fonoaudiológica, a atividade laríngea é bastante estudada.

As autoras também apresentam como dificuldades dos aprendizes a identificação de

ajustes compostos.

Camargo e Madureira (2010) apresentaram pesquisa que buscou descrever

os ajustes de qualidade vocal através de medidas de longo termo, frequência e

intensidade. Foram utilizadas amostras de fala que integram o material desenvolvido

com o propósito de introduzir o VPAS no contexto brasileiro.

O corpus foi elaborado com base no princípio de susceptibilidade e conta com

509 enunciados, sendo 52 amostras de fala semiespontânea e 457 repetições de

sentenças-chave. Os enunciados foram gravados por 38 sujeitos, de 20 a 58 anos,

sendo 10 homens e 28 mulheres. As gravações foram avaliadas por duas foneticistas

e integraram o material instrutivo do VPAS-PB, como exemplos de ajustes laríngeos,

supralaríngeos e de tensão. Para a análise acústica, foi utilizado o script SG

Expression Evaluator, desenvolvido por Barbosa (2009).

Os resultados contemplam as correlações entre análise perceptiva e acústica,

principalmente para os ajustes de ponta de língua recuada, voz crepitante, extensão

45

limitada de lábios, hiperfunção laríngea e extensão limitada de mandíbula. Dessa

forma, os resultados atestam a importância da descrição de qualidade vocal com base

na correlação entre medidas acústicas de longo termo e análise perceptiva, além de

apontar o papel dos segmentos chave no corpus criado para avaliação de qualidade

vocal.

3.4 Reflexões sobre descrição de perfil de qualidade vocal

Kreiman e Sidtis (2011) questionam a maneira como a qualidade vocal tem

sido descrita ao longo da história, através da criação e uso de listas de termos

descritores, baseadas em critérios perceptivos. As autoras comparam três listas de

termos descritores de qualidade vocal, uma criada antes de Cristo e duas modernas.

A partir dessa comparação, Kreiman e Sidtis puderam demonstrar que o modo

de descrição de qualidade vocal, baseada na percepção dos ouvintes, não mudou em

2000 anos. Além disso, os poucos progressos conseguidos nas pesquisas de

qualidade vocal de natureza perceptual foram na determinação da identidade do

falante no que se refere a características como gênero e idade.

Uma questão importante abordada pelas autoras diz respeito ao número

reduzido de sujeitos que costumam participar de estudos para o desenvolvimento de

protocolos de análise perceptual de qualidade vocal. Sobre isso, Kreiman e Sidkis

citam o protocolo GRBAS, que foi elaborado a partir dos resultados de análises de

cinco vogais produzidas por 16 falantes apenas.

A respeito do Modelo Fonético de Qualidade Vocal, as autoras apontam como

limitação o fato de que o modelo perceptivo em termos de processos de produção de

fala não estabelece ou documenta referência para o ouvinte; além disso, questionam

a possibilidade de os ouvintes serem hábeis para distinguir diferentes aspectos

auditivos.

Assim, Kreiman e Sidtis postulam que as pesquisas sobre qualidade vocal

baseadas em critérios estritamente perceptivos não conseguem chegar a níveis

desejáveis de fiabilidade e validade. As autoras também afirmam que as medidas

instrumentais de aerodinâmica, acústica ou eventos psicológicos prometem maior

precisão, fiabilidade e replicabilidade.

Sobre a crítica de Kreiman e Sidtis a respeito da habilidade para distinguir

aspectos auditivos, como apresentamos no tópico “Pesquisas realizadas pelo

46

Laboratório Integrado de Análise Acústica e Cognição (LIAAC), da PUC-SP, sobre

treinamento para a aplicação do VPAS”, Camargo e Madureira (2008a) descrevem o

processo de treinamento do protocolo VPAS e concluem que existe uma tendência

dos grupos de alunos com formação em Linguística apresentarem maior facilidade

nos ajustes supralaríngeos, devido a terem conhecimentos sobre a terminologia

baseada na descrição fonética segmental; enquanto que o alunos fonoaudiólogos,

tendem a ser mais hábeis nos ajustes fonatórios, pelo fato dos mesmos serem

enfocados na terapia de voz. O treinamento fez com que ambos os grupos passassem

a ter melhor desempenho na descrição dos tipos de ajustes com os quais não estavam

familiarizados.

Assim, a habilidade para distinguir aspectos auditivos é treinável, e os

conhecimentos prévios do aluno influenciam nos tipos de ajustes que serão

aprendidos com maior facilidade.

Sobre os baixos níveis de precisão e objetividade, que Kreiman e Sidtis (2011)

acreditam existir nas pesquisas sobre qualidade vocal, baseadas em critérios

estritamente perceptuais, consideramos importante trazer o entendimento de

Mackenzie-Beck (2005) sobre a questão. A autora entende como errônea a ideia de

que técnicas instrumentais são “objetivas”, e técnicas perceptuais são “subjetivas”,

ressaltando que muitas técnicas instrumentais envolvem julgamentos das pessoas

que as operam e, por isso, também podem ser consideradas subjetivas.

Ainda sobre a questão, no estudo de Fontes (2014) sobre o papel dos gestos

vocal e gestual na identificação da valência das emoções, em que o autor utilizou

testes de avaliação perceptiva e caracterização de propriedades acústicas e visuais,

o VPAS foi o protocolo que apresentou maior força de representação do espaço

vetorial, entre as variáveis investigadas.

Sobre o uso da análise perceptiva para fins forenses, Mackenzie-Beck (2005)

cita um estudo em que foram realizadas 120 comparações de pares de um banco de

dados de perfis vocais de oradores escoceses. O exame mostrou que 14,2% (17)

destas comparações podem ser descritas como vozes "gêmeas", na medida em que

não há diferenças nos ajustes em mais de um grau na escala (1988). Por isso, a autora

considera necessário cautela o uso da análise perceptiva para fins forenses pois, de

acordo com este estudo, dois perfis vocais quase iguais podem ser identificados como

se tivessem, equivocadamente, sido produzidas pelo mesmo sujeito.

47

Sobre a posição de Mackenzie-Beck a respeito do uso da análise perceptiva

para fins forenses, é importante esclarecer que concordamos com o uso do método

combinado de análise acústica e perceptiva para o exame de identificação de falantes.

Percebemos a falta de um protocolo único para o uso forense e entendemos que a

análise perceptiva é complementar da análise acústica em situações reais de

identificação forense de locutores.

Sobre o uso da análise da qualidade vocal na identificação de falantes, Nolan

(2005) constata que a descrição de qualidade vocal não tem tido um papel maior na

identificação forense do falante e apresenta algumas razões para isso. De acordo com

o autor, as principais razões para a falta da análise de qualidade vocal em Fonética

Forense são a qualidade de amostras; considerações práticas de tempo e variação

de estilo; a falta de conhecimento do método e de formação de foneticistas em

treinamento auditivo baseado no modelo fonético.

Sobre a qualidade das amostras, Nolan explica que gravações incriminatórias,

normalmente, são realizadas através do telefone, que possui uma limitação de banda

(300 Hz - 3500 Hz) que prejudica a percepção de vozes com características como

soprosidade e sussurro, e dependência da presença de ruído em paralelo com a fonte

de voz. Além disso, todas as manifestações acústicas de qualidade de voz podem ser

distorcidas devido a essa limitação, que é inerente ao tipo de transmissão (telefônica)

Sobre o tempo, Nolan argumenta que as amostras de fala precisam ser

avaliadas em cerca de 40 ajustes diferentes, a maioria dos quais requerem escuta

atenta e repetida, o que demanda um tempo considerável dedicado a esta parte da

identificação de falantes. Sobre a variação de estilo, o autor relata que o estilo de fala

em duas amostras de um mesmo falante pode ter características bastante

diferenciadas.

Nolan (2005) defende que foneticistas treinados em descrever o perfil de

qualidade vocal tem vantagens sobre os demais profissionais sem essa formação

específica, principalmente porque existem tarefas em fonética forense em que as

amostras de fala são de boa qualidade, o que facilita a descrição de vozes.

Além disso, a expertise em descrever perfis de qualidade vocal permite que o

foneticista filtre as amostras que são apresentadas a uma testemunha, através da

48

avaliação de algum componente de qualidade de voz marcante ou inadequado,

diminuindo o tamanho do lineup2 e facilitando a tarefa da testemunha.

Sobre a falta de conhecimento do método e de formação de foneticistas em

treinamento perceptivo baseado no modelo fonético, é importante ressaltar que o

treinamento é possível de ser realizado. O Laboratório Integrado de Análise Acústica

e Cognição (LIAAC), da PUC-SP, promove treinamento auditivo para o uso do roteiro

VPAS. No Workshop on Vocal Profile Analysis, realizado em abril de 2016 na Unicamp

e coordenado por Eriksson e Barbosa, as foneticistas Camargo e Madureira,

especialistas no roteiro, apresentaram como realizam o treinamento para a formação

de juízes na aplicação do roteiro (2016). O treino é composto das seguintes tarefas:

i) aprender a identificar os segmentos chave;

ii) aprender a produzir os settings;

iii) aprender a distinguir os settings neutros e não neutros;

iv) aprender a identificar os settings não neutros;

v) aprender a distinguir settings que causem impressões auditivas

semelhantes;

vi) ouvir amostras pareadas a fim de identificar a gradiência;

vii) exposição a pistas auditivas e visuais para a aprendizagem dos settings

de língua e mandíbula.

3.5 O uso do VPAS no contexto forense

A maioria dos estudos sobre qualidade vocal estão relacionados às disfonias,

por isso, a avaliação perceptiva é mais utilizada na clínica, tendo sido pouco estudada

na comparação de falantes.

Eriksson (2012) argumenta que descrições vocais são primariamente

baseadas na audição e, por isso, são subjetivas. Em decorrência disto, de acordo com

o autor, até aquele momento – 2012 – não existia nenhuma pesquisa que relacionasse

descrições vocais e as atividades no âmbito forense. Atualmente, de acordo com o

2 Lineup, em inglês, significa alinhar. No contexto da Fonética Experimental, um lineup é um arquivo de

áudio que o foneticista edita, com o objetivo de apresentar diversas vozes. Entre as amostras de vozes, coloca-se uma pausa para facilitar a audição dos ouvintes.

49

pesquisador3, o protocolo é utilizado com esse fim na Alemanha, no Brasil e no Reino

Unido.

Segundo Anders, na Alemanha, a polícia (Bundeskriminalamt (BKA)) utiliza

uma versão simplificada do protocolo (ANEXO 2) associada ao GRBAS. O GRBAS

seria usado na avaliação da fonte glótica e o VPA para os ajustes supraglóticos.

Acreditamos que o uso integrado das duas avaliações possa ocorrer por alguns

possíveis fatores:

i) dificuldades no treinamento auditivo para uso do VPA, principalmente

por profissionais linguístas, pode levar os peritos a preferir o uso da

GRBAS;

ii) a polícia alemã pode estar mais acostumada com o GRBAS e, por isso,

se sentir mais segura para aplicá-lo. A natureza exclusivamente

fonatória do GRBAS não é suficiente para avaliação perceptiva no

contexto forense, o que justifica o uso do VPA como complemento para

a investigação dos ajustes supraglóticos;

iii) a polícia alemã pode estar em um período de adaptação e transição

entre protocolos.

No Brasil, a Capacitação Nacional para Peritos Criminais em Fonética

Forense instrui os peritos a utilizarem o método combinado. De acordo com Tonaco e

Silva (2016), parte dos peritos da Polícia Federal adotaram o uso do VPAS-PB

(ANEXO 3) na perícia de Identificação de Falantes.

Atualmente, no Reino Unido, Foulkes, French e colaboradores (2015)

exploram métodos para caracterização de vozes. Nesse estudo, juntamente a

algumas medidas acústicas (MFCC e LTFD), os estudiosos investigam a análise

perceptiva para uso forense através do roteiro VPAS. Os autores concluíram que,

enquanto as medidas acústicas apresentavam informações semelhantes entre si, a

análise perceptiva apresenta informações complementares, bastante relevantes para

a caracterização vocal. Para tal, utilizam uma versão modificada do VPAS (ANEXO

4).

3 Anders Eriksson apresentou o panorama atual sobre o uso do protocolo VPA no contexto forense, no Brasil e no mundo, em sua palestra intitulada “Vocal Profile Analysis, part 1: what kind of scales are there?” no Workshop on Vocal Profile Analysis, evento que ocorreu em abril de 2016, na Unicamp.

50

San Segundo e Mompean (2017) elaboraram um roteiro perceptivo

simplificado para a avaliação da qualidade da voz, com base no VPAS, com o objetivo

de “reduzir problemas típicos associados à multidimensionalidade da qualidade da voz

e permitir uma quantificação fácil da similaridade dos falantes” (2017). No estudo, os

autores avaliaram vozes de 24 falantes masculinos (12 pares de gêmeos

monozigóticos) do espanhol Peninsular Padrão utilizando VPAS em versão

simplificada (ANEXO 5). Com base em suas classificações perceptivas, foi calculado

um índice de similaridade de falante entre pares gêmeos e entre pares não-gêmeos.

De acordo com os autores, os resultados mostram que os pares de gêmeos são, em

média, mais parecidos que os pares não-gêmeos.

San Segundo e Mompean defendem que o VPAS Simplificado proposto é um

protocolo confiável para a caracterização perceptiva de qualidade de voz, e que pode

ser uma ferramenta útil para a avaliação da similaridade do falante. Nessa versão, os

autores reduzem o número de configurações do roteiro original e retiram as

graduações, e acreditam que o roteiro em versão simplificada apresenta potencial em

campos como fonética forense, nas áreas relacionadas de pesquisa de voz e prática

profissional.

San Segundo e Mompean resumem as simplificações realizadas no VPAS

em :

i) redução de 36 configurações para 22;

ii) 10 principais tipos de ajustes com 22 configurações possíveis dentro

desses tipos;

iii) não há graduação, apenas o uso de uma classificação binária

(neutro/não neutro);

iv) não há marcação de ajustes intermitentes;

v) o roteiro permite a inclusão de descrições holísticas.

A escolha do protocolo VPAS-PB para esta pesquisa se deu por este ser um

instrumento capaz de descrever um conjunto de ajustes de trato vocal, fonatórios e de

dinâmica vocal, o que possibilita a descrição do perfil vocal do falante. Acreditamos

que a aplicação de versões reduzidas do instrumento (SAN SEGUNDO, MOMPEAN,

2017) pode comprometer resultados, pois, devido à característica integrativa da

proposta, é o conjunto de ajustes combinados que possibilita a descrição detalhada

do perfil vocal do falante.

51

Entendemos que a retirada de ajustes como, por exemplo, os de mandíbula

protraída e labiodentalização, com a justificativa de serem “raros”, são um equívoco,

pois a experiência clínica em Fonoaudiologia mostra que tais ajustes ocorrem com

frequência (ANDRADE F.V. et al., 2005; MACIEL C.T.V. et al., 2006; DAENECKE S.

et al., 2006; TAUCCI R.A. e BIANCHINI E.M.G, 2007; ALÉSSIO C.V. et al., 2007;

PEREIRA A.C. et al., 2007; GENARO K.F. et al., 2009; METZGER A.L.T. et al., 2009;

SÍGOLO S. et al., 2009; MEZZOMO C.L. et al., 2011; MARTINELLI R.L.C., 2011;

PEREIRA J.B.A. e BIANCHINI E.M.G., 2011).

Outra questão importante a ser analisada, no que se refere ao modelo

reduzido do VPAS, é a falta de graduação dos ajustes. Para exemplificarmos o

equívoco que esta falta provoca, podemos imaginar um exame de identificação de

falantes, em que duas vozes são descritas como do tipo soproso, mas uma apresenta

soprosidade em grau leve, e a outra está próxima da afonia. O uso do roteiro VPAS

em versão reduzida, por não ter a devida graduação, pode levar a equivalência entre

vozes com características distintas.

Devido à importância da questão, retomaremos a problemática da

simplificação do roteiro de descrição de qualidade vocal VPAS para uso forense no

capítulo de discussão.

3.6 Outros instrumentos de análise perceptiva de qualidade vocal e sua

utilização no contexto forense

Diferentes propostas de avaliação perceptiva têm sido desenvolvidas nos

últimos anos. A seguir, apresentaremos sucintamente alguns instrumentos utilizados

atualmente, além de apontarmos opiniões nossas e de diversos autores sobre o uso

de avaliações de natureza perceptiva no contexto forense.

A escala GRBAS-Grade, Roughness, Breathiness, Asteny and Strain – (Isshiki

et al, 1966; Hirano, 1981) é uma das avaliações perceptivas mais difundidas

mundialmente. O roteiro avalia o grau de alteração vocal, utilizando uma escala de

quatro pontos, onde "0" significa que nenhuma alteração vocal foi identificada, "1" para

alterações vocais discretas ou em caso de dúvida se há desvio ou não, "2" para

alterações evidentes e "3" para alterações severas.

A impressão global da voz (G grade) diz respeito ao impacto da voz no

ouvinte, identificando o grau da alteração vocal como um todo. O parâmetro

52

rugosidade (R roughness) está relacionado ao conceito de rouquidão, crepitação,

bitonalidade e aspereza. O parâmetro soprosidade (B breathness) se refere à

presença de ruído indicando escape de ar na voz. O parâmetro astenia (A asteny)

está relacionado à hipofunção vocal. O parâmetro tensão (S strain) indica hiperfunção

vocal. A escala GRBAS foi modificada por Dejonckere et al (1996) para o acréscimo

do parâmetro instabilidade (I instability) para caracterizar “flutuação na frequência

fundamental e/ou na qualidade vocal” (BRASSOLOTO, REHDER, 2010). Com o

acréscimo, o protocolo passou a ser chamado escala GIRBAS.

Pinho e Pontes (2002) discordaram do uso do termo GRBAS pelo fato de o

termo Rough, na língua inglesa, significar irregularidade da vibração das pregas

vocais. Os autores consideraram o termo impreciso para distinguir entre os aspectos

perceptivos de rouquidão e aspereza. Por isso, propuseram uma nova adaptação da

escala de avaliação perceptivo-auditiva denominada RASAT (ANEXO 6).

Cabe ressaltar que as propostas escalas GRBAS ou RASAT referem-se à

avaliação perceptiva da atividade de fonte glótica (BEHLAU et al., 2001; PINHO et al.,

2014), ou seja, pelo fato de sua avaliação ser centrada principalmente no nível

laríngeo, tem como função principal a identificação de voz patológica. Para o uso no

contexto forense, é necessária a identificação do perfil vocal do falante, o que não é a

proposta de nenhuma das referidas escalas.

O protocolo CAPE V - Consensus Auditory-Perceptual Evaluation of Voice -

(ANEXO 7) foi proposto pela American Speech-Language-Hearing Association

(ASHA) como instrumento para a avaliação perceptiva vocal e “é uma ferramenta

clínica e de pesquisa que visa à padronização, avaliação e documentação de

julgamentos da qualidade vocal” (BRASSOLOTO, REHDER, 2010) e foi adaptado

para o Brasil por Behlau (2004). Os procedimentos de coleta de dados são: a gravação

das vogais sustentadas /a/ e /i/ três vezes cada; leitura de seis sentenças com

contextos fonéticos diferentes; conversa espontânea através da resposta à pergunta:

“Me fale sobre seu problema de voz”.

Os seis parâmetros vocais avaliados são: severidade global; rugosidade;

soprosidade; tensão; pitch e loudness. Para a análise de cada parâmetro de qualidade

vocal avaliado, há uma escala visual analógica (EVA) de 100 mm de comprimento,

sendo o grau de alteração crescente da esquerda para a direita, a saber: ligeiramente

desviada MI (Mildly Deviant), moderadamente desviada MO (Moderately Deviant) e

53

severamente desviada SE (Severely Deviant). O clínico deve marcar no lado direito

da escala se a alteração detectada é consistente (C) ou inconsistente (I).

No artigo intitulado “Proposta de análise perceptivo-auditiva de voz e fala para

uso em fonética forense”, Porto e Gonçalves (2007) apresentaram proposta de análise

perceptiva de voz e fala para uso em fonética forense (ANEXO 8). No artigo, as

autoras avaliam o papel da análise perceptiva na verificação de falantes em fonética

forense e pretendem conjugar em um instrumento os parâmetros utilizados na clínica

fonoaudiológica (parâmetros vocais e linguísticos), adaptando-o ao âmbito forense.

Inicialmente, foi feita a fundamentação teórica para a montagem do protocolo-

piloto, que foi aplicado na análise de casos em andamento na Seção de Fonética

Forense do Departamento de Criminalística do Instituto Geral de Perícias (IGP),

possibilitando a elaboração da versão final do instrumento.

As autoras reconhecem que a avaliação perceptiva apresentada pode ser

entendida como inapropriada na atividade forense, já que não é objetivamente

mensurável. Também acreditam que a realização desse tipo de avaliação requer

conhecimento técnico e experiência clínica em voz e fala. Ao final, constatam a

efetividade e pertinência do protocolo proposto, não sendo descartada, porém, a

necessidade de realização de novas pesquisas envolvendo a temática.

Nesta primeira versão do protocolo, é possível observarmos na amostra

investigada: parâmetros vocais como a qualidade de voz, o ataque vocal, a

ressonância, o pitch, o loudness, entre outros; os parâmetros linguísticos da fala e do

discurso, entre eles, a existência de alterações fonéticas, a velocidade e o ritmo de

fala; além do dialeto e idioleto do falante.

O protocolo consta de vinte e dois itens elencados, são eles: características

gerais do falante (gênero, idade, estado de saúde geral e dos órgãos

fonoarticulatórios, condição sociocultural e intelectual; voz normal ou com indício de

patologia; escala GRBAS; tipo de voz; registro vocal (elevado, modal

peito/misto/cabeça, basal); foco vertical de ressonância (equilibrado,

baixo/laringofaringeo, oral, alto/hipernasal); foco horizontal de ressonância (anterior

equilibrado, posterior); ataque vocal (isocrônico, brusco, soproso); pitch e tom habitual

(alto, adequado, baixo); gama tonal (normal, monoaltura, excessiva); loudness (fraco,

adequado, forte); qualidade da emissão (tremor à respiração, uso do ar de reserva,

quebras de sonoridade ou frequência, flutuações ou decréscimos na frequência e

intensidade, modificações globais na qualidade vocal); hábitos vocais (pigarro, cliques

54

no trato vocal, outros); tipo de articulação (adequada, imprecisa, travada, exagerada);

alterações fonéticas; alterações fonológicas (processos de substituição ou de

estrutura silábica); velocidade de fala (adequada, lentificada, aumentada); ritmo de

fala (regular, rígido, irregular); fluência (bloqueios, pausas, repetições,

prolongamentos, uso de interjeições, hesitações); coordenação

pneumofonoarticulatória (adequada, inadequada); Idioleto; elementos dialetais (uso

de regras do estilo coloquial, gramática, léxico, sotaque); e outros.

As autoras acrescentam que nem sempre todos os elementos do protocolo

são utilizados, sendo necessário considerar as particularidades de cada investigação

de identificação de falantes. Em 2014, Gonçalves e Brescancini apresentaram uma

segunda versão do protocolo, desta vez, utilizando, no lugar da escala GRBAS, os

ajustes de qualidade vocal encontrados no roteiro VPAS (ANEXO 9).

Os protocolos propostos pelas autoras (PORTO E GONÇALVES, 2007;

GONÇALVES E BRESCANCINI, 2014) são, até aqui, os mais completos para o uso

forense a nosso ver, visto que utilizam em sua primeira versão a escala GRBAS para

avaliação da fonte glótica aliada a análises da fala e voz sob o ponto de vista

articulatório, prosódico e sociolinguístico, e, em uma versão atualizada, passa a

utilizar os ajustes de qualidade vocal do VPAS. Por ser pouco difundido – foi

encontrado um artigo que apresenta a primeira versão do protocolo (PORTO E

GONÇALVES, 2007), e outro que apresenta a segunda versão (GONÇALVES E

BRESCANCINI, 2014) – e restrito ao âmbito forense, faltam estudos para verificação

de sua eficácia.

55

4 MÉTODOS

Os sujeitos participantes desta pesquisa assinaram Termo de Consentimento

Livre e Esclarecido (TCLE). O projeto de pesquisa foi submetido e aprovado no Comitê

de Ética e Pesquisa, da Pontifícia Universidade Católica de São Paulo – PUC-SP, sob

o número 2.153.565.

Esta investigação foi dividida em três fases. Na fase 1, as amostras de fala

semiespontânea foram gravadas por um grupo de sujeitos ao qual nos referimos como

“falantes audiogravados”.

Para verificar a aplicabilidade do protocolo VPAS-PB, foram criadas duas

tarefas de avaliação perceptiva (uma para juízes experientes e outra para juízes

recém-formados) e uma atividade de formação de juízes no uso do VPAS.

Na fase 2, foi realizada a tarefa de avaliação perceptiva para juízes

experientes, os quais são referidos neste trabalho como Juízes A. Esses juízes

descreveram a qualidade vocal dos falantes audiogravados e suas descrições foram

utilizadas para a elaboração dos perfis de qualidade de voz das amostras de fala

coletadas na fase 1.

Na fase 3, foi realizado um treinamento em VPAS-PB de oito semanas para

graduandos de Fonoaudiologia, na Universidade Federal Fluminense, na cidade de

Nova Friburgo, Rio de Janeiro. Após o treinamento, os participantes foram convidados

a realizar uma tarefa de avaliação de vozes, na qual recebiam o perfil de qualidade de

voz de um falante e tinham de identificar entre cinco amostras de fala, a qual se referia

o perfil. Os participantes dessa tarefa são chamados de Juízes B nesta pesquisa.

Nas próximas seções deste capítulo, detalharemos os procedimentos

concernentes a cada uma das fases (1, 2 e 3) do experimento.

4.1 Fase 1 do experimento

Apresentamos, a seguir os falantes audiogravados da pesquisa,

procedimentos e materiais para a coleta de dados.

56

4.1.1 Falantes audiogravados

Os sujeitos que participaram como falantes audiogravados são em número de

10, sexo masculino, com idade entre 34 e 49 anos, e com o ensino médio como nível

de escolaridade mínima. Todos os falantes audiogravados residem no estado do Rio

de Janeiro e são militares do Corpo de Bombeiros Militar do Estado do Rio de Janeiro.

A escolha do sexo masculino deve-se a prevalência desse gênero na autoria de delitos

(GONÇALVES, 2013) e ao fato de que devido às diferenças em termos de

características acústicas da voz da mulher e do homem, seria necessária a formação

de dois grupos distintos; o nível de escolaridade, a profissão e a naturalidade foram

determinados para dar homogeneidade sociolinguística à amostra.

Foi empregado como critérios de exclusão, se os falantes possuíssem algum

problema vocal ou auditivo ou se utilizassem a voz para fins profissionais: locutores,

radialistas, atores, advogados, fonoaudiólogos, professores, operadores de

telemarketing, padres e pastores.

As condições sociolinguísticas, relacionadas aos sujeitos participantes da

pesquisa, foram investigadas, por meio de questionário, intitulado questionário

sociolinguístico (ANEXO 10). O questionário contém tópicos, como: nome; idade;

escolaridade; cidade onde nasceu; cidades onde morou; locais onde os pais nasceram

e viveram; profissão; se o participante apresenta algum problema vocal ou auditivo.

Em caso de resposta positiva, o participante deveria descrever sua dificuldade; se o

participante fosse bilíngue, deveria apontar em quais línguas é proficiente.

O quadro 1 a seguir, apresenta os perfis dos falantes audiogravados.

Sujeito Idade Escolaridade Cidade onde nasceu

Cidades onde morou

Cidade atual

Onde os pais nasceram e viveram

Profissão É bilíngue

1 41 Ensino médio

Rio de Janeiro

Rio de Janeiro Rio de Janeiro

Maranhão Minas Gerais Rio de Janeiro

Bombeiro militar

Não

2 34 Superior completo

Brasília Brasília Rio de Janeiro

Rio de Janeiro

Brasília Goiás Rio de Janeiro

Bombeiro militar

Não


Rio de Janeiro


Recife Rio de Janeiro

Bombeiro militar e professor de educação física (não atua)

Não

4 40 Ensino médio

Rio de Janeiro

Rio de Janeiro Niterói Valença São Gonçalo

Rio de Janeiro

Espírito Santo Rio de Janeiro

Bombeiro militar

Não

5 40 Ensino médio

Rio de Janeiro


Rio Grande do Norte Brasília Rio de Janeiro

Bombeiro militar

Não

57

Quadro 1 – Perfil sociolinguístico dos falantes audiogravados.

4.1.2 Material para a coleta das amostras dos falantes audiogravados

Os equipamentos utilizados para as gravações foram: gravador portátil Zoom

H5, celular Samsung Galaxy A5, com sistema Android e processador Quad Core de

1,2 GHz, e o aplicativo de gravação telefônica AutomaticCall Recorder.

Cada amostra de fala foi gravada simultaneamente de duas maneiras: através

do gravador, e pelo aparelho celular através do aplicativo de gravação. As gravações

foram realizadas na frequência de amostragem 44.100 Hz, 16 bits e em

extensão .wav, de acordo com as referências de estudos realizados no Laboratório

Integrado de Análise Acústica e Cognição (LIAAC) da PUC-SP.

4.1.3 Procedimentos para a coleta das amostras dos falantes audiogravados

Foram coletadas amostras de fala semiespontânea do grupo de falantes

audiogravados. Cada falante foi instado a ler a frase “o nosso verdadeiro objeto de

estudo é essa poderosa e complexa face sonora da linguagem: a fala”; e a fazer duas

narrativas sobre histórias que vivenciou e que de alguma maneira marcaram sua vida.

A fim de manter a uniformidade nas coletas amostrais, o tempo de relato

correspondente à narrativa de natureza pessoal nas duas gravações foi de um minuto

em média.

A coleta das amostras de fala foi captada através do telefone celular e do

gravador simultaneamente. As amostras utilizadas nesta pesquisa foram obtidas

através do telefone celular, e as demais serão utilizadas em futuras pesquisas.

Os sujeitos foram posicionados a uma distância de sessenta centímetros do

gravador e o celular foi posicionado na orelha direita. A ligação telefônica foi feita de

aparelho celular, através da operadora Vivo, para outro aparelho celular da mesma

6 43 Superior incompleto

Rio de Janeiro

Rio de Janeiro Duque de Caxias

Rio de Janeiro

Rio de Janeiro Bombeiro militar

Não

7 41 Pós-graduado

Rio de Janeiro

Niterói Rio de Janeiro São Gonçalo

Rio de Janeiro


Não


Duque de Caxias/RJ

Duque de Caxias Mari/PB Rio de Janeiro

Duque de Caxias

Paraíba Rio de Janeiro

Bombeiro militar

Não


Rio de Janeiro


São Paulo Rio de Janeiro

Bombeiro militar

Não


Rio de Janeiro



Não

58

operadora. No aparelho que recebeu a ligação, foi usado um aplicativo de gravação

de conversas telefônicas.

Cada participante teve 6 amostras de áudio coletadas, sendo 3 através do

gravador e 3 oriundas do aplicativo instalado no aparelho celular. As amostras do

gravador de cada participante foram agrupadas em modo Collection, através do

software de livre acesso Praat (Boersma e Weenik). Essas amostras foram arquivadas

eletronicamente em pastas juntamente com um arquivo contendo o protocolo VPAS-

PB.

Além disso, foram incluídos no material um arquivo contendo explicações para

os juízes A e o termo de consentimento (ANEXOS 11 e 12). Dessa forma, as amostras

foram organizadas em 10 pastas, sendo uma para cada grupo de amostras dos

falantes audiogravados, como podemos observar a seguir.

Figura 1- Visualização do material recebido pelos Juízes A.

Figura 2- Visualização do conteúdo de uma das pastas contida no material enviado para os Juízes A.

59

4.2 Fase 2 do experimento

Na fase 2 do experimento, um grupo formado por 3 fonoaudiólogas com

formação fonética e experiência mínima de 4 anos na aplicação do roteiro VPAS-PB

foram convidadas e aceitaram participar como juízas da pesquisa, formando o grupo

de Juízes A. Os arquivos com as amostras de fala semiespontânea dos falantes

audiogravados foram enviados para os Juízes A e o grupo realizou a tarefa de traçar

os perfis de qualidade vocal dos 10 participantes com o prazo de resposta de até 30

dias.

Depois da devolutiva dos Juízes A quanto aos perfis de qualidade vocal dos

participantes, estes resultados foram planilhados e enviados para análise estatística,

para a verificação da confiabilidade da consistência interna entre as juízas. O teste

estatístico utilizado para tal foi o Teste de Estatística Alfa de Cronbach.

Na análise estatística, foi adotado o nível de significância de 5% (0,050), para

a aplicação dos testes estatísticos, assim, quando o valor da significância calculada

(p) for menor do que 5% (0,050), encontramos uma diferença estatisticamente

significante (no caso de comparações), e uma relação estatisticamente significante

(no caso de relacionamentos), isto é, encontramos uma efetiva diferença (no caso de

comparações), e uma relação forte (no caso de relacionamentos), respectivamente.

Quando o valor da significância calculada (p) for igual ou maior do que 5%

(0,050), encontramos uma diferença estatisticamente não-significante (no caso de

comparações), e uma relação estatisticamente não-significante (no caso de

relacionamentos), isto é, encontramos uma semelhança (no caso de comparações), e

uma relação fraca (no caso de relacionamentos), respectivamente.

Foi utilizada a planilha eletrônica MS-Excel, em sua versão do MS-Office

2013, para a organização dos dados, e o pacote estatístico IBM SPSS (Statistical

Package for Social Sciences), em sua versão 23.0, para a obtenção dos resultados.

Após a análise estatística, foi necessário transformar os perfis de qualidade

vocal traçados pelos Juízes A em uma descrição. Essa transformação se pautou pelos

seguintes critérios:

i) o ajuste foi considerado na descrição quando duas das três juízas

identificaram o mesmo ajuste e graduação;

60

ii) se apenas uma juíza identificou o ajuste, o mesmo não foi considerado

para a descrição;

iii) quando duas juízas identificaram o mesmo ajuste com graduação

diferente, foi calculada a média da gradação (por exemplo, graduação

1 de uma juíza e 3 de outra em um mesmo tipo de ajuste foi

considerado graduação 2; graduação 1 de uma juíza e 2 de outra e um

mesmo tipo de ajuste foi considerado graduação 2, visto que a

graduação 1 pode ser utilizada quando há dúvida se o ajuste existe ou

não).

4.3 Fase 3 do experimento: a tarefa perceptiva dos juízes B

Na fase 3 do experimento, um grupo de 18 alunos de graduação em

Fonoaudiologia da Universidade Federal Fluminense, os Juízes B, receberam

treinamento de oito semanas, duas horas por semana, para capacitá-los a reconhecer

os perfis vocais descritos a partir do roteiro VPAS-PB. Após as oito semanas, os

Juízes B realizaram um exercício perceptivo em que ouviram lineups contendo frases

e fala espontânea dos sujeitos e, a partir dos perfis de qualidade vocal traçados a

partir da descrição dos Juízes A, reconheceram, dentre as vozes dos lineups, qual

delas era a descrita, fazendo assim uma correlação dos perfis de qualidade vocal com

as amostras de fala contidas nos lineups. A seguir, será descrita a preparação da

tarefa perceptiva e do treinamento dos Juízes B.

A tarefa consistiu em um exercício de natureza perceptiva com base no

Modelo Fonético de Qualidade Vocal4. A partir das amostras gravadas dos sujeitos

participantes, foram criados 15 lineups. Em cada lineup, foi gravado 5 trechos de

vozes distintas dos participantes, sendo que, em 5 lineups foram utilizadas amostras

da frase “o nosso verdadeiro objeto de estudo é essa poderosa e complexa face

sonora da linguagem: a fala” e, nos outros 10 lineups, foram gravados trechos de fala

semiespontânea em que os participantes contaram histórias de suas vidas (CD em

anexo).

4 A ideia deste exercício surgiu da sugestão do Professor Anders Eriksson, na segunda qualificação deste projeto de pesquisa.

61

A escolha das amostras adicionadas aos lineups foi aleatória e, para a

montagem do experimento, foram seguidos os critérios apontados por Thomas (2010)

sobre as pausas, tamanho do experimento, familiarização dos sujeitos com a tarefa e

uso de fones.

Sobre as pausas, estas foram utilizadas entre os estímulos para que ficasse

claro para o aluno participante do experimento, que uma amostra de fala acabou e

que a próxima se iniciaria. Nos lineups com a frase, o tempo de pausa foi de 1 segundo

e meio. Nos lineups de fala semiespontânea, o tempo de pausa foi de, no mínimo, 3

segundos.

Sobre o tamanho do experimento, levando em consideração que os alunos

participantes nunca tinham realizado nenhuma tarefa desta natureza, utilizamos 15

lineups com 5 amostras de fala em cada um, totalizando 75 amostras de fala.

Sobre a familiarização dos sujeitos com a tarefa, ao final do treinamento

perceptivo de oito semanas (que será explicitado no tópico posterior), os alunos

participaram de um exercício simulado em grupo, com 5 lineups de fala

semiespontânea com amostras de sujeitos diferentes dos sujeitos participantes da

tarefa perceptiva desta pesquisa.

Sobre o uso de fones, foi explicado no material enviado aos alunos

participantes a necessidade do uso de fones e do programa Praat (BOERSMA e

WEENIK) para a realização da tarefa.

A tarefa perceptiva utilizada para esta pesquisa foi do tipo resposta fechada,

em que as possíveis respostas são dadas e o aluno participante deve escolher uma

das respostas.

Após o término do treinamento perceptivo, foi enviado aos Juízes B uma pasta

contendo os seguintes materiais:

i) 3 arquivos em Word, contendo: a explicação da tarefa, a folha de teste

(ANEXO 13) e o termo de consentimento;

ii) 17 arquivos de áudio e extensão .wav, sendo os dois primeiros apenas

exemplos para relembrar os participantes como a tarefa deveria ser

executada.

62

Figura 3 – conteúdo da pasta compartilhada com os alunos participantes da tarefa perceptiva.

A tarefa perceptiva consistiu em, após a audição de cada lineup, o Juiz B

deveria responder a um exercício de múltipla escolha. A proposta do exercício era que

o participante ouvisse as 5 amostras de fala do lineup e identificasse qual a voz

correlata a descrição apresentada, como no exemplo a seguir:

Figura 4 - Exemplo de exercício de múltipla escolha da tarefa perceptiva.

Foi dado um prazo de 15 dias para a execução da tarefa, e após sua

conclusão, os Juízes B enviaram para esta pesquisadora, as respostas via e-mail.

O treinamento perceptivo para os Juízes B foi realizado em forma de curso

que foi coordenado pelo Diretório Acadêmico de Fonoaudiologia da Universidade

63

Federal Fluminense e aprovado em reunião departamental do curso de

Fonoaudiologia da universidade.

O curso foi gratuito, com emissão de certificado aos alunos que tiveram mais

de setenta por cento de presença e, para participar, os pré-requisitos foram: i) ser

graduando em Fonoaudiologia da UFF ou ex-aluno da instituição; ii) ter cursado com

aprovação as disciplinas” Fonética e Fonologia” e “Fundamentos da Voz”.

Não era obrigatório que o aluno participasse desta pesquisa como juiz. Assim,

dos 20 alunos que concluíram o curso, 18 aceitaram o convite para participar desta

pesquisa como Juiz B.

O treinamento durou 8 semanas, com encontros semanais de 2 horas,

totalizando a carga horária de 16 horas. A programação do treinamento foi:

Dia 1 – Introdução ao roteiro VPAS-PB;

Dia 2 – Elementos do trato vocal: ajustes de lábios e mandíbula;

Dia 3 – Elementos do trato vocal: ajustes de língua;

Dia 4 – Elementos do trato vocal: ajustes de faringe, velofaringe e altura de

laringe;

Dia 5 – Tensão muscular/elementos fonatórios;

Dia 6 – Elementos fonatórios;

Dia 7 – Dinâmica vocal;

Dia 8 – Prática com lineups.

O treinamento foi composto das seguintes tarefas:

i) aprender a identificar os segmentos chave;

ii) aprender a produzir os settings;

iii) aprender a distinguir os settings neutros e não neutros;

iv) aprender a identificar os settings não neutros;

v) aprender a distinguir settings que causem impressões auditivas

semelhantes;

vi) ouvir amostras pareadas a fim de identificar a gradiência;

vii) exposição a pistas auditivas e visuais para a aprendizagem dos settings

de língua e mandíbula.

64

O treinamento perceptivo realizado seguiu os preceitos dos treinamentos para

a formação e juízes na aplicação do roteiro VPAS promovidos pelo Laboratório

Integrado de Análise Acústica e Cognição (LIAAC), da PUC-SP e ministrado pelas

foneticistas Zuleica Camargo e Sandra Madureira (2016), especialistas no roteiro.

Também foi utilizado como nortedor do treinamento aplicado o material

instrutivo do Curso “Qualidade Vocal: perspectiva fonética e alterações da voz”,

ministrado pela professora Zuleica Camargo, no primeiro semestre de 2015, no

Programa de Pós-graduação em Linguística Aplicada e Estudos da Linguagem, da

PUC-SP.

65

5 RESULTADOS

No presente capítulo, são apresentados os resultados da análise estatística

da descrição dos perfis de qualidade vocal dos Juízes A, os perfis de qualidade vocal

dos falantes audiogravados, o curso de treinamento perceptivo e a tarefa realizada

pelos Juízes B.

5.1 Análise Estatística para verificação de confiabilidade da consistência

interna entre os Juízes A

Depois da devolutiva dos Juízes A quanto aos perfis de qualidade vocal dos

participantes, esses resultados foram planilhados e enviados para análise estatística

para a verificação da confiabilidade da consistência interna entre os juízes A. O teste

estatístico utilizado para tal foi o Teste de Estatística Alfa de Cronbach. Seguem os

resultados:

Aspecto Coeficiente Alfa de

Cronbach Significância

(p) Status de

Confiabilidade

Lábios arredondados 0,667 0,023 Satisfatório

Lábios estirados 0,585 0,053 Insatisfatório

Labiodentalização 1,000 < 0,001 Elevado

Lábios - extensão diminuída 0,892 < 0,001 Elevado

Lábios - extensão aumentada 0,893 < 0,001 Elevado

Mandíbula fechada 1,000 < 0,001 Elevado

Mandíbula aberta 0,956 < 0,001 Elevado

Mandíbula - extensão diminuída 0,914 < 0,001 Elevado

Mandíbula - extensão aumentada 0,881 < 0,001 Elevado

Ponta de língua avançada 0,901 < 0,001 Elevado

Ponta de língua recuada 0,750 0,006 Elevado

Corpo de língua avançado 0,869 < 0,001 Elevado

Corpo de língua recuado 0,654 0,026 Satisfatório

Corpo de língua elevado 0,843 < 0,001 Elevado

Corpo de língua abaixado 0,903 < 0,001 Elevado

Corpo de língua extensão diminuída 0,686 0,018 Satisfatório

Constrição faríngea 0,747 0,006 Elevado

Expansão faríngea 0,960 < 0,001 Elevado

Escape nasal audível 1,000 < 0,001 Elevado

66

Aspecto Coeficiente Alfa de

Cronbach Significância

(p) Status de

Confiabilidade

Nasal 1,000 < 0,001 Elevado

Denasal 1,000 < 0,001 Elevado

Laringe elevada 0,853 < 0,001 Elevado

Laringe abaixada 0,780 0,003 Elevado

Hiperfunção de trato 0,862 < 0,001 Elevado

Hipofunção de trato 1,000 < 0,001 Elevado

Hiperfunção laríngea 0,956 < 0,001 Elevado

Falsete 0,585 0,053 Insatisfatório

Crepitância 1,000 < 0,001 Elevado

Voz crepitante 0,852 < 0,001 Elevado

Escape de ar 1,000 0,001 Elevado

Voz soprosa 0,667 0,023 Satisfatório

Voz áspera 0,932 < 0,001 Elevado

Pitch habitual elevado 0,821 0,001 Elevado

Pitch habitual abaixado 1,000 < 0,001 Elevado

Pitch extensão diminuída 0,750 0,006 Elevado

Pitch variabilidade diminuída 0,646 0,029 Satisfatório

Pitch variabilidade aumentada 1,000 < 0,001 Elevado

Loudness habitual aumentado 1,000 < 0,001 Elevado

Loudness habitual diminuído 0,926 < 0,001 Elevado

Loudness extensão aumentada 1,000 < 0,001 Elevado

Loudness extensão diminuída 1,000 < 0,001 Elevado

Loudness variabilidade aumentada 1,000 0,001 Elevado

Loudness variabilidade diminuída 1,000 < 0,001 Elevado

Continuidade interrompida 1,000 < 0,001 Elevado

Taxa de elocução rápida 0,892 < 0,001 Elevado

Taxa de elocução lenta 1,000 < 0,001 Elevado

Suporte respiratório adequado 1,000 < 0,001 Elevado

Suporte respiratório inadequado 1,000 < 0,001 Elevado

Tabela 1: Resultados da Análise Estatística para verificação de confiabilidade da consistência interna entre os Juízes A.

Com base nos resultados apresentados, é possível verificar que os valores da

Estatística Alfa de Cronbach são, no geral, elevados; então, podemos inferir, a priori,

que os dados apresentam efetiva consistência interna.

Os valores da Estatística Alfa de Cronbach podem variar de -1,000 a 1,000,

sendo que, segundo Perrin (1995), tal variação obedece à seguinte regra:

67

i) entre < 0,001 e 0,600 (exclusive) — confiabilidade insatisfatória (em um

caso como este, um ou mais avaliadores seriam eliminados ou tratados

à parte, dependendo do tipo de estudo);

ii) entre 0,600 (inclusive) a 0,700 (exclusive) — confiabilidade satisfatória

(em um caso como este, não há motivação para segregar os

avaliadores, a não ser por uma decisão à parte do resultado estatístico);

iii) entre 0,700 (inclusive) a 1,000 — confiabilidade elevada (aceita-se que

os avaliadores apresentam variabilidades esperadas).

De acordo com o que foi calculado e exposto, podemos considerar a amostra

como não viesada, ou seja, no geral, os três juízes respondem em elevado grau de

confiabilidade.

5.2 A constituição dos perfis de qualidade vocal dos falantes audiogravados

A análise das amostras de fala semiespontânea dos falantes audiogravados

foi realizada pelos Juízes A com base na dimensão perceptiva, através da aplicação

do protocolo de avaliação de qualidade de voz com motivação fonética, o Vocal Profile

Analysis Scheme para o português brasileiro (VPAS-PB, proposto por CAMARGO,

MADUREIRA, 2008). Após a realização das médias dos resultados dos perfis traçados

pelos Juízes A, conforme explicitado no capítulo sobre os métodos, foram obtidas as

10 descrições de qualidade vocal dos participantes, expostas a seguir:

Perfil de qualidade vocal do falante audiogravado 1

Aspectos do trato vocal: lábios com extensão diminuída grau 2, mandíbula

aberta e com extensão diminuída em grau 1, corpo de língua abaixado em grau

1, altura de laringe abaixada em grau 1.

Aspectos fonatórios: voz crepitante em grau 1.

Aspectos de dinâmica vocal: pitch habitual abaixado em grau 2, pitch com

extensão diminuída em grau 2.

68


Aspectos do trato vocal: lábios com extensão diminuída grau 1,

mandíbula aberta em grau 1, ponta de língua avançada em grau 2, corpo de

língua elevado em grau 1, constrição faríngea em grau 1, hiperfunção de trato

vocal em grau 1.

Aspectos de dinâmica vocal: na história 2, adotou ajustes diferentes com

tremor e irregularidade laríngea e continuidade interrompida (quando foi utilizada

a história 2 na tarefa perceptiva, os ajustes prosódicos foram incluídos na

descrição).


Aspectos do trato vocal: mandíbula aberta em grau 1, ponta de língua

avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe

abaixada em grau 1.

Aspectos de dinâmica vocal: voz crepitante em grau 1 e áspera em grau 2.

Aspectos prosódicos: taxa de elocução rápida em grau 2 (e loudness

habitual aumentado em grau 1 na leitura de frase. Quando a frase foi utilizada na

tarefa perceptiva, o ajuste loudness habitual aumentado foi incluído na descrição).


Aspectos do trato vocal: língua recuada em grau 1, corpo de língua recuado

em grau 2 e elevado em grau 1, mandíbula com extensão aumentada em grau 1,

constrição faríngea em grau 2, hiperfunção de trato vocal em grau 2, hiperfunção

laríngea em grau 2.

Aspectos de fonatórios: voz crepitante em grau 2 e áspera em grau 2.

Aspectos de dinâmica vocal: taxa de elocução lenta em grau 1 e pitch

habitual abaixado em grau 1.

69


Aspectos do trato vocal: lábios com extensão diminuída em grau 1,

mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua

com extensão diminuída em grau 1, constrição faríngea em grau 1, hiperfunção de

trato vocal em grau 1.

Aspectos de fonatórios: voz áspera em grau 1.

Aspectos de dinâmica vocal: taxa de elocução lenta em grau 1, pitch com

variabilidade diminuída em grau 1 e pitch habitual elevado em grau 1. Loudness

habitual abaixado em grau 1 na leitura de frase (que foi incluído na descrição

quando a frase foi utilizada na tarefa).


Aspectos de trato vocal: lábios com extensão diminuída em grau 1 e

protraídos em grau 2, mandíbula com extensão aumentada em grau 1, ponta de

língua recuada em grau 1, corpo de língua abaixado em grau 1 e recuado em grau

1, altura de laringe abaixada em grau 1, hiperfunção de trato vocal em grau 1,

hiperfunção laríngea em grau 1.

Aspectos fonatórios: voz crepitante em grau 1 e áspera em grau 1.

Aspectos de dinâmica vocal: pitch com extensão diminuída em grau 1 e com

variabilidade diminuída em grau 1.


Aspectos de trato vocal: lábios estirados em grau 1, mandíbula com

extensão aumentada em grau 1, ponta de língua avançada em grau 2, corpo de

língua avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau

2, laringe abaixada em grau 1.

Aspectos de dinâmica vocal: pitch com variabilidade aumentada em grau

1, loudness habitual diminuído em grau 2.

70


Aspectos de trato vocal: lábios com extensão aumentada em grau 1,

mandíbula com extensão aumentada em grau 1, ponta de língua avançada

em grau 2, constrição faríngea em grau 1, altura de laringe elevada em

grau 2, hiperfunção laríngea em grau 1.

Aspectos de fonatórios: voz soprosa em grau 2 e áspera em grau 1.

Aspectos de dinâmica vocal: taxa de elocução rápida em grau 1 e

pitch habitual elevado em grau 2.


Aspectos de trato vocal: ponta de língua avançada em grau 1, corpo

de língua elevado em grau 1 e com extensão diminuída em grau 2,

mandíbula aberta em grau 1, hiperfunção de trato vocal em grau 1, laringe

alta em grau 2.


Aspectos de dinâmica vocal: pitch habitual elevado em grau 2 e

loudness habitual elevado em grau 2.


Aspectos de trato vocal: lábios com extensão diminuída em grau 1,

mandíbula com extensão diminuída em grau 1, ponta de língua avançada

em grau 2.

Aspectos de dinâmica vocal: loudness habitual diminuído em grau 1.

Esses perfis foram incluídos na tarefa de avaliação perceptiva a qual os juízes

B foram submetidos após treinamento no uso do VPAS.

5.3 Resultados do treinamento perceptivo dos Juízes B

A seguir apresentamos o conteúdo do treinamento perceptivo oferecido aos

Juízes B.

71

5.3.1 Dia 1: Introdução ao roteiro VPAS-PB

No primeiro dia de treinamento, foi apresentada a fundamentação teórica do

roteiro VPAS e exemplos de sua aplicação em amostras de fala gravadas e

apresentada em aula. Também foram apresentados vídeos para que os alunos

começassem a identificar visualmente alguns ajustes de qualidade vocal.

A aula foi expositiva (ANEXO 14) e enfocou as seguintes perguntas:

- O que é qualidade vocal?

- O que é o modelo fonético de qualidade vocal?

- O que é ajuste neutro?

- O que é VPAS?

- O que é “setting”?

- Qual a diferença entre segmento fônico e “setting”?

- O que são os princípios de interdependência e compatibilidade?

- O que é o princípio de susceptibilidade?

- O que é ajuste supralaríngeo?

- O que é ajuste fonatório?

- O que é ajuste de tensão?

- Como se dá a aplicação do roteiro VPAS?

Ao final, foi solicitado que os participantes levassem espelho e gravador para

os próximos dias de treinamento e gravassem suas vozes realizando os ajustes, para

facilitar o estudo ao longo do treinamento.

5.3.2 Dia 2: Ajustes de lábios e mandíbula

O segundo dia de treinamento teve início com a revisão do roteiro VPAS e sua

forma de aplicação, e, em seguida, demos ênfase aos ajustes de lábios e mandíbula.

Para essa aula, os alunos utilizaram espelhos, com o objetivo de serem expostos às

pistas auditivas e às visuais simultaneamente, para a aprendizagem dos settings.

Buscando seguir a ordem do treinamento de Camargo e Madureira (2016),

para os ajustes de lábios, foram demonstrados inicialmente os segmentos chave dos

ajustes de lábios arredondados e estirados, que são consoante [s] e vogais não

72

arredondadas (para lábios arredondados) e consoante [s] e vogais arredondadas

(para lábios estirados).

Em seguida, foram apresentados os indicativos de graduação dos dois

ajustes, solicitando aos participantes que reproduzissem as graduações olhando no

espelho, comparando-os com o ajuste neutro de lábios. Para isso, foi utilizada a frase

foneticamente balanceada para avaliação geral de qualidade vocal: “o objeto de

estudo da Fonética é essa complexa, variável e poderosa face sonora da linguagem:

a fala”.

Nesse momento, foi salientado como pista de reconhecimento o pitch grave

nos lábios arredondados e o agudo nos lábios estirados. Aproveitamos para explicitar

os correlatos perceptivos, articulatórios e acústicos, mostrando como o tamanho do

trato vocal nos diferentes ajustes influenciou o pitch.

O último ajuste de lábios apresentado foi o de labiodentalização. A

apresentação seguiu a mesma ordem da utilizada para os ajustes anteriores, ou seja,

identificamos os segmentos chave (consoantes bilabiais [p], [b], [m] e vogais

arredondadas), observamos a graduação dos ajustes com o auxílio de espelho e os

comparamos com o ajuste neutro.

Da mesma maneira que os ajustes de lábios estirados e arredondados

formam estudados, os ajustes de mandíbula aberta e fechada também foram

demonstrados simultaneamente, com o objetivo de que os participantes pudessem

identificar melhor suas características antagônicas. Com o auxílio do espelho, os

ajustes e suas graduações foram realizados e comparados com o ajuste neutro de

mandíbula.

Ao final, comparamos as impressões auditivas causadas pelos ajustes de

lábios e mandíbula, apresentando-os com e sem pista visual. Foi solicitado aos

participantes que, ao longo da semana, treinassem os ajustes aprendidos.

5.3.3 Dia 3: Ajustes de língua

O terceiro dia de treinamento teve início com os ajustes de ponta de língua.

Foram demonstrados os segmentos chave dos ajustes de ponta de língua avançada

e recuada (consoante alveolares).

Seguindo a mesma ordem do treinamento da semana anterior, foram

apresentados os indicativos de graduação dos dois ajustes, e os participantes os

73

reproduziram no espelho, comparando com o ajuste neutro de ponta de língua. Para

isso, foi utilizada a frase: “soube que a casa dos bispos é visitada por turistas todos

os dias e que o roteiro de visita dura cerca de duas horas para ser percorrido”.

Em seguida, foram apresentados os ajustes de corpo de língua: avançado,

recuado, elevado e abaixado. Cada ajuste foi apresentado separadamente, levando

em consideração o segmento chave correspondente, ou seja, vogais posteriores para

corpo de língua avançado, vogais anteriores para corpo de língua recuado, vogal

aberta [a] para corpo de língua elevado e vogais fechadas para corpo de língua

abaixado.

Na apresentação de cada ajuste, foram demonstrados os indicativos de

graduação e, olhando no espelho, os participantes os reproduziram, sempre

comparando-os com o ajuste neutro de corpo de língua. Foram utilizadas as frases:

“a Lara guarda figuras de pássaros em uma caixa, e suas preferidas são a da arara,

da papativa, da garça, do canário e do sabiá amarelo” (para ajuste de corpo de língua

elevado), “Liliane diverte-se imitando os trinidos do periquito, do bicudo, do bem-te-vi

e do tico-tico” (para ajuste de corpo de língua recuado), e “o garoto tirou muitas

fotografias do tucano, da coruja, do pombo e do jaburu” (para ajuste de corpo de língua

abaixado e avançado).

Tratamos dos ajustes de extensão de lábios, língua e mandíbula. Também

apresentamos o ajuste neutro de extensão quando o movimento é extenso o suficiente

para manter o bom nível de inteligibilidade e não há sobrecarga de outros

articuladores. Na extensão aumentada em seu nível máximo, o articulador, seja ele

lábios, língua ou mandíbula, tem o máximo de movimento possível, assim, o

articulador usa o máximo de espaço para sua mobilidade. Ao contrário, na extensão

diminuída, em seu grau máximo, temos o articulador movendo-se o mínimo possível.


ponta e corpo de língua, apresentando-os com e sem pista visual. Solicitamos aos

participantes que, ao longo da semana, treinassem os ajustes aprendidos.

5.3.4 Dia 4: Ajustes de faringe, velofaringe e altura de laringe

O quarto dia de treinamento teve início com os ajustes faríngeos, ou seja,

expansão e constrição de faringe. Esses são ajustes em que existe dificuldade em

estabelecer segmentos chave e indicativos de grau da escala para julgamentos.

74

Para melhor explicar os ajustes, foi utilizada a própria reprodução por parte

desta pesquisadora, que buscou como recurso, para demonstrar a expansão faríngea,

o som do bocejo e, para a constrição, a pesquisadora contraiu o grupo de músculos

constritores de faringe. Para isso, foi utilizada a frase foneticamente balanceada para

avaliação geral de qualidade vocal: “o objeto de estudo da Fonética é essa complexa,

variável e poderosa face sonora da linguagem: a fala”.

Mais uma vez, foi salientado como pista de reconhecimento o pitch grave na

expansão faríngea e agudo na constrição. Aproveitamos para explicitar os correlatos

perceptivos, articulatórios e acústicos, mostrando como o tamanho do trato vocal nos

diferentes ajustes influencia a qualidade vocal.

Depois foram apresentados os ajustes velofaríngeos. Foi explicado

inicialmente que o ajuste neutro correspondente é a ressonância nasal audível apenas

nos segmentos nasais da língua.

Foram apresentados, em conjunto, os ajuste nasal e denasal e seus

segmentos chave (segmentos orais para o ajuste nasal e segmentos nasais para o

ajuste denasal). Para demonstrar o ajuste nasal, foi utilizada a frase: “detesto ir à casa

dele, pois fica do outro lado da cidade, e o acesso é difícil”. Para o ajuste denasal, foi

utilizada a frase: “não mencionei anteriormente, mas minha mãe morou muitos anos

em Santos, numa mansão à beira-mar”. Assim, os ajustes e suas graduações foram

realizados, as características antagônicas foram percebidas e comparadas ao ajuste

neutro.

O escape de ar nasal foi apresentado isoladamente, com sua graduação. É

importante salientar que, os participantes, em princípio, não entendiam a diferença

entre ajuste nasal e denasal e foi demonstrado a eles que, muitas vezes, uma voz

classificada como nasal, não o é. A pesquisadora aproveitou para demonstrar como o

ajuste de língua com extensão diminuída ou de língua elevado pode causar uma

impressão auditiva de nasalidade.

Em seguida, foram apresentados os ajustes de altura de laringe. Iniciamos a

parte relativa a esses ajustes, explicando que esse conjunto de ajustes também são

mais difíceis para estabelecermos os indicativos de grau da escala para julgamentos.

Os segmentos chave para os ajustes de altura de laringe elevada e abaixada

são as vogais. Para a reprodução desses ajustes, utilizamos a frase: “o objeto de

estudo da Fonética é essa complexa, variável e poderosa face sonora da linguagem:

a fala”. Para conseguirmos a altura de laringe elevada, foi solicitado aos participantes

75

que colocassem a cabeça para trás e, para a altura de laringe abaixada, abaixassem

a cabeça.


faringe, velofaringe e altura de laringe, apresentando-os com e sem pista visual.

Assim, foi possível demonstrar aos participantes que, muitas vezes, o ajuste de

expansão faríngea ocorre simultaneamente ao ajuste de altura de laringe abaixada; e

que o ajuste de constrição faríngea costuma ocorrer com a altura de laringe elevada.

Foi solicitado aos participantes que, ao longo da semana, treinassem os ajustes

aprendidos.

5.3.5 Dia 5: Tensão muscular/elementos fonatórios

No quinto dia de treinamento, foram apresentados os ajustes de tensão

muscular e o item modo de fonação, nos ajustes fonatórios.

Para a exposição dos ajustes de tensão muscular, a pesquisadora

demonstrou aos participantes as pistas de reconhecimento de cada um. Dessa forma,

para o ajuste de trato vocal tenso, foi produzida qualidade vocal com as características

de nasalidade reduzida, aumento da extensão de lábios, língua e mandíbula e

constrição faríngea.

Para o ajuste de trato vocal relaxado, as características de qualidade vocal

apresentadas em conjunto foram a mandíbula aberta, ajuste nasal e diminuição de

extensão de lábios, língua e mandíbula.

Para o ajuste de hiperfunção laríngea, as pistas de reconhecimento

demonstradas foram a laringe alta, aumento de loudness, pitch agudo e aspereza.

Para o ajuste de hipofunção laríngea, as características de qualidade vocal

reproduzidas foram a laringe baixa, aumento de loudness, pitch grave e voz soprosa.

Esses ajustes foram apresentados com a frase: “o objeto de estudo da

Fonética é essa complexa, variável e poderosa face sonora da linguagem: a fala”.

Após a apresentação, foi a vez dos próprios participantes reproduzirem tais ajustes,

empregando a mesma frase, e perceberem que os ajustes de tensão costumam vir

combinados a outros ajustes.

Em seguida, foram vistos os ajustes de modo de fonação modal, falsete e

crepitância. Inicialmente, foram apresentados os segmentos chave dos ajustes

76

fonatórios, que são todos os segmentos sonoros (vozeados), principalmente os

segmentos orais.

Explicamos que o modo de fonação modal é uma moderada tensão

longitudinal e adutora, e uma moderada compressão medial. Além disso, mostramos

que a vibração das pregas vocais é regularmente periódica, com uso eficiente da

corrente de ar e sem geração de ruído. Esse modo foi utilizado como comparação aos

demais ajustes fonatórios.

O modo de fonação falsete foi apresentado como resultando em output

acústico caracterizado por frequência fundamental mais alta que na voz modal, e o

modo de fonação crepitância foi apresentado como resultando acusticamente em

baixa frequência fundamental, com indicativo de manifestação do ajuste, o efeito

auditivo de séries rápidas de batidas ou pulsos.

No modo de fonação crepitância, foi importante destacar que a crepitância

pode ocorrer isoladamente ou durante toda a fala analisada. Quando a crepitância

ocorre em apenas alguns momentos, é marcada como não neutra, podendo ser

utilizado o (i) de intermitente. Quando a crepitância ocorre em todo o trecho de fala e

em conjunto a outro ajuste, é necessário usar a graduação.


tensão muscular e de modo de fonação aos já apresentados ao longo do treinamento,

apresentando-os com e sem pista visual. Foi possível demonstrar aos participantes

que, muitas vezes, o pitch agudo pode ser causado por diversos ajustes, como por

exemplo a hipertensão de laringe, a constrição faríngea, o falsete, o ajuste de laringe

elevada ou o ajuste de lábio estirado, ou, ainda, vários desses ajustes podem aparecer

combinados, potencializando o efeito auditivo.

Da mesma maneira, foi identificado pelo grupo que o pitch grave pode ser

causado por ajuste de hipofunção laríngea, expansão faríngea, crepitância, laringe

abaixada ou lábios arredondados e que vários desses ajustes podem aparecer

combinados. Foi solicitado aos participantes que, ao longo da semana, treinassem os

ajustes aprendidos para distinguirem as impressões auditivas causadas.

5.3.6 Dia 6: Elementos fonatórios

No sexto dia de treinamento, foram apresentados os demais ajustes

fonatórios, de fricção e irregularidade laríngea. Esses ajustes foram demonstrados

77

com o uso da frase: “o objeto de estudo da Fonética é essa complexa, variável e

poderosa face sonora da linguagem: a fala”.

Os ajustes de fricção laríngea compreendem o escape de ar e a voz soprosa.

No escape de ar, é percebido apenas ar na voz. Na voz soprosa, o escape de ar é

acompanhado de vozeamento. Quando há escape de ar, não há graduação. Na voz

soprosa, devemos graduar de acordo com a intensidade da soprosidade percebida,

seguindo o seguinte critério: se há mais voz do que ar, deve-se graduar de 1 a 3. Se

há mais ar do que voz, deve-se graduar de 4 a 6.

O ajuste de irregularidade laríngea é o de aspereza e, como o próprio nome

do ajuste diz, a característica auditiva é de um som áspero. Esse ajuste também deve

ser graduado de acordo com a intensidade da aspereza. Assim, se é percebido mais

voz do que o componente áspero, gradua-se de 1 a 3. Se o componente áspero é

mais audível do que a voz, gradua-se de 4 a 6.

Ao final, comparamos as impressões auditivas causadas pelos ajustes

fonatórios, apresentando-os de maneira isolada e combinada, buscando que os

próprios participantes conseguissem reproduzir os ajustes. Foi-lhes solicitado que, ao

longo da semana, treinassem os ajustes aprendidos.

5.3.7 Dia 7: Dinâmica vocal

No sétimo dia de treinamento, foram apresentados os elementos de dinâmica

vocal e os de suporte respiratório.

Os elementos prosódicos são divididos em pitch, loudness e tempo. Utilizando

trechos de amostras de fala semiespontânea, foram demonstrados os tipos de

elementos.

Os elementos pitch e loudness são caracterizados de três formas: habitual,

extensão e variabilidade. A característica habitual, atribuída ao pitch e ao loudness,

está relacionada à frequência fundamental e à intensidade que o falante utiliza na

amostra de fala analisada. O pitch habitual pode ser identificado como elevado ou

abaixado. O loudness habitual pode ser identificado como aumentado ou diminuído.

A extensão do pitch e do loudness se refere à faixa de variação em frequência

e intensidade que o falante demonstra ter na amostra de fala analisada. A variabilidade

do pitch e do loudness está relacionada ao quanto o falante variou em frequência e

78

intensidade durante a sua fala. A extensão e a variabilidade de pitch e loudness podem

ser identificados como aumentado ou diminuído.

O elemento prosódico tempo diz respeito a continuidade da fala e taxa de

elocução. A continuidade pode ser interrompida, e a taxa de elocução pode ser lenta

ou rápida.

No elemento de suporte respiratório, observamos se a respiração está

adequada ou inadequada.

Todos os elementos de dinâmica vocal são graduados de acordo com a

intensidade dos mesmos, numa escala de 1 a 6.

5.3.8 Dia 8: Prática com lineups

No último dia de treinamento, foi realizado um exercício simulado para explicar

aos participantes como seria a tarefa perceptiva a que responderiam como juízes.

Para isso, foram elaborados 5 lineups com as mesmas características dos lineups

utilizados para a tarefa desta pesquisa, e que foram explicados anteriormente.

É importante salientar que os lineups utilizados nessa simulação continham

amostras de fala de sujeitos diferentes dos utilizados na tarefa desta pesquisa.

A pesquisadora apresentou o termo de consentimento, a explicação da tarefa

e a folha de teste (que se encontram em anexo), e iniciou o exercício simulado após

a retirada de todas as dúvidas dos participantes. As descrições da folha de teste foram

lidas e, após a leitura de cada uma, foi colocado o lineup correspondente para que o

grupo ouvisse. As vozes foram repetidas na medida em que os participantes

solicitaram e, em conjunto, o grupo respondeu cada questão.

5.4 Resultados dos exercícios perceptivos realizados pelos Juízes B

Na figura a seguir, temos a tabela com os resultados dos quinze exercícios

perceptivos com lineups. Os números em vermelho correspondem ao número que a

amostra correspondente recebeu de indicações dos Juízes B.

EXERCÍCIOS GABARITO AMOSTRA1 AMOSTRA2 AMOSTRA3 AMOSTRA4 AMOSTRA5

EXERCÍCIO 1 AMOSTRA3 4 1 12 0 1




79












Tabela 2 – Resultados da tarefa perceptiva.

No exercício 1, o resultado esperado era AMOSTRA3. Dos 18 participantes,

12 acertaram a questão. A segunda resposta mais encontrada foi AMOSTRA1. No

exercício 1, a AMOSTRA1 é a do falante audiogravado 1, a AMOSTRA2 é a do falante

audiogravado 3, a AMOSTRA3 é a do falante audiogravado 5, a AMOSTRA 4 é a do

falante audiogravado 7 e a AMOSTRA5 é a do falante audiogravado 9.


apenas 7 acertaram a questão. A maioria dos participantes, 9 ao todo, respondeu que

a descrição era da AMOSTRA2. No exercício 2, a AMOSTRA1 é a do falante

audiogravado 2, a AMOSTRA2 é a do falante audiogravado 4, a AMOSTRA3 é a do

falante audiogravado 6, a AMOSTRA4 é a do falante audiogravado 8 e a AMOSTRA5

é a do falante audiogravado 10.

No exercício 3, composto por um lineup de frases, o resultado esperado era

AMOSTRA2. Dos 18 participantes, 8 acertaram a questão. Os demais participantes

responderam AMOSTRA5. Nesse exercício, a AMOSTRA1 é a do falante


falante audiogravado 5, a AMOSTRA4 é a do falante audiogravado 6 e a AMOSTRA5

é a do falante audiogravado 9.


14 acertaram a questão. Dois participantes responderam AMOSTRA3 e dois

participantes responderam AMOSTRA4. Nesse exercício, a AMOSTRA1 é a do

falante audiogravado 3, a AMOSTRA2 é a do falante audiogravado 4, a AMOSTRA3

é a do falante audiogravado 7, a AMOSTRA4 é a do falante audiogravado 8 e a

AMOSTRA5 é a do falante audiogravado 10.

80


14 acertaram a questão. Dois participantes responderam AMOSTRA3. Nesse

exercício, a AMOSTRA1 é a do falante audiogravado 6, a AMOSTRA2 é a do falante



No exercício 6, o resultado correto era AMOSTRA1. Dos 18 participantes, 8

acertaram a questão. Sete participantes escolheram a AMOSTRA3. Nesse exercício,

a AMOSTRA1 é a do falante audiogravado 1, a AMOSTRA2 é a do falante




apenas 5 acertaram a questão. 6 participantes escolheram a AMOSTRA5. Nesse





11 acertaram a questão. 6 participantes escolheram a AMOSTRA2. Nesse exercício,





15 acertaram a questão. Dois participantes escolheram a AMOSTRA5. Nesse





acertaram a questão. 3 participantes escolheram AMOSTRA3 e 3 escolheram

AMOSTRA4. Nesse exercício, a AMOSTRA1 é a do falante audiogravado 5, a

AMOSTRA2 é a do falante audiogravado 3, a AMOSTRA3 é a do falante audiogravado

1, a AMOSTRA4 é a do falante audiogravado 8 e a AMOSTRA5 é a do falante

audiogravado 6.


11 acertaram a questão. 6 participantes responderam AMOSTRA3. Nesse exercício,


81




11 acertaram a questão. 4 participantes escolheram a AMOSTRA4. No exercício, a


10, a AMOSTRA3 é a do falante audiogravado 9, a AMOSTRA4 é a do falante

audiogravado 5 e a AMOSTRA5 é a do falante audiogravado 4.


acertaram a questão. 4 participantes responderam AMOSTRA4. Nesse exercício, a





8 acertaram a questão. 7 participantes responderam AMOSTRA4. Nesse exercício, a





11 acertaram a questão. 5 participantes responderam AMOSTRA3. Nesse exercício,




Na matriz de confusão, apresentada a seguir, temos, em vermelho, o número

de acertos dos Juízes B em relação às amostras dos falantes, em todas as tarefas

perceptivas realizadas. Em preto, temos o número de respostas em que os Juízes B

escolheram amostras diferentes da apresentada nos perfis dos exercícios. Utilizamos

a letra X, quando a amostra de algum falante não esteve no mesmo lineup do falante

analisado na matriz.

82

F 1 F 2 F 3 F 4 F 5 F 6 F 7 F 8 F 9 F 10

F 1 8 0 1 X 7 X X X X 2

F 2 0 23 1 0 0 0 2 X 10 0

F 3 3 X 25 0 0 1 2 5 X 0

F 4 X 1 0 11 X X X 0 6 X

F 5 4 X 1 X 23 0 0 0 2 6

F 6 X 0 X 4 X 5 6 X 3 X

F 7 X 1 2 X X 7 8 X 0 X

F 8 1 X 2 1 X X X 10 4 X

F 9 X X X 0 6 1 0 X 25 4

F 10 1 1 0 9 5 1 X 1 X 18

Tabela 3: Matriz de confusão demonstrando as respostas corretas e as confundidas, em relação as amostras dos falantes, nas tarefas perceptivas realizadas.

Como é possível observar na matriz de confusão, o Falante 1 foi indicado

corretamente 8 vezes pelos Juízes B, e foi confundido com o Falante 3, 1 vez, com o

Falante 5, 7 vezes, com o Falante 10, 2 vezes, e não foi confundido nenhuma vez com

o Falante 2.

O Falante 2 foi indicado corretamente 23 vezes pelos Juízes B, e foi

confundido com o Falante 3, 1 vez, com Falante 7, 2 vezes, com o Falante 9, 10 vezes,

e não foi confundido com os Falantes 1, 4, 5, 6 e 10.


confundido com o Falante 1, 3 vezes, com o Falante 6, 1 vez, com o Falante 7, 2

vezes, com o Falante 8, 5 vezes, e não foi confundido com os Falantes 4, 5 e 10.


confundido com o Falante 2, 1 vez, com o Falante 9, 6 vezes, e não foi confundido

com os Falantes 3 e 8.


confundido com o Falante 1, 4 vezes, com o Falante 3, 1 vez, com o falante 9, 2 vezes,

com o Falante 10, 6 vezes, e não foi confundido com os Falantes 6, 7 e 8.

O Falante 6 foi indicado corretamente 5 vezes pelos Juízes B, e foi confundido

com o Falante 4, 4 vezes, com o Falante 7, 6 vezes, com o Falante 9, 3 vezes, e não

foi confundido com o Falante 2.

O Falante 7 foi indicado corretamente 8 vezes pelos Juízes B, e foi confundido

com o Falante 2, 1 vez, com o Falante 3, 2 vezes, com o Falante 6, 7 vezes, e não foi

confundido com o Falante 9.


confundido com o Falante 1, 1 vez, com o Falante 3, 2 vezes, com o Falante 4, 1 vez,

com o Falante 9, 4 vezes.

83


confundido com o Falante 5, 6 vezes, com o Falante 6, 1 vez, com o Falante 10, 4

vezes, e não foi confundido com os Falantes 4 e 7.


confundido com o Falante 1, 1 vez, com o Falante 2, 1 vez, com o Falante 4, 9 vezes,

com o Falante 5, 5 vezes, com o falante 6, 1 vez, com o Falante 8, 1 vez, e não foi

confundido com o Falante 3.

Na tabela apresentada a seguir, temos a porcentagem de acerto dos

exercícios perceptivos, por falantes audiogravados.

Falantes %

Falante 1 44

Falante 2 64

Falante 3 69

Falante 4 61

Falante 5 64

Falante 6 28

Falante 7 44

Falante 8 56

Falante 9 69

Falante 10 50 Tabela 4 – Porcentagem de acerto dos exercícios perceptivos por falantes audiogravados.

Os Juízes B obtiveram os seguintes índices:

44% de acerto nos exercícios perceptivos em que a amostra correspondente ao perfil

apresentado era a do Falante 1;

64% de acerto nos exercícios em que a amostra correspondente era a do Falante 2;

69 % de acerto nos exercícios em que a amostra correspondente era a do Falante 3;







e 50% de acerto nos exercícios em que a amostra correspondente era a do Falante

10.

84

6 DISCUSSÃO

No contexto forense, a padronização de técnicas entre peritos em

identificação de falantes é uma busca cada vez mais frequente, visto que não existe

consenso sobre os procedimentos metodológicos a serem adotados na área (GOLD,

FRENCH, 2011). Devido à alta complexidade desse tipo de perícia, os métodos mais

utilizados internacionalmente são a combinação das análises perceptiva e acústica.

No Brasil, a Capacitação Nacional para Peritos Criminais em Fonética Forense

também instrui os peritos a utilizar o método combinado (TONACO, SILVA, 2016), por

isso, a investigação da aplicabilidade de um protocolo de avaliação perceptiva se faz

necessária. O objetivo geral deste estudo foi o de verificar a aplicabilidade do roteiro

VPAS-PB no reconhecimento de falantes, a partir da reflexão acerca dos resultados

de um experimento perceptivo baseado no Modelo Fonético de Descrição da

Qualidade Vocal (LAVER, 1980) e de dinâmica vocal.

Os protocolos de análise perceptiva são comumente aplicados na clínica

fonoaudiológica, visto que esse tipo de investigação é considerado padrão ouro para

avaliação da voz. A aplicabilidade de avaliações perceptivas para uso forense tem

sido um assunto pouco abordado na literatura. Para o uso da análise perceptiva na

perícia de identificação de falantes, consideramos primordial a escolha de um

instrumento capaz de descrever vozes da maneira mais minuciosa possível.

A escolha do protocolo VPAS-PB para esta pesquisa se deu por este ser um

instrumento capaz de descrever um conjunto de ajustes de trato vocal, fonatórios e de

dinâmica vocal, o que possibilita a descrição do perfil vocal do falante. Acreditamos

que a aplicação de versões reduzidas do instrumento (SAN SEGUNDO, MOMPEAN,

2017) pode comprometer resultados, pois, devido a característica integrativa da

proposta, é o conjunto de ajustes combinados que possibilita a descrição detalhada

do perfil vocal do falante.

Consideramos importante explicar as diferenças entre os VPAS simplificado

e o VPAS para explicitar os problemas existentes na escolha pela simplificação do

roteiro.

Como é possível observar no roteiro do VPAS Simplificado (ANEXO 11), em

relação aos ajustes fonatórios, o juiz que aplicará essa versão deverá escolher entre

“whisper/breathy”, “N” (ajuste neutro), ou “creaky/harsh”. Para descrever uma voz

que, no VPAS original seria descrita como áspera em grau 2, o juiz deve marcá-la

85

como “creaky/harsh”, sem a possibilidade de especificar o grau. Dessa forma,

observando apenas o roteiro, não é possível saber se a voz é áspera ou crepitante

(ou se possui as duas características), e em que grau. Abaixo podemos perceber as

dificuldades que um perito pode ter para utilizar o roteiro VPAS Simplificado na perícia

de identificação de falantes.

Perfis VPAS-PB VPAS simplificado

Perfil 1 Voz crepitante em grau 1 Creaky/harsh

Perfil 2 Voz modal N

Perfil 3 Voz crepitante em grau 1 e áspera em grau 2 Creaky/harsh


Perfil 5 Voz áspera em grau 1 Creaky/harsh



Perfil 8 Voz soprosa em grau 2 e áspera em grau 1 Whisper/breathy

Perfil 9 Voz crepitante em grau 1 Creaky/harsh


Quadro 2 – Ajustes fonatórios dos 10 perfis de qualidade vocal dos falantes audiogravados nesta pesquisa, utilizando o roteiro VPAS-PB e o VPAS Simplificado

A possibilidade de graduação e de detalhamento da combinação de ajustes

fonatórios torna fácil a identificação das diferenças existentes entre as amostras

quando utilizamos o roteiro VPAS-PB. Observando o quadro acima, é fácil distinguir

os perfis e perceber que em relação aos ajustes fonatórios, os perfis que apresentam

exatamente as mesmas características fonatórias são: perfis 1 e 9 (voz crepitante em

grau 1) e perfis 2 , 7 e 10 (voz modal). Os perfis 3, 4, 5, 6, e 8 apresentam ajustes

fonatórios diferentes entre os demais.

Utilizando o VPAS Simplificado, temos dois grupos de perfis com

características em comum: o grupo N (perfis 2, 7 e 10), o grupo “Creaky/harsh” (perfis

1, 3, 4, 5, 6 e 9), e o grupo “Whisper/breathy” (perfil 8).

O grupo de perfis classificado pelo VPAS Simplificado como “creaky/harsh”

apresenta ajustes isolados, combinados, e com graduações distintas. O perfil 8,

apesar de apresentar voz áspera em grau 1, é classificada como “whisper/breathy”

porque apresenta voz soprosa em grau 2.

Observando apenas os ajustes fonatórios, foi possível perceber que o objetivo

de “reduzir problemas típicos associados à multidimensionalidade da qualidade da voz

e permitir uma quantificação fácil da similaridade dos falantes” (SAN SEGUNDO,

MOMPEAN, 2017), dificulta o trabalho de avaliação perceptiva para identificação de

86

falantes, uma vez que o roteiro restringe as possibilidades de classificação dos

ajustes.

Encontramos no estudo de San Segundo e Mompean, equívocos quanto a

questões fisiológicas da fonação. De acordo com os autores,

Voice type (ie, phonation features) is probably the setting for which SVPA is less suitable, or at least that for which more training is required to improve agreement. Combined phonatory qualities are frequent. Laver mentions some of them: “harsh whispery voice” or “harsh creaky voice”, for instance. The latter does not cause any problem in our SVPA, as both harsh and creaky belong to the tense larynx typology (SAN SEGUNDO, MOMPEAN, 2017).

Na discussão da pesquisa, os autores confirmam que a descrição de ajustes

fonatórios do VPA Simplificado não é adequada, mas incorrem em um equívoco que

demonstra falta de compreensão da produção dos tipos de vozes.

A voz crepitante não, necessariamente, é produzida com tensão, tanto que

esse tipo de voz foi introduzido com finalidade terapêutica por Boone e McFarlane

(1988), com o nome de som basal. O exercício consiste na emissão relaxada da vogal

“a”. O fluxo aéreo mínimo propicia a produção do som por longo tempo. O exercício

som basal comprovadamente beneficia a melhor coaptação glótica, e pode ser

utilizado com objetivo de redução ou fechamento de fendas glóticas. Além disso, reduz

a tensão de laringe e aumenta a amplitude de vibração da mucosa (CARRARA, 1991).

Analisando os ajustes de trato vocal, é possível identificar outros problemas

no que tange a fundamentação para fusão de ajustes. De acordo com os autores, a

fusão dos ajustes de corpo de língua foi realizada por existir uma tendência do ajuste

de corpo de língua avançado vir acompanhado do ajuste de corpo de língua elevado

e, ao contrário, do ajuste de corpo de língua recuado vir acompanhado do ajuste de

corpo de língua abaixado: “if he is non-neutral as concerns the lingual body, he will

either tend to present a fronted and raised tongue body or a backed and lowered

tongue body “ (SAN SEGUNDO, MOMPEAN, 2017).

Dos perfis de qualidade vocal dos 10 falantes audiogravados desta pesquisa,

8 apresentam ajustes não neutros de corpo de língua, e, desses 8 perfis, encontramos

dois com ajustes de corpo de língua que fogem da tendência apontada pelos autores.

Como foi possível observar com maior detalhamento no capítulo de resultados, o

falante 4 apresenta corpo de língua recuado em grau 2 e elevado em grau 1, enquanto

o falante 7 apresenta corpo de língua avançado em grau 1 e abaixado em grau 1.

87

Outra redução que consideramos equivocada é a dos ajustes de extensão

diminuída e aumentada de lábios, mandíbula e corpo de língua. Dizem os autores:

Finally, all the extensive and minimized range variants in Mackenzie Beck (ie, extensive and minimized mandibular, labial, or lingual setting) were discarded, as they were deemed to be covered by other settings: “open jaw” can be used to describe all extensive configurations and “close jaw” the minimized configurations (SAN SEGUNDO, MOMPEAN, 2017).

Assim, de acordo com os autores, os ajustes de extensão diminuída são, no

VPAS Simplificado, marcados como ajustes de mandíbula fechada e, os ajustes de

extensão aumentada, marcados como ajustes de mandíbula aberta. Nesta pesquisa,

teríamos dificuldade para utilizar o roteiro simplificado na descrição do perfil vocal do

sujeito 5, que apresenta, nos aspectos de trato vocal, entre outros ajustes, lábios com

extensão diminuída em grau 1, mandíbula aberta em grau 1 e corpo de língua com

extensão diminuída em grau 1.

Com a justificativa de que os ajustes de trato vocal, mandíbula protraída e

labiodentalização são raros, os autores retiraram estas características do roteiro:

In fact, in San Segundo et al none of these two settings were found in a normophonic population of 100 male speakers of Standard Southern British English, aged 18–25 (DyViS corpus). Because of its low incidence also in Spanish, those non-neutral configurations were discarded from the mandibular and labial settings in the SVPA protocol (SAN SEGUNDO, MOMPEAN, 2017).

Não consideramos pertinente a retirada de ajustes de um roteiro de descrição

de perfil de qualidade vocal. Além disso, nossa experiência clínica em Fonoaudiologia

mostra que tais ajustes ocorrem com frequência (ANDRADE F.V. et al., 2005; MACIEL

C.T.V. et al., 2006; DAENECKE S. et al., 2006; TAUCCI R.A. e BIANCHINI E.M.G.,

2007; ALÉSSIO C.V. et al., 2007; PEREIRA A.C. et al., 2007; GENARO K.F. et al.,

2009; METZGER A.L.T. et al., 2009; SÍGOLO S. et al., 2009; MEZZOMO C.L. et al.,

2011; MARTINELLI R.L.C., 2011; PEREIRA J.B.A. e BIANCHINI E.M.G., 2011).

Outra questão que consideramos equivocada é a correlação que os autores

fazem entre trato vocal relaxado e taxa de elocução lenta, e trato vocal tenso e taxa

de elocução rápida. De acordo com San Segundo e Mompean (2017):

88

Indeed, the number of possible articulatory settings that would be associated with either lax or tense vocal tract is quite large (eg, different degrees of nasality and pharyngeal constriction). Furthermore, prosodic aspects seem to be associated with vocal tract tension, with faster tempo characterizing a high tense vocal tract and slower tempo a lax vocal tract. The number of acoustic correlates, although not all of them empirically tested yet, makes this a perfect candidate setting to increase agreement in future auditory evaluations, provided that perceptual assessment is aided by acoustic analysis.

Os perfis de qualidade vocal dos falantes audiogravados desta pesquisa

demonstram que a taxa de elocução pode não estar relacionada com a tensão ou

relaxamento do trato vocal. O falante 3 apresenta taxa de elocução rápida em grau 2

e não apresenta tensão de trato vocal. O falante 4 apresenta taxa de elocução lenta

em grau 1 e hiperfunção de trato vocal em grau 2. O falante 5 apresenta taxa de

elocução lenta em grau 1 e hiperfunção de trato vocal em grau 1.

Além disso, existem patologias que apresentam como característica tônus

muscular excessivo, com ritmo regular e velocidade lentificada, como as disartrias

espástica e hipocinética.

As questões de dinâmica vocal envolvem, entre outros aspectos, o contexto

situacional, a personalidade e intenção do falante, e não estão, necessariamente,

relacionados com característica de relaxamento ou tensão de trato vocal.

Entendemos que reduzir um instrumento que se destaca dos demais, entre

outros diferenciais, pela minúcia da descrição do perfil de qualidade vocal que é capaz

de identificar, restringe a gama de possibilidades de uso do VPAS, como o seu uso

por peritos para a realização de laudos de identificação de falantes, por exemplo.

Em nossa pesquisa, para a verificação da aplicabilidade do roteiro VPAS-PB,

foi necessário, primeiramente, apresentar dados sobre confiabilidade de juízes

experientes no uso do instrumento. Os resultados da análise estatística para

verificação da confiabilidade da consistência interna entre os Juízes A, demonstrou

elevado grau de confiabilidade entre juízes experientes no VPAS-PB, fator que

corrobora o seu uso em contexto forense.

A experiência prévia dos Juízes A foi um fator determinante para os elevados

valores encontrados na estatística Alfa de Cronbach. De acordo com a literatura, o

resultado da análise perceptiva depende do treinamento, do tipo de estímulo, da

instrução da tarefa e da experiência e formação do avaliador (NEMR et al. 2006;

PATEL, SHRIVASTAV, 2007). Dessa forma, era esperado que os Juízes A

89

apresentassem um alto grau de confiabilidade em suas respostas. Pelo fato do roteiro

VPAS-PB ser baseado no Modelo Fonético de Qualidade Vocal, o grau de

conhecimento fonético dos juízes e sua compreensão acerca dos ajustes de trato

vocal, fonatórios e de dinâmica vocal, é de fundamental importância para a aplicação

do instrumento.

A escolha por fonoaudiólogos como Juízes A e graduandos em

Fonoaudiologia como Juízes B também se deu pela necessidade, para a aplicação do

VPAS-PB, do juiz relacionar o conhecimento fonético aos aspectos

anatomofisiológicos da produção da voz. No fazer fonoaudiológico, é comum o uso de

protocolos de avaliação vocal mais voltados para as especificidades da fonte glótica,

como os apresentados no item 3.3 desta pesquisa. Assim, o fonoaudiólogo e o

estudante de fonoaudiologia possuem conhecimentos prévios que facilitam o

treinamento e uso do instrumento.

Sobre o processo de treinamento perceptivo dos Juízes B, é importante

ressaltar que este se deu em 8 semanas por uma escolha metodológica da

pesquisadora. A divisão da carga horária em 2 horas de aula por semana ocorreu com

o objetivo de possibilitar que os Juízes B tivessem a experiência de contato com o

roteiro estendida pelo maior tempo possível.

Não foi intenção desta pesquisadora treinar os Juízes B para traçar perfis de

qualidade vocal, mas para que relacionassem as descrições vocais e as amostras

gravadas correspondentes. Entendemos que, devido ao detalhamento do

instrumental, a preparação e treinamento de um juiz do roteiro VPAS-PB é longo e

contínuo, ou seja, é necessário contato constante com o instrumento a fim de manter

“calibrado” o ouvido.

O treinamento perceptivo realizado nesta pesquisa apenas apresentou aos

Juízes B o Modelo Fonético de Qualidade Vocal, ensinando a identificação de ajustes

e comparando as descrições das amostras de fala. A tarefa de descrever perfis de

qualidade vocal é muito mais complexa e demanda a compreensão da ação e

influência da combinação dos ajustes e a diferenciação da graduação dos mesmos.

O roteiro VPAS-PB possibilita a identificação de vozes que possuam os mesmos

ajustes, diferenciando-se pela graduação, pelo tempo diferente em que aparecem na

amostra ou até mesmo pela combinação diferente dos ajustes.

Além disso, procuramos buscar com essa experiência pistas sobre quais as

estratégias um juiz iniciante utiliza para identificar ajustes. Consideramos necessário,

90

neste momento, apresentar os perfis de qualidade vocal que não foram confundidos

pelos Juízes B com amostras de demais falantes, na tarefa perceptiva, com a tabela

a seguir:

Perfis Falantes que não

foram confundidos

Perfil do Falante 1 Falante 2

Perfil do Falante 2 Falantes 1, 4, 5, 6, 10

Perfil do Falante 3 Falantes 4, 5 e10

Perfil do Falante 4 Falantes 3 e 8

Perfil do Falante 5 Falantes 6, 7 e 8



Perfil do Falante 8 ----------------------

Perfil do Falante 9 Falantes 4 e 7


Tabela 5 – Relação de perfis de qualidade vocal de falantes que não foram confundidos com outros falantes, na tarefa perceptiva.

Na tarefa perceptiva realizada pelos Juízes B, estes não confundiram o perfil

do falante 1 com a amostra do falante 2, e vice-versa; o perfil do falante 2 com a

amostra do falante 6, e vice-versa; o perfil do falante 3 com a amostra do falante 4, e

vice-versa; o perfil do falante 3 com a amostra do falante 10, e vice-versa; o perfil do

falante 7 com a amostra do falante 9, e vice-versa.

Entendemos que os falantes 1 e 2 não foram confundidos por apresentarem

ajustes antagônicos de corpo de língua abaixado (falante 1) e elevado (falante 2), além

de aspectos prosódicos muito distintos entre si.

Os falantes 2 e 6 não foram confundidos por apresentarem ajustes

antagônicos de ponta de língua avançada (falante 2) e recuada (falante 6), além de

corpo de língua elevado (falante 2) e abaixado (falante 6).


antagônicos de ponta de língua avançada e corpo de língua abaixado (falante 3) e

corpo de língua recuado elevado (falante 4), além de taxas de elocução rápida (falante

3) e lenta (falante 4).

Os falantes 3 e 10 não foram confundidos por apresentarem aspectos

prosódicos distintos (taxa de elocução rápida para o falante 3 e loudness habitual

diminuído para falante 10).


antagônicos de corpo de língua abaixado e laringe abaixada (falante 7) e corpo de

91

língua elevado e laringe alta (falante 9). Além disso, demonstram antagonismo nos

aspectos prosódicos, pois o falante 7 possui como característica o loudness habitual

diminuído, enquanto o falante 9, o loudness habitual aumentado.

Nos exercícios 3 e 9, em que o falante 2 era o perfil descrito, o mesmo não foi

confundido pelos Juízes B com o maior número de falantes (1, 4, 5, 6 e 10).

Acreditamos que o falante 2 foi o menos confundido nos exercícios perceptivos devido

aos ajustes de tremor, irregularidade laríngea e continuidade interrompida que adotou

no exercício 9.

Em seguida, analisaremos as condições de respostas e aproximações dos

julgamentos realizados pelos Juízes B, apresentando nossos apontamentos sobre os

15 exercícios perceptivos.

No exercício 1, a amostra 1 (falante 1) foi escolhida por 4 juízes como a

amostra referente ao perfil descrito no exercício. Identificamos os ajustes de dinâmica

vocal da amostra 1 como “menos salientes”, ou seja, que apresentam características

menos intensas (ou mais fracas), como pitch ou loudness abaixados ou com extensão

diminuída. A menor saliência do pitch do sujeito 1 pode ter sido motivo de confusão

com a taxa de elocução lenta e pitch com variabilidade diminuída e loudness habitual

abaixado do sujeito 3.

A amostra 2, foi escolhida por apenas 1 juiz devido a taxa de elocução rápida

(que é facilmente diferenciada da taxa de elocução lenta, e vice-versa). A amostra 4

não foi selecionada por nenhum juiz. Acreditamos que os ajustes antagônicos de

expansão faríngea (amostra 4) e constrição faríngea com hiperfunção de trato vocal

(amostra 3) foi o motivo pelo qual não houve aderência a esta amostra.

A amostra 5 (falante 9) é a amostra com maior número de ajustes semelhantes

à amostra 3. Apesar disso, apenas 1 juiz a escolheu. Entendemos que, apesar dos

muitos ajustes em comum, a discrepância nas características de loudness foi o motivo

da pouca aderência a esta amostra (loudness habitual elevado x loudness habitual

abaixado).

Segue o quadro comparativo entre os ajustes das amostras do exercício 1:

Exercício 1 Amostra 1 Amostra 2 Amostra 3 Amostra 4 Amostra 5

Falantes Falante 1 Falante 3 Falante 5 Falante 7 Falante 9

Ajustes de trato vocal

Lábios com extensão diminuída grau 2,

Mandíbula aberta em grau 1, ponta de língua

Lábios com extensão diminuída em grau 1, mandíbula aberta em grau 1,

Lábios estirados em grau 1, mandíbula com extensão aumentada em

Ponta de língua avançada em grau 1, corpo de língua

92

mandíbula aberta e com extensão diminuída em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.

avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.

ponta de língua avançada em grau 1, corpo de língua com extensão diminuída em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

grau 1, ponta de língua avançada em grau 2, corpo de língua avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau 2, laringe abaixada em grau 1.

elevado em grau 1 e com extensão diminuída em grau 2, mandíbula aberta em grau 1, hiperfunção de trato vocal em grau 1, laringe alta em grau 2.

Ajustes fonatórios

Voz crepitante em grau 1.

Voz crepitante em grau 1 e áspera em grau 2.

Voz áspera em grau 1.

Voz modal. Voz crepitante em grau 1.

Ajustes de dinâmica vocal

Pitch habitual abaixado em grau 2, pitch com extensão diminuída em grau 2.

Taxa de elocução rápida em grau 2 e loudness habitual aumentado em grau 1.

Taxa de elocução lenta em grau 1, pitch com variabilidade diminuída em grau 1 e pitch habitual elevado em grau 1. Loudness habitual abaixado em grau 1.

Pitch com variabilidade aumentada em grau 1, loudness habitual diminuído em grau 2.

Pitch habitual elevado em grau 2 e loudness habitual elevado em grau 2.

Quadro 3 – Ajustes de trato vocal, fonatórios e de dinâmica vocal das amostras do exercício 1.

No exercício 2, a amostra correspondente à descrição é a amostra 5 (falante

10) que apresenta, entre os perfis de qualidade vocal desta pesquisa, o mais próximo

da neutralidade. Além disso, temos no mesmo exercício a amostra 3 (falante 6), que

possui o maior número de ajustes de qualidade vocal. Entendemos que, em virtude

deste contraste, a amostra 3 foi escolhida por apenas 1 juiz.

Além disso, acreditamos que os ajustes de dinâmica vocal tenham colaborado

como critério de exclusão de amostras. A amostra 1 (falante 2) é uma amostra

próxima da neutralidade e acreditamos que o ajuste neutro na dinâmica vocal, em

comparação ao ajuste da amostra 5, tenha colaborado para que apenas 1 juiz a

escolhesse como a voz descrita.

As amostras 2 e 5 (falantes 4 e 10) apresentam ajustes de trato vocal

antagônicos (ponta de língua recuada x ponta de língua avançada, mandíbula com

extensão aumentada x mandíbula com extensão diminuída). Mesmo assim 9 juízes

indicaram a amostra 2 como a correspondente à descrição do exercício, ao invés da

amostra 5. Acreditamos que a menor saliência da dinâmica vocal pode ter provocado

a divisão dos Juízes B entre os falantes 4 e 10 (amostras 2 e 5). A menor saliência do

93

ajuste de dinâmica vocal da descrição do exercício (loudness habitual diminuído) pode

ter contribuído para que 9 juízes indicassem a amostra 2 como a correspondente à

descrição, visto que as duas amostras apresentam ajustes distintos de dinâmica vocal,

porém com a mesma característica de menor saliência.

A amostra 4 (falante 8) apresenta ajustes de trato vocal antagônicos aos da

amostra 5 (lábios com extensão aumentada e mandíbula com extensão aumentada x

lábios com extensão diminuída e mandíbula com extensão diminuída), além de ajuste

de dinâmica vocal com maior saliência que o da amostra 5.





Lábios com extensão diminuída grau 1, mandíbula aberta em grau 1, ponta de língua avançada em grau 2, corpo de língua elevado em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

Língua recuada em grau 1, corpo de língua recuado em grau 2 e elevado em grau 1, mandíbula com extensão aumentada em grau 1, constrição faríngea em grau 2, hiperfunção de trato vocal em grau 2, hiperfunção laríngea em grau 2.

Lábios com extensão diminuída em grau 1 e protraídos em grau 2, mandíbula com extensão aumentada em grau 1, ponta de língua recuada em grau 1, corpo de língua abaixado grau 1 e recuado grau 1, altura de laringe abaixada em grau 1, hiperfunção de trato vocal em grau 1, hiperfunção laríngea em grau 1.

Lábios com extensão aumentada em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, constrição faríngea em grau 1, altura de laringe elevada em grau 2, hiperfunção laríngea em grau 1.

Lábios com extensão diminuída em grau 1, mandíbula com extensão diminuída em grau 1, ponta de língua avançada em grau 2.

Ajustes fonatórios

Voz modal.



Voz soprosa em grau 2 e áspera em grau 1.

Voz modal.


Ajuste neutro.

Taxa de elocução lenta em grau 1 e pitch habitual abaixado em grau 1.

Pitch com extensão diminuída em grau 1 e com variabilidade diminuída grau 1.

Taxa de elocução rápida em grau 1 e pitch habitual elevado em grau 2.

Loudness habitual diminuído em grau 1.


94

No exercício 3, as amostras 1, 3 e 4 não foram escolhidas por nenhum juiz.

Nesse caso, acreditamos que os ajustes de trato vocal foram os que fizeram a

diferença para a resposta dos juízes, pelo fato de os aspectos fonatórios e de dinâmica

vocal da amostra 2 serem distintos das demais amostras, por serem ajustes neutros.

A amostra 1 (falante 1) apresenta ajustes de trato vocal antagônicos aos da

amostra 2 (falante 2), como corpo de língua e altura de laringe abaixados. A amostra

4 (falante 6), da mesma maneira que a amostra 1, apresenta ajustes de trato vocal

incompatíveis com a da amostra descrita no exercício, como a ponta de língua

recuada (em contraposição a ponta de língua avançada da amostra 2) e o corpo de

língua abaixado (enquanto a amostra 2 apresenta corpo de língua elevado).

A amostra 3 (falante 5) apresenta ajustes de trato vocal bastante próximos

dos ajustes da amostra 2, mas acreditamos que a taxa de elocução lenta tenha sido

um diferencial perceptivo que fez com que os juízes não escolhessem essa amostra.

A amostra 5 (falante 9) foi escolhida por 10 juízes e, acreditamos que tenha

sido apontada como a amostra referente à descrição do exercício por não apresentar

ajustes de trato vocal divergentes com os do perfil proposto.





Lábios com extensão diminuída em grau 2, Mandíbula aberta e com extensão diminuída em grau 1, Corpo de língua abaixado em grau 1, Altura de laringe abaixada em grau 1.

Lábios com extensão diminuída em grau 1, Mandíbula aberta em grau 1, Ponta de língua avançada em grau 1, Corpo de língua elevado em grau 1, Constrição faríngea em grau 1, Hiperfunção de trato vocal em grau 1.

Lábios com extensão diminuída em grau 1, Mandíbula aberta em grau 1, Ponta de língua avançada em grau 1, Corpo de língua com extensão diminuída em grau 1, Constrição faríngea em grau 1, Hiperfunção de trato vocal em grau 1.

Lábios com extensão diminuída em grau 1 e protraídos em grau 2, Mandíbula com extensão aumentada em grau 1, Ponta de língua recuada em grau 1, Corpo de língua abaixado em grau 1 e recuado em grau 1, Altura de laringe abaixada em grau 1, Hiperfunção de trato vocal em grau 1, Hiperfunção laríngea em grau 1.

Ponta de língua avançada em grau 1, Corpo de língua elevado em grau 1 e com extensão diminuída em grau 2, Mandíbula aberta em grau 1, Hiperfunção de trato vocal em Grau 1, Laringe alta em grau 2.

Ajustes fonatórios


Voz modal. Voz áspera em grau 1.



95


Pitch habitual abaixado em grau 2 e com extensão diminuída em grau 2.

Ajustes neutros.

Taxa de elocução lenta em grau 1, Pitch com variabilidade diminuída em grau 1 e Pitch habitual elevado em grau 1, Loudness habitual abaixado em grau 1.

Pitch com extensão diminuída em grau 1 e com variabilidade diminuída em grau 1.



No exercício 4, apesar de a amostra 2 (falante 4) apresentar ajustes fonatórios

semelhantes aos da amostra 1, nenhum juiz a escolheu. Acreditamos que a

discrepância entre os ajustes de dinâmica vocal taxa de elocução rápida (amostra 1)

e lenta (amostra 2) fizeram com que os juízes eliminassem essa amostra. Nos ajustes

de trato vocal, também temos o antagonismo entre ponta de língua avançada (amostra

1) e corpo de língua recuado (amostra 2).

A amostra 3 (falante 7) foi selecionada por 2 juízes. Acreditamos que o ajuste

de laringe abaixada tenha sido o fator identificado por esses juízes.

Provavelmente devido à taxa de elocução rápida da descrição da amostra 1

(falante 3), dois juízes escolheram a amostra 4 (falante 8), que também apresenta

taxa de elocução rápida. Isso demonstra que, apesar de a amostra 4 apresentar um

ajuste de trato vocal oposto ao da amostra 1 (laringe elevada x laringe abaixada), o

que conduziu as respostas dos 2 juízes que escolheram a amostra 4 foi a dinâmica

vocal.

A amostra 5 não foi escolhida por nenhum juiz. Por ser uma amostra próxima

da neutralidade, a caraterística de loudness habitual diminuído possivelmente a

distinguiu da amostra 1.





Mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe

Língua recuada em grau 1, corpo de língua recuado em grau 2 e elevado em grau 1, mandíbula com extensão aumentada

Lábios estirados em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, corpo de língua

Lábios com extensão aumentada em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, constrição


96

abaixada em grau 1.

em grau 1, constrição faríngea em grau 2, hiperfunção de trato vocal em grau 2, hiperfunção laríngea em grau 2.

avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau 2, laringe abaixada em grau 1.

faríngea em grau 1, altura de laringe elevada em grau 2, hiperfunção laríngea em grau 1.

Ajustes fonatórios



Voz modal. Voz soprosa em grau 2 e áspera em grau 1.

Voz modal.


Taxa de elocução rápida em grau 2 e loudness habitual aumentado em grau 1.






No exercício 5, as amostras 1 (falante 1) e 2 (falante 10) foram escolhidas por

1 juiz cada uma. As duas apresentam aspectos de dinâmica vocal de menor saliência,

contrastando com os ajustes da amostra 4 (falante 9), que é a amostra correspondente

à descrição desse exercício. A amostra 1 apresenta semelhança com a amostra 4

apenas nos ajustes de hiperfunção de trato vocal e voz crepitante. A amostra 2

apresenta semelhança com a amostra 4 em um ajuste apenas, o de ponta de língua

avançada.

A amostra 3 (falante 5) foi a segunda amostra mais indicada, pois foi escolhida

por 2 juízes. Essa amostra apresenta 3 aspectos de trato vocal semelhantes à amostra

4. Além disso, possui o pitch habitual elevado como característica de dinâmica vocal.

Acreditamos que essa amostra não recebeu mais votos pelo fato de apresentar taxa

de elocução lenta, que é um aspecto bastante marcante.

A amostra 5 (falante 7) não foi escolhida por nenhum juiz. Entendemos que

os aspectos de trato vocal distintos entre as amostras 4 e 5 possam ser o motivo pelo

qual os juízes não indicaram essa amostra (hiperfunção de trato vocal e laringe alta x

expansão faríngea e laringe abaixada). A característica de dinâmica vocal de loudness

habitual diminuído também foi um aspecto contrastante com a amostra 4.

97

Assim, a dinâmica vocal da amostra 4 (falante 9) apresenta graduação 2 em

pitch e loudness, o que acreditamos ter sido o critério que colaborou para a escolha

dos Juízes B nesse exercício.







Lábios com extensão diminuída em grau 1, mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua com extensão diminuída em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

Ponta de língua avançada em grau 1, corpo de língua elevado em grau 1 e com extensão diminuída em grau 2, mandíbula aberta em grau 1, hiperfunção de trato vocal em grau 1, laringe alta em grau 2.

Lábios estirados em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, corpo de língua avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau 2, laringe abaixada em grau 1.

98

Ajustes fonatórios

Voz crepitante em grau 1 e

áspera em grau 1. Voz modal.



Voz modal.




Taxa de elocução lenta em grau 1, pitch com variabilidade diminuída em grau 1 e pitch habitual elevado em grau 1, loudness habitual abaixado em grau 1.




No exercício 6, todas as amostras apresentam 2 ajustes de trato vocal em

comum com a amostra 1 (que é a descrita no exercício). A amostra 2 apresenta 1

ajuste fonatório semelhante (a voz crepitante), mas apesar dessa aproximação entre

as duas, a amostra 2 foi escolhida por apenas 1 juiz. Acreditamos que a discrepância

entre os ajustes de dinâmica vocal tenha sido o motivo por apenas 1 juiz ter escolhido

essa amostra.

A amostra 4 não foi escolhida por nenhum juiz. O fato de possuir ajustes

fonatórios e de dinâmica vocal neutros pode ter contribuído para isso. A amostra 5

apresenta ajuste de dinâmica vocal pouco saliente e, apesar de não ser a mesma

característica prosódica da amostra 1, pode ter sido motivo de confusão entre os 2

juízes que escolheram esta amostra.

A amostra 3 foi escolhida por 7 juízes, e, apesar de apresentar ajustes de trato

vocal contrários aos da amostra 1 (laringe baixa x constrição faríngea), os aspectos

de dinâmica vocal, apesar de não serem semelhantes aos da amostra 1, podem ter

sido o motivo para a escolha dos juízes, por apresentarem algum grau de

compatibilidade.

Entendemos que, nesse caso, apesar do pitch habitual elevado, a combinação

de taxa de elocução lenta e pitch com variabilidade diminuída pode ter sido o motivo

da escolha dos juízes.

99





Lábios com extensão diminuída grau 2, mandíbula aberta e com extensão diminuída em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.

Mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.




Ajustes fonatórios




Voz modal. Voz modal.



Taxa de elocução rápida em grau 2.

Taxa de elocução lenta em grau 1, pitch com variabilidade diminuída em grau 1 e pitch habitual elevado em grau 1.

Ajuste neutro. Loudness habitual diminuído em grau 1.


No exercício 7, a amostra 3 (falante 4) é a que apresenta o maior número de

ajustes semelhantes aos da amostra 2 (ponta e corpo de língua recuado, mandíbula com

extensão aumentada, hiperfunção de trato vocal e laríngea, voz crepitante e áspera),

aproximando-se em número de respostas dos juízes (a amostra 2 recebeu 5 respostas e

a amostra 3, 4 respostas). Apesar de tantas semelhanças, não foi a amostra 3 que

recebeu mais indicações dos juízes, e sim, a amostra 5 (falante 7), pois 6 juízes a

escolheram.

A amostra 1 (falante 2) não foi escolhida por nenhum juiz. Essa amostra possui

aspectos de trato vocal distintos da amostra 2 (ponta de língua avançada, corpo de língua

elevado x ponta de língua recuada, corpo de língua abaixado e recuado), e a dinâmica

100

vocal dessa amostra apresenta características peculiares, como tremor e irregularidade

laríngea e continuidade interrompida, o que pode ter sido um fator de exclusão para os

juízes.

A amostra 4 (falante 9) também apresentou mais ajustes diferentes do que

semelhantes à amostra 2 (ponta de língua avançada e corpo de língua elevado, laringe

elevada x ponta de língua recuada e corpo de língua abaixado, laringe abaixada),

aproximando-se da descrição da amostra 2 apenas no aspecto fonatório (voz crepitante).

Apesar das diferenças, 3 juízes escolheram a amostra 4.

A amostra 5 (falante 7) foi escolhida pelo maior número de juízes (6 ao todo) e

entendemos que o ajuste de laringe abaixada, semelhante ao da descrição do exercício,

possa ter influenciado a escolha. Além disso, o loudness habitual diminuído em grau 2

pode ter sido confundido com as características de menor saliência de pitch da amostra

2.

Acreditamos que o grande número de ajustes de trato vocal descritos no exercício

(9 ajustes) e a presença de ajustes de trato vocal antagônicos em uma mesma amostra

(altura de laringe abaixada em grau 1, hiperfunção de trato vocal em grau 1, hiperfunção

laríngea em grau 1) possa ter sido o causador da dificuldade nas respostas dos juízes B

nesse exercício.









Lábios estirados em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, corpo de língua avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau 2, laringe abaixada em grau 1.

101

Ajustes fonatórios

Voz modal. Voz crepitante em grau 1 e áspera

em grau 1.


áspera em grau.

Voz crepitante em

grau 1.

Voz modal.


Tremor e irregularidade laríngea e continuidade interrompida.






No exercício 8, as amostras 1 (falante 3) e 5 (falante 8) não foram escolhidas

por nenhum juiz. A amostra 1 apresenta aspectos de trato vocal e dinâmica

antagônicos aos da amostra 4 (falante 4), que é a descrição correspondente nesse

exercício. Enquanto a amostra 1 apresenta ponta de língua avançada e corpo de

língua abaixado, a amostra 4 apresenta ponta de língua recuada e corpo de língua

elevado. No aspecto de dinâmica vocal, as amostras também apresentam aspectos

antagônicos, pois possuem taxas de elocução rápida (amostra 1) e lenta (amostra 4).

Acreditamos que a amostra 5 não tenha sido indicada por nenhum juiz por

também apresentar aspectos de trato vocal e dinâmica antagônicos aos da amostra

4, a saber: ponta de língua avançada, taxa de elocução rápida e pitch habitual elevado,

enquanto a amostra 4 possui ponta de língua recuada, taxa de elocução lenta e pitch

habitual abaixado.

A amostra 3 (falante 2) foi escolhida por 1 juiz. Apesar de apresentar 2 ajustes

de trato vocal semelhantes aos da amostra 4 (constrição faríngea e hiperfunção de

trato vocal), possui ajuste de ponta de língua antagônico ao da amostra compatível

com a descrição do exercício (avançada x recuada) e ajuste fonatório e de dinâmica

vocal neutro.

A amostra 2 (falante 9) é a que apresenta o maior número de ajustes

semelhantes aos da amostra 4: corpo de língua elevado, hiperfunção de trato vocal e

voz crepitante. Além disso, a amostra 2 possui ajuste fonatório próximo ao da amostra

4 (voz crepitante) e ajustes de trato vocal compatíveis com os ajustes da amostra 4 (a

hiperfunção de trato vocal e laringe alta é compatível com constrição faríngea,

hiperfunção de trato vocal e laríngea).

102

Nesse caso, apesar de os aspectos de dinâmica vocal serem bastante

distintos entre as amostras, a quantidade de ajustes de trato e dinâmica vocal

semelhantes e compatíveis contribuíram para que 6 juízes escolhessem pela amostra

2.





Mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.





Ajustes fonatórios



Voz modal.


Voz soprosa em grau 2 e áspera em grau 1.




Voz modal.




No exercício 9, a dinâmica vocal diferenciada da amostra 2 (falante 2) fez com

que apenas 3 juízes não a escolhessem. As amostras que foram também selecionadas

pelos juízes (amostras 3 e 5) apresentam ajustes de dinâmica vocal de maior saliência

que as demais amostras, como taxa de elocução rápida e pitch com variabilidade

aumentada, e são mais compatíveis com a dinâmica vocal apresentada pela amostra 2,

o que pode ter sido a causa da escolha dos 3 juízes.

A amostra 1 (falante 4), que teve a maior quantidade de ajustes semelhantes aos

da amostra 2, não foi escolhida por nenhum juiz. Acreditamos que esse fato tenha ocorrido

103

devido aos ajustes semelhantes entre as amostras (corpo de língua elevado, constrição

faríngea e hiperfunção de trato vocal) serem de trato vocal.

A amostra 4 (falante 10), além de ter aspecto fonatório modal como o da amostra

2, também apresenta 2 ajustes de trato vocal semelhantes, mas acreditamos que não foi

escolhida por nenhum juiz por ser a amostra mais neutra da pesquisa, o que fez com que

suas características não se sobressaíssem como as das demais amostras desse

exercício.





Língua recuada em grau 1, Corpo de língua recuado em grau 2 e Corpo de língua elevado em grau 1, Mandíbula com extensão aumentada em grau 1, Constrição faríngea em grau 2, Hiperfunção de trato vocal e laríngea em grau 2.

Lábios com extensão diminuída em grau 1, Mandíbula aberta em grau 1, Ponta de língua avançada em grau 2, Corpo de língua elevado em grau 1, Constrição faríngea em grau 1, Hiperfunção de trato vocal em grau 1.

Mandíbula aberta em grau 1, Ponta de língua avançada em grau 1, Corpo de língua abaixado em grau 1, Altura de laringe abaixada em grau 1.

Lábios com extensão diminuída em grau 1, Mandíbula com extensão diminuída em grau 1, Ponta de língua avançada em grau 2.

Lábios estirados em grau 1, Mandíbula com extensão aumentada em grau 1, Ponta de língua avançada em grau 2, Corpo de língua avançado em grau 1, Expansão faríngea em grau 2, Laringe abaixada em grau 1.

Ajustes fonatórios

Voz crepitante em grau 2 e áspera em

grau 2.

Voz modal.

Voz crepitante

em grau 1 e áspera em

grau 2.

Voz modal. Voz modal.


Taxa de elocução lenta em grau 1, e pitch habitual abaixado em grau 1.

Tremor e irregularidade laríngea e continuidade interrompida.





No exercício 10, nenhum juiz escolheu a amostra 1 (falante 5) apesar de ela

apresentar três ajustes semelhantes aos da amostra 2 (falante 3). Acreditamos que a falta

de indicação dessa amostra tenha ocorrido porque os juízes conseguem distinguir bem

104

entre taxa de elocução lenta (da amostra 1) e rápida (da amostra 2, que é a descrição

correspondente ao exercício).

3 juízes escolheram a amostra 3 (falante 1), que apresenta 4 ajustes semelhantes

aos da amostra 2. A escolha desses juízes pode ter sido baseada no pitch abaixado da

amostra 3, que é compatível com os ajustes de laringe abaixada da amostra 2.

A amostra 4 (falante 8) foi escolhida por 3 juízes e entendemos que a taxa de

elocução rápida pode ter sido o motivo da escolha, visto que ambas as amostras

apresentam esta característica de dinâmica vocal.

A amostra 5 (falante 6) apresenta aspectos fonatórios semelhantes aos da

amostra 2 (voz crepitante e áspera); e esse pode ter sido o motivo da escolha de 1 dos

juízes.







Lábios com extensão diminuída grau 2, mandíbula aberta e com extensão diminuída em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.



Ajustes fonatórios


Voz crepitante em

grau 1 e áspera em

grau 2.


Voz soprosa em grau 2 e áspera em

grau 1.


grau 1.

105








No exercício 11, nenhum juiz escolheu a amostra 1 (falante 6) e a amostra 2

(falante 8). Acreditamos que a amostra 1 não tenha sido escolhida, apesar de apresentar

4 ajustes semelhantes aos da amostra 5 (lábios com extensão diminuída, hiperfunção de

trato vocal, voz áspera e pitch com variablidade diminuída), porque a característica de

laringe abaixada da amostra 2 é incompatível com o pitch habitual elevado da amostra 5

(falante 5).

Sobre a amostra 2, apesar de ela apresentar como característica de dinâmica

vocal o pitch habitual elevado, como a amostra 5, sua taxa de elocução rápida pode ter

sido o motivo pelo qual nenhum juiz a escolheu.

A amostra 3 (falante 1) foi indicada por 6 juízes. Acreditamos que os juízes podem

ter identificado compatibilidade entre o loudness habitual diminuído da amostra 3 com a

taxa de elocução lenta e pitch com variabilidade diminuída da amostra 5, por serem

ajustes de dinâmica vocal de menor saliência.

A amostra 4 foi escolhida por um juiz, e acreditamos que a razão da escolha de

apenas 1 juiz, apesar de 4 ajustes em comum com a amostra 5, foi a característica de

dinâmica vocal de loudness habitual elevado em grau 2, que é um ajuste pouco

confundido, apesar de ambas as amostras apresentarem o pitch elevado, que também é

uma característica de fácil detecção.





Lábios com extensão

diminuída em grau 1 e

protraídos em grau 2, mandíbula

com extensão aumentada em

grau 1, ponta de língua recuada

em grau 1, corpo de língua


aumentada em grau 1, mandíbula

com extensão

aumentada em grau 1, ponta de

língua avançada

Lábios com

extensão diminuída em grau 1, Mandíbula

com extensão diminuída em grau 1, Ponta de

língua

Ponta de língua

avançada em grau 1, corpo de língua elevado

em grau 1 e com extensão diminuída em

grau 2, mandíbula

aberta em grau 1, hiperfunção


diminuída em grau 1,

mandíbula aberta em

grau 1, ponta de língua

avançada em grau 1, corpo

de língua com

106

abaixado grau 1 e recuado grau 1, altura de laringe

abaixada em grau 1, hiperfunção de trato vocal

em grau 1, hiperfunção

laríngea em grau 1.

em grau 2, constrição

faríngea em grau 1, altura

de laringe elevada em

grau 2, hiperfunção laríngea em

grau 1.

avançada em grau 2.

de trato vocal em grau 1,

laringe alta em grau 2.

extensão diminuída em

grau 1, constrição

faríngea em grau 1,

hiperfunção de trato vocal

em grau 1.

Ajustes fonatórios

Voz crepitante em grau 1 e áspera

em grau 1.

Voz soprosa em grau 2 e áspera em

grau 1.

Voz modal. Voz crepitante

em grau 1. Voz áspera em grau 1.

Ajustes de dinâmica

vocal

Pitch com extensão

diminuída em grau 1 e com variabilidade

diminuída grau 1.

Taxa de elocução rápida em grau 1 e

pitch habitual

elevado em grau 2.

Loudness habitual

diminuído em grau 1.

Pitch habitual elevado em

grau 2 e loudness

habitual elevado em grau 2.

Taxa de elocução lenta em

grau 1, pitch com

variabilidade diminuída em

grau 1 e pitch habitual elevado em

grau 1.


No exercício 12, a amostra 1 (falante 7) não foi indicada por nenhum juiz,

provavelmente, por apresentar o ajuste de laringe abaixada e expansão faríngea, que

são incompatíveis com os ajustes de laringe elevada e hiperfunção de trato vocal da

amostra 3 (falante 9).

A amostra 5 (falante 4) também não recebeu nenhuma indicação dos juízes.

Acreditamos que, apesar de apresentar 3 ajustes semelhantes aos da amostra 3

(corpo de língua elevado, hiperfunção de trato vocal e voz crepitante), isso ocorreu

devido ao fato de o pitch habitual abaixado ser incompatível com o pitch habitual

elevado da amostra 3.

A amostra 2 (falante 10) foi escolhida por 3 juízes apesar de ter apenas o

ajuste de ponta de língua avançada em comum com a amostra 3. Acreditamos que a

extensão diminuída de lábios e mandíbula da amostra 2 pode ter sido entendida como

compatível com a extensão diminuída em grau 2 do corpo de língua da amostra 3,

para os juízes que fizeram esta escolha.

A amostra 4 (falante 5) foi escolhida por 4 juízes e é a que apresenta o maior

número de ajustes semelhantes aos da amostra 3 (mandíbula aberta, ponta de língua

avançada, corpo de língua com extensão diminuída, hiperfunção de trato vocal e pitch

habitual elevado).

107





Lábios estirados em grau 1, Mandíbula com extensão aumentada em grau 1, Ponta de língua avançada em grau 2, Corpo de língua avançado em grau 1, Expansão faríngea em grau 2, Laringe abaixada em grau 1.




Língua recuada em grau 1, Corpo de língua recuado em grau 2 e Corpo de língua elevado em grau 1, Mandíbula com extensão aumentada em grau 1, Constrição faríngea em grau 2, Hiperfunção de trato vocal e laríngea em grau 2.

Ajustes fonatórios

Voz modal. Voz modal. Voz crepitante

em grau 1.


Voz crepitante em

grau 2 e áspera em

grau 2.




pitch habitual elevado em grau 2 e loudness habitual elevado em grau 2.


Taxa de elocução lenta em grau 1, e pitch habitual abaixado em grau 1.


No exercício 13, as amostras 2 e 3 foram escolhidas por 1 juiz cada.

Acreditamos que isso tenha ocorrido pelo fato de essas amostras terem aspectos de

dinâmica vocal contrastantes com a amostra 1, que é a amostra referente à descrição

do exercício (taxa de elocução rápida e pitch habitual elevado x taxa de elocução lenta

e pitch habitual abaixado x pitch habitual abaixado com extensão diminuída).

Além disso, na amostra 2, também se distingue da amostra 1 a língua recuada

(em oposição à ponta de língua avançada da amostra 1).

108

Na amostra 3, também são distintos o aspecto de lábios com extensão

diminuída (em contraste com a extensão aumentada da amostra 1) e a altura de

laringe abaixada (ao contrário do ajuste de laringe elevada da amostra 1).

A amostra 4 foi a escolhida por 4 juízes, e acreditamos que a razão dessa

escolha tenha sido a combinação dos ajustes de pitch habitual elevado com laringe

alta. A amostra 5, apesar de apresentar ajuste de laringe abaixada (em oposição à

laringe elevada da amostra 1), foi selecionada por 2 juízes, e acreditamos que sua

característica taxa de elocução rápida (semelhante a amostra 1) possa explicar a

aproximação que dois juízes fizeram.





Lábios com extensão aumentada em grau 1, Mandíbula com extensão aumentada em grau 1, Ponta de língua avançada em grau 2, Constrição faríngea em grau 1, Altura de laringe elevada em grau 2, Hiperfunção laríngea em grau 1.

Língua recuada em grau 1, Corpo de língua recuado em grau 2 e corpo de língua elevado em grau 1, Mandíbula com extensão aumentada em grau 1, Constrição faríngea em grau 2, Hiperfunção de trato vocal em grau 2, Hiperfunção laríngea em grau 2.


Ponta de língua avançada em grau 1, Corpo de língua elevado em grau 1 e com extensão diminuída em grau 2, Mandíbula aberta em grau 1, Hiperfunção de trato vocal em Grau 1, Laringe alta em grau 2.


Ajustes fonatórios

Voz soprosa em grau 2 e áspera

em grau 1.


áspera em grau 2.




grau 2.








109

No exercício 14, a amostra 1 (falante 9) não foi escolhida por nenhum juiz e

sua única semelhança com a amostra 3 (falante 7) é o ajuste de ponta de língua

avançada, ajuste encontrado em 7 dos 10 perfis de qualidade vocal desta pesquisa.

Outra razão para a amostra 1 não ter sido escolhida é o ajuste de laringe alta, que é

antagônico ao ajuste de laringe baixa descrito no perfil da amostra 3. Também é

possível observar que, nesse exercício, não houve confusão entre ajustes de loudness

habitual elevado (amostra 1) e loudness habitual diminuído (amostra 3).

A amostra 2 foi escolhida por 2 juízes, e entendemos que, apesar de ser a

amostra (juntamente com a amostra 4) com maior número de ajustes semelhantes

aos da amostra 3 (ponta de língua avançada, corpo de língua abaixado, laringe

abaixada), a taxa de elocução rápida presente na amostra foi uma característica que

fez com que os demais juízes não a escolhessem.

A amostra 4 foi escolhida por 7 juízes. Apesar de a amostra 4 apresentar

ajustes de trato vocal antagônicos aos da amostra 3 (ponta de língua recuada x ponta

de língua avançada, hiperfunção de trato vocal e laringe x expansão faríngea), a

amostra foi escolhida por 7 juízes, e entendemos que pode ter havido confusão entre

aspectos de menor saliência, como loudness habitual diminuído em grau 2 da amostra

3 e os ajustes de extensão e variabilidade de pitch da amostra 4.

A amostra 5 foi indicada por 1 juiz e acreditamos que o baixo número de juízes

a escolher essa amostra deve-se, apesar da semelhança nos ajustes fonatórios (voz

modal), à incompatibilidade entre os ajustes de trato vocal expansão e constrição

faríngea. Acreditamos que, nesse caso, como não havia semelhança ou proximidade

entre os ajustes de dinâmica vocal, as divergências nos ajustes de trato vocal foram

melhor observadas pelos juízes.





Ponta de língua avançada em grau 1, Corpo de língua elevado em grau 1 e com extensão diminuída em grau 2, Mandíbula

Mandíbula aberta em grau 1, Ponta de língua avançada em grau 1, Corpo de língua abaixado em grau 1, Altura de

Lábios estirados em grau 1, Mandíbula com extensão aumentada em grau 1, Ponta de língua avançada em grau 2, Corpo de língua avançado em grau 1 e abaixado em

Lábios com extensão diminuída em grau 1 e protraídos em grau 2, Mandíbula com extensão aumentada em grau 1, Ponta de língua recuada em grau 1, Corpo de língua abaixado em grau 1 e

Lábios com extensão diminuída em grau 1, Mandíbula aberta em grau 1, Ponta de língua avançada em grau 1, Corpo de língua elevado em

110

aberta em grau 1, Hiperfunção de trato vocal em Grau 1, Laringe alta em grau 2.

laringe abaixada em grau 1.

grau 1, Expansão faríngea em grau 2, Laringe abaixada em grau 1.

recuado em grau 1, Altura de laringe abaixada em grau 1, Hiperfunção de trato vocal em grau 1, Hiperfunção laríngea em grau 1.

grau 1, Constrição faríngea em grau 1, Hiperfunção de trato vocal em grau 1.

Ajustes fonatórios


Voz crepitante em grau 1 e áspera

em grau 2.

Voz modal. Voz crepitante em

grau 1 e áspera em grau 1.

Voz modal.




Pitch com variabilidade aumentada em grau 1, Loudness habitual diminuído em grau 2.


Ajustes neutros.


No exercício 15, a amostra 2 (falante 1) foi escolhida por 1 juiz. É possível que

o ajuste de trato vocal de laringe abaixada, a característica fonatória de voz crepitante

e os aspectos de dinâmica vocal de pitch habitual abaixado com extensão diminuída

em nível 2 de graduação tenham sido um diferencial entre as amostras, visto que a

amostra 1 possui perfil próximo da neutralidade. Acreditamos que, nesse exercício,

em virtude desse contraste, tenha havido pouca aderência dos juízes a essa amostra.

A amostra 3 (falante 5) foi selecionada por 5 juízes e entendemos que a

escolha tenha se dado não por semelhanças com a amostra 1, mas devido a relevantes

diferenças de dinâmica vocal entre as demais amostras (4 e 5) com a amostra 1.

As amostras 4 e 5 apresentam taxa de elocução rápida, que é um ajuste

dificilmente confundido. Assim, acreditamos que, nesse exercício, os ajustes de

dinâmica vocal tenham sido utilizados pelos juízes como critério de exclusão.

111










Ajustes fonatórios

Voz modal. Voz crepitante

em grau 1. Voz áspera em grau

1.


grau 2.

Voz soprosa em grau 2 e áspera

em grau 1.








Observando os resultados da tarefa perceptiva proposta aos Juízes B,

separamos os 15 exercícios em dois grupos. O grupo 1 é o dos exercícios com maior

número de acertos e é composto pelos exercícios 1, 4, 5, 8, 9, 10, 11, 12, 13 e 15. O

grupo 2 é o dos exercícios com menor número de acertos e é composto pelos

exercícios 2, 3, 6, 7 e 14.

Nos exercícios do grupo 1, ao investigarmos as hipóteses para o maior

número de acertos por parte dos Juízes B, pudemos perceber que, nesses exercícios,

apesar de verificarmos que os aspectos de trato vocal e fonatório foram utilizados em

alguns exercícios como critério de escolha ou exclusão de amostras, os ajustes de

dinâmica vocal foram os ajustes que mais influenciaram as escolhas dos juízes. Para

demonstração, ampliaremos as análises dos exercícios 9 e 13.

112

No exercício 9, observando de maneira detalhada os ajustes de trato vocal

das amostras, temos, em comum, entre a amostra 1 e a amostra 2, ajustes de corpo

de língua elevado, constrição faríngea e hiperfunção de trato vocal. Entre a amostra 2

e a amostra 3, temos em comum os ajustes de mandíbula aberta e ponta de língua

avançada. Entre a amostra 2 e a amostra 4, temos em comum os ajustes de lábios

com extensão diminuída e ponta de língua avançada. Entre as amostras 2 e 5, temos

em comum apenas o ajuste de ponta de língua avançada.

Se os ajustes de trato vocal tivessem sido mais privilegiados pelos Juízes B

na execução dessa tarefa, acreditamos que a amostra 1, por apresentar mais

semelhanças nesse quesito com a amostra 2, poderia ter tido algum grau de resposta,

mas, ao contrário, nenhum juiz escolheu essa amostra como sendo a da descrição

apresentada no exercício 9. Apesar das amostras 2 e 5 terem apenas um ajuste de

trato vocal em comum, a amostra 5 foi a que mais se aproximou do resultado da

amostra 2, pois 2 juízes a elegeram como sendo a voz descrita.

De acordo com o quadro acima, os ajustes fonatórios também não foram as

características mais observadas pelos Juízes B. Se os ajustes fonatórios tivessem

sido os privilegiados na escolha dos Juízes B, a amostra 4 teria tido algum grau de

resposta, pois apresenta voz modal, como a amostra 2. Apesar da semelhança de

ajuste fonatório, nenhum juiz escolheu a amostra 4 como sendo a da descrição

apresentada no exercício 9.

A amostra 2 apresenta o aspecto de dinâmica vocal mais diferenciado entre

os demais, pois o falante audiogravado apresentou tremor e irregularidade laríngea,

além de continuidade interrompida. O aspecto de dinâmica vocal sobressaiu em

relação aos outros tipos de ajustes, daí o grande número de respostas que obteve.

Observando com maior grau de detalhamento as amostras do exercício 13,

podemos perceber as aproximações no que se refere aos ajustes de trato vocal,

fonatórios e de dinâmica vocal entre a amostra 1(compatível com a descrição do

exercício) e as demais amostras.

Sobre os ajustes de trato vocal no exercício 13, temos em comum entre a

amostra 1 e a amostra 2, ajuste de mandíbula com extensão aumentada, constrição

faríngea e hiperfunção faríngea. Entre a amostra 1 e a 4, temos em comum os ajustes

de ponta de língua avançada e laringe alta. Entre a amostra 1 e a 5, temos em comum

o ajuste de ponta de língua avançada. Entre a amostra 1 e a 2, não temos em comum

nenhum ajuste de trato vocal.

113

Se os ajustes de trato vocal tivessem sido mais privilegiados pelos Juízes B

na execução dessa tarefa, acreditamos que a amostra 2 poderia ter sido escolhida por

mais juízes, visto que é a amostra com maior número de ajustes de trato vocal em

comum com a amostra 1. Apesar disso, a amostra 2 foi escolhida por um juiz, da

mesma maneira que a amostra 3, que não possui nenhum ajuste de trato vocal

semelhante à amostra 1.

Os ajustes fonatórios também não foram as características mais observadas

pelos Juízes B, pois a segunda amostra mais escolhida por eles, a amostra 4, não

possui nenhuma característica fonatória semelhante à amostra 1.

A amostra 1 apresenta como ajustes de dinâmica vocal, taxa de elocução

rápida em grau 1 e pitch habitual elevado em grau 1. As amostras 4 e 5, que foram as

mais escolhidas pelos Juízes B depois da amostra 1 (a amostra 4 foi escolhida por 4

juízes e a amostra 5, por 2), apresentam, respectivamente, pitch habitual elevado e

taxa de elocução rápida.

Esse resultado apresenta compatibilidade com o relato de Camargo e

Madureira (2008a) sobre o treinamento de juízes realizado por elas, utilizando o VPAS

(LAVER, 2000), que contém os ajustes de trato vocal e fonatórios (ANEXO 15). As

pesquisadoras identificaram que em um grupo de linguistas e fonoaudiólogos

participantes do treinamento, o grupo que teve maior facilidade em identificar ajustes

de trato vocal foi o dos linguistas. Enquanto estes demonstraram maior tendência a

identificar ajustes de trato vocal, os fonoaudiólogos tiveram maior facilidade com os

ajustes fonatórios.

Essa maior facilidade dos fonoaudiólogos na identificação de aspectos

fonatórios em detrimento dos articulatórios pode ter sido um motivador para os Juízes

B privilegiarem outros ajustes ao invés dos de trato vocal. Na pesquisa das autoras,

não foram investigados os ajustes de dinâmica vocal. Acreditamos que esses sejam

ajustes considerados “mais fáceis” por juízes com pouca experiência e, por isso, foram

usados como critério de escolha na execução das tarefas perceptivas.

Sobre o grupo 2, que é o conjunto dos exercícios com menor grau de acertos,

apesar de identificarmos um padrão menos marcado do que no grupo 1, é possível

analisar alguns pontos em comum entre os resultados desses exercícios. Nos

exercícios 2, 3, 6, 7 e 14, é possível perceber, em menor ou maior grau, a observação

das diferenças entre ajustes de trato vocal para a identificação da amostra

correspondente aos exercícios.

114

Também é possível verificar que temos como descrições, nesses exercícios,

perfis de qualidade vocal escolhidos com aspectos de dinâmica vocal menos

salientes. Apresentamos abaixo uma tabela com os aspectos de dinâmica vocal de

cada amostra correspondente à descrição dos exercícios para exemplificar melhor o

que estamos considerando como “menos salientes”.

Exercícios Exercício 2 Exercício 3 Exercício 6 Exercício 7 Exercício 14


Aspectos de dinâmica vocal


Ajuste neutro.



Pitch com variabilidade aumentada em grau 1 e loudness habitual diminuído em grau 2.

Quadro 18 – Aspectos de dinâmica vocal das descrições do grupo de exercícios com menor grau de acertos.

No quadro anterior, a única descrição de perfil com ajuste de dinâmica vocal mais

saliente é a do exercício 14 (falante 7), que apresenta pitch com variabilidade aumentada,

mas acompanhada de loudness habitual diminuído em grau 2. Acreditamos que a

diminuição de características de pitch e loudness possam dificultar a identificação do

perfil, a menos que outras amostras do lineup apresentem características muito

diferentes, o que facilitaria a escolha dos juízes por usarem o critério de “eliminação do

diferente”, como podemos perceber nas respostas ao exercício 3.

Como podemos verificar nos resultados do exercício 3, se os ajustes de trato

vocal tivessem sido as características mais percebidas pelos Juízes B, a amostra 3 teria

sido marcada pelos juízes, pois apresenta 5 ajustes de trato vocal semelhantes ao da

amostra 2, que era a compatível com a descrição do exercício. Apesar de tantos aspectos

de trato vocal próximos da amostra 2, a amostra 3, assim como as amostras 1 e 4, não

foram escolhidas por nenhum juiz.

A amostra 5 foi a amostra que a maioria dos juízes escolheu como sendo a

relacionada à descrição do exercício. A amostra apresenta 3 ajustes de trato vocal

semelhantes aos da amostra 2. Acreditamos que a escolha dos juízes pela amostra 5

tenha ocorrido por exclusão, pois as amostras 1, 3 e 4 apresentam ajustes de dinâmica

vocal menos salientes que os ajustes da amostra 5.

Além disso, temos diferenças nos ajustes de trato vocal que colaboram para

o resultado apresentado. Observando os ajustes de trato vocal da amostra

correspondente ao exercício, que é a amostra 2, verificamos características

115

antagônicas aos das amostras 1 e 4, que não foram escolhidas por nenhum juiz. A

amostra 1 apresenta ajuste de corpo de língua abaixado, enquanto a amostra 2 possui

corpo de língua elevado, e a amostra 4 indica ponta de língua recuada (em

contraposição a ponta de língua avançada da amostra 2) e o corpo de língua abaixado

(enquanto a amostra 2 apresenta corpo de língua elevado). É provável que o

antagonismo entre os ajustes de trato vocal das amostras 1 e 4 tenha colaborado para

que nenhum juiz tenha optado por essas amostras.

Em compensação, a amostra 3 apresenta ajustes de trato vocal compatíveis

com a descrição da amostra 2, mas a característica de dinâmica vocal taxa de

elocução lenta pode ter sido o diferencial para que a amostra não tenha sido indicada

nesse exercício.

Também foi possível perceber que, nos exercícios do grupo 2, os aspectos de

dinâmica vocal menos salientes podem ter sido confundidos pelos juízes. Um exemplo

da dificuldade apresentada por eles pode ser verificado ao analisarmos o resultado do

exercício 14.

No exercício 14, se os aspectos de trato vocal fossem as características mais

observadas pelos Juízes B, um número maior de juízes deveria ter escolhido a

amostra 2 como a compatível com a descrição do exercício, pois essa amostra possui

3 ajustes de trato vocal semelhantes à amostra correspondente, mas apenas 2 juízes

a escolheram. Em compensação, a amostra 4, que apresenta 2 aspectos de trato

vocal semelhantes à amostra 3, foi escolhida por 7 juízes como sendo a mais próxima

da descrição apresentada.

Os aspectos de trato vocal podem ter sido utilizados como critério de exclusão

nesse exercício em relação às amostras 1 e 5. A amostra 1 não foi escolhida por

nenhum juiz e apresenta como aspecto de trato vocal, o ajuste de laringe alta,

divergente do ajuste de laringe baixa da amostra 3. A amostra 5 foi escolhida por

apenas 1 juiz e a incompatibilidade entre os ajustes de trato vocal expansão e

constrição faríngea pode ter sido o motivo da pouca aderência a esta amostra.

Em compensação, a amostra 4 foi selecionada por 7 juízes apesar de

divergências de trato vocal com a amostra 3 (ponta de língua recuada x ponta de

língua avançada, hiperfunção de trato vocal e laringe x expansão faríngea). Nesse

caso, é possível que os juízes tenham percebido compatibilidade entre os ajustes de

dinâmica vocal, confundindo-se com os aspectos de menor saliência desses ajustes,

116

como loudness habitual diminuído em grau 2 da amostra 3 e os ajustes de extensão

e variabilidade de pitch da amostra 4.

Analisando os aspectos fonatórios das amostras do exercício 14, a única

amostra com aspecto fonatório semelhante ao da amostra 3 (voz modal) é a amostra

5, que foi a amostra escolhida por apenas um juiz.

Os aspectos de dinâmica vocal das amostras 3 e 4 são aspectos menos

salientes e, acreditamos que os juízes se dividiram entre essas duas amostras em

decorrência disso. A amostra 3 apresenta pitch com variabilidade aumentada em grau

1 e loudness habitual diminuído em grau 2, enquanto a amostra 4, pitch com extensão

diminuída em grau 1 e com variabilidade diminuída em grau 1. Devido à falta de

experiência dos Juízes B, a menor intensidade dos aspectos de dinâmica vocal pode

ter dificultado a resolução da tarefa.

Observando a tabela a seguir, verificamos o percentual de acertos por

amostras de fala. É possível identificar as amostras dos falantes 3 e 9, como as

amostras que os Juízes B mais acertaram, e as amostras dos falantes 1, 6 e 7, como

as amostras que os Juízes B mais erraram.

Falantes %

Falante 1 44

Falante 2 64

Falante 3 69

Falante 4 61

Falante 5 64

Falante 6 28

Falante 7 44

Falante 8 56

Falante 9 69

Falante 10 50 Tabela 6 – Porcentagem de acerto dos exercícios perceptivos por amostra dos falantes

audiogravados.

As amostras dos falantes audiogravados 3 e 9 tiveram 69% de identificação

correta, pois apresentam aspectos mais salientes de dinâmica vocal, como taxa de

elocução rápida em grau 2 e loudness habitual aumentado em grau 1 na leitura de

frase (sujeito 3), e pitch habitual elevado em grau 2 com loudness habitual elevado

em grau 2, além de laringe alta em grau 2 (sujeito 9).

117

As amostras dos falantes audiogravados 1, 6 e 7 tiveram os percentuais mais

baixos de identificação correta e apresentam aspectos menos salientes de dinâmica

vocal. As amostras dos falantes audiogravados 1 e 7 tiveram 44% de identificação

correta e apresentam, em comum, laringe baixa em grau 1. Além disso, a amostra do

falante audiogravado 1 apresenta, como aspectos de dinâmica vocal, pitch habitual

abaixado em grau 2 e com extensão diminuída em grau 2. A amostra do falante

audiogravado 7 apresenta, como aspectos de dinâmica vocal, pitch com variabilidade

aumentada em grau 1, mas loudness habitual diminuído em grau 2, o que torna as

características de dinâmica vocal menos salientes.

A amostra do falante audiogravado 6 foi a que obteve o menor percentual de

identificação correta (28%). A amostra possui aspectos menos salientes de dinâmica

vocal, como pitch com extensão diminuída em grau 1 e variabilidade diminuída em

grau 1. Acreditamos que o menor índice de acertos se deu pelo fato de a amostra

apresentar, além do grande número de ajustes, uma combinação pouco comum, que

é a de laringe abaixada com hiperfunção de trato vocal e de laringe. Essas

características da amostra podem ter dificultado a identificação por parte dos Juízes

B.

Os resultados obtidos através da análise do percentual de acertos por amostra

dos falantes audiogravados se alinha com o que foi exposto após o estudo de cada

exercício perceptivo aqui apresentado, ou seja, os aspectos de dinâmica vocal foram

os mais influentes na decisão dos Juízes B, por isso, as amostras dos falantes 3 e 9

foram as mais identificadas corretamente, visto que apresentam aspectos mais

salientes de dinâmica vocal. Ao contrário, as amostras dos falantes 1, 6 e 7 foram

menos identificadas pelos Juízes B por apresentarem aspectos menos salientes de

dinâmica vocal. No caso da amostra do falante 6, a identificação se tornou ainda mais

difícil devido ao grande número de ajustes (principalmente de trato vocal) e da

incomum combinação dos mesmos.

118

7 CONSIDERAÇÕES FINAIS

A inclusão de parâmetros de natureza perceptiva e linguística enriquece as

informações que o perito possui acerca das amostras investigadas (NOLAN, 1983;

PORTO, GONÇALVES, 2007). Em nossa prática pericial, utilizamos a combinação

das análises léxico-estruttural, perceptiva e acústica, pois entendemos que, para se

concluir que duas amostras de fala foram produzidas por um mesmo indivíduo, é

necessária a observação do maior número de parâmetros possível. Assim, julgamos

fundamental que o perito tenha expertise em análises perceptiva e acústica, além de

conhecimentos profundos em Fonética e outros ramos da Linguística.

Os resultados do treinamento dos Juízes B apontam caminhos para o

treinamento perceptivo de peritos em identificação de falantes, partindo dos seguintes

pressupostos:

i) a tarefa de caracterizar um falante é complicada devido à imensa gama

de variação possível dentro do discurso de uma pessoa (FIGUEIREDO,

1994; NOLAN et al., 2006; GILLIER, 2011), prejudicando a comparação

entre duas amostras gravadas;

ii) apesar de a variabilidade ser um dos fatores que dificultam a correta

identificação de falantes, não a impede, já que é esperado que o grau de

variação intrafalantes seja menor que o interfalantes (GILLIER, 2011;

ROSE, 2002; ZHANG, WEIJER, CUI, 2006);

iii) a variabilidade intrafalantes ocorre devido a diversos fatores, tais como

a intenção comunicativa; as dimensões e condições do trato vocal

individual; a familiaridade com o interlocutor; o estado emocional; o grau

de formalidade da situação e até o nível de ruído de fundo, ou seja,

dependendo da situação de comunicação, da intenção e das condições

físicas ou psicológicas do orador no momento em que produz as

amostras de fala, o grau de variabilidade intrafalante pode ser

considerável (FIGUEIREDO, 1984; NOLAN, 1997; TIWARI, TIWARI,

2012; GONÇALVES, 2013);

119

iv) a variabilidade interfalantes, ou seja, a diferença existente entre a fala

de duas pessoas distintas, está relacionada às características

fisiológicas de trato vocal, linguísticas e paralinguísticas existentes entre

os indivíduos (GILLIER, 2011; GONÇALVES, 2013);

v) a invariabilidade anatomofisiológica do aparato vocal é uma questão

importante quando falamos em perfil de qualidade vocal, pois esses

aspectos, que são intrínsecos das vozes, fogem do controle do falante e

referem-se à constituição física do trato vocal, oferecendo pistas quanto

a sexo, idade e estado de saúde do indivíduo (LAVER, 1975).

Defendemos que o treinamento perceptivo de peritos em identificação de

falantes seja baseado em ajustes de trato vocal, fonatórios e de dinâmica vocal, e que

o roteiro VPAS é um instrumento eficaz para tal avaliação e aplicação em perícias. O

treinamento perceptivo realizado constatou a viabilidade de ensino do instrumento,

ressaltando a importância do mesmo na capacitação de peritos e a necessidade de

um número maior do que 18 horas para se adquirir proficiência na aplicação do roteiro.

A continuidade do treinamento em grupos de discussão é uma alternativa que pode

contribuir para a obtenção dessa proficiência.

A análise dos resultados da tarefa perceptiva realizada pelos juízes B, ou seja,

juízes em formação, podem ser importantes para a elaboração de futuras

capacitações no roteiro VPAS-PB.

Essa experiência também nos mostrou o quanto os aprendizes, ao usar o

roteiro VPAS, podem se prender a aspectos com os quais se sintam mais seguros,

como no caso, os aspectos de dinâmica vocal. Sugerimos aos que lerão este trabalho

e pretendam aplicar treinamentos perceptivos com o uso do roteiro VPAS, que o

dividam em três momentos, treinando inicialmente os ajustes de trato vocal, em

seguida os fonatórios e aplicando as testagens necessárias para, em um terceiro

momento, em que os aprendizes estejam mais preparados, possam incluir na análise

os aspectos de dinâmica vocal.

Acreditamos que essa divisão possa atenuar o foco dos aprendizes nos

aspectos de dinâmica vocal, facilitando a maior ênfase em características de

qualidade vocal que apresentem menor grau de variação intrafalante.

120

A investigação sobre a aplicabilidade do roteiro VPAS-PB demonstrou que o

instrumento pode ser utilizado na perícia de identificação de falantes, por apresentar

um alto grau de confiabilidade de juízes experientes. O teste estatístico apresentou

resultados positivos quanto à confiabilidade devido ao tempo de experiência do grupo

de avaliadores, os juízes A. Acreditamos que não apenas o treinamento seja o motivo

das respostas satisfatórias, mas sim a continuidade no uso do instrumento por parte

dos juízes.

Como proposta de continuidade e na busca do aprimoramento das técnicas

periciais, consideramos importante a elaboração e testagem de um protocolo de estilo

de fala para complementar o instrumental utilizado para identificação de falantes.

121

8 REFERÊNCIAS

ALBERTO FILHO, R.P. Da perícia ao perito, 2ª edição, Niterói, RJ: Impetus, 2010, pag. 30.

ALÉSSIO, C.V.; MEZZOMO, C.L.; KÖRBES, D. Intervenção fonoaudiológica nos casos de pacientes classe III com indicação à cirurgia ortognática. Arquivos em Odontologia, v. 43, n. 3, jul/set. 2007.

AMERICAN SPEECH-LANGUAGE-HEARING ASSOCIATION (ASHA). Central auditory processing: current status of research and implications for clinical practice. American journal of Audiology, v.5, p. 41-54, 1996.

AMINO, K.; ARAI, T. Speaker-dependent characteristics of the nasals. Forensic Science International, v. 185, p. 21-28, 2009.

AMINO, K.; SUGAWARA, T.; ARAI, T. Effects of the syllable structure on perceptual speaker identification. IEICE, v. 105, p. 109–114, 2006.

ANDRADE, F.V., ANDRADE, D.V., ARAUJO, A.S., RIBEIRO, A.C.C., DECCAX, L.D.G., NEMR, K. Alterações estruturais de órgãos fonoarticulatórios e más oclusões dentárias em respiradores orais de 6 a 10 anos. Rev. CEFAC, São Paulo, v.7, n.3, p. 318-25, jul-set. 2005.

BARBOSA, P. A. Detecting changes in speech expressiveness in participants of a radio program. In: Proc. of Interspeech 2009 - Speech and Intelligence. Londres: Causal Productions, p. 2155-2158, 2009.

BEHLAU, M., MADAZIO, G., FEIJÓ, D., PONTES, P. Avaliação da Voz. In: BEHLAU, M. (org.) Voz – O Livro do Especialista. Vol. I. Rio de Janeiro: Revinter; 2001. Cap. 3, p. 86-180.

BEHLAU, M.; PONTES, P. Avaliação global da voz. São Paulo: Lovise, 1995.

BEHLAU, M. Consensus auditory – perceptual evaluation of voice (CAPE-V). ASHA, 2003. Rev. Soc. Bras. Fonoaudiologia, v.9, n. 3, p.187-9, 2004.

BONFIM, M.F., CAMARGO, Z., FERREIRA, L.P., MADUREIRA, S. Qualidade vocal e formantes das vogais de falantes adultos da cidade de João Pessoa. Rev. CEFAC, v. 9, n. 1, p. 99-109, 2007.

BOONE, D., MACFARLANE, S. The voice and voice therapy. Englewood Cliffs: Prentice Hall, 1988.

BRAID, A.C.M. Fonética Forense. 2. Ed. Campinas: Millenium, 2003.

BRASOLOTTO, A.G.; REHDER, M. I. Diagnóstico Vocal Fonoaudiológico. In: REHDER, M.I.; Branco, A. (Org.). Disfonia e Disfagia: interface, atualização e prática clínica. Rio de Janeiro: Revinter, 2010. p. 1-37.

BROEDERS, A.P.A. Forensic speech and audio analysis forensic linguistics 1998 to 2001: a review. Paper at the 13th INTERPOL Forensic Science Symposium, 2001.

CAMARGO, Z.A. Análise da qualidade vocal de um grupo de indivíduos disfônicos: uma abordagem interpretativa e integrada de dados de natureza acústica, perceptiva e eletroglotográfica vocal e disfagia pós-acidente vascular cerebral: aspectos acústicos, fisiológicos e perceptivos. Dissertação (Doutorado em Linguística) – PUC/SP. São Paulo. 2002.

122

CAMARGO, Z.A.; MADUREIRA, S. Voice quality analysis from a phonetic perspective: Voice Profile Analysis Scheme Profile for Brazilian Portuguese (BP-VPAS). Proceedings of the Fourth Conference on Speech Prosody, 2008a.

______. Avaliação vocal sob a perspectiva da fonética: investigação preliminar. Rev. Distúrb. Comun, São Paulo, v. 20, n. 1, p. 77-96, 2008b.

______. Dimensões perceptivas das alterações de qualidade vocal e suas correlações aos planos da acústica e da fisiologia. Revista Delta, 2009.

______. The acoustic analysis of speech samples designed for the Voice Profile Analysis Scheme for Brazilian Portuguese (BP-VPAS): long-term f0 and intensity measures. In: Proceedings of the 3rd ISCA Workshop ExLing 2010, 25-27 August, Athens, Greece. Athens: International Speech Communication Association, p. 33-36, 2010.

______. The vocal profile analysis: a discussion of theoretical and applied issues. In: Workshop on Vocal Profile Analysis (VPA). Unicamp, Campinas, 2016.

CAMARGO, Z.A.; MADUREIRA, S.; RUSILO, L.C. Evaluating speech samples designed for the Voice Profile Analysis Scheme for Brazilian Portuguese (BP-VPAS). In: Proceedings of the 4rd ISCA Workshop ExLing 2011, 25-27 May., Paris, France. p. 51-54, 2011.

CAMARGO, Z.A.; MADUREIRA, S.; SCHMITZ, J. Qualidade vocal e produções de fala em três línguas: um estudo de caso. Revista Intercâmbio, São Paulo: LAEL/PUCSP, v. XXVII, p. 110-140, 2013.

CANHETTI, C.; GREGIO, F.N.; CUKIER-BLAJ, S.; CAMARGO, Z. Medidas acústicas de duração índices perceptivo-auditivos em falantes asmáticas e disfônicas. Revista Intercâmbio, São Paulo: LAEL/PUCSP, v. XXVI, p. 196-215, 2012.

CARRARA, E. Análise comparativa da configuração laríngea, perceptual auditiva e espectrográfica acústica da qualidade vocal pré e pós emissão vocal em registro basal. Monografia (Especialização) – Escola Paulista de Medicina. São Paulo, 1991.

CASSOL, M., MADUREIRA, S., BEHLAU, M. Aplicação de um modelo fonético na análise da qualidade vocal de indivíduos disfônicos. Anais do 34º Congresso Brasileiro de Otorrinolaringologia. SBORL, Porto Alegre, 1998.

CHUN, R.Y.S. A Voz na Interação Verbal: como a interação transforma a voz. Tese (Doutorado em Linguística Aplicada) – PUC/SP. São Paulo. 2002. CICRES, J. Análisis discriminante de un conjunto de parámetros fonético-acústicos de las pausas llenas para identificar hablantes. Síntesis Tecnológica, Institut Universitari de Linguística Aplicada – ForensicLab, Universitat Pompeu Fabra, Barcelona, España, v. 3, n. 2, p. 87-98, 2007.

CONSTANTINI, A.C. Caracterização prosódica de sujeitos de diferentes variedades do português brasileiro em diferentes relações sinal-ruído. Dissertação (Doutorado em Linguística) – Universidade Estadual de Campinas, São Paulo, 2014.

CUKIER, S. Qualidade vocal em indivíduos asmáticos com e sem disfunção paradoxal de pregas vocais: correlatos perceptivo-auditivos, acústicos e fisiológicos. Dissertação (Mestrado em Linguística Aplicada) – PUC/SP, São Paulo, 2006. DAENECKE, S., BIANCHINI, E.M.G., SILVA, A.P.B.V. Medidas antropométricas de comprimento de lábio superior e filtro. Pró-Fono Revista de Atualização Científica. v. 18, n. 3, set/dez. 2006.

ERIKSSON, A. Tutorial on Forensic Speech Science. 2005.

123

______. Aural/acoustic vs. automatic methods in forensic phonetic case work. In: Neustein, A.; Patil, H.A. (Eds.). Forensic Speaker Recognition: Law Enforcement and Counter-terrorism. New York, NY, Springer-Verlag, p. 41-69, 2012.

______. Vocal Profile Analysis, part 1: What kind of scales are there? Workshop on Vocal Profile Analysis (VPA). Unicamp, Campinas, 2016.

FERREIRA, L.P., ALGODOAL, M.J., ANDRADA E SILVA, M.A. Avaliação da Voz na visão (e no ouvido) do Fonoaudiólogo: saber o que se procura para entender o que se acha. In: Marchesan, I.Q.; Zorzi, J.L.; Gomes, I.C.D. Tópicos em fonoaudiologia 1997/1998. São Paulo: Lovise, 1998. p. 393-413.

FIGUEIREDO, R.M. Identificação de falantes: aspectos teóricos e metodológicos. Tese (Doutorado em Linguística) – Universidade Estadual de Campinas, 1994.

FONTANA, M. Análise dos efeitos da voz em contexto de locução publicitária: um estudo de caso. Tese (Doutorado em Linguística Aplicada) – PUC/SP, São Paulo, 2012. FONTES, M. Gestualidade vocal e visual, expressão de emoções e comunicação falada. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) – Pontifícia Universidade Católica de São Paulo, São Paulo, 2014.

FRENCH, P.; FOULKES, P.; HARRISON, P.; HUGHES, V.; SAN SEGUNDO E STEVENS, L. The vocal tract as a biometric: output measures, interrelationships, and efficacy. Phonetic Sciences, Glasgow, 2015.

GENARO, K.F., BERRETIN-FELIX, G., REHDER, M.I.B.C, MARQUESAN, I.Q. Avaliação miofuncional orofacial – Protocolo MGBR. Rev. CEFAC, v. 11, n. 2, p. 237-255, abr-jun. 2009.

GILLIER, R. O disfarce da voz em fonética forense. Dissertação (Mestrado em Linguística) – Universidade de Lisboa, Portugal, 2011.

GOLD, E.; FRENCH, P. International practices in forensic speaker comparison. International Journal of Speech, Language and the Law, v.18, p. 293-307, 2011.

GONÇALVES, C.S. Taxa de elocução e de articulação em corpus forense do português brasileiro. Dissertação (Doutorado em Letras) – PUC/RS, Rio Grande do Sul, 2013.

GONÇALVES, C.S.; BRESCANCINI, C.R. Considerações sobre o papel da sociofonética na comparação forense de locutores. Language and Law/Linguagem e Direito, v. 1, n. 2, p. 67-87, 2014.

HIRANO, M. Clinical examination of voice. New York: Springer-Verlag; 1981. p. 81-4.

HONIKMAN, B. Articulatory settings. In: ABERCROMBIE, D. et al. In Honour of Daniel

Jones, London: Longman, p. 73-84, 1964.

ISSHIKI, N., OKAMURA, M., TANABE, M., MORIMOTO, M. Aproach to the objective diagnosis of hoarseness. Folia Phoniatric, v. 18, p. 393-400, 1966.

JULIANO, R. Manual de Perícias. 4. Ed. Rio Grande, 2009.

KLUS, K.; TRAWIÑSKA, A. Forensic speaker identification by the linguistic-acustic method in KEÚ and IES. Problems of Forensic Sciences, v. LXXVIII, p. 160-174, 2009.

KREIMAN, J; SIDKIS, D. Foundation of voice studies – an interdisciplinary approach to voice production and perception. Wiley-Blackwell, 2013. p. 10-25.

KÜNZEL, Hermann. Current Approaches to Forensic Speaker Recognition. 1994.

124

LAVER, J. The Phonetic Description of Voice Quality. Cambridge: Cambridge University Press, 1980.

_____________. Individual features in voice quality. Ph.D. dissertation, University of Edinburgh, 1975.

______. The gift of speech: papers in the analysis of speech and voice. Edinburgh: Edinburgh University Press,1991.

______. The synthesis of components in voice quality. Proceedings of the 6th International Congress of Phonetic Sciences, Prague, 1967.

______. Voice Ouality and indexical information. British Journal of Disorders of communication, v. 3, p. 43-54, 1968.

______. Phonetic evaluattion of voice quality. In: Kent, R.D, Ball, M.J. Voice quality measurement. San Diego (CA): Singular, 2000. p. 37-48.

LAW AND HISTORY REVIEW. University of Illinois Press for the American Society for Legal History; v. 25, n. 1, Spring, 2007.

MACHADO, A.P. Uso de técnicas acústicas para verificação de locutor em simulação experimental. Dissertação (Mestrado em Linguística) – Universidade Estadual de Campinas, São Paulo, 2014.

MACIEL, C.T.V., BARBOSA, M.H., TOLDO, C.A., FAZA, F.C.B, CHIAPPETTA, A.L.M.L. Disfunções orofaciais nos pacientes em tratamento ortodôntico. Rev. CEFAC, São Paulo, v. 8, n. 4, p. 456-66, out-dez. 2006.

MACKENZIE-BECK, J. Perceptual analysis of voice quality: the place of vocal profile analysis. In: Hardcastle, W.J.; Mackenzie-Beck, J. A figure of speech: a festschrift for John Laver. Hillsdale: Lawrence Erlbrum Ass; 2005. p. 285-322.

______. Organic variation and voice quality. [PhD thesis]. Edinburgh: University o Edinburgh, 1988.

MADUREIRA, S. A matéria fônica, os efeitos de sentido e os papéis do falante. DELTA. São Paulo, v.12, n. 1, p. 87-94, 1996.

MADUREIRA, S.; FONTES, M. A. S. (prelo) The analysis of facial and vocal expressivity: tools and methods. Subsidia: tools and resources for speech sciences. Universidad de Málaga. MADUREIRA, S., FONTES, M.A.S., FONSECA, B.C. Voice Quality and Speaking Styles, In: Dialectologia, Special Issue VI, p. 171-190, 2016. MARTINELLI R.L.C; FORNARO, E.F.; OLIVEIRA, C.J.M.; FERREIRA, L.M.D.B.; REHDER, M.I.B.C. Correlações entre alterações de fala, respiração oral, dentição e oclusão. Rev. CEFAC, v. 13, n. 1, p. 17-26, jan-fev. 2011.

MCGEHEE, F. The reliability of the identification of the human voice. Journal of General Psychology, v. 17,p. 249–271, 1937. ______. An experimental study of voice recognition. Journal of General Psychology, v. 31, p. 53-65, 1944. MEDINA, V. Correlatos acústicos e perceptivos de qualidade vocal de indivíduos portadores da síndrome de imunodeficiência adquirida (SIDA). Dissertação (Mestrado em Linguística Aplicada) – PUC/SP. São Paulo, 2013.

http://www.jstor.org/action/showPublisher?publisherCode=illinois

http://www.jstor.org/stable/i27641426

125

MENEGON, P. Metáforas no ensino de canto e seus efeitos na qualidade vocal: um estudo acústico-perceptivo. Dissertação (Mestrado em Linguística Aplicada) – PUC/SP. São Paulo, 2013. METZGER A.L.T.; CAMPIOTTO, A.R., MUZY, P.C. Interferência do tipo de má oclusão nas medidas dos movimentos mandibulares: um estudo realizado com o apoio do exército brasileiro. Rev. CEFAC, São Paulo, v. 11, n. 1, jan./mar. 2009.

MEZZOMO, C.L.; MACHADO, P.G.; PACHECO, A.B.; GONÇALVES, B.F.T.; HOFFMANN, C.F. As implicações da classe II de Angle e da desproporção esquelética do tipo classe II no aspecto miofuncional. Rev. CEFAC, v. 13, n. 4, p. 728-734, jul-ago. 2011.

MOMENSOHN-SANTOS, T.M.; BRANCO-BARREIRO, F.C. Avaliação e intervenção fonoaudiológica no transtorno de processamento auditivo. In: FERREIRA, L.P.; BEFI-LOPES, D.; LIMONGI, S.C.O. Tratado de Fonoaudiologia. São Paulo: Roca. 2004. p. 553- 568.

NATIONAL ACADEMY OF SCIENCE. On the Theory and Practice of Voice Identification. Washington D.C., 1979.

NEMR, K.; AMAR, A.; ABRAHÃO, M.; LEITE, G.C.A.; KOHLE, J.; SANTOS, A. O.; CORREA, L.A.C. Análise comparativa entre avaliação fonoaudiológica perceptivo - auditiva análise acústica e laringoscopias indiretas para avaliação vocal em população com queixa vocal. Rev. Bras. Otorrinolaringologia, v. 71, n. 1, p. 13-7, jan./ fev. 2006.

NOLAN, F. The phonetic bases of speaker recognition. Cambridge: Cambridge University Press, 1983.

______. Speaker recognition and forensic phonetics. In: HARDCASTLE, W. J.; LAVER, J. (Eds.). The Handbook of Phonetic Sciences. Cambridge: Cambridge University Press, 1997. p. 744-767.

NOLAN, F.; MCDOUGAL, K; JONG. G.; HUDSON, T. A Forensic Phonetic Study of ‘Dynamic’ Sources of Variability in Speech:The DiViS Project. In: Proceedings of the 11th Australian International Conference on Speech Science & Technology, University of Auckland, New Zealand, 2006. Disponível em: http://assta.org/sst/2006/sst2006-17.pdf. Acesso em: ago. 2017.

PAGE, M., TAYLOR, J., BLENKIN, M. Forensic identification science evidence since Daubert: Part I--A quantitative analysis of the exclusion of forensic identification science evidence. J. Forensic. Sci. v. 56, n. 5, p. 1180-4, Sep. 2011.

PASSETTI, R.R. O efeito do telefone celular no sinal da fala: uma análise fonético-acústica com implicações para a verificação de locutor em português brasileiro. (Mestrado em Linguística) – Universidade Estadual de Campinas, São Paulo, 2015.

PATEL, S., SHRIVASTAV, R. Perception of dysphonic vocal quality: some thoughts and research updates – perspectives on voice and voice disorders. ASHA Division 3. v. 17, n. 2, p. 3-6, 2007.

PEREIRA, J.B.A.; BIANCHINI, E.M.G. Caracterização das funções estomatognáticas e disfunções temporomandibulares pré e pós cirurgia ortognática e reabilitação fonoaudiológica da deformidade dentofacial classe II esquelética. Rev. CEFAC, v. 13, n. 6, p.1086-1094, nov-dez. 2011.

PEREIRA, A.C.; JORGE, T.M.; RIBEIRO JUNIOR, P.M.; BERRETIN-FELIX, G. Características das funções orais de indivíduos com má oclusão classe III e diferentes tipos faciais. R Dental Press e Ortodontia e Ortopedia Facial. Maringá, v. 10, n. 6, nov/dez., 2005.

http://www.ncbi.nlm.nih.gov/pubmed?term=Page%20M%5BAuthor%5D&cauthor=true&cauthor_uid=21884119

http://www.ncbi.nlm.nih.gov/pubmed?term=Taylor%20J%5BAuthor%5D&cauthor=true&cauthor_uid=21884119

http://www.ncbi.nlm.nih.gov/pubmed?term=Blenkin%20M%5BAuthor%5D&cauthor=true&cauthor_uid=21884119

http://www.ncbi.nlm.nih.gov/pubmed/21884119

126

PERRIN, E.B. SAC Instrument Review Process. Medical Outcomes Trust Bulletin, v. 3, n. 4, 1, September, 1995.

PESSOA, N.A. Correlatos perceptivos e acústicos de qualidade e dinâmica vocal na fala de crianças usuárias de implante coclear. Tese (Doutorado em Linguística Aplicada) – PUC/SP. São Paulo, 2012. PINHO, S.R.; PONTES, P. Escala de avaliação perceptiva da fonte glótica: RASAT. Vox Brasilis. v. 8, n. 3, p. 11-3, 2002.

PINHO, S.R.; KORN, G.P.; PONTES, P. Músculos intrínsecos da laringe e dinâmica vocal. Revinter, 2014.

PORTO, A. C.; GONÇALVES, C. S. Proposta de análise perceptivo-auditiva de voz e fala para uso em fonética forense. Revista do IGP: Instituto-Geral de Perícias - Secretaria da Justiça e da Segurança. Porto Alegre, Rio Grande do Sul, Ano 3, n. 3, p. 23-25, jan. 2007.

ROMITO, L.; GALATÀ, V. Towards a protocol in speaker recognition analysis. Forensic Science International, v. 146S, p. S107-S111, 2004.

ROSE, P. Forensic Speaker Identification. London: Taylor & Francis, 2002.

SALOMÃO, G.L. Registros vocais no canto: aspectos perceptivos, acústicos, aerodinâmicos e fisiológicos da voz modal e da voz de falsete. Tese (Doutorado em Linguística Aplicada) – PUC/SP. São Paulo, 2008. SAN SEGUNDO, E; MOMPEAN, J.A. A simplified vocal profile analysis protocol for the assessment of voice quality and speaker similarity. Journal of Voice, 2017. Disponível em: http://dx.doi.org/10.1016/j.voice.2017.01.005. Acesso em: ago. 2017.

SÍGOLO, S.; CAMPIOTTO, A.R.; SOTELO, M.B. Posição habitual de língua e padrão de deglutição em indivíduos com oclusão classe III, pré e pós cirurgia ortognática. Rev. CEFAC, v. 11, n. 2, p. 256-260, abr-jun. 2009.

SILVA, J.C.B. Contornos atuais e novas questões sobre a prova documental no processo civil brasileiro – o anteprojeto de código de processo civil. Revista Magister de Direito Civil e Processual Civil, Porto Alegre, v. 7, n. 39, p. 38-55, nov./dez. 2010.

TAUCCI, R.A.; BIANCHINI, E.M.G. Verificação da interferência das funções temporomandibulares na articulação da fala: queixas e caracterização dos movimentos mandibulares. Rev. Soc. Bras. Fonoaudiol, v. 12, n. 4, p. 274-80, 2007.

THOMAS, E. Sociophonetics: An Introduction. Palgrave Macmillan ed. 2010.

TIWARI, M; TIWARI, M. Voice: how humans communicate? Journal of Natural Science Biology and Medicine., v. 3, n. 1, p. 3-11. jan-jun. 2012.

TONACO, N.L.A.; SILVA, R.R. The use of voice profiling in Forensic Speaker Comparison conducted by Brazilan Federal Police. Unicamp, Campinas, 2016.

TOSI, O. Methods of Voice Identification for Law Enforcement Agencies. Identification News, April, 6. 1981. VIEIRA, R.C. Contribuições dos estudos sociofonéticos para a identificação de falantes. Revista Intercâmbio. São Paulo, LAEL/PUCSP, v. XXXVI, p. 86-102, 2017. VIOLA, I.C. O gesto vocal: a arquitetura de um ato teatral. Tese (Doutorado em Linguística Aplicada) – PUC/SP. São Paulo, 2006.

http://dx.doi.org/10.1016/j.voice.2017.01.005

127

YARMEY, A.D.; YARMEY, M.J.; TODD, L. The first earwitness researcher. Perceptual and motor skills. Issue. v. 106, n. 2, p. 387-394, 2008.

ZHANG, C.; WEIJER, J.; CUI, J. Intra- and inter-speaker variations of formant pattern for lateral syllables in Standard Chinese. Forensic Science International, China, p.117–124. 2006.

128

ANEXOS

129

ANEXO 1 – Roteiro VPAS (LAVER, 1980), modificado por Cassol, Behlau e Madureira (1998)

131

ANEXO 2 – Protocolo GRBAS (HIRANO, 1981)

0 1 2 3

0 1 2 3

0 1 2 3

0 1 2 3

0 1 2 3

GRBAS VOICE QUALITY RATING SCALE

New York, NY, Springer Verlag

Asthenia = weakness of the voice

0 = normal

1 = mildly abnormal

2 = moderately abnormal

3 = severely abnormal

Rating Definitions

Grade = overall severity of the dysphonia

Hirano, M. 1981. Clinical Examination of the Voice

RATING

G = Grade

R = Roughness

B = Breathiness

PARAMETERS

A = Asthenia

S = Strain

132

ANEXO 3 – VPAS-PB (Adaptado por Camargo e Madureira, 2008)

134

ANEXO 4 – VPA Modificado (FRENCH, P.; FOULKES, P.; HARRISON, P.; HUGHES, V.; SAN SEGUNDO, E.; STEVENS, L., 2015)

135

ANEXO 5 – VPAS Simplificado (SAN SEGUNDO, MOMPEAN, 2017)

136

ANEXO 6 – Escala RASAT (PINHO E PONTES, 2008)

137

ANEXO 7 – Protocolo CAPE-V

138

ANEXO 8 - Proposta de Análise Perceptivo-Auditiva de Voz e Fala para uso em Fonética Forense (PORTO E GONÇALVES, 2006)

139

ANEXO 9 – Protocolo Forense para Análise Perceptivo-Auditiva de Amostras de Fala (GONÇALVES E BRESCANCINI, 2014)

140

- VPAS (LAVER, 2000) traduzido para o português brasileiro

144

ANEXO 10- Questionário sociolinguístico

NOME:

TELEFONE DE CONTATO:

IDADE:

ESCOLARIDADE:

CIDADE ONDE NASCEU:

CIDADE ONDE MOROU:

CIDADE EM QUE OS PAIS NASCERAM E VIVERAM:

PROFISSÃO:

APRESENTA ALGUM PROBLEMA VOCAL? SE SIM, QUAL?

APRESENTA ALGUM PROBLEMA AUDITIVO? SE SIM, QUAL?

É BILÍNGUE?

145

ANEXO 11 - Explicações para os juízes da pesquisa

PREZADO(A) JUIZ(A):____________________________________

1. Você está recebendo, através do Dropbox, 1 pasta, contendo 17 arquivos de áudio na extensão .wav com cinco amostras de fala em cada um, além de uma folha com descrições de qualidade vocal que foram realizadas através do Roteiro VPAS-PB.

2. Para a realização da tarefa, é necessário que o juiz ouça cada arquivo de áudio e identifique qual das cinco vozes ouvidas é a descrita no exercício. Na folha de testes, temos 17 exercícios, sendo 2 exercícios que servem de modelo e 15 para serem respondidos.

3. Os 2 primeiros exercícios perceptivos apresentam seus resultados na folha de teste, com o objetivo de relembrar como se dá a execução da tarefa.

4. Em seguida, temos 15 exercícios perceptivos da mesma natureza, em que o objetivo é ouvir os áudios e identificar a qual das cinco vozes corresponde a descrição dos ajustes de qualidade de voz fornecido.

5. Antes de iniciar, por favor, leia e assine o termo de consentimento. 6. Utilizar fones de ouvido para realizar a escuta e estar em ambiente silencioso. 7. Os arquivos DEVEM ser ouvidos com o software Praat. 8. A escuta e a análise é individual. A discussão entre juízes participantes não é

permitida, uma vez que pode influenciar os resultados dos julgamentos. 9. Você poderá escutar até 5 vezes cada estímulo antes e durante o

preenchimento do roteiro. 10. Por favor, após o término de sua análise, envie os roteiros devidamente

preenchidos para o e-mail [email protected], em até 15 dias. Desde já agradeço a sua participação. A sua colaboração é muito importante! ASS. RENATA (21)971784687.

mailto:[email protected]

146

ANEXO 12 – Termo de Consentimento

Termo de Consentimento Livre e Esclarecido dos Juízes

Caro(a) Senhor(a)

Eu, Renata Christina Vieira, fonoaudiólogo(a), portadora do CPF 054586647-28, estabelecido(a) na Rua Monsenhor Manuel Gomes, 143, ala C, apto 108, CEP 20931-670, na cidade do Rio de Janeiro, cujo telefone de contato é (21)971784687, estou desenvolvendo minha pesquisa de doutoramento no Programa de Estudos Pós-graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, na linha de pesquisa “Linguagem, tecnologia e educação”, tendo como orientadora a Professora Doutora Sandra Madureira e cujo título é “Reconhecimento de falante: um estudo perceptivo da qualidade de voz”.

O objetivo deste estudo é verificar a aplicabilidade de roteiro VPAS-PB no reconhecimento de falantes, a partir da comparação de amostras de fala de um grupo de falantes com perfis de qualidade vocal, traçados por juízes após a audição das referidas amostras.

Solicito sua participação voluntária no processo de avaliação fonética da qualidade vocal por meio do roteiro Vocal Profile Analysis Scheme for Brazilian Portuguese-PB de um conjunto de 75 amostras de fala. As amostras estão divididas em 15 arquivos de áudio, contendo 5 amostras em cada um deles. Não existe outra forma de obter dados com relação ao procedimento em questão e que possa ser mais vantajoso.

Informo que o(a) Sr (a). tem a garantia de acesso, em qualquer etapa do estudo, a esclarecimento de eventuais dúvidas. Se tiver alguma consideração ou dúvida sobre a ética da pesquisa, entre em contato com Renata C. Vieira, pelo telefone (21)971784687.

Também é garantida a liberdade da retirada de consentimento a qualquer momento e deixar de participar do estudo, sem qualquer prejuízo. Garanto que as informações obtidas serão mantidas em sigilo, não sendo divulgado a identificação de nenhum dos participantes.

O(A) Sr(a). tem o direito de ser mantido atualizado sobre os resultados parciais da pesquisa e caso seja solicitado, darei todas as informações necessárias. Não existirão despesas ou compensações pessoais para o participante em qualquer fase do estudo. Também não há compensação financeira relacionada à sua participação. Se existir qualquer despesa adicional, ela será absorvida pelo orçamento da pesquisa.

Eu me comprometo a utilizar os dados coletados somente para pesquisa, e os resultados serão veiculados através de artigos científicos em revistas especializadas e/ou encontros científicos e congressos, sem nunca tornar possível sua identificação. Anexo está o consentimento livre e esclarecido para ser assinado caso não haja dúvida alguma.

147

Termo de Consentimento Livre e Esclarecido

Acredito ter sido suficiente as informações que li ou que foram lidas para mim, descrevendo o estudo “Reconhecimento de falantes: um estudo perceptivo da qualidade vocal”. Eu discuti com a fonoaudióloga Renata C Vieira sobre a minha decisão em participar neste estudo. Ficaram claros para mim quais são os propósitos do estudo, os procedimentos a serem realizados, bem como de seus desconfortos e riscos, a garantia de confiabilidade e de esclarecimentos permanentes.

Ficou claro também que minha participação é isenta de despesas e que tenho garantia do acesso aos resultados e de esclarecer minhas dúvidas a qualquer tempo. Concordo voluntariamente em participar deste estudo e poderei retirar o meu consentimento a qualquer momento, antes ou durante o mesmo, sem penalidade ou prejuízo ou perda de qualquer benefício que eu possa ter adquirido.

Rio de Janeiro, de de 2017.

Assinatura do juiz

Nome:

Endereço:

RG:

Fone:

Assinatura do(a) pesquisador(a)

148

ANEXO 13 – Folha de teste

Exercício Exemplo 1

Ouça o áudio “LINEUPEXEMPLOFRASE”, da pasta “EXERCÍCIO PARA JUÍZES FASE 2” e assinale qual das vozes é a da descrição abaixo:

Aspectos de trato vocal: lábios com extensão aumentada em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, constrição faríngea em grau 1, altura de laringe elevada em grau 2, hiperfunção laríngea em grau 1. Aspectos fonatórios: voz soprosa em grau 2 e áspera em grau 1. Aspectos de dinâmica vocal: taxa de elocução rápida em grau 1 e pitch habitual elevado em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

(X) AMOSTRA5

Exercício Exemplo 2

Ouça o áudio “LINEUPEXEMPLOFALA”, da pasta “EXERCÍCIO PARA JUÍZES FASE 2” e assinale qual das vozes é a da descrição abaixo:

Aspectos de trato vocal: lábios estirados em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, corpo de língua avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau 2, laringe abaixada em grau 1. Aspectos prosódicos: pitch com variabilidade aumentada em grau 1, loudness habitual diminuído em grau 2.

(X) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

149

Exercício 1

Ouça o áudio “LINEUPFRASES1”, da pasta “EXERCÍCIO PARA JUÍZES FASE 2” e assinale qual das vozes é a da descrição abaixo:

Aspectos do trato vocal: lábios com extensão diminuída em grau 1, mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua com extensão diminuída em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

Aspectos fonatórios: voz áspera em grau 1.

Aspectos de dinâmica vocal: taxa de elocução lenta em grau 1, loudness habitual abaixado em grau 1, pitch com variabilidade diminuída em grau 1 e pitch habitual elevado em grau 1.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 2


Aspectos de trato vocal: lábios com extensão diminuída em grau 1, mandíbula com extensão diminuída em grau 1, ponta de língua avançada em grau 2.


( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

150

Exercício 3


Aspectos do trato vocal: lábios com extensão diminuída grau 1, mandíbula aberta em grau 1, ponta de língua avançada em grau 2, corpo de língua elevado em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 4


Aspectos do trato vocal: mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.


Aspectos de dinâmica vocal: taxa de elocução rápida em grau 2 e loudness habitual aumentado em grau 1.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

151

Exercício 5


Aspectos de trato vocal: ponta de língua avançada em grau 1, corpo de língua elevado em grau 1 e com extensão diminuída em grau 2, mandíbula aberta em grau 1, hiperfunção de trato vocal em grau 1, laringe alta em grau 2.


Aspectos de dinâmica vocal: pitch habitual elevado em grau 2 e loudness habitual aumentado em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 6

Ouça o áudio “LINEUPFALA1”, da pasta “EXERCÍCIO PARA JUÍZES FASE 2” e assinale qual das vozes é a da descrição abaixo:

Aspectos do trato vocal: lábios com extensão diminuída grau 2, mandíbula aberta e com extensão diminuída em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.


Aspectos de dinâmica vocal: pitch habitual abaixado em grau 2, pitch com extensão diminuída em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

152

Exercício 7


Aspectos de trato vocal: lábios com extensão diminuída em grau 1 e protraídos em grau 2, mandíbula com extensão aumentada em grau 1, ponta de língua recuada em grau 1, corpo de língua abaixado grau 1 e recuado grau 1, altura de laringe abaixada em grau 1, hiperfunção de trato vocal em grau 1, hiperfunção laríngea em grau 1.


Aspectos de dinâmica vocal: pitch com extensão diminuída em grau 1 e com variabilidade diminuída grau 1.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 8


Aspectos do trato vocal: língua recuada em grau 1, corpo de língua recuado em grau 2 e elevado em grau 1, mandíbula com extensão aumentada em grau 1, constrição faríngea em grau 2, hiperfunção de trato vocal em grau 2, hiperfunção laríngea em grau 2.


Aspectos de dinâmica vocal: taxa de elocução lenta em grau 1 e pitch habitual abaixado em grau 1.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

153

Exercício 9


Aspectos do trato vocal: lábios com extensão diminuída grau 1, mandíbula aberta em grau 1, ponta de língua avançada em grau 2, corpo de língua elevado em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

Aspectos de dinâmica vocal: tremor e continuidade interrompida.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 10


Aspectos do trato vocal: mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua abaixado em grau 1, altura de laringe abaixada em grau 1.


Aspectos de dinâmica vocal: taxa de elocução rápida em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

154

Exercício 11


Aspectos do trato vocal: lábios com extensão diminuída em grau 1, mandíbula aberta em grau 1, ponta de língua avançada em grau 1, corpo de língua com extensão diminuída em grau 1, constrição faríngea em grau 1, hiperfunção de trato vocal em grau 1.

Aspectos prosódicos: taxa de elocução lenta em grau 2, pitch com variabilidade diminuída em grau 1 e pitch habitual elevado em grau 1.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 12


Aspectos de trato vocal: ponta de língua avançada em grau 1, corpo de língua elevado em grau 1 e com extensão diminuída em grau 2, mandíbula aberta em grau 1, hiperfunção de trato vocal em grau 1, laringe alta em grau 2.


Aspectos de dinâmica vocal: pitch habitual elevado em grau 2 e loudness habitual elevado em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

155

Exercício 13


Aspectos de trato vocal: lábios com extensão aumentada em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, constrição faríngea em grau 1, altura de laringe elevada em grau 2, hiperfunção laríngea em grau 1.

Aspectos fonatórios: voz soprosa em grau 2 e áspera em grau 1.

Aspectos de dinâmica vocal: taxa de elocução rápida em grau 1 e pitch habitual elevado em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

Exercício 14


Aspectos de trato vocal: lábios estirados em grau 1, mandíbula com extensão aumentada em grau 1, ponta de língua avançada em grau 2, corpo de língua avançado em grau 1 e abaixado em grau 1, expansão faríngea em grau 2, laringe abaixada em grau 1.

Aspectos de dinâmica vocal: pitch com variabilidade aumentada em grau 1, loudness habitual diminuído em grau 2.

( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

156

Exercício 15


Aspectos de trato vocal: lábios com extensão diminuída em grau 1, mandíbula com extensão diminuída em grau 1, ponta de língua avançada em grau 2.


( ) AMOSTRA1

( ) AMOSTRA2

( ) AMOSTRA3

( ) AMOSTRA4

( ) AMOSTRA5

157

ANEXO 14 – Aula teórica expositiva VPAS

160

ANEXO 15 – VPAS (LAVER, 2000) Traduzido para o Português Brasileiro

161

ANEXO 16 – Parecer Consubstanciado CEP PUC-SP

identificação de falante: um estudo perceptivo da …...que enriqueceram esta tese: dr. anders...

Documents