dissertaÇÃo de aline de paula...

i

ALINE DE PAULA MACHADO

USO DE TÉCNICAS ACÚSTICAS PARA VERIFICAÇÃO DE LOCUTOR EM SIMULAÇÃO EXPERIMENTAL

CAMPINAS,

2014

iii

UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE ESTUDOS DA LINGUAGEM

ALINE DE PAULA MACHADO

USO DE TÉCNICAS ACÚSTICAS PARA VERIFICAÇÃO DE

LOCUTOR EM SIMULAÇÃO EXPERIMENTAL

Dissertação de mestrado apresentada ao Instituto de Estudos da Linguagem da Universidade Estadual de Campinas para obtenção do título de Mestra em Linguística.

Orientador: Prof. Dr. Plínio Almeida Barbosa

CAMPINAS,

2014

vii

RESUMO

Esta pesquisa investiga a eficácia de um conjunto de medidas acústicas para o reconhecimento da fala de um indivíduo em um grupo de dez falantes do português brasileiro. Um sujeito desse grupo foi sorteado e nomeado o “criminoso”. Entre as medidas usadas na pesquisa estão: frequências dos dois primeiros formantes das vogais, frequência fundamental média, duração de unidades do tamanho da sílaba e da vogal, dinamicidade dos formantes e desvio-padrão de durações de intervalos consonânticos (∆C).

Todos os trechos escolhidos são de entrevistados divididos em dois grupos: (i) entrevistas ao ar livre e (ii) gravações telefônicas (de celular para celular). Os indivíduos consistem em falantes do português brasileiro das regiões dos estados de São Paulo, Rio Grande do Sul, Pará e Bahia.

Nesta pesquisa, fazemos um apanhado histórico da Fonética Forense, dos métodos de análise utilizados ao longo história e também de quais parâmetros acústicos são mais usados para diferentes contextos de gravação – direta e por celular – e quais deles foram mais significativos na pesquisa. Em nossos resultados, os parâmetros que menos sofreram variação com a mudança de canal de transmissão foram os de ritmo e tempo, como duração, taxa de elocução, ∆C; e um parâmetro que mede a dinamicidade do formante, que foi a taxa de movimento do segundo formante. As medidas temporais da pesquisa, por serem as mais variáveis inter-sujeito, tiveram grande poder discriminador. Os testes estatísticos apontaram que três dos indivíduos estudados apresentavam semelhanças com o “criminoso”.

Palavras-chave: Fonética Forense, Verificação de locutor, Simulação.

ix

ABSTRACT

The aim of this research is to use some acoustic techniques for recognizing a subject in a group of ten speakers of the Brazilian Portuguese variety and pointing out what are the most relevant acoustic parameters for speaker recognition in that group. The analysis of the first two formants for the oral vowels, fundamental frequency, speech rate, formant movement rate, syllable-sized duration, intensity and ∆C (standard deviation of consonantal interval durations of the collected samples) will help identifying an individual from within the group.

All the samples are from interviews made in a poorly treated acoustic environment and into a mobile phone. Moreover, the samples of one of the speakers (the "criminal"), which were collected in an acoustically-treated room, will simulate the questioned pattern of the forensic situation. Our subjects are from four states of Brazil, São Paulo, Rio Grande do Sul, Pará and Bahia.

A historical background of forensic phonetics is presented, which also allowed us to point out the most commonly used acoustic parameters extracted from direct and telephone recordings for the goals of our research. The acoustic parameters that did not change across different transmission recording channels were speech rhythm and temporal parameters such as vowel duration, speech rate and ∆C as well as second formant movement rate. The results revealed a large inter-speaker variability across all parameters, which signals a discriminant power.

Our statiscal tests pointed out three subjects more likely to be the criminal.

Key-words: Phonetic forensics, Speaker Verification, Simulation.

xi

SUMÁRIO

Introdução ............................................................................................................................. 1

1 Motivação para o estudo ............................................................................................... 3

1.1 Uso de técnicas acústicas para verificação de locutor em simulação experimental ... 5

2 Reconhecimento de locutor e Fonética Forense ..................................................... 155

2.1 Apanhado histórico .............................................................................................. 155

2.1.1 Voiceprints .................................................................................................... 177

2.1.2 Duas abordagens históricas ............................................................................ 21

2.2 Por que as vozes são difíceis de discriminar? ...................................................... 222

2.3 Reconhecimento de locutor.................................................................................. 244

2.4 Métodos de análise forense .................................................................................. 288

3 Pesquisa desenvolvida ............................................................................................... 355

3.1 Efeito do celular ................................................................................................... 366

4 Metodologia.................................................................................................................. 41

4.1 Procedimento ......................................................................................................... 41

4.2 Parâmetros acústicos ............................................................................................ 455

4.3 Métodos de análise estatística e resultados ............................................................ 51

5 Discussão .................................................................................................................... 755

6 Referências bibliográficas......................................................................................... 799

xiii

À Sirley, por todo seu amor.

xv

MEUS AGRADECIMENTOS

Ao professor Plínio, por aceitar ser o meu orientador, por sua compreensão e paciência.

Muito obrigada por seus ensinamentos, não só em sala de aula, mas também por mostrar

quão importante é respeitar o colega.

Aos professores do IEL, por contribuírem com minha formação desde a minha graduação.

Aos meus colegas do Grupo de Estudos de Prosódia da Fala: Ana Carolina, Cristiane,

Pablo, Renata e Wellington, pelo apoio em minha pesquisa.

To Anders Eriksson, for sharing your knowledge and kindness with me.

A minha mãe, pelo apoio incondicional que sempre me deu. Por sempre acreditar em mim

até quando estou em dúvida sobre minha capacidade.

Ao meu pai, Antonio, por, mesmo longe, ser um grande conforto para mim.

Ao meu irmão, Lucas, por ser um dos meus maiores exemplos de força de vontade e

determinação.

Aos meus avós, que sempre me recebem de braços abertos, por suas histórias e atenção.

À CAPES, por financiar meus estudos.

À banca examinadora, por aceitar a participação e contribuir com meu trabalho.

xvii

LISTA DE FIGURAS

Figura 1. Espectrograma gerado no software PRAAT do sujeito 1. .................................. 188

Figura 2. Aumento da imagem espectrográfica gerada no software PRAAT do sujeito 1. 188

Figura 3. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8. 399

Figura 4. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8. 399

Figura 5. Esquema da gravação por escuta telefônica usado nesta pesquisa. ...................... 42

Figura 6. Boxplot para ∆C para gravação em celular (cel) e gravação direta (ncel). ......... 544

Figura 7. Boxplot para média de duração das vogais para gravação em celular (cel) e gravação direta (ncel). ........................................................................................ 555

Figura 8. Boxplot para a taxa de movimento do segundo formante para gravação em celular (cel) e gravação direta (ncel). ................................................................. 555

Figura 9. Boxplot para taxa de elocução para gravação em celular (cel) e gravação direta (ncel). ....................................................................................................... 566

Figura 10. Boxplot para frequência fundamental para gravação em celular (cel) e gravação direta (ncel). ........................................................................................ 577

Figura 11. Boxplot para a ênfase espectral para gravação em celular (cel) e gravação direta (ncel). ....................................................................................................... 588

Figura 12. Boxplot para média de duração das vogais para a variação inter-falantes. ......... 60

Figura 13. Boxplot para taxa de elocução para a variação inter-falantes. ............................ 61

Figura 14. Boxplot para ∆C para a variação inter-falantes. .................................................. 62

Figura 15. Boxplot para frequência baseline para a variação inter-falantes. ...................... 633

Figura 16. Boxplot para ênfase espectral para a variação inter-falantes. ............................ 644

Figura 17. Boxplot para a frequência fundamental para a variação inter-falantes. ............ 655

Figura 18. Boxplot da taxa de transição do segundo formante para a variação inter-falantes.. 666

Figura 19. Boxplot da taxa do segundo formante para a variação inter-falantes. ............... 677

xix

LISTA DE TABELAS

Tabela 1. Valores médios dos parâmetros acústicos das vogais orais do sujeito 1. ............... 7

Tabela 2. Valores dos parâmetros acústicos das vogais orais do criminoso 6. ...................... 8

Tabela 3. Média dos parâmetros acústicos para o sujeito 1. .................................................. 9

Tabela 4. Média dos parâmetros acústicos para o “criminoso”. ............................................. 9

Tabela 5. Medida do desvio-padrão para os parâmetros acústicos do sujeito 1. .................. 10

Tabela 6. Medida do desvio-padrão para os parâmetros acústicos do “criminoso”. ............ 10

Tabela 7. Teste t para todos os parâmetros acústicos entre o sujeito 1 e “criminoso” para α= 0,05. ........................................................................................................ 11

Tabela 8. Lista com informações sobre os sujeitos participantes da pesquisa. .................. 444

Tabela 9. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta. ........................................................................... 533

Tabela 10. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta. ........................................................................... 533

Tabela 11. Kruskal-Wallis, para α = 0,05, para a variação inter-falante. ........................... 599

Tabela 12. Kruskal-Wallis, para α = 0,05, para a variação inter-falante. ........................... 599

Tabela 13. Resultado do teste de Duncan para a frequência fundamental. ........................ 688

Tabela 14. Resultado do teste de Duncan para a frequência do segundo formante. .......... 699

Tabela 15. Resultado do teste de Duncan para a taxa de movimento do segundo formante. ............................................................................................................ 699

Tabela 16. Resultado do teste de Duncan para a taxa de transição do segundo formante. .. 70

Tabela 17. Resultado do teste de Duncan para a frequência baseline. ................................. 70

Tabela 18. Resultado do teste de Duncan para a ênfase espectral. ....................................... 71

Tabela 19. Resultado do teste de Duncan para a média das vogais...................................... 71

Tabela 20. Resultado do teste de Duncan para a taxa de elocução. ..................................... 72

Tabela 21. Resultado do teste de Duncan para ∆C. .............................................................. 72

xxi

“While there’s life there’s hope.”

(J. R. R. Tolkien)

1

Introdução

Este trabalho tem como objetivo reconhecer um indivíduo a partir de sua fala dentre um

grupo de dez falantes do português brasileiro, assinalando, para isso, quais parâmetros

acústicos são relevantes para a análise desse reconhecimento.

A pesquisa está dividida em seis capítulos. O primeiro, Motivação para o estudo, conta a

minha trajetória na pesquisa da Fonética Forense, desde a Iniciação Científica,

apresentando resultados significativos para a área, até a pesquisa atual. O segundo capítulo

é chamado Reconhecimento de locutor e Fonética Forense e consiste em uma análise do

background histórico dessa subárea da Linguística, desde o antigo método de comparação

de vozes por espectrograma, voiceprint, até o método de análise acústico-auditivo usado

nesta pesquisa. No capítulo três, Pesquisa desenvolvida, é apresentada a justificativa para

este trabalho de Mestrado e o uso de telefone celular. Em Metodologia, são mostrados os

modelos estatísticos usados para a pesquisa e os resultados dos testes. No capítulo 5,

Discussão, discutem-se todos os resultados obtidos no trabalho e quais suas implicações

para a Fonética Forense. Por último, em Referências bibliográficas, apresenta-se toda a

literatura usada na pesquisa.

3

1 Motivação para o estudo

O sinal da fala carrega informações de sua fonte sonora. Notamos isso pela experiência

diária de reconhecer quem está falando sem ver o falante, reconhecer alguém pelo telefone

sem que tenha se identificado primeiro. Por esse fato, cientistas são motivados a estudar

mais especificamente as características dessa identificação de voz e do sinal da fala.

Tal questão é utilizada no ambiente policial, seja quando a testemunha de um crime apenas

ouve a voz do criminoso (por este estar de máscara ou porque fala pelo telefone, entre

outros motivos), seja quando é necessário comparar a voz de um número de gravações

telefônicas com aquela de um suspeito.

Para tanto, entra em jogo a Fonética Forense, que é a aplicação de técnicas de análise

fonética a contextos policiais jurídicos. É uma área que vem crescendo desde a década

de 1960 no Reino Unido e tem sua importância disseminada para todo o globo desde

então (FRENCH, 1994).

No Brasil, essa subárea da fonética não é demasiadamente promovida nas faculdades, e

suas técnicas de análise pela polícia não são, de modo geral, semelhantes às usadas em

demais países, cujo sistema judicial demanda esse tipo de análise. A grande diferença entre

os métodos usados no Brasil e em demais países, como a Suécia, é uma série de vários

4

fatores, que passo a numerar. Em primeiro lugar, normalmente, no exterior, o especialista

que faz as análises das amostras de fala trazidas pela polícia é um foneticista ou um

profissional com extenso background fonético-linguístico. A relação estreita que existe no

exterior entre departamento policial e universidade facilita também essa troca de serviços.

No Brasil, por sua vez, a análise é feita prioritariamente usando sistemas automáticos de

identificação de locutor (como, por exemplo, o software Batvox). Em países da Europa,

como Inglaterra, Suécia, Alemanha, entre outros, o uso de sistemas automáticos é

acompanhado de insights de um profissional com conhecimentos em fonética e até

linguística, por exemplo, na Universidade de Gotemburgo, o software utilizado é o ALIZE

SpkDet, e os resultados obtidos pelo programa são combinados com análise acústico-

auditiva tradicional (ERIKSSON, 2012).

Esses foram os motivos que impulsionaram o meu interesse, desde a graduação, em

Linguística, em pesquisar essa área, beneficiando-me do conhecimento acadêmico

fornecido pela universidade. Desejo que, futuramente, as análises utilizadas nessa pesquisa

possam contribuir para a Fonética Forense no país. Como resultado de meu percurso, passo

a fazer um panorama das pesquisas feitas desde minha Iniciação Científica e a justificativa

para o projeto atual de Mestrado.

5

1.1 Uso de técnicas acústicas para verificação de locutor em simulação experimental1

Nesta seção, falaremos sobre o trabalho realizado na graduação, uma Iniciação Científica (IC)

com bolsa FAPESP, que foi meu primeiro contato com a pesquisa forense, impulsionando o

interesse pela área e o aprimoramento para a pesquisa atual. Utilizamos os parâmetros

acústicos e métodos de análise da IC como base para o Mestrado, expandido o corpus de

pesquisa, usando mais de um teste de análise estatística e também inserindo a análise de

gravações telefônicas, o que aproxima ainda mais a pesquisa da realidade forense.

Este projeto propôs, através de algumas técnicas de análise acústica, o reconhecimento

de um indivíduo dentro de um grupo de cinco falantes do português paulista e, a partir

daí, a identificação de quais parâmetros acústicos são relevantes para o reconhecimento

naquele grupo.

As análises dos quatro primeiros formantes das vogais orais, da frequência fundamental

média das mesmas vogais, da duração de unidades do tamanho da sílaba e da vogal, além

da intensidade relativa das vogais orais em trechos escolhidos desses falantes serviram

para identificar, em princípio, um indivíduo dentro daquele grupo. Usamos de um script

do PRAAT desenvolvido por Barbosa (2010) para a extração automática desses

1 FAPESP – Processo 2010/01266-6.

6

parâmetros acústicos, enquanto a segmentação e etiquetação do material em vogais orais

foram feitas manualmente.

Todos os trechos escolhidos foram de entrevistados em ambiente não tratado acusticamente

(ao ar livre). Além disso, trechos escolhidos em sala com tratamento acústico de um

indivíduo (o “criminoso”) simularam o padrão questionado da situação forense. Nenhum

dos participantes da pesquisa era conhecido da mestranda, e a escolha do “criminoso” foi

feita pelo seu orientador, que seria por meio de sorteio. Porém, foi revelado para ela, após o

final da análise dos dados, que o “criminoso” não estava presente no grupo de sujeitos da

pesquisa, ele foi um sexto participante escolhido pelo orientador do projeto.

Os dados desta pesquisa foram analisados estatisticamente com o programa R2, tendo sido

empregado um Teste T de variáveis independentes com nível de significância igual a 5%

para cada parâmetro, comparando os dados de cada suspeito com o “criminoso”. Este teste

permite avaliar a probabilidade de erro na rejeição da hipótese nula, caso essa seja

verdadeira (“o suspeito x é o criminoso”). Seguem abaixo dois excertos com os valores dos

parâmetros acústicos das vogais orais do sujeito 1 e do “criminoso”, para se ter uma ideia

do grau de variabilidade dos dados. O sujeito 1 foi o escolhido para exemplo, pois

acreditou-se, no começo da pesquisa, ser o indivíduo, cujos parâmetros acústicos mais se

assemelhavam aos do “criminoso”.

2 Disponível em: http://www.r-project.org/

7

SUJEITO 1

Vogais Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz)

Ênfase espectral

(dB) a 63 130 593 1352 2214 3859 111 16 i 83 137 393 2177 2855 3678 111 4 ɐ 65 111 644 1411 2280 3553 111 6 e ɪ 442 132 419 1691 2459 3658 104 12 ɛ 202 121 602 1779 2817 3945 104 17 a 165 116 769 1579 3213 4162 104 15 ɛ 185 122 511 1696 3004 4874 121 15 u 29 134 1159 2182 121 3 ʊ 76 131 627 1208 2648 4531 121 6

e ʊ 89 145 515 1759 3272 3882 107 7 ɛ 120 141 607 1962 3398 4444 107 17 ɛ 129 115 734 1879 3514 4676 107 7 ʊ 44 140 639 1674 108 7 ɛ 133 119 596 1923 3097 4378 108 14 i 134 127 327 2184 2918 4078 120 2 u 49 127 1417 1417 124 10 a 77 129 647 1813 3072 4304 124 18 e 67 146 506 1677 2994 4161 124 23 ɔ 81 139 649 1834 3026 4433 126 18 ɐ 46 129 491 1721 2809 4254 126 11 ɛ 83 190 605 1855 3121 4214 126 23 a 75 166 701 1987 3092 4355 126 22

e ʊ 104 175 554 1651 3150 4190 126 9 a 128 154 635 1891 3090 4224 126 28 i 42 179 422 2208 3228 4001 126 7

e ʊ 102 124 517 1537 2700 4371 123 16 u 66 141 494 1847 2792 4017 123 7 e 288 172 470 2322 3246 4192 123 6 ɛ 99 181 752 1826 2999 4592 167 24 e 80 213 652 1799 3026 4503 167 21 ɔ 121 213 794 2221 2572 4224 167 20 ɪ a 61 219 570 1725 2995 4221 167 17 e ʊ 67 209 506 1594 3031 4229 167 13 o 58 202 525 1667 2939 4538 167 16 ʊ 67 227 607 1202 2469 4087 167 12

e ʊ 150 127 495 2177 2926 3882 88 10

Tabela 1. Valores médios dos parâmetros acústicos das vogais orais do sujeito 1.3

3 Os dados da tabela foram gerados pelo script de Barbosa (2010) e tabelados no Microsoft Excel.

8

CRIMINOSO

Vogais Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline

(Hz)

Ênfase espectral

(dB)

ɛ 516 125 551 1539 2272 3406 113 7

a 101 134 493 1647 2506 3647 113 9

i 48 138 284 1861 2815 3523 113 1

e ɪ 184 141 355 1858 2832 3567 113 3

a 63 149 607 1564 2888 3481 127 5

e 27 144 475 1650 2100 3292 127 5

a 62 149 468 1577 2387 3682 127 10

a 49 149 595 1303 2299 3337 127 12

a 55 148 599 1415 2440 3593 127 12

e ɪ 199 149 414 1980 2802 3597 127 5

u 69 151 530 1154 2213 3297 127 3

e 40 148 441 1667 2528 3522 127 5

u 98 146 385 1117 2023 3060 127 3

ʊ 108 146 505 1349 2387 3255 127 3

a 188 141 681 1434 2361 3378 127 7

ɛ 171 134 563 1618 2430 3521 127 15

ɛ 298 126 544 1513 2393 3555 112 6

a 56 125 529 1525 2129 3195 112 8

ʊ a 62 129 508 1720 2455 3473 112 7

i 55 128 1639 2163 3155 3585 112 1

u 88 137 702 2024 3369 3698 112 1

a 73 173 786 1370 2125 3439 112 8

a 50 133 371 1549 2522 3418 116 3

i 25 134 1231 2038 2933 3683 116 1

a 63 129 484 1475 2294 3255 116 5

i 112 134 211 1875 2634 3300 116 1

a 271 118 603 1565 2447 3359 114 8

a 94 119 598 1500 2353 3519 114 6

ɛ 121 127 618 1570 2335 3461 114 12

a 72 133 754 1354 2214 3306 127 12

ɪɐ 63 127 10

o 147 136 442 1389 2567 3329 127 8

i 97 148 289 1952 2870 3342 127 2

ɐ 82 216 443 1510 127 10

Tabela 2. Valores dos parâmetros acústicos das vogais orais do criminoso 6.4

4 Os valores foram gerados pelo script de Barbosa (2010) e tabelados no Microsoft Excel.

9

Esses excertos demonstram como foi tabelado, no programa Excel, cada dado extraído e

segmentado do software PRAAT.5 Logo em seguida, os dados foram organizados em

arquivo formato TXT para assim poderem ser lidos no programa R. Neste programa,

podemos aplicar o Teste T para cada parâmetro dos sujeitos com o do criminoso (duração

média global das vogais, duração média por natureza de vogal; frequências dos quatro

primeiros formantes independentemente de vogal e também especificamente para cada

vogal; baseline6 - Traunmüller & Eriksson, 2000- e ênfase espectral globais e de cada

vogal). Em seguida, apresentamos respectivamente os valores das médias de cada

parâmetro para os sujeitos mostrados acima e, a partir desse cálculo, o desvio-padrão das

medidas.

Média – sujeito 1

Duração (ms) F0 (ms) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz)

Baseline (Hz)

Ênfase Espectral

(dB)

107,5 152,3056 615,1111 1789,639 2938,364 4203,333 126,25 13,30556

Tabela 3. Média dos parâmetros acústicos para o sujeito 1.

Média – criminoso Duração

(ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline

(Hz) Ênfase

Espectral (dB)

111,9706 140,5152 566,6061 1600,758 2502,438 3439,844 120,2647 6,294118

Tabela 4. Média dos parâmetros acústicos para o “criminoso”.

5 Disponível em: http://www.fon.hum.uva.nl/praat/

6 É um nível mínimo de valor da curva melódica ao qual tende o locutor após a realização de um pico melódico. É estimada pelo valor médio e desvio-padrão de f0 no trecho segundo a fórmula Baseline = F0médio - 1,43F0DesvPad.

10

Desvio-padrão – sujeito 1

Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz)

Baseline (Hz)

Ênfase Espectral

(dB)

77,44473 34,2143 198,8063 280,9611 298,8457 297,7616 22,17898 6,632472

Tabela 5. Medida do desvio-padrão para os parâmetros acústicos do sujeito 1.

Desvio-padrão – criminoso


Baseline (Hz)

Ênfase Espectral

(dB)

96,5246 17,6602 263,6842 253,194 314,519 155,7968 6,925179 3,849671

Tabela 6. Medida do desvio-padrão para os parâmetros acústicos do “criminoso”.

Segundo as médias de cada parâmetro acústico dos dois sujeitos, eles se diferem entre si com

uma variação menor para a “duração”. Pela comparação dos desvios-padrão, o sujeito 1

apresenta uma grande diferença para o criminoso em relação a todos os parâmetros acústicos

analisados, com menor margem de variação para o terceiro formante. Sendo assim, a partir

desses cálculos, há grande probabilidade de não serem a mesma pessoa.

Em seguida, calculamos um Teste T de Student, para verificar o grau de variância entre cada

parâmetro acústico, tendo como hipótese nula ter mesmos valores para as populações subjacentes

de parâmetros acústicos de mesma natureza. Assim, encontramos os seguintes valores:

11

Teste T


Baseline (Hz)

Ênfase Espectral

(dB)

0,830941 0,08059

6 0,38888

6 0,00471

3 3,04169E-

07 2,51154E-

19 0,13689 1,04042E-06

Tabela 7. Teste t para todos os parâmetros acústicos entre o sujeito 1 e “criminoso” para α= 0,05.

O objetivo deste teste é o de verificar se existe diferença entre a média de duas amostras,

no caso os parâmetros acústicos do sujeito 1 e do “criminoso”. Como podemos verificar,

para os valores de duração das vogais orais, frequência fundamental, frequência do

primeiro formante e frequência baseline, aceita-se a hipótese nula, ou seja, não há

diferença significativa entre os sujeitos de valores subjacentes desses parâmetros. Já para

os demais parâmetros, como frequências dos segundo, terceiro e quarto formantes e

ênfase espectral, rejeitou-se a hipótese nula, ou seja, há diferença entre eles, o que

apontaria para possível diferença entre o sujeitos 1 e o “criminoso”. Só com esses dados,

conseguimos notar a dificuldade para determinar a identidade de um sujeito (afirmar se

ele é o “criminoso” ou não). Para a Iniciação Científica, foram comparados cinco

indivíduos com o “criminoso”.

Assim, a partir da análise estatística por Teste T, podemos assumir que, a partir de todos os

parâmetros acústicos escolhidos (frequência dos quatro primeiros formantes das vogais

orais, frequência fundamental, duração de unidades do tamanho da sílaba e da vogal, ênfase

espectral, frequência baseline, taxa de movimentos de formantes7 e taxa de elocução8), não

7 Este parâmetro foi adicionado após resultados poucos robustos na parte inicial da pesquisa.

12

conseguimos comprovar que o “criminoso” não estava dentro do grupo de suspeitos das

gravações ao ar livre. Ficamos, no princípio, em dúvida entre 2 sujeitos. Sabendo, então,

que a H0 (hipótese nula) deveria ser rejeitada, concluímos, então, que:

• O parâmetro que mais rejeitou a hipótese nula foi: taxa de movimento de formantes

na transição CV (consoante-vogal)

• As vogais, independentemente dos parâmetros acústicos, que mais rejeitaram a

hipótese nula foram: [ɐ], [o] e [ʊ].

• A frequência de formante que mais rejeitou a hipótese nula foi: F2 (segundo

formante).

Os resultados obtidos foram os esperados pela literatura e pudemos ter um roteiro inicial de

quais parâmetros acústicos e quais vogais poderiam ser usados e seriam mais robustos à

variabilidade acústica intra e inter-falante, pelo menos se nos basearmos nessa pequena

amostra de sujeitos. Todos os parâmetros acústicos escolhidos foram revistos e explicados

na pesquisa atual de Mestrado, no capítulo 4 deste texto, assim como a justificativa para

8 É a “velocidade” da fala, medida em sílabas por segundo.

13

este projeto, como a escolha de um novo corpus e de um novo canal de transmissão para

análise de fala.

15

2 Reconhecimento de locutor e Fonética Forense

2.1 Apanhado histórico

A identificação de um sujeito pela voz em situações de crime é uma técnica usada há

milhares de anos. Desde quando a fala passou a ser um exercício rotineiro do ser

humano, começou-se a identificar sujeitos a partir dela. Essa atividade foi documentada

em várias civilizações por seus respectivos estudiosos, como no caso do filósofo grego

Heráclito: “Olhos e orelhas são péssimas testemunhas para homens pois falta

conhecimento em suas almas” (SASLOVE & YARMEY, 1980 apud Hollien, 2002, p.

18), ou seja, somente a análise de oitiva (orelhas serem testemunhas) não é suficiente

para a verificação de locutor, é necessário a análise acústica.

Desde o momento em que documentar o comportamento e a capacidade humanas foi

possível, tem-se achado registros da identificação de locutor pelo mundo. Com o passar do

tempo, a utilização dessa “técnica” de identificação como evidência em cortes começou a

ser algo corriqueiro. Em 1660, William Hulet foi acusado de ter matado o rei Charles I, da

Inglaterra. Uma testemunha foi chamada ao tribunal, alegando que reconheceu a voz de

uma pessoa, sem que a visse, conversando com o rei até executá-lo. Essa pessoa acusada

16

era Hulet. Com esse depoimento, o réu foi considerado culpado e sentenciado à morte.

Posteriormente, antes da execução do acusado, descobriu-se o verdadeiro assassino e Hulet

foi, consequentemente, absolvido (ERIKSSON, 2005). Esse é um exemplo muito comum

de falsa identificação. Testemunhas auditivas, como a desse caso, tendem a apontar o autor

do crime como alguém conhecido por eles.

Outro caso mais recente e que ganhou notoriedade nos Estados Unidos foi o “Caso

Lindbergh”, em 1º de março de 1932. O filho do aviador Charles Lindbergh foi sequestrado

e um pedido de resgate foi deixado no quarto do garoto. As negociações foram feitas e a

família da vítima pagou o valor de $50.000 exigido. No momento da entrega do dinheiro,

Lindbergh – que estava aguardando de seu carro a negociação ocorrer – escutou a voz do

sequestrador. Algumas semanas depois, o garoto foi encontrado morto. A polícia

finalmente rastreou um suspeito e Charles, 29 meses depois, reconheceu a voz do suspeito

apreendido como a mesma que ouviu no local do pagamento de resgate, testemunhando o

fato em corte três anos após o crime (ERIKSSON, 2005).

17

2.1.1 Voiceprints

Com a invenção do telefone (e de equipamentos de gravação, tempos antes) no final da

década de 1930, a identificação de locutor foi se desenvolvendo. A análise acústica da fala

foi sendo estudada pelo Bell Telephone Laboratories (ou Bell Labs) e, entre várias

descobertas que fizeram ao longo do tempo, uma delas foi a criação da máquina de “fala

visível”, ou sonógrafo. Esse aparato traçava espectrogramas, gráfico com a representação

da frequência no eixo da ordenada, o tempo na abscissa e a intensidade de uma amostra de

som em diferentes tons de cinza. Eram utilizados em análises de comparação de vozes a

partir dos padrões gráficos das medidas que apresentam (HOLLIEN, 2002). A seguir, um

exemplo atual de espectrograma gerado no software PRAAT. Trata-se de um trecho de fala

de um dos participantes desta pesquisa.

18

Figura 1. Espectrograma gerado no software PRAAT do sujeito 1.9

Analisando a figura anterior mais de perto, aumentamos o seu trecho inicial:

Figura 2. Aumento da imagem espectrográfica gerada no software PRAAT do sujeito 1.10

9 O espectrograma mostra a produção do sujeito 1 dizendo: “Sou, sou daqui mesmo. É. Inclusive moro de carro há vinte minutos daqui.” Apresenta traçado da forma da onda (janela superior) e espectrograma de banda larga (janela do meio). 10 O espectrograma mostra a produção do sujeito 1 dizendo: “Sou, sou daqui mesmo.”

19

A imagem assinala as faixas de frequências dos formantes de um sujeito, representadas

pelas bandas escuras. No eixo y, é determinada a frequência em Hertz, e, no eixo x, o

tempo em segundos.

Após um período sem publicações e pesquisas a partir de tal descoberta – aparentemente, o

sonógrafo foi usado na Segunda Guerra Mundial pelos EUA como tentativa de

interceptação e tradução simultânea de mensagens inimigas –, os pesquisadores Gray e

Kopp publicaram um artigo intitulado “Voiceprint Identification” 11 a respeito do

funcionamento do sonógrafo e seu uso.

Gray e Kopp passaram a chamar os espectrogramas de voiceprints. Eles acreditavam que

era possível usar os espectrogramas para identificar falantes assim como as impressões

digitais (fingerprints) eram usadas para identificar indivíduos. Logo depois, os

voiceprints foram usados em aplicações forenses pelo pesquisador Lawrence Kersta,

comparando visualmente padrões espectrográficos das palavras e obtendo “sucesso de

99% ou melhor” (KERSTA, 1962, apud Hollien, 2002, p. 121) na identificação de

falantes. O método trazia as hipóteses que (1) diferentes representações das mesmas

palavras ou sons de um indivíduo seriam captadas em padrões espectrográficos que

preservariam importantes características do indivíduo, e (2) a fala de diferentes

indivíduos produziria padrões divergentes significativos (ERIKSSON, 2005).

11 GRAY, G & KOPP, G. (1944) Voiceprint Identification, Bell Telephone Laboratories Report, Murray Hill, NJ, pp 1-14.

20

No meio forense, a análise da fala por espectrogramas consistia em identificar falantes

desconhecidos, combinando seus padrões de fala com os de falantes conhecidos (suspeitos).

“Basicamente, sílabas, palavras, frases e/ou sentenças proferidas por ambos os lados

[espectrogramas de fala do sujeito desconhecido e conhecido] eram processadas ao traçar

os padrões vistos na figura” (HOLLIEN, 2002, p. 121). Mesmo tendo seus métodos de

análise variando de especialista para outro (NASH, 1973; SMRKOVSKI, 1976 apud

Hollien, 2002, p. 212), a identificação de locutor por voiceprint atingiu extrema

popularidade nos EUA na década de 1960. Com a demanda da polícia para a identificação

de criminosos a partir da voz sendo exponencialmente crescente, essa análise foi aceita nas

cortes quase sem oposição. Com o passar do tempo e das pesquisas (i.e. YOUNG &

CAMPBELL, 1967; STEVENS et al. 1968; HOLLIEN, 1990), o meio científico foi

apresentando resultados negativos para a identificação por voiceprints.

A utilização apenas de espectrogramas foi, então, mostrada inconclusiva e muito

controversa para análises de verificação de voz, como publicado pelo Comitê de avaliação

de espectrogramas sonoros e ratificada por Bolt, Cooper & Green (1979); Doddington

(1985); Hollien (1974); Koenig, Ritenour, Kohus & Kelly (1987) e Shipp, Doherty &

Hollien (1987). Uma das razões para isso é que as variações intrafalantes nos

espectrogramas de voz são, em sua grande maioria, mais drásticas do que interfalantes.

21

2.1.2 Duas abordagens históricas

A partir da década de 1960 – quando os tribunais começaram a compreender a necessidade

da identificação de falantes em gravações de voz v, duas abordagens analíticas surgiram.

Uma baseada nos Estados Unidos e outra no Reino Unido (FRENCH, 1994).

A primeira forma de identificação de locutor foi conhecida como “tradição do voiceprint”,

em que espectrogramas eram gerados a partir das gravações de criminosos para comparação

com vozes de suspeitos. Essa era uma forma de análise puramente acústica.

No Reino Unido, a identificação de um falante era baseada puramente em análises fonético-

auditivas. Ou seja, as amostras de fala de um criminoso (desconhecido) eram analisadas de

oitiva, por foneticistas treinados, e comparadas com as de suspeitos (conhecidos).

Essas duas técnicas de análise fizeram com que foneticistas forenses procurassem (até os

dias de hoje) métodos de análise mais apropriados e objetivos para uma identificação mais

precisa de falante.

22

2.2 Por que as vozes são difíceis de discriminar?

A fala humana é produto da interação de restrições impostas pelas propriedades físicas do

trato vocal e das escolhas feitas pelo falante em seu discurso. A fala não é constante, ou

seja, está sempre em variação. Para a pesquisa em fonética forense, o objetivo é encontrar

diferenças e semelhanças nas falas dos sujeitos. Segundo Nolan (1997), as diferenças inter-

falantes são divididas em diferença orgânica e aprendida.

Diferenças orgânicas

O aparato vocal de cada ser humano varia em tamanho e forma assim como a forma física

de cada indivíduo (ser alto, magro etc). As propriedades fonéticas – como frequências

ressonantes, taxa de vibração das pregas vocais – correspondem às dimensões do trato e

laringe. Por exemplo, o valor da frequência do primeiro formante (F1) corresponde

diretamente à posição da mandíbula (quanto mais alto o subsistema línguo-mandibular

para uma vogal, menor o valor de F1; quanto mais baixo o subsistema línguo-madibular

para uma vogal, maior o valor de F1); já a frequência do segundo formante (F2)

corresponde à posição da língua – quanto mais anterior for a constrição para uma vogal,

maior o valor de F2; quanto mais posterior for a constrição para uma vogal, menor o valor

de F2 (BARBOSA & MADUREIRA, 2013).

23

Diferenças aprendidas

Quando crianças, aprendemos mais do que nossa língua nativa e seu sistema linguístico.

Adquirimos também variedades regionais e sociais de pronúncia. Nelas, encontram-se as

variações sociolinguísticas a partir das quais o sujeito articula sua fala de maneira diferente,

por exemplo, de forma mais clara e polida ao ministrar uma palestra do que ao falar

casualmente com amigos.

A dicotomia “orgânico vs aprendido” não é um fator determinantemente distintivo do

indivíduo. Não há um traço (orgânico) que mostre a diferença das vozes, ou seja, não há

uma impressão digital para a voz – não podemos fazer um modelo do trato vocal de dois

indivíduos, produzindo uma determinada palavra e compará-los.

As diferenças orgânicas da voz são imbricadas com aquilo que o falante aprendeu em

termos do seu sistema linguístico e de escolhas que foram feitas em um determinado

momento.

Como falado anteriormente, o aparelho fonador de um indivíduo define os limites das

frequências dos formantes, sua frequência fundamental etc. Mas, dentro desses limites, os

falantes têm à sua disposição escopos para a variação. Por exemplo: uma frequência de

170Hz produzida por um falante masculino, que já é um valor incomum, é possível de

acontecer, pois (1) pode ser produzida por um homem com pregas vocais muito curtas (2)

ou por um homem de frequência fundamental normal, mas demonstrando grande excitação

da voz, (3) ou por outro homem imitando alguém (NOLAN, 1997).

24

Tendo essas diferenças em conta, compreende-se porque o trabalho de reconhecimento de

locutor é complexo. Passaremos a elencar as técnicas disponíveis para tal.

2.3 Reconhecimento de locutor

Definições

A terminologia que usaremos nessa pesquisa é a sugerida por Hollien (2002). Os termos

mais importantes são universalmente conhecidos e usados, como speaker recognition (SR,

reconhecimento de locutor), speaker verification (SV, verificação de locutor) e speaker

identification (SPID, identificação de locutor). Há também os termos paralelos a esses,

igualmente aceitos pela comunidade forense, nos quais a palavra “voz” foi substituída por

”locutor”, “reconhecimento de voz” e ”autenticação” por “verificação”, como em

“autenticação de locutor”. O termo “reconhecimento de locutor” (ou reconhecimento de

voz) é um conceito geral que agrupa os outros dois.

O reconhecimento de locutor é “qualquer atividade pela qual uma amostra de fala é

atribuída a uma pessoa com base em suas propriedades fonético-acústicas ou

perceptuais” (JESSEN, 2008, p. 671).

25

Há duas definições de reconhecimento de locutor: reconhecimento leigo e profissional. O

primeiro é o caso de reconhecer um sujeito, pela voz, em situações corriqueiras, ao

identificar alguém ao telefone sem que ele tenha se apresentado primeiro, por exemplo, e

até em um crime, como em uma fila de reconhecimento (testemunha auditiva). A segunda

definição divide-se em duas tarefas: identificação de locutor e verificação de locutor.

A identificação de locutor apresenta uma descrição quase antagônica com a segunda. Nela,

está a situação forense padrão. Não há cooperação do sujeito, pois ele é um suspeito que

não quer ser identificado. Caso haja tal cooperação, o cenário de avaliação da voz do

suspeito com a do criminoso muda. As gravações analisadas são obtidas por investigação

policial, as amostras de fala tendem a ser provenientes de ambientes ruidosos e com

distorção, no caso de gravação por telefone. Nessa tarefa, há a comparação da gravação

questionada, ou seja, a gravação do criminoso, geralmente feita em canal telefônico – seja

por uma interceptação de telefone celular ou fixo – e a gravação de referência, a do suspeito

feita em estúdio, na Polícia Criminalística, por exemplo. Em uma gravação questionada,

encontramos o indivíduo geralmente usando de fala espontânea, com um discurso livre, já

na gravação de referência, o indivíduo se encontra em uma situação distinta, está sofrendo

de um nível de estresse diferente, já que está em uma entrevista policial, podendo provocar

uma tensão na laringe, tornando sua voz irregular. Além disso, o suspeito a ser avaliado

também pode se utilizar de artefatos como disfarce vocálico. Nessa abordagem, o sujeito

não quer ser identificado, o que faz dessa tarefa ainda mais desafiadora. Resumindo, a

identificação do indivíduo encontra-se no que chamamos de “sistema aberto”, pois não se

26

sabe se a voz desconhecida pertence a um dos falantes conhecidos no banco de referência

da polícia ou não, então a população “suspeita” é ampla.

A identificação de locutor é subdividida em comparação de voz (ou comparação

de locutor), perfil de voz (ou perfil de locutor) e análise de identificação por vítimas

e testemunhas.

Comparação de locutor

A comparação de locutor envolve a identificação de um falante desconhecido em uma

situação de crime (pedido de resgate por telefone, trote etc) por meio de uma gravação.

Assim que essa gravação, dita questionada, está em posse da polícia, é feita uma

comparação de voz com a gravação de referência de um suspeito. A análise das gravações é

feita por meio de comparações de diversas características da fala dos sujeitos, a partir de

método de análise escolhido pelos peritos,12 e os resultados são apresentados em tribunal.

Perfil de voz

Quando o que só existe nas mãos dos peritos é a gravação questionada, o próximo passo a

ser feito é a criação de um perfil desse falante. Esse perfil é feito pelos peritos responsáveis

12 Os métodos de análise serão descritos na seção seguinte.

27

e contém informações relevantes do criminoso, como sexo, idade, nível de escolaridade e

social, língua nativa (em caso de a amostra apresentar fala com sotaque estrangeiro) e

patologias da fala (JESSEN, 2008). Assim, como são diversos os métodos de análise

usados de país para país, a Associação Internacional de Fonética Forense e Acústica

(IAFPA) recomenda um código de prática, sugerindo o que os membros podem ou não

colocar nos perfis.13

Na verificação de locutor, é a identidade da pessoa que está em questão, ou seja, nesse caso,

a voz é utilizada para acessar uma conta de banco por telefone ou alguma informação

privilegiada. Essa análise é controlada por analistas e feita por computadores que

comparam a voz questionada com uma voz já armazenada, cuja verossimilhança é

verificada. O falante a ser avaliado, portanto, é cooperativo, ele produz várias amostras de

sua fala para a comparação de voz, sem, provavelmente, adotar algum tipo de disfarce ou

variações em sua voz.

Para esta pesquisa, escolhemos usar o termo “verificação de locutor”, por esta não

preencher todos os requisitos de uma “identificação”. Embora a Fonética Forense seja

associada à tarefa de identificação de locutor, ou seja, à identificação de uma única pessoa

(desconhecida) em uma população (reconhecimento indireto de um sujeito), na prática, ela

acaba sendo verificação, pois o trabalho forense, na maioria das vezes, toma um número

finito de suspeitos para sugerir um criminoso a partir da comparação entre gravações

questionada e de referência.

13 www.iafpa.net/code.htm

28

O reconhecimento de locutor tem suas limitações. No caso particularmente da aplicação

forense, amostras de fala podem ser muito curtas para uma representação suficiente do

falante, a qualidade das gravações pode ser pobre (ruído de fundo, distorções impostas na

transmissão telefônica ou fita de gravação) e os sujeitos podem usar de disfarces vocais.

Em suma, o foneticista forense encontra-se em um difícil conundrum: a fala de um

indivíduo não é constante, como, então, identificar precisamente um sujeito?

2.4 Métodos de análise forense

Há várias técnicas de reconhecimento de locutor. As mais conhecidas e ainda usadas são:

verificação automática de locutor, método auditivo de análise, método acústico de análise e

método acústico-auditivo de análise.

Verificação automática de locutor

Esse método de análise tem como objetivo processar automaticamente a fala de um sujeito

para aceitar ou rejeitar reivindicações de identidade, por isso o termo ”verificação

automática de locutor” (automatic speaker verification, ASV). A pesquisa em ASV se serve

29

de técnicas de processamento do sinal da fala, não necessariamente com conhecimento

fonético. As aplicações potenciais para essa técnica envolvem interações telefônicas com

checagem de identidade, em cofres e caixas eletrônicos. Ela funciona tomando a amostra de

fala de um indivíduo que reivindica ser X, comparando-a por computador com uma

referência (que é construída na base de um número de repetições por X) armazenada do

sujeito. Se a distância acústica14 entre a elocução do requerente com a referência

armazenada é pequena, a reivindicação é aceita.

O problema que temos com essa técnica de análise no ambiente forense é a

incompatibilidade das gravações, ou seja, diferenças na qualidade do som entre amostras de

fala devido a transmissões de canais diferentes. Se as amostras de fala questionadas são

gravadas em um telefone e a de referência em uma gravação direta, são criados grandes

problemas para a análise por computador justamente pela degradação acústica causada pelo

filtro do telefone.

Na Universidade de Gotemburgo, por exemplo, usa-se um sistema automático para

comparação de voz, o software francês ALIZE SpkDet (ERIKSSON, 2012). Os resultados

obtidos são, então, combinados com as análises acústico-auditivas tradicionais, conforme

apresentamos adiante. Outro sistema automático popular é o Batvox, usado em vários

países, incluindo o Brasil. O problema desse software em particular é o uso que se faz dele,

ou seja, a dependência de usar apenas um sistema de análise, sem o insight de um

pesquisador para a análise dos resultados.

14 É o valor de discrepância entre os parâmetros acústicos dos sujeitos.

30

A tarefa de um foneticista forense é a de decidir quão provável é duas gravações

pertencerem à mesma pessoa. Isso inclui uma gravação de um falante desconhecido durante

a feitura do crime (e.g., pedido de resgate) e a gravação de um suspeito a partir de uma

entrevista com o perito. Somente se uma gravação é feita especificamente para

comparação15 o seu conteúdo linguístico pode ser controlado a ponto de ser o mesmo que

na gravação desconhecida. Mesmo neste último caso, a impossibilidade de replicar o

contexto de uma gravação desconhecida torna a equivalência linguística impossível. Em

uma análise forense comum, geralmente, a comparação das vozes tende a ser feita com

materiais obtidos em diferentes condições, e.g., gravação telefônica em comparação com

gravação direta, por gravador. Essa é uma das razões por que a identificação automática de

locutor plena deve ser implementada por métodos que envolvam o conhecimento humano.

Para isso, dois métodos de análise são usados: método auditivo e método acústico.

Método auditivo

Os profissionais mais recomendados para manipularem essa técnica de análise são

foneticistas e dialetologistas. Esses são especialistas na análise auditiva da fala e se

servem do Alfabeto Fonético Internacional (IPA, na sigla em inglês) para fazer a

transcrição de vogais e consoantes. O profissional analisa as diferenças entre a pronúncia

das amostras de fala, perguntando-se: “cada um dos falantes comparados é foneticamente

15 Essa comparação é feita com o consenso do suspeito.

31

único ou compartilham de características que aumentem a probabilidade de serem do

mesmo sujeito?”

Hollien (1990) conduz um experimento perceptual de discriminação que é um bom

exemplo de uso do método auditivo. Os juízes do experimento deparam-se com uma

sequência de pares de gravações, cujas amostras de fala podem conter a voz do “criminoso”

– a amostra da fala questionada – e a de distratores que também são desconhecidos. A

proposta do autor é que, se os ouvintes são consistentemente capazes de discriminar qual é

a amostra questionada, o indivíduo é o “criminoso”. Em seu experimento, os juízes foram

bem-sucedidos na escolha. Esse é um exemplo interessante para mostrar a habilidade de

oitiva de um ser humano.

O método auditivo de análise comporta uma base de estudos favoráveis para sua aceitação

(BALDWIN, 1977, 1979; BALDWIN & FRENCH, 1990) e, em 1991, o Tribunal de

Recurso Penal (English Court of Criminal Appeal, Robb, 1991) decretou que evidência de

identificação de locutor baseada somente em análise auditiva é admissível em tribunal.

Mas, mesmo assim, o método auditivo sozinho não é o ideal no contexto geral forense,

restando, segundo French (1994) somente dois dos seus praticantes em todo o Reino Unido.

32

Método acústico

O método de análise acústico permite a quantificação da fala de um indivíduo por meio

de parâmetros acústicos. Não é só outro método de análise da fala, ele revela

informações que o sistema auditivo não percebe, extraindo informação passível de

análise linguística do sinal de fala. Podemos ouvir o mesmo som de duas pessoas

falando uma mesma vogal, o que pensaríamos não apresentar nenhuma diferença

acústica, mas os padrões formânticos, por exemplo, de cada uma são diferentes. O

critério de escolha para um parâmetro acústico ser usado em análise forense é baseado

nesta regra: os parâmetros devem apresentar uma variabilidade intra-falante menor que

sua variação inter-falante (HOLLIEN, 1990 apud FRENCH, 1994).

Nolan (1990 apud FRENCH, 1994) analisou a vogal /æ/ no contexto das palavras “that” e

“back” de um “criminoso” de um delito em particular e comparou com gravações

incriminadoras de outro indivíduo, ou seja, amostras de fala de um sujeito em diferentes

contextos de gravação e que não cometeu o crime em questão, mas que estava no banco

de dados da polícia por comportamento suspeito. As amostras do “suspeito”

apresentavam um valor constante de 2,5 kHz para o terceiro formante de suas vogais. No

entanto, o “criminoso” apresentava valores bem menores para os terceiro e quarto

formantes das vogais. Ou seja, esse método de comparação mostrou-se eficaz para ser

usado como prova em tribunal, podendo concluir quantitativamente que as gravações

pertenciam a diferentes pessoas.

33

Apesar de seu potencial, mesmo assim o uso desse método sozinho em uma análise forense

não é o ideal. Tanto o método acústico quanto o auditivo têm suas forças e, combinadas,

favoreceriam potencialmente a análise forense (KÜNZEL, 1994 apud FRENCH, 1994). A

partir disso, foi desenvolvido o método acústico-auditivo de análise.

Para satisfazer o critério de análise para a pesquisa forense, como explicado anteriormente,

que é assegurar uma menor taxa de variação intra-falante em comparação com a variação

inter-falante, o ideal é não usar apenas um parâmetro acústico, mas vários. Hollien (1990

apud NOLAN, 1997) sugere como abordagem o uso de extração múltipla de parâmetros e a

comparação por um método de reconhecimento de locutor conhecido como semi-

automático. A partir disso, é feita uma comparação dos vetores de diferentes parâmetros

acústicos e calculada a distância entre as amostras dos falantes.

Nesta pesquisa, utilizamos o método acústico semi-automático de análise. O método

auditivo não é aplicado a esta pesquisa, pois (1) os sujeitos, fora o criminoso, não são

desconhecidos da mestranda e (2) não apresentam grandes diferenças de sotaque e/ou

outras características importantes para a discriminação nesta análise (i.e. patologia na fala).

35

3 Pesquisa desenvolvida

A Fonética Forense é uma aplicação de conhecimento, teorias e métodos da fonética geral

para tarefas práticas que surgem de um contexto de trabalho policial ou da apresentação de

uma evidência em tribunal, assim como o desenvolvimento de novos métodos, teorias e

conhecimentos para a Fonética Forense (JESSEN, 2008). Baseamo-nos nisso para a

idealização e realização de nossa pesquisa, usando técnicas de análise forense para

desenvolver um trabalho acadêmico, beneficiando as áreas da fonética acústica e forense.

Esta pesquisa teve como objetivo identificar um indivíduo pela voz em um grupo de dez

falantes do português brasileiro divididos em quatro estados, São Paulo, Rio Grande do Sul,

Bahia e Pará. Para realizar esta tarefa, analisaremos os seguintes parâmetros acústicos das

vogais de cada falante: frequência dos dois primeiros formantes, frequência fundamental

média, taxa de elocução, frequência baseline, ênfase espectral, dinamicidade dos formantes

e desvio-padrão de durações de intervalos consonânticos (∆C).

Todos os indivíduos foram gravados em dois canais de gravação, gravação direta e

gravação por telefone celular. Esta última simula a dificuldade encontrada pelos peritos

ao analisar gravações de baixa qualidade, com ruído e deterioração que uma escuta

telefônica, por exemplo, apresenta. Além disso, o indivíduo escolhido para lidarmos

como “criminoso” teve sua fala gravada em ambiente acusticamente tratado para uma

36

análise comparativa mais robusta. Simularemos um caso forense habitual, de crime, tendo

como objetivo principal o reconhecimento do “criminoso” dentro do grupo de falantes,

além de mostrar qual método de análise estatística e quais parâmetros acústicos são mais

eficazes para essa tarefa.

3.1 Efeito do celular

Em muitas situações forenses, cientistas têm em mãos, como material de avaliação,

escutas telefônicas que, em sua grande maioria, são de péssima qualidade, e, sendo a

única fonte sonora para a extração de parâmetros acústicos, devem apresentar algum

resultado substancial para o júri. Trazemos essa situação para a pesquisa, simulando casos

de escuta telefônica.

Primeiramente, escolhemos o celular e não o telefone fixo, pois é de grande uso dos

criminosos – sendo que, no Brasil, há mais de 271 milhões16 de linhas de telefone celular.

Além disso, foi evidenciado que a gravação por telefone fixo apresenta resultados mais

robustos, principalmente para o primeiro formante (KÜNZEL, 2001; BYRNE &

FOULKES, 2004) em comparação com telefone celular. Byrne & Foulkes (2004) partiram 16 Segundo dado divulgado pela Anatel, disponível em: http://www.anatel.gov.br/

37

do artigo de Künzel (2001) sobre os efeitos do telefone fixo para calcular quais as

consequências que a diferença de canal de transmissão (no caso, telefone celular) causa nas

frequências dos formantes nas gravações. Um dos fatores de dificuldade na análise de

dados a partir de gravação telefônica é a perda do sinal, além de ruído que há no ambiente –

no caso do celular, a distorção do próprio aparelho é o mais crítico para análise fonética.

Mesmo perdendo qualidade (devido a filtragem e a ruídos), a gravação telefônica torna a

análise mais difícil e meticulosa. É bem comum a análise de propriedades acústicas como a

de características de filtro de banda, porém pouco se estuda sobre o efeito dele para os

parâmetros de fala.

Alguns efeitos causados pelo telefone celular foram evidenciados por Byrne & Foulkes

(2004) e serão mostrados a seguir. Esperamos encontrar nesta pesquisa uma degradação do

sinal de fala das gravações coletadas advinda da combinação desses efeitos.

I) Efeitos do ambiente: um dos efeitos mais comuns de telefones no sinal da fala é o físico,

por exemplo, ligações telefônicas podem acontecer em ambiente de alto nível de ruído de

fundo, como no trânsito. Assim, esse efeito gerará problemas para a análise forense, pois os

ruídos podem afetar informações cruciais no sinal da fala.

II) Efeito dos falantes: os próprios falantes influenciam na conversação telefônica, eles

tendem a modificar o seu comportamento ao falar por telefone, por exemplo, tornando-se

mais formais (no caso do inglês britânico, segundo os autores). O registro telefônico da voz

38

muda consciente ou inconscientemente, influenciando na taxa de elocução, na qualidade da

voz e, como dito anteriormente, na pronúncia. Um dos efeitos mais “comuns” é a pessoa

aumentar o volume da voz ao falar no telefone, afetando diretamente a frequência

fundamental do falante (F0).

III) Efeitos técnicos: ou “distorção espectral” é o aumento das frequências que se

encontram acima do filtro passa-baixa (300Hz) e a diminuição das frequências que se

encontram ligeiramente abaixo do filtro passa-alta (3.500Hz). Ou seja, as frequências que

estão abaixo de 300Hz e acima de 3.500Hz são “apagadas” pelo filtro do telefone celular.

Outro exemplo de efeito técnico (KÜNZEL, 2001; BYRNE & FOULKES, 2004) é o

fenômeno conhecido como “deslocamento de frequências”: quanto menor a frequência (por

exemplo, o primeiro formante), mais atenuada ela fica pelo canal telefônico em comparação

a uma gravação direta. O contrário também acontece, e a perda dos componentes de alta

frequência é destrutiva para a identificação forense de falante, pois um grande número de

informações (qualidade de voz, por exemplo) é codificado em faixa de frequências mais

altas das vogais.

A seguir, duas imagens de espectrograma que mostram os efeitos do filtro telefônico em

uma gravação analisada:

39

Figura 3. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8.17

Figura 4. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8.18

17 As camadas para a segmentação são divididas em quatro, a segmentação das vogais, centro das vogais, unidades V-V e intervalos vocálicos e consonantais. 18 As camadas para a segmentação são divididas em quatro, a segmentação das vogais, centro das vogais, unidades V-V e intervalos vocálicos e consonantais.

40

As duas figuras representam o mesmo trecho de fala do sujeito. Elas mostram o corte de

frequência produzido pelo filtro do telefone celular. Na Figura 3, uma linha pontilhada

vermelha mostra a faixa de frequência “apagada” pelo filtro na frequência acima de

3.732Hz. Já a outra Figura mostra a faixa de frequência que é perdida devido ao filtro

abaixo de 238Hz.

41

4 Metodologia

4.1 Procedimento

Diferentemente da pesquisa de Iniciação Científica, não nos retemos a uma análise

comparativa de gravações diretas e gravação em laboratório.

Em uma situação forense, há geralmente o seguinte cenário: a gravação de um crime para

ser comparada à gravação de referência. A primeira, ou gravação questionada, geralmente é

feita por escuta telefônica, em que o indivíduo tende a falar o mais espontaneamente

possível, sem saber que está sendo gravado. A segunda gravação geralmente é realizada em

ambiente acusticamente tratado e os peritos pedem para o suspeito ler um texto de forma

clara para um microfone posicionado em sua frente. Esse tipo de técnica de análise acaba se

tornando mais um ponto que dificultará o trabalho do pesquisador, pois são gravações feitas

em contextos diferentes: (1) uma situação de fala espontânea, com o discurso fluente e (2)

em laboratório, com material lido. Com isso, palavras que se encontraram na primeira

gravação podem não estar presentes na segunda. O nível de estresse e a naturalidade da

fala também afetam a produção de palavras, e a precisão na comparação das análises de

42

cada indivíduo é prejudicada, além é claro, dos efeitos que o telefone celular podem causar

na gravação.19

Nesta pesquisa de Mestrado, a gravação em estúdio pelo indivíduo não foi feita a partir da

leitura de um texto, coube à pesquisadora conduzi-la como uma entrevista, a fim de inserir

os mesmos assuntos discutidos na primeira gravação e deixar o entrevistado o mais à

vontade possível para que sua fala fosse fluente e espontânea.

Figura 5. Esquema da gravação por escuta telefônica usado nesta pesquisa.

19 Os efeitos do celular em gravações são discutidos na seção anterior.

43

As gravações telefônicas foram feitas por um celular Samsung Galaxy Young pela rede da

operada TIM. O experimentador fazia a ligação em um ambiente com nível mínimo de

ruído de fundo, na sala do Grupo de Estudos da Prosódia da Fala, para o sujeito que se

encontrava em sua respectiva cidade natal. Foi feita uma gravação de cada locutor,

simulando uma conversa corriqueira, em que tratavam de assuntos do cotidiano, trabalho,

plano para férias etc., tentando atingir um grau mais próximo de fala espontânea. O

aparelho de interceptação foi uma placa de áudio, U-Control UCA22220 conectado ao

celular do experimentador que, por sua vez, também se conectava ao desktop; e a conversa

foi gravada pelo software Audacity.21

O corpus da pesquisa consiste em gravações em dois canais de transmissão diferentes –

gravação direta e por celular – de um grupo de dez falantes do português brasileiro de

quatro estados diferentes – São Paulo, Bahia, Pará e Rio Grande do Sul. Foram feitas vinte

e uma gravações, dez usando o Mini Gravador Digital Coby Cx-r190 ao ar livre, dez por

telefone celular e uma gravação direta em ambiente acusticamente tratado.

Todas as gravações foram segmentadas manualmente via software PRAAT e extraídas

automaticamente pelo script ForensicDataTracking, desenvolvido por Barbosa (2013). A

seguir, a lista dos sujeitos participantes da pesquisa:

20 As especificações da placa estão disponíveis em: http://www.behringer.com/EN/Products/UCA222.aspx 21 Disponível em: http://audacity.sourceforge.net/?lang=pt-BR

44

Sujeito Naturalidade Duração (min) Número de segmentos (vogais) 1 Bahia 2:15 229 1 – cel 3:26 461 2 São Paulo 3:40 515 2 – cel 2:21 279 3 São Paulo 1:50 152 3 – cel 1:50 193 4 São Paulo 1:05 102 4 – cel 2:07 185 5 São Paulo 01:40 180 5 - cel 00:56 50 6 São Paulo 03:10 405 6 - cel 01:36 245 7 Bahia 01:27 148 7 - cel 02:38 207 8 Pará 02:53 297 8 - cel 02:57 296 9 Bahia 01:55 217 9 - cel 01:40 174 10 Rio Grande do Sul 02:10 250 10 - cel 02:24 245 Criminoso ? 9:40 2181

Tabela 8. Lista com informações sobre os sujeitos participantes da pesquisa.22

O script automaticamente extraiu as medidas de frequência do segundo formante (F2) das

vogais, taxa de movimento de formante para o segundo formante, frequência baseline,

média da frequência fundamental, duração das vogais, inverso da taxa de elocução (média

da duração de unidade do tamanho da sílaba), ênfase espectral e ∆C. A seguir, uma

apresentação breve dos parâmetros acústicos escolhidos.

22 As informações tabeladas são: contexto de gravação (celular ou não) cidade natal, duração de cada gravação e número de vogais estudadas de cada sujeito.

45

4.2 Parâmetros acústicos

Frequência fundamental e frequência baseline

A frequência fundamental é o correlato acústico da frequência de vibração das pregas

vocais na produção de voz (JESSEN, 2008).

Ela é um parâmetro útil para a comparação inter-falantes no ambiente forense. Suas

medidas de distribuição de longo-termo, como sua média, são sempre sugeridas por

pesquisadores da área (ERIKSSON, 2011; ROSE, 2002). Segundo Eriksson (2012), o seu

cálculo depende diretamente da duração da amostra de fala, ou seja, é necessário um tempo

mínimo de trecho de fala para a extração de seu valor. Alguns autores sugerem durações de

14 segundos (HORII, 1975 apud ERIKSSON, 2012), 60 segundos (NOLAN, 1983) e até 2

minutos (BALDWIN & FRENCH, 1990). Nesta pesquisa, nós extraímos a frequência

fundamental global do trecho, com gravações com duração mínima de 50 segundos.

Alguns fatores podem influenciar a variabilidade da frequência fundamental, como os

fatores fisiológicos (idade, ser ou não fumante, doença, intoxicação) e também estados

emocionais, além de fatores externos, como ruído na amostra de gravação (BRAUN, 1995

apud ERIKSSON, 2012). Outro fator que pode influenciar a variabilidade desse parâmetro

é o disfarce, pois indivíduos tendem a aumentar ou diminuir sua frequência fundamental em

situações de crime (KÜNZEL, 2000).

46

Em meio a essa variabilidade que pode causar distorção na medida de F0, Lindh &

Eriksson (2007), desenvolveram uma forma de representação para a frequência

fundamental chamada de baseline. A frequência baseline fundamenta-se na proposta de um

nível de frequência fundamental neutro. Esse nível é um ponto estável estimado como 1,43

desvios-padrão de F0 abaixo da média de F0. Ela foi testada em diferentes materiais de fala

que variavam quanto ao estilo de fala, esforço vocal e qualidade de gravação. Esta última

condição consistia em gravações usando diferentes canais de transmissão, gravador digital e

também telefone celular. Os resultados foram robustos para todos os contextos de gravação.

Frequência de formantes

Formantes são frequências de ressonância no trato vocal. Eles são formados por formas e

volumes de diferentes cavidades do trato vocal (FANT, 1960).

Atualmente, a maioria das chamadas telefônicas que tem conexão com crimes são feitas

usando telefones celulares. Investigadores na Suécia, Reino Unido e Alemanha indicam que

um número substancial de casos envolvendo fala gravada em celular está crescendo

vertiginosamente (ÖHMAN et al, 2010). Byrne & Foulkes (2004) mostram como a

transmissão por celular tem um efeito significativo nos formantes, e Künzel (2001) também

mostrou grandes efeitos no telefone fixo para os primeiros formantes.

Künzel (2001) fez um experimento para testar os efeitos do telefone fixo na fala.

Participaram 10 homens e 10 mulheres com idade de 20 a 59 anos e eles fizeram uma

47

leitura do texto The north wind and the sun em alemão, com taxa de elocução e altura

de fala normais. As leituras duraram entre 35 e 40 segundos. O sinal de fala foi gravado

simultaneamente em gravador e telefone. Foram analisados cerca de 25 contextos

fonológicos de 13 vogais. O autor revelou que encontrou problemas com a própria

metodologia do seu experimento. O algoritmo que foi usado cometia erros, como

escolher um formante mais alto ao invés do que devia, o que ocorreu principalmente

nos dados telefônicos.

Os resultados do experimento mostraram que todos os sujeitos apresentaram diferenças

significativas para o primeiro formante em gravação telefônica, não tendo diferenças

significativas para o segundo formante. Outro dado expressivo foi que o valor da frequência

do primeiro formante de cada vogal foi maior na transmissão telefônica do que por

gravação direta. A diferença é maior para vogais fechadas como [i] e [u], média para vogais

como [e] e [o] e menor ou zero para vogais abertas como [ɔ, a].

O que Künzel concluiu de sua pesquisa é que os valores das frequências dos formantes

baixos das vogais de falantes masculinos e femininos são deslocados para cima (formant

shifted upwards), causando erros de medidas.

Byrne & Foulkes (2004), a partir deste experimento de Künzel, decidiram testar o efeito do

telefone celular no sinal de fala. O experimento consistia em 12 voluntários falantes do

inglês, seis homens e seis mulheres, entre 20 e 39 anos. Esses sujeitos leram o texto The

story of Arthur the rat e duas gravações ocorriam simultaneamente. As gravações diretas

foram realizadas por um microfone posicionado diretamente na frente do locutor, conectado

48

a um gravador. Um segundo gravador foi conectado com o propósito de interceptar a

chamada recebida na sala do experimentador. Os dados foram armazenados em um

computador para análise acústica. Os resultados obtidos foram:

Devido ao efeito de filtro da transmissão telefônica, frequências de F1 para a maioria das

vogais foram maiores que seus homólogos nas gravações diretas; as frequências do

primeiro formante foram 29% maiores do que as por telefone fixo apresentadas por Künzel

(2001); e as frequências do segundo formante não foram afetadas significativamente pelo

canal telefônico.

Um dos motivos que acreditamos para ocorrer expressiva diferença entre telefone fixo e

celular é que estes são sujeitos a um maior alcance de influências ambientais que os

telefones fixos. Pelo fato de telefones celulares poderem ser usados em qualquer lugar,

muitos tipos diferentes de ruído de fundo serão encontrados nas gravações quando celulares

são usados.

Dinamicidade de formantes de parâmetros do domínio de tempo

Outro exemplo de estudo de formantes, só que relacionado a sua dinamicidade, foi proposto

por McDougal (2004). Ele sugere que as diferenças individuais em movimentos

articulatórios podem ser usadas para a comparação de locutor. Seu experimento mostrou

que esse parâmetro acústico apresenta informações idiossincráticas dos locutores, ele é

calculado entre a diferença da frequência no contorno do formante e da sua área de

49

transição até o centro do formante. Em seu experimento, valores ligados ao movimento das

frequências do segundo formante apresentaram resultados determinantes para a

discriminação de locutores. A medida foi feita da seguinte maneira: a partir do segmento de

uma vogal, por exemplo /uː/, foram feitas medidas do ponto médio dos contornos das

frequências do primeiro e segundo formantes de cada segmento de /uː/ a partir do “formant

tracker” do PRAAT. Um script foi usado para calcular a duração de cada segmento que o

dividia em dez intervalos iguais. Um outro script mediu o centro das frequências dos

formantes a cada passo, normalizando cada contorno formântico.

Uma medida de duração que também foi estudada com objetivo de comparação de locutor é

o ∆C, ou seja, o desvio-padrão da duração de intervalos consonânticos. Dellwo & Koreman

(2008), em seu estudo que consistia na gravação de dez falantes do alemão, avaliou dados

de diferentes taxas de elocução com os sujeitos, variando-as nominalmente de normal até

rápida. O teste mostrou que os parâmetros de tempo como o ∆C conseguiam capturar

informações idiossincráticas dos sujeitos, mantendo-se robusto em diferentes condições de

fala.

Taxa de elocução

A taxa de elocução (speech rate) é o número de unidades da fala produzidas por minuto ou

por segundo. As notações mais comuns são palavras por minuto e sílabas por segundo

(ERIKSSON, 2012). Neste trabalho, ela é medida a partir da média da duração das

50

unidades V-V, unidade do onset de uma vogal até o onset da vogal imediatamente seguinte.

Pode ser medida automaticamente, em caso de boa qualidade na amostra de fala estudada,

ou manualmente, quando há baixa qualidade na gravação. Em outras palavras, a ideia deste

parâmetro é contar quantas unidades existem em um determinado trecho, medir a duração

deste mesmo trecho e dividir o primeiro número pelo segundo. Esse cálculo resulta em uma

taxa, um número x de unidades de fala (sílabas, V-V etc.) por unidade de tempo (em geral,

segundos). Segundo Eriksson (2012), a taxa de elocução apresenta um baixo poder de

discriminação inter-falantes, apresentando uma variação intra-falante alta. Testaremos nesta

pesquisa como ela é afetada pelo canal telefônico, uma vez que a detecção do início da

vogal pode ser prejudicada pelo canal. Neste trabalho, uma vez que a média da duração de

unidade do tamanho da sílaba é o inverso da taxa de elocução e que, portanto, diferenças

entre essas médias assinalam diferenças nas taxas, tomaremos a duração média da unidade

V como medida de taxa de elocução.

Ênfase espectral

O interesse desta medida acústica para a descrição da prosódia se deve à observação experimental de que vogais em posições prosodicamente proeminentes tendem, quando comparadas às não proeminentes, a ser produzidas com mais esforço vocal, o que, do ponto de vista acústico, resulta em uma distribuição da energia ao longo do espectro caracterizada pela presença de mais energia em faixas de mais alta frequência (ARANTES, 2011).

51

Para esta pesquisa, seguimos o modelo de Traunmüller & Eriksson (2000) que trata a

ênfase espectral como a diferença entre a intensidade acústica do sinal integral e a

intensidade do sinal submetido a um filtro passa-baixa com um limite de banda superior

definido pela expressão 1,5*F0, em que F0 é a média da frequência fundamental na vogal

analisada. Esperamos deste parâmetro uma grande variação para o canal telefônico devido

ao ruído e ao filtro. Segundo Constantini (2014), a ênfase espectral, em seu experimento,

apresentou aumento de 156% em gravações com ruído inserido artificialmente pelo

PRAAT em relação as gravações originais.

4.3 Métodos de análise estatística e resultados

Para este experimento, decidimos utilizar os testes estatísticos ANOVA e Teste de Duncan.

A seguir, explicaremos os resultados obtidos das gravações a partir deles.

52

ANOVA

Todos os testes estatísticos utilizados nesta pesquisa foram feitos a partir do software R.23 O

teste estatístico de ANOVA, ou análise de variância, é a técnica estatística que permite avaliar

afirmações sobre as médias de populações. Ele verifica se existe uma diferença significativa

entre as médias e se os fatores exercem influência em alguma variável dependente.

Para a pesquisa, estudamos a ANOVA com os seguintes intuitos: (1) determinar se os

parâmetros acústicos analisados permaneciam robustos com a mudança de canal de

transmissão, de uma gravação direta por gravador digital para telefone celular, e (2)

determinar se algum desses parâmetros acústicos conseguem apontar para qual dos sujeitos

analisados é o “criminoso”. Para a realização deste teste, é preciso seguir algumas

condições. Para isso, foram utilizados o teste estatístico Shapiro-Wilk para verificar se os

resíduos compõem uma distribuição normal e o teste Fligner-Killeen para verificar a

homogeneidade das variâncias dos grupos. Em seguida, foi feita a análise de Kruska-

Wallis, o correspondente não-paramétrico da ANOVA.

As Tabelas 9 e 10 mostram os parâmetros acústicos estudados na pesquisa para o contexto

de gravação telefônica e gravação direta. Neste caso, se o parâmetro acústico apresentou

um valor de p > 5%, ele não sofreu variação de canal de transmissão, mostrando-se um

parâmetro robusto para a pesquisa; em outras palavras, é um bom parâmetro acústico para a

comparação de trechos por diferentes canais. Podemos analisar a partir dos testes que os

23 Disponível em: http://www.r-project.org/

53

seguintes parâmetros acústicos aceitaram a hipótese nula, apresentando-se robustos para a

transmissão telefônica: duração das vogais, taxa de elocução, ∆C e taxa de movimento do

segundo formante (F2). A seguir, mostraremos os boxplots desses parâmetros. O boxplot é

um meio padrão de se mostrar a distribuição de dados e também seu alcance de variação

(de mínimo para máximo) e o seu valor (a mediana).

Cel-NCEL MeanV MeanVV ∆C

Shapiro-Wilk p-value = 0.9108 p-value = 0.9515 p-value = 0.822

Fligner-Killeen p-value = 0.4227 p-value = 0.5611 p-value = 0.2825

ANOVA p-value = 0.245 p-value = 0.36 p-value = 0.05265

Tabela 9. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta.24

Celular -NCEL F2 Rate F2 F2 trans F0 Baseline

Ênfase espectral

Fligner-Killeen

p-value = 0.05298

p-value = 9.707e-05

p-value = 0.7776

p-value = 1.833e-13 4.435e-10

p-value < 2.2e-16

Kruskal-Wallis

p-value = 1.3e-09

p-value = 0.5911

p-value = 0.6792

p-value < 2.2e-16

p-value < 2.2e-16

p-value < 2.2e-16

Tabela 10. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta.25

24 As condições de uso da ANOVA foram a normalidade e a homogeneidade de variância, sendo α = 0,05, para a condição de gravações por celular e direta. Resultados para a média da duração das vogais (MeanV), taxa de elocução (MeanVV) e ∆C. 25 As condições de uso da ANOVA foram a normalidade e a homogeneidade de variância, sendo α = 0,05, para a condição de gravações por celular e direta para transição de F2; e Kruskal-Wallis, para α = 0,05, para os valores de segundo formante (F2), taxa de F2, frequência fundamental (F0), frequência baseline e ênfase espectral.

54

Figura 6. Boxplot para ∆C para gravação em celular (cel) e gravação direta (ncel).

A partir desse gráfico, podemos ver que, apesar de a mediana (traçado preto em negrito)

apresentar valores distintos para o contexto de gravação direta e celular, sendo o primeiro com

valor maior, o parâmetro ∆C (ms) não teve diferença significativa pelo teste de ANOVA.

55

Figura 7. Boxplot para média de duração das vogais para gravação em celular (cel) e gravação direta

(ncel).

Aqui, neste boxplot, temos o mesmo caso que o anterior. A diferença entre os canais de

transmissão não foi significativa.

Figura 8. Boxplot para a taxa de movimento do segundo formante para gravação em celular (cel) e

gravação direta (ncel).

56

Figura 9. Boxplot para duração das unidades VV (inverso da taxa de elocução) para gravação em

celular (cel) e gravação direta (ncel).

Aqui, para a média da unidade VV, os valores das medianas são muito próximos, e a

estatística confirma que não há diferença significativa para o parâmetro em um diferente

canal de transmissão, o celular.

Um dos parâmetros acústicos previstos a evidenciar variação em canal telefônico é a

frequência fundamental, apresentamos um exemplo a seguir:

57

Figura 10. Boxplot para frequência fundamental para gravação em celular (cel) e gravação direta

(ncel).

Segundo a literatura (BYRNE & FOULKES, 2004), um dos parâmetros que mais sofre pelo

canal telefônico é a frequência fundamental. O que se acredita é que falantes tendem a

aumentar o volume da sua voz ao celular para melhor serem entendidos pelo outro,

consequentemente, aumentando o valor de F0.

Outro parâmetro acústico que estudamos foi a ênfase espectral:

58

Figura 11. Boxplot para a ênfase espectral para gravação em celular (cel) e gravação direta (ncel).

É esperado, de acordo com a literatura, como dito na seção sobre os parâmetros acústicos,

que a ênfase espectral sofra um grande efeito pela mudança de canal de transmissão. Como

podemos ver na Figura 11 acima, houve grande variação de seu valor, mediana, da

gravação direta para a gravação por celular.

Em seguida, analisamos quais dos parâmetros acústicos teve ou não variação em relação

aos sujeitos. Ou seja, se um parâmetro acústico de um sujeito não apresentou variação com

o “criminoso”, poderemos dizer, a princípio, que são a mesma pessoa.

59

Sujeito F2 Rate F2 F2 trans F0 Baseline Ênfase espectral

Fligner-Killeen

p-value = 3.117e-15

p-value < 2.2e-16

p-value < 2.2e-16

p-value < 2.2e-16

p-value < 2.2e-16

p-value < 2.2e-16

Kruskal-Wallis

p-value < 2.2e-16

p-value = 0.0002058

p-value < 2.2e-16

p-value < 2.2e-16

p-value < 2.2e-16

p-value < 2.2e-16

Tabela 11. Kruskal-Wallis, para α = 0,05, para a variação inter-falante.26

Sujeito MeanV MeanVV ∆C Shapiro-Wilk p-value = 1 p-value = 0.9744 p-value = 0.7885

Fligner-Killeen p-value = 0.02925 p-value = 0.02925 p-value = 0.02925

Kruskal-Wallis p-value = 0.06432 p-value = 0.1736 p-value = 0.5828

Tabela 12. Kruskal-Wallis, para α = 0,05, para a variação inter-falante.27

Os parâmetros acústicos que apresentaram um valor de p > 0,05 foram duração média das

vogais, taxa de elocução e ∆C. Mostraremos, a seguir, os gráficos gerados pelo teste e uma

breve análise deles para os parâmetros analisados.

26 Resultado para os valores de segundo formante (F2), taxa de F2, transição de F2, frequência fundamental (F0), frequência baseline e ênfase espectral. 27 Resultados para a média da duração das vogais (MeanV), taxa de elocução (MeanVV) e ∆C.

60

Figura 12. Boxplot para média de duração das vogais para a variação inter-falantes.28

De acordo com a Figura 12 acima, podemos ver que o sujeito 4 é o que mais se assemelha

ao “criminoso” a partir da comparação de suas medianas.

28 A escala mostra, no eixo x, os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.

61

Figura 13. Boxplot para média de duração em unidade VV para a variação inter-falantes.29

A partir da análise das medianas apresentadas na Figura 13, o sujeito que mais se

aproximaria do criminoso é o 4. No entanto, diferentemente do que a literatura sugere

(ERIKSSON, 2012), para uma amostra maior, o conjunto dos mesmos sujeitos aponta uma

baixa variação entre os falantes.

29 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.

62

Figura 14. Boxplot para ∆C para a variação inter-falantes.30

A partir da análise das medianas apresentadas na Figura 14 acima, o sujeito que mais se

aproximaria do criminoso é o 2.


63

Figura 15. Boxplot para frequência baseline para a variação inter-falantes.31

A partir da análise das medianas apresentadas na Figura 15 acima para frequência baseline,

o sujeito que mais se aproximaria do criminoso é o 4.


64

Figura 16. Boxplot para ênfase espectral para a variação inter-falantes.32

A partir da análise das medianas apresentadas na Figura 16 acima para a ênfase espectral, o

sujeito que mais se aproximaria do criminoso é o 5. A variação que podemos ver a partir

desse parâmetro pode ser justificada pelo esforço vocal de cada sujeito. Apenas o criminoso

estava em uma sala sem ruído, com um microfone posicionado próximo, em sua frente. Já

os demais indivíduos encontravam-se em um ambiente aberto, ruidoso, tendo de,

provavelmente, fazer um esforço maior para falar.


65

Figura 17. Boxplot para a frequência fundamental para a variação inter-falantes.33

A partir da análise das medianas apresentadas na Figura 17 acima para a frequência

fundamental, o sujeito que mais se aproximaria do criminoso é o 10.


66

Figura 18. Boxplot da taxa de transição do segundo formante para a variação inter-falantes.34

De acordo com a análise das medianas apresentadas na Figura 18 acima para a frequência

fundamental, não há variação entre os sujeitos.


67

Figura 19. Boxplot da taxa do segundo formante para a variação inter-falantes.35

A partir da análise das medianas apresentadas na Figura 19 acima para a frequência

fundamental, parâmetro que obteve significância em relação à mudança de canal de

transmissão, todos os sujeitos apresentam semelhança para com o “criminoso”.

A partir da análise dos boxplots, o sujeito 4 foi o que mais se aproximou do “criminoso”

para os parâmetros de taxa de movimento do segundo formante, ∆C, taxa de elocução e

frequência baseline.


68

Teste de Duncan

Este teste faz um agrupamento de valores semelhantes baseado nas médias de cada

parâmetro analisado. Se duas médias não são estatisticamente diferentes, elas ficarão no

mesmo grupo. Apresentaremos a seguir os resultados do teste para cada parâmetro acústico.

F0

Tabela 13. Resultado do teste de Duncan para a frequência fundamental.36

36 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.

Grupos Tratamentos Média

a suj5 158.2

ab crim 153.1

ab suj7 151.9

bc suj4 149.5

bc suj10 148.1

cd suj3 143.4

cd suj9 143.1

d suj2 141.2

d suj6 138.3

e suj1 125.5

f suj8 115.1

69

F2 Grupos Tratamentos Médias

a suj8 1625

a suj4 1614

a suj9 1598

a suj5 1594

a suj10 1573

b suj7 1517

b suj2 1510

b suj6 1492

b suj1 1486

b crim 1484

b suj3 1478

Tabela 14. Resultado do teste de Duncan para a frequência do segundo formante.37

Taxa de F2

Tabela 15. Resultado do teste de Duncan para a taxa de movimento do segundo formante.38

37 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste. 38 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.

Grupos Tratamentos Médias a crim 0.4424

a suj7 0.1109

a suj3 -0.266

a suj9 -0.2972

a suj4 -0.3509

a suj8 -0.5925

a suj5 -0.7919

a suj6 -0.8535

a suj2 -1.115

a suj1 -1.315

a suj10 -1.507

70

Taxa de transição de F2 Grupos Tratamentos Médias

a suj7 8.846

b suj4 7.768

b suj8 7.759

bc suj6 7.144

bcd suj2 6.818

cd suj3 6.357

cd suj9 6.35

cd suj10 6.329

cd suj1 6.241

cd suj5 6.026

d crim 5.932

Tabela 16. Resultado do teste de Duncan para a taxa de transição do segundo formante.39

Frequência baseline

Tabela 17. Resultado do teste de Duncan para a frequência baseline.40


Grupos Tratamentos Médias a suj4 157.6

b crim 148.1

b suj5 145.3

b suj7 144.1

c suj10 139.3

c suj3 139.1

c suj2 138.5

c suj9 136.8

d suj6 130.6

e suj1 111.7

e suj8 109.1

71

Ênfase Espectral Grupos Tratamentos Médias

a suj1 27.08

b suj10 20.49

b suj8 20.38

bc suj3 18.8

cd suj6 17.5

cd suj4 17.49

de suj9 16.34

ef suj7 15.17

fg suj2 13.89

g suj5 12.72

h crim 7.008

Tabela 18. Resultado do teste de Duncan para a ênfase espectral.41

Mean V

Tabela 19. Resultado do teste de Duncan para a média das vogais.42


Grupos Tratamentos Médias a suj8 129

ab suj6 110

abc suj10 107

abcd suj3 105

abcd suj2 94.5

abcd suj9 94.5

bcd suj7 93

bcd suj1 87.5

bcd suj5 86

cd crim 73

d suj4 69.5

72

Mean VV Grupos Tratamentos Médias

a suj8 322.5

ab suj9 286

ab suj3 284

ab suj10 283

ab suj5 279.5

ab suj6 279

ab suj1 274

ab suj7 250.5

ab suj2 248

ab crim 225

b suj4 218.5

Tabela 20. Resultado do teste de Duncan para a média de duração em unidade VV.43

∆C Grupos Tratamentos Médias

a suj5 168.5

a suj8 148.5

a suj7 138

a suj9 135.5

a suj1 131

a suj3 124.5

a suj10 121

a suj4 117

a suj6 108.5

a suj2 95.5

a crim 91

Tabela 21. Resultado do teste de Duncan para ∆C.44


73

De acordo com o teste de Duncan, os sujeitos 5 e 7 apresentaram um número maior de

médias semelhantes com as do “criminoso”. O primeiro sujeito, as semelhanças surgem

para os parâmetros de frequência fundamental, taxa de movimento do segundo formante,

taxa de transição do segundo formante, frequência baseline, média da duração das vogais,

taxa de elocução e ∆C. Já o sujeito 7 apresentou semelhança com o “criminoso” nos

seguintes parâmetros: frequência fundamental, frequência do segundo formante, taxa de

movimento do segundo formante, frequência baseline, média de duração das vogais, taxa

de elocução e ∆C. Em seguida, os sujeitos 1, 2, 3 e 10 apresentaram seis parâmetros

acústicos com média semelhante à do “criminoso”; logo após, os sujeitos 4 e 9, com cinco

semelhantes; e, por fim, os sujeitos 6 e 8, com apenas 3 combinações, foram os que menos

se assemelharam com o “criminoso”.

75

5 Discussão

Segundo os resultados analisados, os parâmetros acústicos que mais se mostraram robustos

em relação à mudança de canal de transmissão foram: média da duração das vogais, taxa de

elocução, ∆C e taxa de movimento de segundo formante.

Segundo a literatura, parâmetros de tempo conseguem capturar informações idiossincráticas

do falante (DELLWO, 2010) e foi isso o que obtivemos nos resultados.

Por sua vez, apesar de a literatura apontar a taxa de elocução como o critério que

apresentaria um baixo poder de discriminação inter-falantes (ERIKSSON, 2012), foi o

parâmetro acústico que não teve variação entre os sujeitos, porém, foi um dos critérios que

se manteve robusto na mudança de canal de transmissão, não tendo variação para o canal

telefônico em relação à gravação direta.

A frequência fundamental também obteve um resultado esperado ao ser afetada pelo

telefone celular. Segundo a literatura, a partir da transmissão GSM (2G), há um aumento de

até 217Hz em relação à gravação direta. Esse parâmetro não se manteve robusto com a

mudança do canal de transmissão, tendo aumento de seu valor em 4% em relação à

gravação direta, valor estatisticamente pequeno para a variação.

76

Outros parâmetros acústicos, como a frequência do segundo formante, também sofreram

influência da mudança de canal de transmissão. Segundo a literatura, as frequências

formânticas são parâmetros que devem ser evitados ao realizar uma tarefa de comparação

de voz (KÜNZEL, 2011; BYRNE & FOULKER, 2004) por serem suscetíveis à variação.

Em pesquisa de Iniciação Científica, o segundo formante foi um dos parâmetros que mais

discriminou os sujeitos, por esse motivo foi escolhido para a pesquisa de Mestrado. Nos

resultados do trabalho atual, a frequência do segundo formante teve diminuição de 7% em

seu valor, efeito curioso para a transmissão telefônica, pois, segundo a literatura (KÜNZEL,

2001; BYRNE & FOULKES, 2004), formantes mais baixos, como os três primeiros,

tendem a sofrer um fenômeno de “deslocamento para cima”, ou seja, ao passarem pelo

canal telefônico, os valores de suas frequências tendem a aumentar.

A frequência baseline, segundo Lindh & Eriksson (2007) seria mantida robusta em

diferentes tipos de canais de transmissão, incluindo canal telefônico. Porém, na atual

pesquisa, sofreu o impacto do efeito do celular, tendo diminuição de 4% em seu valor,

mesma porcentagem que a frequência fundamental.

De acordo com o teste estatístico ANOVA, por meio de comparação para determinarmos

quais parâmetros não apresentam variação inter-falantes, os que se mostraram menos

variáveis entre os sujeitos foram média de duração das vogais, taxa de elocução e ∆C.

Já os demais parâmetros apresentaram uma variância entre os sujeitos. O sujeito 4, por

exemplo, pela taxa de movimento do segundo formante, ∆C, taxa de elocução e frequência

baseline, mostrou-se o mais semelhante com o “criminoso”. Acreditamos, a partir da

77

literatura (ERIKSSON, 2012), que parâmetros de tempo, como o ∆C, e um parâmetro que

analisa a dinamicidade formântica, como a taxa de movimento para o segundo formante,

são parâmetros que conseguem capturar informações idiossincráticas dos falantes. Com

isso, o resultado para o sujeito 4 apontaria para um possível candidato ao criminoso,

seguido pelos sujeitos 5, 7, 1, 2, 3, 10 e 9.

O “criminoso” deste experimento foi escolhido pelo orientador da pesquisa e foi revelado

para a mestranda, após a análise de resultados, como sendo o sujeito 4.

No teste de Duncan, esse sujeito teve médias semelhantes às do criminoso para cinco

parâmetros acústicos: a frequência fundamental, taxa de movimento do segundo formante,

média de duração das vogais, taxa de elocução e ∆C. Isso nos mostra que os mesmos

parâmetros que capturam informações idiossincráticas de falantes, também apontaram o

sujeito 4 como sendo o “criminoso”.

Os sujeitos 5 e 7, de acordo com o mesmo teste estatístico, apresentaram um total de sete

médias de parâmetros acústicos similares aos do “criminoso”.

O que podemos concluir da pesquisa é que nenhum dos parâmetros acústicos foi definidor

para a identificação precisa do “criminoso”, objetivo principal do experimento. Porém,

conseguimos mostrar que os parâmetros acústicos que mais se mostram robustos pela

literatura internacional para a identificação inter-falante, também apresentou valor

significativo para o trabalho, tais parâmetros, como ∆C e a dinamicidade dos formantes,

foram essenciais para mostrar traços idiossincráticos dos indivíduos.

78

Também analisamos a robustez dos nove parâmetros acústicos analisados na mudança de

canal de transmissão da fala. Com resultados sólidos a partir do teste ANOVA, a média da

duração das vogais, a taxa de elocução e a taxa de movimento do segundo formante foram

os que não apresentaram variação do canal de gravação direta para o telefone celular.

A taxa de movimento do segundo formante foi o parâmetro acústico que apresentou

melhores resultados na pesquisa. Sugerimos a utilização dele para as pesquisas em fonética

forense que caminham com a mesma metodologia que essa. É um parâmetro que será usado

e melhor explorado em futuras pesquisas.

Assim como para Künzel (2001), os nossos resultados para as demais frequências de

formantes, incluindo a frequência fundamental, apresentaram grande variação para o

canal de telefone celular. Assim como o autor, sugerimos que evitem usar as frequências

dos formantes como formantes discriminadores para a comparação inter-falante no

contexto telefônico.

79

6 Referências bibliográficas

ARANTES, P. Implementação em Praat de algoritmos para descrição de correlatos acústicos da prosódia da fala. Anais da II Jornada de Descrição do Português, Cuiabá, out. 24-26, p. 32-38, 2011. BALDWIN, J. The forensic application of phonetics, Police Review, 18 (10): 1609. 1977. BALDWIN, J. & FRENCH, P. Forensic Phonetics, London: Pinter. 1990.

BARBOSA, P. A.; MADUREIRA, S. Manual de Fonética Acústica Experimental. Manuscrito. 2013. p. 550.

BOLT, R. H.; COOPER, F. S.; GREEN, D. M.; HAMLET, S. L.; MCKNIGHT, J. G.; PICKETT, J. M.; TOSI, O.; UNDERWOOD, B. D.; HOGAN, D. L. On the theory and practice of voice identification. National Academy of Sciences: Washington DC. 1979.

BRAUN, A. Fundamental frequency - how speaker specific is it? In: BRAUN, A. & KÖSTER, J. (eds.). Studies in Forensic Phonetics (pp. 9–23). Trier: WVT Wissenschaftlicher Verlag. 1995

BYRNE, C. & FOULKES, F. The “Mobile Phone Effect” on vowel formants. International Journal of Speech, Language and the Law, v. 11, n. 1, p. 83-102, 2004.

CONSTANTINI, A. C. Caracterização prosódica de sujeitos de diferentes variedades de fala do português brasileiro em diferentes relações sinal-ruído. Tese (Doutorado em Linguística). Campinas, SP. 2014

DELLWO, V. & KOREMAN. How speaker idiosyncratic is measurable speech rhythm? 2008

DELLWO, V. The automatic extraction of time-domain based speaker idiosyncratic features. Abstracts, IAFPA, Department of Phonetics, Trier University, Germany, 2010.

DODDINGTON, G. R. Speaker recognition: identifying people by their voices. Proc. IEEE, v. 73, p. 1651-64, 1985.

ERIKSSON, A. Tutorial on forensic speech science. Part I: Forensic phonetics.

80

Proceedings of the 9th European conference on speech communication and technology. Lisboa. 2005.

ERIKSSON, A. Aural/Acoustic vs. Automatic methods in forensic phonetic case work. In: NEUSTEIN, A. & PATIL, H. A. (eds.). Forensic speaker recognition: law enforcement and counter-terrorism. New York : Springer-Verlag New York Inc., 2012. p. 41-69.

FANT, G. Acoustic theory of speech production. Haia, Holanda: Mouton. 1960.

FRENCH, P. An overview of forensic phonetics with particular reference to speaker identification. Forensic Linguistics, v. 1, n. 2, p. 169-81, 1994.

HOLLIEN, H. Peculiar case of “voiceprints. JASA, v. 56, p. 210-3, 1974.

HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002.

HORII, Y. Some statistical characteristics of voice fundamental frequency. Journal of Speech In: ERIKSSON, A. Aural/Acoustic vs. Automatic methods in forensic phonetic casework. 2012

JESSEN, M. Forensic phonetics. Language and Linguistics Compass, v. 2, n. 4, p. 671-711, 2008.

KERSTA, L. G. Voiceprint Identification, Nature, 196: 1253 – 1257. 1962.

KOENIG, B. E.; RITENOUR, D. S.; KOHUS, B. A. & KELLY, A. S. Reply to “Some fundamental considerations regarding voice identification”. JASA, 82:688. 1987.

KÜNZEL, H. Beware of the “telephone effec”: the influence of telephone transmission on the measurement of formant frequencies. Forensic Linguistics, v. 8, p. 80-99, 2001.

KÜNZEL, H. Effects of voice disguise on speaking fundamental frequency. Forensic Linguistics, 7, 149–179. 2000.

LINDH, J. & ERIKSSON, A. Robustness of long time measures of fundamental frequency. Proceedings of Interspeech, p. 2025–8, 2007.

MCDOUGAL, K. Speaker-specific formant dynamics: an experiment on australian English /ai/. 2004.

81

NASH, E. Testimony in People (California) vs. Lawton, Gardener and Jackson, Superior Court, Riverside County, Case No. Cr. 9138 in: HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002.

NOLAN, F. Speaker Recognition and Forensic Phonetics. In: HARDCASTLE, W. & LAVER, J. (eds.). A handbook of phonetic science. Oxford: Blackwell, 1997.

NOLAN, F. The Phonetic Bases of Speaker Recognition. Cambridge: Cambridge University Press. 1983.

NOLAN, F. The limitations of auditory-phonetic speaker identification, in: KNIFFKA, H. (ed.), Texte zu Theorie und Praxis Forensicher Linguistik, Tübingen: Max Niemeyer. 1990.

ÖHMAN, L.; ERIKSSON, A.; GRANHAG, P. A. Overhearing the Planning of A Crime: Do Adults Outperform Children As Earwitnesses? 2010.

ROSE, P. Forensic-Fonetic parameters. New York: Taylor and Francis, 2002.

SASLOVE, H. & YARMEY, A. Long-term auditory memory: Speaker identification. in: HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002. p. 18.

SHIPP, T.; DOHERTY, E.T.; HOLLIEN, H. Some Fundamental Considerations Regarding Voice Identification (Letter- to-the-Editor), J. Acoust. Soc. Am., 82: 687-688. 1987.

SMRKOVSKI, L. Testimony in Crown vs Medvedew (1976), Provincial Judges Court (Criminal Division) Brandon, Manitoba, Canada. in: HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002.

STEVENS, K.N.; CARBONELL, J. R.; WOODS B. Speaker Authetication and Identification: A comparison of Spectrographic and Auditory Presentations of Speech Material., J. Acoust. Soc. Am., 44: 1596-1607. 1968.

TRAÜNMULLER, H. & ERIKSSON, A. Acoustic effects of variation in vocal effort by men, women, and children. Journal of the Acoustical Society of America, v. 107, n. 6, p. 3438-51, 2000.

YOUNG, M.A. & CAMPBELL, R.A. Effects of Context on Talker Identification, J. Acoust. Soc. Am., 42: 1250-1254. 1967.

dissertaÇÃo de aline de paula...

Documents