dissertaÇÃo de aline de paula...
TRANSCRIPT
i
ALINE DE PAULA MACHADO
USO DE TÉCNICAS ACÚSTICAS PARA VERIFICAÇÃO DE LOCUTOR EM SIMULAÇÃO EXPERIMENTAL
CAMPINAS,
2014
iii
UNIVERSIDADE ESTADUAL DE CAMPINAS INSTITUTO DE ESTUDOS DA LINGUAGEM
ALINE DE PAULA MACHADO
USO DE TÉCNICAS ACÚSTICAS PARA VERIFICAÇÃO DE
LOCUTOR EM SIMULAÇÃO EXPERIMENTAL
Dissertação de mestrado apresentada ao Instituto de Estudos da Linguagem da Universidade Estadual de Campinas para obtenção do título de Mestra em Linguística.
Orientador: Prof. Dr. Plínio Almeida Barbosa
CAMPINAS,
2014
vii
RESUMO
Esta pesquisa investiga a eficácia de um conjunto de medidas acústicas para o reconhecimento da fala de um indivíduo em um grupo de dez falantes do português brasileiro. Um sujeito desse grupo foi sorteado e nomeado o “criminoso”. Entre as medidas usadas na pesquisa estão: frequências dos dois primeiros formantes das vogais, frequência fundamental média, duração de unidades do tamanho da sílaba e da vogal, dinamicidade dos formantes e desvio-padrão de durações de intervalos consonânticos (∆C).
Todos os trechos escolhidos são de entrevistados divididos em dois grupos: (i) entrevistas ao ar livre e (ii) gravações telefônicas (de celular para celular). Os indivíduos consistem em falantes do português brasileiro das regiões dos estados de São Paulo, Rio Grande do Sul, Pará e Bahia.
Nesta pesquisa, fazemos um apanhado histórico da Fonética Forense, dos métodos de análise utilizados ao longo história e também de quais parâmetros acústicos são mais usados para diferentes contextos de gravação – direta e por celular – e quais deles foram mais significativos na pesquisa. Em nossos resultados, os parâmetros que menos sofreram variação com a mudança de canal de transmissão foram os de ritmo e tempo, como duração, taxa de elocução, ∆C; e um parâmetro que mede a dinamicidade do formante, que foi a taxa de movimento do segundo formante. As medidas temporais da pesquisa, por serem as mais variáveis inter-sujeito, tiveram grande poder discriminador. Os testes estatísticos apontaram que três dos indivíduos estudados apresentavam semelhanças com o “criminoso”.
Palavras-chave: Fonética Forense, Verificação de locutor, Simulação.
ix
ABSTRACT
The aim of this research is to use some acoustic techniques for recognizing a subject in a group of ten speakers of the Brazilian Portuguese variety and pointing out what are the most relevant acoustic parameters for speaker recognition in that group. The analysis of the first two formants for the oral vowels, fundamental frequency, speech rate, formant movement rate, syllable-sized duration, intensity and ∆C (standard deviation of consonantal interval durations of the collected samples) will help identifying an individual from within the group.
All the samples are from interviews made in a poorly treated acoustic environment and into a mobile phone. Moreover, the samples of one of the speakers (the "criminal"), which were collected in an acoustically-treated room, will simulate the questioned pattern of the forensic situation. Our subjects are from four states of Brazil, São Paulo, Rio Grande do Sul, Pará and Bahia.
A historical background of forensic phonetics is presented, which also allowed us to point out the most commonly used acoustic parameters extracted from direct and telephone recordings for the goals of our research. The acoustic parameters that did not change across different transmission recording channels were speech rhythm and temporal parameters such as vowel duration, speech rate and ∆C as well as second formant movement rate. The results revealed a large inter-speaker variability across all parameters, which signals a discriminant power.
Our statiscal tests pointed out three subjects more likely to be the criminal.
Key-words: Phonetic forensics, Speaker Verification, Simulation.
xi
SUMÁRIO
Introdução ............................................................................................................................. 1
1 Motivação para o estudo ............................................................................................... 3
1.1 Uso de técnicas acústicas para verificação de locutor em simulação experimental ... 5
2 Reconhecimento de locutor e Fonética Forense ..................................................... 155
2.1 Apanhado histórico .............................................................................................. 155
2.1.1 Voiceprints .................................................................................................... 177
2.1.2 Duas abordagens históricas ............................................................................ 21
2.2 Por que as vozes são difíceis de discriminar? ...................................................... 222
2.3 Reconhecimento de locutor.................................................................................. 244
2.4 Métodos de análise forense .................................................................................. 288
3 Pesquisa desenvolvida ............................................................................................... 355
3.1 Efeito do celular ................................................................................................... 366
4 Metodologia.................................................................................................................. 41
4.1 Procedimento ......................................................................................................... 41
4.2 Parâmetros acústicos ............................................................................................ 455
4.3 Métodos de análise estatística e resultados ............................................................ 51
5 Discussão .................................................................................................................... 755
6 Referências bibliográficas......................................................................................... 799
xv
MEUS AGRADECIMENTOS
Ao professor Plínio, por aceitar ser o meu orientador, por sua compreensão e paciência.
Muito obrigada por seus ensinamentos, não só em sala de aula, mas também por mostrar
quão importante é respeitar o colega.
Aos professores do IEL, por contribuírem com minha formação desde a minha graduação.
Aos meus colegas do Grupo de Estudos de Prosódia da Fala: Ana Carolina, Cristiane,
Pablo, Renata e Wellington, pelo apoio em minha pesquisa.
To Anders Eriksson, for sharing your knowledge and kindness with me.
A minha mãe, pelo apoio incondicional que sempre me deu. Por sempre acreditar em mim
até quando estou em dúvida sobre minha capacidade.
Ao meu pai, Antonio, por, mesmo longe, ser um grande conforto para mim.
Ao meu irmão, Lucas, por ser um dos meus maiores exemplos de força de vontade e
determinação.
Aos meus avós, que sempre me recebem de braços abertos, por suas histórias e atenção.
À CAPES, por financiar meus estudos.
À banca examinadora, por aceitar a participação e contribuir com meu trabalho.
xvii
LISTA DE FIGURAS
Figura 1. Espectrograma gerado no software PRAAT do sujeito 1. .................................. 188
Figura 2. Aumento da imagem espectrográfica gerada no software PRAAT do sujeito 1. 188
Figura 3. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8. 399
Figura 4. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8. 399
Figura 5. Esquema da gravação por escuta telefônica usado nesta pesquisa. ...................... 42
Figura 6. Boxplot para ∆C para gravação em celular (cel) e gravação direta (ncel). ......... 544
Figura 7. Boxplot para média de duração das vogais para gravação em celular (cel) e gravação direta (ncel). ........................................................................................ 555
Figura 8. Boxplot para a taxa de movimento do segundo formante para gravação em celular (cel) e gravação direta (ncel). ................................................................. 555
Figura 9. Boxplot para taxa de elocução para gravação em celular (cel) e gravação direta (ncel). ....................................................................................................... 566
Figura 10. Boxplot para frequência fundamental para gravação em celular (cel) e gravação direta (ncel). ........................................................................................ 577
Figura 11. Boxplot para a ênfase espectral para gravação em celular (cel) e gravação direta (ncel). ....................................................................................................... 588
Figura 12. Boxplot para média de duração das vogais para a variação inter-falantes. ......... 60
Figura 13. Boxplot para taxa de elocução para a variação inter-falantes. ............................ 61
Figura 14. Boxplot para ∆C para a variação inter-falantes. .................................................. 62
Figura 15. Boxplot para frequência baseline para a variação inter-falantes. ...................... 633
Figura 16. Boxplot para ênfase espectral para a variação inter-falantes. ............................ 644
Figura 17. Boxplot para a frequência fundamental para a variação inter-falantes. ............ 655
Figura 18. Boxplot da taxa de transição do segundo formante para a variação inter-falantes.. 666
Figura 19. Boxplot da taxa do segundo formante para a variação inter-falantes. ............... 677
xix
LISTA DE TABELAS
Tabela 1. Valores médios dos parâmetros acústicos das vogais orais do sujeito 1. ............... 7
Tabela 2. Valores dos parâmetros acústicos das vogais orais do criminoso 6. ...................... 8
Tabela 3. Média dos parâmetros acústicos para o sujeito 1. .................................................. 9
Tabela 4. Média dos parâmetros acústicos para o “criminoso”. ............................................. 9
Tabela 5. Medida do desvio-padrão para os parâmetros acústicos do sujeito 1. .................. 10
Tabela 6. Medida do desvio-padrão para os parâmetros acústicos do “criminoso”. ............ 10
Tabela 7. Teste t para todos os parâmetros acústicos entre o sujeito 1 e “criminoso” para α= 0,05. ........................................................................................................ 11
Tabela 8. Lista com informações sobre os sujeitos participantes da pesquisa. .................. 444
Tabela 9. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta. ........................................................................... 533
Tabela 10. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta. ........................................................................... 533
Tabela 11. Kruskal-Wallis, para α = 0,05, para a variação inter-falante. ........................... 599
Tabela 12. Kruskal-Wallis, para α = 0,05, para a variação inter-falante. ........................... 599
Tabela 13. Resultado do teste de Duncan para a frequência fundamental. ........................ 688
Tabela 14. Resultado do teste de Duncan para a frequência do segundo formante. .......... 699
Tabela 15. Resultado do teste de Duncan para a taxa de movimento do segundo formante. ............................................................................................................ 699
Tabela 16. Resultado do teste de Duncan para a taxa de transição do segundo formante. .. 70
Tabela 17. Resultado do teste de Duncan para a frequência baseline. ................................. 70
Tabela 18. Resultado do teste de Duncan para a ênfase espectral. ....................................... 71
Tabela 19. Resultado do teste de Duncan para a média das vogais...................................... 71
Tabela 20. Resultado do teste de Duncan para a taxa de elocução. ..................................... 72
Tabela 21. Resultado do teste de Duncan para ∆C. .............................................................. 72
1
Introdução
Este trabalho tem como objetivo reconhecer um indivíduo a partir de sua fala dentre um
grupo de dez falantes do português brasileiro, assinalando, para isso, quais parâmetros
acústicos são relevantes para a análise desse reconhecimento.
A pesquisa está dividida em seis capítulos. O primeiro, Motivação para o estudo, conta a
minha trajetória na pesquisa da Fonética Forense, desde a Iniciação Científica,
apresentando resultados significativos para a área, até a pesquisa atual. O segundo capítulo
é chamado Reconhecimento de locutor e Fonética Forense e consiste em uma análise do
background histórico dessa subárea da Linguística, desde o antigo método de comparação
de vozes por espectrograma, voiceprint, até o método de análise acústico-auditivo usado
nesta pesquisa. No capítulo três, Pesquisa desenvolvida, é apresentada a justificativa para
este trabalho de Mestrado e o uso de telefone celular. Em Metodologia, são mostrados os
modelos estatísticos usados para a pesquisa e os resultados dos testes. No capítulo 5,
Discussão, discutem-se todos os resultados obtidos no trabalho e quais suas implicações
para a Fonética Forense. Por último, em Referências bibliográficas, apresenta-se toda a
literatura usada na pesquisa.
3
1 Motivação para o estudo
O sinal da fala carrega informações de sua fonte sonora. Notamos isso pela experiência
diária de reconhecer quem está falando sem ver o falante, reconhecer alguém pelo telefone
sem que tenha se identificado primeiro. Por esse fato, cientistas são motivados a estudar
mais especificamente as características dessa identificação de voz e do sinal da fala.
Tal questão é utilizada no ambiente policial, seja quando a testemunha de um crime apenas
ouve a voz do criminoso (por este estar de máscara ou porque fala pelo telefone, entre
outros motivos), seja quando é necessário comparar a voz de um número de gravações
telefônicas com aquela de um suspeito.
Para tanto, entra em jogo a Fonética Forense, que é a aplicação de técnicas de análise
fonética a contextos policiais jurídicos. É uma área que vem crescendo desde a década
de 1960 no Reino Unido e tem sua importância disseminada para todo o globo desde
então (FRENCH, 1994).
No Brasil, essa subárea da fonética não é demasiadamente promovida nas faculdades, e
suas técnicas de análise pela polícia não são, de modo geral, semelhantes às usadas em
demais países, cujo sistema judicial demanda esse tipo de análise. A grande diferença entre
os métodos usados no Brasil e em demais países, como a Suécia, é uma série de vários
4
fatores, que passo a numerar. Em primeiro lugar, normalmente, no exterior, o especialista
que faz as análises das amostras de fala trazidas pela polícia é um foneticista ou um
profissional com extenso background fonético-linguístico. A relação estreita que existe no
exterior entre departamento policial e universidade facilita também essa troca de serviços.
No Brasil, por sua vez, a análise é feita prioritariamente usando sistemas automáticos de
identificação de locutor (como, por exemplo, o software Batvox). Em países da Europa,
como Inglaterra, Suécia, Alemanha, entre outros, o uso de sistemas automáticos é
acompanhado de insights de um profissional com conhecimentos em fonética e até
linguística, por exemplo, na Universidade de Gotemburgo, o software utilizado é o ALIZE
SpkDet, e os resultados obtidos pelo programa são combinados com análise acústico-
auditiva tradicional (ERIKSSON, 2012).
Esses foram os motivos que impulsionaram o meu interesse, desde a graduação, em
Linguística, em pesquisar essa área, beneficiando-me do conhecimento acadêmico
fornecido pela universidade. Desejo que, futuramente, as análises utilizadas nessa pesquisa
possam contribuir para a Fonética Forense no país. Como resultado de meu percurso, passo
a fazer um panorama das pesquisas feitas desde minha Iniciação Científica e a justificativa
para o projeto atual de Mestrado.
5
1.1 Uso de técnicas acústicas para verificação de locutor em simulação experimental1
Nesta seção, falaremos sobre o trabalho realizado na graduação, uma Iniciação Científica (IC)
com bolsa FAPESP, que foi meu primeiro contato com a pesquisa forense, impulsionando o
interesse pela área e o aprimoramento para a pesquisa atual. Utilizamos os parâmetros
acústicos e métodos de análise da IC como base para o Mestrado, expandido o corpus de
pesquisa, usando mais de um teste de análise estatística e também inserindo a análise de
gravações telefônicas, o que aproxima ainda mais a pesquisa da realidade forense.
Este projeto propôs, através de algumas técnicas de análise acústica, o reconhecimento
de um indivíduo dentro de um grupo de cinco falantes do português paulista e, a partir
daí, a identificação de quais parâmetros acústicos são relevantes para o reconhecimento
naquele grupo.
As análises dos quatro primeiros formantes das vogais orais, da frequência fundamental
média das mesmas vogais, da duração de unidades do tamanho da sílaba e da vogal, além
da intensidade relativa das vogais orais em trechos escolhidos desses falantes serviram
para identificar, em princípio, um indivíduo dentro daquele grupo. Usamos de um script
do PRAAT desenvolvido por Barbosa (2010) para a extração automática desses
1 FAPESP – Processo 2010/01266-6.
6
parâmetros acústicos, enquanto a segmentação e etiquetação do material em vogais orais
foram feitas manualmente.
Todos os trechos escolhidos foram de entrevistados em ambiente não tratado acusticamente
(ao ar livre). Além disso, trechos escolhidos em sala com tratamento acústico de um
indivíduo (o “criminoso”) simularam o padrão questionado da situação forense. Nenhum
dos participantes da pesquisa era conhecido da mestranda, e a escolha do “criminoso” foi
feita pelo seu orientador, que seria por meio de sorteio. Porém, foi revelado para ela, após o
final da análise dos dados, que o “criminoso” não estava presente no grupo de sujeitos da
pesquisa, ele foi um sexto participante escolhido pelo orientador do projeto.
Os dados desta pesquisa foram analisados estatisticamente com o programa R2, tendo sido
empregado um Teste T de variáveis independentes com nível de significância igual a 5%
para cada parâmetro, comparando os dados de cada suspeito com o “criminoso”. Este teste
permite avaliar a probabilidade de erro na rejeição da hipótese nula, caso essa seja
verdadeira (“o suspeito x é o criminoso”). Seguem abaixo dois excertos com os valores dos
parâmetros acústicos das vogais orais do sujeito 1 e do “criminoso”, para se ter uma ideia
do grau de variabilidade dos dados. O sujeito 1 foi o escolhido para exemplo, pois
acreditou-se, no começo da pesquisa, ser o indivíduo, cujos parâmetros acústicos mais se
assemelhavam aos do “criminoso”.
2 Disponível em: http://www.r-project.org/
7
SUJEITO 1
Vogais Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline (Hz)
Ênfase espectral
(dB) a 63 130 593 1352 2214 3859 111 16 i 83 137 393 2177 2855 3678 111 4 ɐ 65 111 644 1411 2280 3553 111 6 e ɪ 442 132 419 1691 2459 3658 104 12 ɛ 202 121 602 1779 2817 3945 104 17 a 165 116 769 1579 3213 4162 104 15 ɛ 185 122 511 1696 3004 4874 121 15 u 29 134 1159 2182 121 3 ʊ 76 131 627 1208 2648 4531 121 6
e ʊ 89 145 515 1759 3272 3882 107 7 ɛ 120 141 607 1962 3398 4444 107 17 ɛ 129 115 734 1879 3514 4676 107 7 ʊ 44 140 639 1674 108 7 ɛ 133 119 596 1923 3097 4378 108 14 i 134 127 327 2184 2918 4078 120 2 u 49 127 1417 1417 124 10 a 77 129 647 1813 3072 4304 124 18 e 67 146 506 1677 2994 4161 124 23 ɔ 81 139 649 1834 3026 4433 126 18 ɐ 46 129 491 1721 2809 4254 126 11 ɛ 83 190 605 1855 3121 4214 126 23 a 75 166 701 1987 3092 4355 126 22
e ʊ 104 175 554 1651 3150 4190 126 9 a 128 154 635 1891 3090 4224 126 28 i 42 179 422 2208 3228 4001 126 7
e ʊ 102 124 517 1537 2700 4371 123 16 u 66 141 494 1847 2792 4017 123 7 e 288 172 470 2322 3246 4192 123 6 ɛ 99 181 752 1826 2999 4592 167 24 e 80 213 652 1799 3026 4503 167 21 ɔ 121 213 794 2221 2572 4224 167 20 ɪ a 61 219 570 1725 2995 4221 167 17 e ʊ 67 209 506 1594 3031 4229 167 13 o 58 202 525 1667 2939 4538 167 16 ʊ 67 227 607 1202 2469 4087 167 12
e ʊ 150 127 495 2177 2926 3882 88 10
Tabela 1. Valores médios dos parâmetros acústicos das vogais orais do sujeito 1.3
3 Os dados da tabela foram gerados pelo script de Barbosa (2010) e tabelados no Microsoft Excel.
8
CRIMINOSO
Vogais Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline
(Hz)
Ênfase espectral
(dB)
ɛ 516 125 551 1539 2272 3406 113 7
a 101 134 493 1647 2506 3647 113 9
i 48 138 284 1861 2815 3523 113 1
e ɪ 184 141 355 1858 2832 3567 113 3
a 63 149 607 1564 2888 3481 127 5
e 27 144 475 1650 2100 3292 127 5
a 62 149 468 1577 2387 3682 127 10
a 49 149 595 1303 2299 3337 127 12
a 55 148 599 1415 2440 3593 127 12
e ɪ 199 149 414 1980 2802 3597 127 5
u 69 151 530 1154 2213 3297 127 3
e 40 148 441 1667 2528 3522 127 5
u 98 146 385 1117 2023 3060 127 3
ʊ 108 146 505 1349 2387 3255 127 3
a 188 141 681 1434 2361 3378 127 7
ɛ 171 134 563 1618 2430 3521 127 15
ɛ 298 126 544 1513 2393 3555 112 6
a 56 125 529 1525 2129 3195 112 8
ʊ a 62 129 508 1720 2455 3473 112 7
i 55 128 1639 2163 3155 3585 112 1
u 88 137 702 2024 3369 3698 112 1
a 73 173 786 1370 2125 3439 112 8
a 50 133 371 1549 2522 3418 116 3
i 25 134 1231 2038 2933 3683 116 1
a 63 129 484 1475 2294 3255 116 5
i 112 134 211 1875 2634 3300 116 1
a 271 118 603 1565 2447 3359 114 8
a 94 119 598 1500 2353 3519 114 6
ɛ 121 127 618 1570 2335 3461 114 12
a 72 133 754 1354 2214 3306 127 12
ɪɐ 63 127 10
o 147 136 442 1389 2567 3329 127 8
i 97 148 289 1952 2870 3342 127 2
ɐ 82 216 443 1510 127 10
Tabela 2. Valores dos parâmetros acústicos das vogais orais do criminoso 6.4
4 Os valores foram gerados pelo script de Barbosa (2010) e tabelados no Microsoft Excel.
9
Esses excertos demonstram como foi tabelado, no programa Excel, cada dado extraído e
segmentado do software PRAAT.5 Logo em seguida, os dados foram organizados em
arquivo formato TXT para assim poderem ser lidos no programa R. Neste programa,
podemos aplicar o Teste T para cada parâmetro dos sujeitos com o do criminoso (duração
média global das vogais, duração média por natureza de vogal; frequências dos quatro
primeiros formantes independentemente de vogal e também especificamente para cada
vogal; baseline6 - Traunmüller & Eriksson, 2000- e ênfase espectral globais e de cada
vogal). Em seguida, apresentamos respectivamente os valores das médias de cada
parâmetro para os sujeitos mostrados acima e, a partir desse cálculo, o desvio-padrão das
medidas.
Média – sujeito 1
Duração (ms) F0 (ms) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz)
Baseline (Hz)
Ênfase Espectral
(dB)
107,5 152,3056 615,1111 1789,639 2938,364 4203,333 126,25 13,30556
Tabela 3. Média dos parâmetros acústicos para o sujeito 1.
Média – criminoso Duração
(ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz) Baseline
(Hz) Ênfase
Espectral (dB)
111,9706 140,5152 566,6061 1600,758 2502,438 3439,844 120,2647 6,294118
Tabela 4. Média dos parâmetros acústicos para o “criminoso”.
5 Disponível em: http://www.fon.hum.uva.nl/praat/
6 É um nível mínimo de valor da curva melódica ao qual tende o locutor após a realização de um pico melódico. É estimada pelo valor médio e desvio-padrão de f0 no trecho segundo a fórmula Baseline = F0médio - 1,43F0DesvPad.
10
Desvio-padrão – sujeito 1
Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz)
Baseline (Hz)
Ênfase Espectral
(dB)
77,44473 34,2143 198,8063 280,9611 298,8457 297,7616 22,17898 6,632472
Tabela 5. Medida do desvio-padrão para os parâmetros acústicos do sujeito 1.
Desvio-padrão – criminoso
Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz)
Baseline (Hz)
Ênfase Espectral
(dB)
96,5246 17,6602 263,6842 253,194 314,519 155,7968 6,925179 3,849671
Tabela 6. Medida do desvio-padrão para os parâmetros acústicos do “criminoso”.
Segundo as médias de cada parâmetro acústico dos dois sujeitos, eles se diferem entre si com
uma variação menor para a “duração”. Pela comparação dos desvios-padrão, o sujeito 1
apresenta uma grande diferença para o criminoso em relação a todos os parâmetros acústicos
analisados, com menor margem de variação para o terceiro formante. Sendo assim, a partir
desses cálculos, há grande probabilidade de não serem a mesma pessoa.
Em seguida, calculamos um Teste T de Student, para verificar o grau de variância entre cada
parâmetro acústico, tendo como hipótese nula ter mesmos valores para as populações subjacentes
de parâmetros acústicos de mesma natureza. Assim, encontramos os seguintes valores:
11
Teste T
Duração (ms) F0 (Hz) F1 (Hz) F2 (Hz) F3 (Hz) F4 (Hz)
Baseline (Hz)
Ênfase Espectral
(dB)
0,830941 0,08059
6 0,38888
6 0,00471
3 3,04169E-
07 2,51154E-
19 0,13689 1,04042E-06
Tabela 7. Teste t para todos os parâmetros acústicos entre o sujeito 1 e “criminoso” para α= 0,05.
O objetivo deste teste é o de verificar se existe diferença entre a média de duas amostras,
no caso os parâmetros acústicos do sujeito 1 e do “criminoso”. Como podemos verificar,
para os valores de duração das vogais orais, frequência fundamental, frequência do
primeiro formante e frequência baseline, aceita-se a hipótese nula, ou seja, não há
diferença significativa entre os sujeitos de valores subjacentes desses parâmetros. Já para
os demais parâmetros, como frequências dos segundo, terceiro e quarto formantes e
ênfase espectral, rejeitou-se a hipótese nula, ou seja, há diferença entre eles, o que
apontaria para possível diferença entre o sujeitos 1 e o “criminoso”. Só com esses dados,
conseguimos notar a dificuldade para determinar a identidade de um sujeito (afirmar se
ele é o “criminoso” ou não). Para a Iniciação Científica, foram comparados cinco
indivíduos com o “criminoso”.
Assim, a partir da análise estatística por Teste T, podemos assumir que, a partir de todos os
parâmetros acústicos escolhidos (frequência dos quatro primeiros formantes das vogais
orais, frequência fundamental, duração de unidades do tamanho da sílaba e da vogal, ênfase
espectral, frequência baseline, taxa de movimentos de formantes7 e taxa de elocução8), não
7 Este parâmetro foi adicionado após resultados poucos robustos na parte inicial da pesquisa.
12
conseguimos comprovar que o “criminoso” não estava dentro do grupo de suspeitos das
gravações ao ar livre. Ficamos, no princípio, em dúvida entre 2 sujeitos. Sabendo, então,
que a H0 (hipótese nula) deveria ser rejeitada, concluímos, então, que:
• O parâmetro que mais rejeitou a hipótese nula foi: taxa de movimento de formantes
na transição CV (consoante-vogal)
• As vogais, independentemente dos parâmetros acústicos, que mais rejeitaram a
hipótese nula foram: [ɐ], [o] e [ʊ].
• A frequência de formante que mais rejeitou a hipótese nula foi: F2 (segundo
formante).
Os resultados obtidos foram os esperados pela literatura e pudemos ter um roteiro inicial de
quais parâmetros acústicos e quais vogais poderiam ser usados e seriam mais robustos à
variabilidade acústica intra e inter-falante, pelo menos se nos basearmos nessa pequena
amostra de sujeitos. Todos os parâmetros acústicos escolhidos foram revistos e explicados
na pesquisa atual de Mestrado, no capítulo 4 deste texto, assim como a justificativa para
8 É a “velocidade” da fala, medida em sílabas por segundo.
13
este projeto, como a escolha de um novo corpus e de um novo canal de transmissão para
análise de fala.
15
2 Reconhecimento de locutor e Fonética Forense
2.1 Apanhado histórico
A identificação de um sujeito pela voz em situações de crime é uma técnica usada há
milhares de anos. Desde quando a fala passou a ser um exercício rotineiro do ser
humano, começou-se a identificar sujeitos a partir dela. Essa atividade foi documentada
em várias civilizações por seus respectivos estudiosos, como no caso do filósofo grego
Heráclito: “Olhos e orelhas são péssimas testemunhas para homens pois falta
conhecimento em suas almas” (SASLOVE & YARMEY, 1980 apud Hollien, 2002, p.
18), ou seja, somente a análise de oitiva (orelhas serem testemunhas) não é suficiente
para a verificação de locutor, é necessário a análise acústica.
Desde o momento em que documentar o comportamento e a capacidade humanas foi
possível, tem-se achado registros da identificação de locutor pelo mundo. Com o passar do
tempo, a utilização dessa “técnica” de identificação como evidência em cortes começou a
ser algo corriqueiro. Em 1660, William Hulet foi acusado de ter matado o rei Charles I, da
Inglaterra. Uma testemunha foi chamada ao tribunal, alegando que reconheceu a voz de
uma pessoa, sem que a visse, conversando com o rei até executá-lo. Essa pessoa acusada
16
era Hulet. Com esse depoimento, o réu foi considerado culpado e sentenciado à morte.
Posteriormente, antes da execução do acusado, descobriu-se o verdadeiro assassino e Hulet
foi, consequentemente, absolvido (ERIKSSON, 2005). Esse é um exemplo muito comum
de falsa identificação. Testemunhas auditivas, como a desse caso, tendem a apontar o autor
do crime como alguém conhecido por eles.
Outro caso mais recente e que ganhou notoriedade nos Estados Unidos foi o “Caso
Lindbergh”, em 1º de março de 1932. O filho do aviador Charles Lindbergh foi sequestrado
e um pedido de resgate foi deixado no quarto do garoto. As negociações foram feitas e a
família da vítima pagou o valor de $50.000 exigido. No momento da entrega do dinheiro,
Lindbergh – que estava aguardando de seu carro a negociação ocorrer – escutou a voz do
sequestrador. Algumas semanas depois, o garoto foi encontrado morto. A polícia
finalmente rastreou um suspeito e Charles, 29 meses depois, reconheceu a voz do suspeito
apreendido como a mesma que ouviu no local do pagamento de resgate, testemunhando o
fato em corte três anos após o crime (ERIKSSON, 2005).
17
2.1.1 Voiceprints
Com a invenção do telefone (e de equipamentos de gravação, tempos antes) no final da
década de 1930, a identificação de locutor foi se desenvolvendo. A análise acústica da fala
foi sendo estudada pelo Bell Telephone Laboratories (ou Bell Labs) e, entre várias
descobertas que fizeram ao longo do tempo, uma delas foi a criação da máquina de “fala
visível”, ou sonógrafo. Esse aparato traçava espectrogramas, gráfico com a representação
da frequência no eixo da ordenada, o tempo na abscissa e a intensidade de uma amostra de
som em diferentes tons de cinza. Eram utilizados em análises de comparação de vozes a
partir dos padrões gráficos das medidas que apresentam (HOLLIEN, 2002). A seguir, um
exemplo atual de espectrograma gerado no software PRAAT. Trata-se de um trecho de fala
de um dos participantes desta pesquisa.
18
Figura 1. Espectrograma gerado no software PRAAT do sujeito 1.9
Analisando a figura anterior mais de perto, aumentamos o seu trecho inicial:
Figura 2. Aumento da imagem espectrográfica gerada no software PRAAT do sujeito 1.10
9 O espectrograma mostra a produção do sujeito 1 dizendo: “Sou, sou daqui mesmo. É. Inclusive moro de carro há vinte minutos daqui.” Apresenta traçado da forma da onda (janela superior) e espectrograma de banda larga (janela do meio). 10 O espectrograma mostra a produção do sujeito 1 dizendo: “Sou, sou daqui mesmo.”
19
A imagem assinala as faixas de frequências dos formantes de um sujeito, representadas
pelas bandas escuras. No eixo y, é determinada a frequência em Hertz, e, no eixo x, o
tempo em segundos.
Após um período sem publicações e pesquisas a partir de tal descoberta – aparentemente, o
sonógrafo foi usado na Segunda Guerra Mundial pelos EUA como tentativa de
interceptação e tradução simultânea de mensagens inimigas –, os pesquisadores Gray e
Kopp publicaram um artigo intitulado “Voiceprint Identification” 11 a respeito do
funcionamento do sonógrafo e seu uso.
Gray e Kopp passaram a chamar os espectrogramas de voiceprints. Eles acreditavam que
era possível usar os espectrogramas para identificar falantes assim como as impressões
digitais (fingerprints) eram usadas para identificar indivíduos. Logo depois, os
voiceprints foram usados em aplicações forenses pelo pesquisador Lawrence Kersta,
comparando visualmente padrões espectrográficos das palavras e obtendo “sucesso de
99% ou melhor” (KERSTA, 1962, apud Hollien, 2002, p. 121) na identificação de
falantes. O método trazia as hipóteses que (1) diferentes representações das mesmas
palavras ou sons de um indivíduo seriam captadas em padrões espectrográficos que
preservariam importantes características do indivíduo, e (2) a fala de diferentes
indivíduos produziria padrões divergentes significativos (ERIKSSON, 2005).
11 GRAY, G & KOPP, G. (1944) Voiceprint Identification, Bell Telephone Laboratories Report, Murray Hill, NJ, pp 1-14.
20
No meio forense, a análise da fala por espectrogramas consistia em identificar falantes
desconhecidos, combinando seus padrões de fala com os de falantes conhecidos (suspeitos).
“Basicamente, sílabas, palavras, frases e/ou sentenças proferidas por ambos os lados
[espectrogramas de fala do sujeito desconhecido e conhecido] eram processadas ao traçar
os padrões vistos na figura” (HOLLIEN, 2002, p. 121). Mesmo tendo seus métodos de
análise variando de especialista para outro (NASH, 1973; SMRKOVSKI, 1976 apud
Hollien, 2002, p. 212), a identificação de locutor por voiceprint atingiu extrema
popularidade nos EUA na década de 1960. Com a demanda da polícia para a identificação
de criminosos a partir da voz sendo exponencialmente crescente, essa análise foi aceita nas
cortes quase sem oposição. Com o passar do tempo e das pesquisas (i.e. YOUNG &
CAMPBELL, 1967; STEVENS et al. 1968; HOLLIEN, 1990), o meio científico foi
apresentando resultados negativos para a identificação por voiceprints.
A utilização apenas de espectrogramas foi, então, mostrada inconclusiva e muito
controversa para análises de verificação de voz, como publicado pelo Comitê de avaliação
de espectrogramas sonoros e ratificada por Bolt, Cooper & Green (1979); Doddington
(1985); Hollien (1974); Koenig, Ritenour, Kohus & Kelly (1987) e Shipp, Doherty &
Hollien (1987). Uma das razões para isso é que as variações intrafalantes nos
espectrogramas de voz são, em sua grande maioria, mais drásticas do que interfalantes.
21
2.1.2 Duas abordagens históricas
A partir da década de 1960 – quando os tribunais começaram a compreender a necessidade
da identificação de falantes em gravações de voz v, duas abordagens analíticas surgiram.
Uma baseada nos Estados Unidos e outra no Reino Unido (FRENCH, 1994).
A primeira forma de identificação de locutor foi conhecida como “tradição do voiceprint”,
em que espectrogramas eram gerados a partir das gravações de criminosos para comparação
com vozes de suspeitos. Essa era uma forma de análise puramente acústica.
No Reino Unido, a identificação de um falante era baseada puramente em análises fonético-
auditivas. Ou seja, as amostras de fala de um criminoso (desconhecido) eram analisadas de
oitiva, por foneticistas treinados, e comparadas com as de suspeitos (conhecidos).
Essas duas técnicas de análise fizeram com que foneticistas forenses procurassem (até os
dias de hoje) métodos de análise mais apropriados e objetivos para uma identificação mais
precisa de falante.
22
2.2 Por que as vozes são difíceis de discriminar?
A fala humana é produto da interação de restrições impostas pelas propriedades físicas do
trato vocal e das escolhas feitas pelo falante em seu discurso. A fala não é constante, ou
seja, está sempre em variação. Para a pesquisa em fonética forense, o objetivo é encontrar
diferenças e semelhanças nas falas dos sujeitos. Segundo Nolan (1997), as diferenças inter-
falantes são divididas em diferença orgânica e aprendida.
Diferenças orgânicas
O aparato vocal de cada ser humano varia em tamanho e forma assim como a forma física
de cada indivíduo (ser alto, magro etc). As propriedades fonéticas – como frequências
ressonantes, taxa de vibração das pregas vocais – correspondem às dimensões do trato e
laringe. Por exemplo, o valor da frequência do primeiro formante (F1) corresponde
diretamente à posição da mandíbula (quanto mais alto o subsistema línguo-mandibular
para uma vogal, menor o valor de F1; quanto mais baixo o subsistema línguo-madibular
para uma vogal, maior o valor de F1); já a frequência do segundo formante (F2)
corresponde à posição da língua – quanto mais anterior for a constrição para uma vogal,
maior o valor de F2; quanto mais posterior for a constrição para uma vogal, menor o valor
de F2 (BARBOSA & MADUREIRA, 2013).
23
Diferenças aprendidas
Quando crianças, aprendemos mais do que nossa língua nativa e seu sistema linguístico.
Adquirimos também variedades regionais e sociais de pronúncia. Nelas, encontram-se as
variações sociolinguísticas a partir das quais o sujeito articula sua fala de maneira diferente,
por exemplo, de forma mais clara e polida ao ministrar uma palestra do que ao falar
casualmente com amigos.
A dicotomia “orgânico vs aprendido” não é um fator determinantemente distintivo do
indivíduo. Não há um traço (orgânico) que mostre a diferença das vozes, ou seja, não há
uma impressão digital para a voz – não podemos fazer um modelo do trato vocal de dois
indivíduos, produzindo uma determinada palavra e compará-los.
As diferenças orgânicas da voz são imbricadas com aquilo que o falante aprendeu em
termos do seu sistema linguístico e de escolhas que foram feitas em um determinado
momento.
Como falado anteriormente, o aparelho fonador de um indivíduo define os limites das
frequências dos formantes, sua frequência fundamental etc. Mas, dentro desses limites, os
falantes têm à sua disposição escopos para a variação. Por exemplo: uma frequência de
170Hz produzida por um falante masculino, que já é um valor incomum, é possível de
acontecer, pois (1) pode ser produzida por um homem com pregas vocais muito curtas (2)
ou por um homem de frequência fundamental normal, mas demonstrando grande excitação
da voz, (3) ou por outro homem imitando alguém (NOLAN, 1997).
24
Tendo essas diferenças em conta, compreende-se porque o trabalho de reconhecimento de
locutor é complexo. Passaremos a elencar as técnicas disponíveis para tal.
2.3 Reconhecimento de locutor
Definições
A terminologia que usaremos nessa pesquisa é a sugerida por Hollien (2002). Os termos
mais importantes são universalmente conhecidos e usados, como speaker recognition (SR,
reconhecimento de locutor), speaker verification (SV, verificação de locutor) e speaker
identification (SPID, identificação de locutor). Há também os termos paralelos a esses,
igualmente aceitos pela comunidade forense, nos quais a palavra “voz” foi substituída por
”locutor”, “reconhecimento de voz” e ”autenticação” por “verificação”, como em
“autenticação de locutor”. O termo “reconhecimento de locutor” (ou reconhecimento de
voz) é um conceito geral que agrupa os outros dois.
O reconhecimento de locutor é “qualquer atividade pela qual uma amostra de fala é
atribuída a uma pessoa com base em suas propriedades fonético-acústicas ou
perceptuais” (JESSEN, 2008, p. 671).
25
Há duas definições de reconhecimento de locutor: reconhecimento leigo e profissional. O
primeiro é o caso de reconhecer um sujeito, pela voz, em situações corriqueiras, ao
identificar alguém ao telefone sem que ele tenha se apresentado primeiro, por exemplo, e
até em um crime, como em uma fila de reconhecimento (testemunha auditiva). A segunda
definição divide-se em duas tarefas: identificação de locutor e verificação de locutor.
A identificação de locutor apresenta uma descrição quase antagônica com a segunda. Nela,
está a situação forense padrão. Não há cooperação do sujeito, pois ele é um suspeito que
não quer ser identificado. Caso haja tal cooperação, o cenário de avaliação da voz do
suspeito com a do criminoso muda. As gravações analisadas são obtidas por investigação
policial, as amostras de fala tendem a ser provenientes de ambientes ruidosos e com
distorção, no caso de gravação por telefone. Nessa tarefa, há a comparação da gravação
questionada, ou seja, a gravação do criminoso, geralmente feita em canal telefônico – seja
por uma interceptação de telefone celular ou fixo – e a gravação de referência, a do suspeito
feita em estúdio, na Polícia Criminalística, por exemplo. Em uma gravação questionada,
encontramos o indivíduo geralmente usando de fala espontânea, com um discurso livre, já
na gravação de referência, o indivíduo se encontra em uma situação distinta, está sofrendo
de um nível de estresse diferente, já que está em uma entrevista policial, podendo provocar
uma tensão na laringe, tornando sua voz irregular. Além disso, o suspeito a ser avaliado
também pode se utilizar de artefatos como disfarce vocálico. Nessa abordagem, o sujeito
não quer ser identificado, o que faz dessa tarefa ainda mais desafiadora. Resumindo, a
identificação do indivíduo encontra-se no que chamamos de “sistema aberto”, pois não se
26
sabe se a voz desconhecida pertence a um dos falantes conhecidos no banco de referência
da polícia ou não, então a população “suspeita” é ampla.
A identificação de locutor é subdividida em comparação de voz (ou comparação
de locutor), perfil de voz (ou perfil de locutor) e análise de identificação por vítimas
e testemunhas.
Comparação de locutor
A comparação de locutor envolve a identificação de um falante desconhecido em uma
situação de crime (pedido de resgate por telefone, trote etc) por meio de uma gravação.
Assim que essa gravação, dita questionada, está em posse da polícia, é feita uma
comparação de voz com a gravação de referência de um suspeito. A análise das gravações é
feita por meio de comparações de diversas características da fala dos sujeitos, a partir de
método de análise escolhido pelos peritos,12 e os resultados são apresentados em tribunal.
Perfil de voz
Quando o que só existe nas mãos dos peritos é a gravação questionada, o próximo passo a
ser feito é a criação de um perfil desse falante. Esse perfil é feito pelos peritos responsáveis
12 Os métodos de análise serão descritos na seção seguinte.
27
e contém informações relevantes do criminoso, como sexo, idade, nível de escolaridade e
social, língua nativa (em caso de a amostra apresentar fala com sotaque estrangeiro) e
patologias da fala (JESSEN, 2008). Assim, como são diversos os métodos de análise
usados de país para país, a Associação Internacional de Fonética Forense e Acústica
(IAFPA) recomenda um código de prática, sugerindo o que os membros podem ou não
colocar nos perfis.13
Na verificação de locutor, é a identidade da pessoa que está em questão, ou seja, nesse caso,
a voz é utilizada para acessar uma conta de banco por telefone ou alguma informação
privilegiada. Essa análise é controlada por analistas e feita por computadores que
comparam a voz questionada com uma voz já armazenada, cuja verossimilhança é
verificada. O falante a ser avaliado, portanto, é cooperativo, ele produz várias amostras de
sua fala para a comparação de voz, sem, provavelmente, adotar algum tipo de disfarce ou
variações em sua voz.
Para esta pesquisa, escolhemos usar o termo “verificação de locutor”, por esta não
preencher todos os requisitos de uma “identificação”. Embora a Fonética Forense seja
associada à tarefa de identificação de locutor, ou seja, à identificação de uma única pessoa
(desconhecida) em uma população (reconhecimento indireto de um sujeito), na prática, ela
acaba sendo verificação, pois o trabalho forense, na maioria das vezes, toma um número
finito de suspeitos para sugerir um criminoso a partir da comparação entre gravações
questionada e de referência.
13 www.iafpa.net/code.htm
28
O reconhecimento de locutor tem suas limitações. No caso particularmente da aplicação
forense, amostras de fala podem ser muito curtas para uma representação suficiente do
falante, a qualidade das gravações pode ser pobre (ruído de fundo, distorções impostas na
transmissão telefônica ou fita de gravação) e os sujeitos podem usar de disfarces vocais.
Em suma, o foneticista forense encontra-se em um difícil conundrum: a fala de um
indivíduo não é constante, como, então, identificar precisamente um sujeito?
2.4 Métodos de análise forense
Há várias técnicas de reconhecimento de locutor. As mais conhecidas e ainda usadas são:
verificação automática de locutor, método auditivo de análise, método acústico de análise e
método acústico-auditivo de análise.
Verificação automática de locutor
Esse método de análise tem como objetivo processar automaticamente a fala de um sujeito
para aceitar ou rejeitar reivindicações de identidade, por isso o termo ”verificação
automática de locutor” (automatic speaker verification, ASV). A pesquisa em ASV se serve
29
de técnicas de processamento do sinal da fala, não necessariamente com conhecimento
fonético. As aplicações potenciais para essa técnica envolvem interações telefônicas com
checagem de identidade, em cofres e caixas eletrônicos. Ela funciona tomando a amostra de
fala de um indivíduo que reivindica ser X, comparando-a por computador com uma
referência (que é construída na base de um número de repetições por X) armazenada do
sujeito. Se a distância acústica14 entre a elocução do requerente com a referência
armazenada é pequena, a reivindicação é aceita.
O problema que temos com essa técnica de análise no ambiente forense é a
incompatibilidade das gravações, ou seja, diferenças na qualidade do som entre amostras de
fala devido a transmissões de canais diferentes. Se as amostras de fala questionadas são
gravadas em um telefone e a de referência em uma gravação direta, são criados grandes
problemas para a análise por computador justamente pela degradação acústica causada pelo
filtro do telefone.
Na Universidade de Gotemburgo, por exemplo, usa-se um sistema automático para
comparação de voz, o software francês ALIZE SpkDet (ERIKSSON, 2012). Os resultados
obtidos são, então, combinados com as análises acústico-auditivas tradicionais, conforme
apresentamos adiante. Outro sistema automático popular é o Batvox, usado em vários
países, incluindo o Brasil. O problema desse software em particular é o uso que se faz dele,
ou seja, a dependência de usar apenas um sistema de análise, sem o insight de um
pesquisador para a análise dos resultados.
14 É o valor de discrepância entre os parâmetros acústicos dos sujeitos.
30
A tarefa de um foneticista forense é a de decidir quão provável é duas gravações
pertencerem à mesma pessoa. Isso inclui uma gravação de um falante desconhecido durante
a feitura do crime (e.g., pedido de resgate) e a gravação de um suspeito a partir de uma
entrevista com o perito. Somente se uma gravação é feita especificamente para
comparação15 o seu conteúdo linguístico pode ser controlado a ponto de ser o mesmo que
na gravação desconhecida. Mesmo neste último caso, a impossibilidade de replicar o
contexto de uma gravação desconhecida torna a equivalência linguística impossível. Em
uma análise forense comum, geralmente, a comparação das vozes tende a ser feita com
materiais obtidos em diferentes condições, e.g., gravação telefônica em comparação com
gravação direta, por gravador. Essa é uma das razões por que a identificação automática de
locutor plena deve ser implementada por métodos que envolvam o conhecimento humano.
Para isso, dois métodos de análise são usados: método auditivo e método acústico.
Método auditivo
Os profissionais mais recomendados para manipularem essa técnica de análise são
foneticistas e dialetologistas. Esses são especialistas na análise auditiva da fala e se
servem do Alfabeto Fonético Internacional (IPA, na sigla em inglês) para fazer a
transcrição de vogais e consoantes. O profissional analisa as diferenças entre a pronúncia
das amostras de fala, perguntando-se: “cada um dos falantes comparados é foneticamente
15 Essa comparação é feita com o consenso do suspeito.
31
único ou compartilham de características que aumentem a probabilidade de serem do
mesmo sujeito?”
Hollien (1990) conduz um experimento perceptual de discriminação que é um bom
exemplo de uso do método auditivo. Os juízes do experimento deparam-se com uma
sequência de pares de gravações, cujas amostras de fala podem conter a voz do “criminoso”
– a amostra da fala questionada – e a de distratores que também são desconhecidos. A
proposta do autor é que, se os ouvintes são consistentemente capazes de discriminar qual é
a amostra questionada, o indivíduo é o “criminoso”. Em seu experimento, os juízes foram
bem-sucedidos na escolha. Esse é um exemplo interessante para mostrar a habilidade de
oitiva de um ser humano.
O método auditivo de análise comporta uma base de estudos favoráveis para sua aceitação
(BALDWIN, 1977, 1979; BALDWIN & FRENCH, 1990) e, em 1991, o Tribunal de
Recurso Penal (English Court of Criminal Appeal, Robb, 1991) decretou que evidência de
identificação de locutor baseada somente em análise auditiva é admissível em tribunal.
Mas, mesmo assim, o método auditivo sozinho não é o ideal no contexto geral forense,
restando, segundo French (1994) somente dois dos seus praticantes em todo o Reino Unido.
32
Método acústico
O método de análise acústico permite a quantificação da fala de um indivíduo por meio
de parâmetros acústicos. Não é só outro método de análise da fala, ele revela
informações que o sistema auditivo não percebe, extraindo informação passível de
análise linguística do sinal de fala. Podemos ouvir o mesmo som de duas pessoas
falando uma mesma vogal, o que pensaríamos não apresentar nenhuma diferença
acústica, mas os padrões formânticos, por exemplo, de cada uma são diferentes. O
critério de escolha para um parâmetro acústico ser usado em análise forense é baseado
nesta regra: os parâmetros devem apresentar uma variabilidade intra-falante menor que
sua variação inter-falante (HOLLIEN, 1990 apud FRENCH, 1994).
Nolan (1990 apud FRENCH, 1994) analisou a vogal /æ/ no contexto das palavras “that” e
“back” de um “criminoso” de um delito em particular e comparou com gravações
incriminadoras de outro indivíduo, ou seja, amostras de fala de um sujeito em diferentes
contextos de gravação e que não cometeu o crime em questão, mas que estava no banco
de dados da polícia por comportamento suspeito. As amostras do “suspeito”
apresentavam um valor constante de 2,5 kHz para o terceiro formante de suas vogais. No
entanto, o “criminoso” apresentava valores bem menores para os terceiro e quarto
formantes das vogais. Ou seja, esse método de comparação mostrou-se eficaz para ser
usado como prova em tribunal, podendo concluir quantitativamente que as gravações
pertenciam a diferentes pessoas.
33
Apesar de seu potencial, mesmo assim o uso desse método sozinho em uma análise forense
não é o ideal. Tanto o método acústico quanto o auditivo têm suas forças e, combinadas,
favoreceriam potencialmente a análise forense (KÜNZEL, 1994 apud FRENCH, 1994). A
partir disso, foi desenvolvido o método acústico-auditivo de análise.
Para satisfazer o critério de análise para a pesquisa forense, como explicado anteriormente,
que é assegurar uma menor taxa de variação intra-falante em comparação com a variação
inter-falante, o ideal é não usar apenas um parâmetro acústico, mas vários. Hollien (1990
apud NOLAN, 1997) sugere como abordagem o uso de extração múltipla de parâmetros e a
comparação por um método de reconhecimento de locutor conhecido como semi-
automático. A partir disso, é feita uma comparação dos vetores de diferentes parâmetros
acústicos e calculada a distância entre as amostras dos falantes.
Nesta pesquisa, utilizamos o método acústico semi-automático de análise. O método
auditivo não é aplicado a esta pesquisa, pois (1) os sujeitos, fora o criminoso, não são
desconhecidos da mestranda e (2) não apresentam grandes diferenças de sotaque e/ou
outras características importantes para a discriminação nesta análise (i.e. patologia na fala).
35
3 Pesquisa desenvolvida
A Fonética Forense é uma aplicação de conhecimento, teorias e métodos da fonética geral
para tarefas práticas que surgem de um contexto de trabalho policial ou da apresentação de
uma evidência em tribunal, assim como o desenvolvimento de novos métodos, teorias e
conhecimentos para a Fonética Forense (JESSEN, 2008). Baseamo-nos nisso para a
idealização e realização de nossa pesquisa, usando técnicas de análise forense para
desenvolver um trabalho acadêmico, beneficiando as áreas da fonética acústica e forense.
Esta pesquisa teve como objetivo identificar um indivíduo pela voz em um grupo de dez
falantes do português brasileiro divididos em quatro estados, São Paulo, Rio Grande do Sul,
Bahia e Pará. Para realizar esta tarefa, analisaremos os seguintes parâmetros acústicos das
vogais de cada falante: frequência dos dois primeiros formantes, frequência fundamental
média, taxa de elocução, frequência baseline, ênfase espectral, dinamicidade dos formantes
e desvio-padrão de durações de intervalos consonânticos (∆C).
Todos os indivíduos foram gravados em dois canais de gravação, gravação direta e
gravação por telefone celular. Esta última simula a dificuldade encontrada pelos peritos
ao analisar gravações de baixa qualidade, com ruído e deterioração que uma escuta
telefônica, por exemplo, apresenta. Além disso, o indivíduo escolhido para lidarmos
como “criminoso” teve sua fala gravada em ambiente acusticamente tratado para uma
36
análise comparativa mais robusta. Simularemos um caso forense habitual, de crime, tendo
como objetivo principal o reconhecimento do “criminoso” dentro do grupo de falantes,
além de mostrar qual método de análise estatística e quais parâmetros acústicos são mais
eficazes para essa tarefa.
3.1 Efeito do celular
Em muitas situações forenses, cientistas têm em mãos, como material de avaliação,
escutas telefônicas que, em sua grande maioria, são de péssima qualidade, e, sendo a
única fonte sonora para a extração de parâmetros acústicos, devem apresentar algum
resultado substancial para o júri. Trazemos essa situação para a pesquisa, simulando casos
de escuta telefônica.
Primeiramente, escolhemos o celular e não o telefone fixo, pois é de grande uso dos
criminosos – sendo que, no Brasil, há mais de 271 milhões16 de linhas de telefone celular.
Além disso, foi evidenciado que a gravação por telefone fixo apresenta resultados mais
robustos, principalmente para o primeiro formante (KÜNZEL, 2001; BYRNE &
FOULKES, 2004) em comparação com telefone celular. Byrne & Foulkes (2004) partiram 16 Segundo dado divulgado pela Anatel, disponível em: http://www.anatel.gov.br/
37
do artigo de Künzel (2001) sobre os efeitos do telefone fixo para calcular quais as
consequências que a diferença de canal de transmissão (no caso, telefone celular) causa nas
frequências dos formantes nas gravações. Um dos fatores de dificuldade na análise de
dados a partir de gravação telefônica é a perda do sinal, além de ruído que há no ambiente –
no caso do celular, a distorção do próprio aparelho é o mais crítico para análise fonética.
Mesmo perdendo qualidade (devido a filtragem e a ruídos), a gravação telefônica torna a
análise mais difícil e meticulosa. É bem comum a análise de propriedades acústicas como a
de características de filtro de banda, porém pouco se estuda sobre o efeito dele para os
parâmetros de fala.
Alguns efeitos causados pelo telefone celular foram evidenciados por Byrne & Foulkes
(2004) e serão mostrados a seguir. Esperamos encontrar nesta pesquisa uma degradação do
sinal de fala das gravações coletadas advinda da combinação desses efeitos.
I) Efeitos do ambiente: um dos efeitos mais comuns de telefones no sinal da fala é o físico,
por exemplo, ligações telefônicas podem acontecer em ambiente de alto nível de ruído de
fundo, como no trânsito. Assim, esse efeito gerará problemas para a análise forense, pois os
ruídos podem afetar informações cruciais no sinal da fala.
II) Efeito dos falantes: os próprios falantes influenciam na conversação telefônica, eles
tendem a modificar o seu comportamento ao falar por telefone, por exemplo, tornando-se
mais formais (no caso do inglês britânico, segundo os autores). O registro telefônico da voz
38
muda consciente ou inconscientemente, influenciando na taxa de elocução, na qualidade da
voz e, como dito anteriormente, na pronúncia. Um dos efeitos mais “comuns” é a pessoa
aumentar o volume da voz ao falar no telefone, afetando diretamente a frequência
fundamental do falante (F0).
III) Efeitos técnicos: ou “distorção espectral” é o aumento das frequências que se
encontram acima do filtro passa-baixa (300Hz) e a diminuição das frequências que se
encontram ligeiramente abaixo do filtro passa-alta (3.500Hz). Ou seja, as frequências que
estão abaixo de 300Hz e acima de 3.500Hz são “apagadas” pelo filtro do telefone celular.
Outro exemplo de efeito técnico (KÜNZEL, 2001; BYRNE & FOULKES, 2004) é o
fenômeno conhecido como “deslocamento de frequências”: quanto menor a frequência (por
exemplo, o primeiro formante), mais atenuada ela fica pelo canal telefônico em comparação
a uma gravação direta. O contrário também acontece, e a perda dos componentes de alta
frequência é destrutiva para a identificação forense de falante, pois um grande número de
informações (qualidade de voz, por exemplo) é codificado em faixa de frequências mais
altas das vogais.
A seguir, duas imagens de espectrograma que mostram os efeitos do filtro telefônico em
uma gravação analisada:
39
Figura 3. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8.17
Figura 4. Forma de onda (topo) e espectrograma (meio) no software PRAAT do sujeito 8.18
17 As camadas para a segmentação são divididas em quatro, a segmentação das vogais, centro das vogais, unidades V-V e intervalos vocálicos e consonantais. 18 As camadas para a segmentação são divididas em quatro, a segmentação das vogais, centro das vogais, unidades V-V e intervalos vocálicos e consonantais.
40
As duas figuras representam o mesmo trecho de fala do sujeito. Elas mostram o corte de
frequência produzido pelo filtro do telefone celular. Na Figura 3, uma linha pontilhada
vermelha mostra a faixa de frequência “apagada” pelo filtro na frequência acima de
3.732Hz. Já a outra Figura mostra a faixa de frequência que é perdida devido ao filtro
abaixo de 238Hz.
41
4 Metodologia
4.1 Procedimento
Diferentemente da pesquisa de Iniciação Científica, não nos retemos a uma análise
comparativa de gravações diretas e gravação em laboratório.
Em uma situação forense, há geralmente o seguinte cenário: a gravação de um crime para
ser comparada à gravação de referência. A primeira, ou gravação questionada, geralmente é
feita por escuta telefônica, em que o indivíduo tende a falar o mais espontaneamente
possível, sem saber que está sendo gravado. A segunda gravação geralmente é realizada em
ambiente acusticamente tratado e os peritos pedem para o suspeito ler um texto de forma
clara para um microfone posicionado em sua frente. Esse tipo de técnica de análise acaba se
tornando mais um ponto que dificultará o trabalho do pesquisador, pois são gravações feitas
em contextos diferentes: (1) uma situação de fala espontânea, com o discurso fluente e (2)
em laboratório, com material lido. Com isso, palavras que se encontraram na primeira
gravação podem não estar presentes na segunda. O nível de estresse e a naturalidade da
fala também afetam a produção de palavras, e a precisão na comparação das análises de
42
cada indivíduo é prejudicada, além é claro, dos efeitos que o telefone celular podem causar
na gravação.19
Nesta pesquisa de Mestrado, a gravação em estúdio pelo indivíduo não foi feita a partir da
leitura de um texto, coube à pesquisadora conduzi-la como uma entrevista, a fim de inserir
os mesmos assuntos discutidos na primeira gravação e deixar o entrevistado o mais à
vontade possível para que sua fala fosse fluente e espontânea.
Figura 5. Esquema da gravação por escuta telefônica usado nesta pesquisa.
19 Os efeitos do celular em gravações são discutidos na seção anterior.
43
As gravações telefônicas foram feitas por um celular Samsung Galaxy Young pela rede da
operada TIM. O experimentador fazia a ligação em um ambiente com nível mínimo de
ruído de fundo, na sala do Grupo de Estudos da Prosódia da Fala, para o sujeito que se
encontrava em sua respectiva cidade natal. Foi feita uma gravação de cada locutor,
simulando uma conversa corriqueira, em que tratavam de assuntos do cotidiano, trabalho,
plano para férias etc., tentando atingir um grau mais próximo de fala espontânea. O
aparelho de interceptação foi uma placa de áudio, U-Control UCA22220 conectado ao
celular do experimentador que, por sua vez, também se conectava ao desktop; e a conversa
foi gravada pelo software Audacity.21
O corpus da pesquisa consiste em gravações em dois canais de transmissão diferentes –
gravação direta e por celular – de um grupo de dez falantes do português brasileiro de
quatro estados diferentes – São Paulo, Bahia, Pará e Rio Grande do Sul. Foram feitas vinte
e uma gravações, dez usando o Mini Gravador Digital Coby Cx-r190 ao ar livre, dez por
telefone celular e uma gravação direta em ambiente acusticamente tratado.
Todas as gravações foram segmentadas manualmente via software PRAAT e extraídas
automaticamente pelo script ForensicDataTracking, desenvolvido por Barbosa (2013). A
seguir, a lista dos sujeitos participantes da pesquisa:
20 As especificações da placa estão disponíveis em: http://www.behringer.com/EN/Products/UCA222.aspx 21 Disponível em: http://audacity.sourceforge.net/?lang=pt-BR
44
Sujeito Naturalidade Duração (min) Número de segmentos (vogais) 1 Bahia 2:15 229 1 – cel 3:26 461 2 São Paulo 3:40 515 2 – cel 2:21 279 3 São Paulo 1:50 152 3 – cel 1:50 193 4 São Paulo 1:05 102 4 – cel 2:07 185 5 São Paulo 01:40 180 5 - cel 00:56 50 6 São Paulo 03:10 405 6 - cel 01:36 245 7 Bahia 01:27 148 7 - cel 02:38 207 8 Pará 02:53 297 8 - cel 02:57 296 9 Bahia 01:55 217 9 - cel 01:40 174 10 Rio Grande do Sul 02:10 250 10 - cel 02:24 245 Criminoso ? 9:40 2181
Tabela 8. Lista com informações sobre os sujeitos participantes da pesquisa.22
O script automaticamente extraiu as medidas de frequência do segundo formante (F2) das
vogais, taxa de movimento de formante para o segundo formante, frequência baseline,
média da frequência fundamental, duração das vogais, inverso da taxa de elocução (média
da duração de unidade do tamanho da sílaba), ênfase espectral e ∆C. A seguir, uma
apresentação breve dos parâmetros acústicos escolhidos.
22 As informações tabeladas são: contexto de gravação (celular ou não) cidade natal, duração de cada gravação e número de vogais estudadas de cada sujeito.
45
4.2 Parâmetros acústicos
Frequência fundamental e frequência baseline
A frequência fundamental é o correlato acústico da frequência de vibração das pregas
vocais na produção de voz (JESSEN, 2008).
Ela é um parâmetro útil para a comparação inter-falantes no ambiente forense. Suas
medidas de distribuição de longo-termo, como sua média, são sempre sugeridas por
pesquisadores da área (ERIKSSON, 2011; ROSE, 2002). Segundo Eriksson (2012), o seu
cálculo depende diretamente da duração da amostra de fala, ou seja, é necessário um tempo
mínimo de trecho de fala para a extração de seu valor. Alguns autores sugerem durações de
14 segundos (HORII, 1975 apud ERIKSSON, 2012), 60 segundos (NOLAN, 1983) e até 2
minutos (BALDWIN & FRENCH, 1990). Nesta pesquisa, nós extraímos a frequência
fundamental global do trecho, com gravações com duração mínima de 50 segundos.
Alguns fatores podem influenciar a variabilidade da frequência fundamental, como os
fatores fisiológicos (idade, ser ou não fumante, doença, intoxicação) e também estados
emocionais, além de fatores externos, como ruído na amostra de gravação (BRAUN, 1995
apud ERIKSSON, 2012). Outro fator que pode influenciar a variabilidade desse parâmetro
é o disfarce, pois indivíduos tendem a aumentar ou diminuir sua frequência fundamental em
situações de crime (KÜNZEL, 2000).
46
Em meio a essa variabilidade que pode causar distorção na medida de F0, Lindh &
Eriksson (2007), desenvolveram uma forma de representação para a frequência
fundamental chamada de baseline. A frequência baseline fundamenta-se na proposta de um
nível de frequência fundamental neutro. Esse nível é um ponto estável estimado como 1,43
desvios-padrão de F0 abaixo da média de F0. Ela foi testada em diferentes materiais de fala
que variavam quanto ao estilo de fala, esforço vocal e qualidade de gravação. Esta última
condição consistia em gravações usando diferentes canais de transmissão, gravador digital e
também telefone celular. Os resultados foram robustos para todos os contextos de gravação.
Frequência de formantes
Formantes são frequências de ressonância no trato vocal. Eles são formados por formas e
volumes de diferentes cavidades do trato vocal (FANT, 1960).
Atualmente, a maioria das chamadas telefônicas que tem conexão com crimes são feitas
usando telefones celulares. Investigadores na Suécia, Reino Unido e Alemanha indicam que
um número substancial de casos envolvendo fala gravada em celular está crescendo
vertiginosamente (ÖHMAN et al, 2010). Byrne & Foulkes (2004) mostram como a
transmissão por celular tem um efeito significativo nos formantes, e Künzel (2001) também
mostrou grandes efeitos no telefone fixo para os primeiros formantes.
Künzel (2001) fez um experimento para testar os efeitos do telefone fixo na fala.
Participaram 10 homens e 10 mulheres com idade de 20 a 59 anos e eles fizeram uma
47
leitura do texto The north wind and the sun em alemão, com taxa de elocução e altura
de fala normais. As leituras duraram entre 35 e 40 segundos. O sinal de fala foi gravado
simultaneamente em gravador e telefone. Foram analisados cerca de 25 contextos
fonológicos de 13 vogais. O autor revelou que encontrou problemas com a própria
metodologia do seu experimento. O algoritmo que foi usado cometia erros, como
escolher um formante mais alto ao invés do que devia, o que ocorreu principalmente
nos dados telefônicos.
Os resultados do experimento mostraram que todos os sujeitos apresentaram diferenças
significativas para o primeiro formante em gravação telefônica, não tendo diferenças
significativas para o segundo formante. Outro dado expressivo foi que o valor da frequência
do primeiro formante de cada vogal foi maior na transmissão telefônica do que por
gravação direta. A diferença é maior para vogais fechadas como [i] e [u], média para vogais
como [e] e [o] e menor ou zero para vogais abertas como [ɔ, a].
O que Künzel concluiu de sua pesquisa é que os valores das frequências dos formantes
baixos das vogais de falantes masculinos e femininos são deslocados para cima (formant
shifted upwards), causando erros de medidas.
Byrne & Foulkes (2004), a partir deste experimento de Künzel, decidiram testar o efeito do
telefone celular no sinal de fala. O experimento consistia em 12 voluntários falantes do
inglês, seis homens e seis mulheres, entre 20 e 39 anos. Esses sujeitos leram o texto The
story of Arthur the rat e duas gravações ocorriam simultaneamente. As gravações diretas
foram realizadas por um microfone posicionado diretamente na frente do locutor, conectado
48
a um gravador. Um segundo gravador foi conectado com o propósito de interceptar a
chamada recebida na sala do experimentador. Os dados foram armazenados em um
computador para análise acústica. Os resultados obtidos foram:
Devido ao efeito de filtro da transmissão telefônica, frequências de F1 para a maioria das
vogais foram maiores que seus homólogos nas gravações diretas; as frequências do
primeiro formante foram 29% maiores do que as por telefone fixo apresentadas por Künzel
(2001); e as frequências do segundo formante não foram afetadas significativamente pelo
canal telefônico.
Um dos motivos que acreditamos para ocorrer expressiva diferença entre telefone fixo e
celular é que estes são sujeitos a um maior alcance de influências ambientais que os
telefones fixos. Pelo fato de telefones celulares poderem ser usados em qualquer lugar,
muitos tipos diferentes de ruído de fundo serão encontrados nas gravações quando celulares
são usados.
Dinamicidade de formantes de parâmetros do domínio de tempo
Outro exemplo de estudo de formantes, só que relacionado a sua dinamicidade, foi proposto
por McDougal (2004). Ele sugere que as diferenças individuais em movimentos
articulatórios podem ser usadas para a comparação de locutor. Seu experimento mostrou
que esse parâmetro acústico apresenta informações idiossincráticas dos locutores, ele é
calculado entre a diferença da frequência no contorno do formante e da sua área de
49
transição até o centro do formante. Em seu experimento, valores ligados ao movimento das
frequências do segundo formante apresentaram resultados determinantes para a
discriminação de locutores. A medida foi feita da seguinte maneira: a partir do segmento de
uma vogal, por exemplo /uː/, foram feitas medidas do ponto médio dos contornos das
frequências do primeiro e segundo formantes de cada segmento de /uː/ a partir do “formant
tracker” do PRAAT. Um script foi usado para calcular a duração de cada segmento que o
dividia em dez intervalos iguais. Um outro script mediu o centro das frequências dos
formantes a cada passo, normalizando cada contorno formântico.
Uma medida de duração que também foi estudada com objetivo de comparação de locutor é
o ∆C, ou seja, o desvio-padrão da duração de intervalos consonânticos. Dellwo & Koreman
(2008), em seu estudo que consistia na gravação de dez falantes do alemão, avaliou dados
de diferentes taxas de elocução com os sujeitos, variando-as nominalmente de normal até
rápida. O teste mostrou que os parâmetros de tempo como o ∆C conseguiam capturar
informações idiossincráticas dos sujeitos, mantendo-se robusto em diferentes condições de
fala.
Taxa de elocução
A taxa de elocução (speech rate) é o número de unidades da fala produzidas por minuto ou
por segundo. As notações mais comuns são palavras por minuto e sílabas por segundo
(ERIKSSON, 2012). Neste trabalho, ela é medida a partir da média da duração das
50
unidades V-V, unidade do onset de uma vogal até o onset da vogal imediatamente seguinte.
Pode ser medida automaticamente, em caso de boa qualidade na amostra de fala estudada,
ou manualmente, quando há baixa qualidade na gravação. Em outras palavras, a ideia deste
parâmetro é contar quantas unidades existem em um determinado trecho, medir a duração
deste mesmo trecho e dividir o primeiro número pelo segundo. Esse cálculo resulta em uma
taxa, um número x de unidades de fala (sílabas, V-V etc.) por unidade de tempo (em geral,
segundos). Segundo Eriksson (2012), a taxa de elocução apresenta um baixo poder de
discriminação inter-falantes, apresentando uma variação intra-falante alta. Testaremos nesta
pesquisa como ela é afetada pelo canal telefônico, uma vez que a detecção do início da
vogal pode ser prejudicada pelo canal. Neste trabalho, uma vez que a média da duração de
unidade do tamanho da sílaba é o inverso da taxa de elocução e que, portanto, diferenças
entre essas médias assinalam diferenças nas taxas, tomaremos a duração média da unidade
V como medida de taxa de elocução.
Ênfase espectral
O interesse desta medida acústica para a descrição da prosódia se deve à observação experimental de que vogais em posições prosodicamente proeminentes tendem, quando comparadas às não proeminentes, a ser produzidas com mais esforço vocal, o que, do ponto de vista acústico, resulta em uma distribuição da energia ao longo do espectro caracterizada pela presença de mais energia em faixas de mais alta frequência (ARANTES, 2011).
51
Para esta pesquisa, seguimos o modelo de Traunmüller & Eriksson (2000) que trata a
ênfase espectral como a diferença entre a intensidade acústica do sinal integral e a
intensidade do sinal submetido a um filtro passa-baixa com um limite de banda superior
definido pela expressão 1,5*F0, em que F0 é a média da frequência fundamental na vogal
analisada. Esperamos deste parâmetro uma grande variação para o canal telefônico devido
ao ruído e ao filtro. Segundo Constantini (2014), a ênfase espectral, em seu experimento,
apresentou aumento de 156% em gravações com ruído inserido artificialmente pelo
PRAAT em relação as gravações originais.
4.3 Métodos de análise estatística e resultados
Para este experimento, decidimos utilizar os testes estatísticos ANOVA e Teste de Duncan.
A seguir, explicaremos os resultados obtidos das gravações a partir deles.
52
ANOVA
Todos os testes estatísticos utilizados nesta pesquisa foram feitos a partir do software R.23 O
teste estatístico de ANOVA, ou análise de variância, é a técnica estatística que permite avaliar
afirmações sobre as médias de populações. Ele verifica se existe uma diferença significativa
entre as médias e se os fatores exercem influência em alguma variável dependente.
Para a pesquisa, estudamos a ANOVA com os seguintes intuitos: (1) determinar se os
parâmetros acústicos analisados permaneciam robustos com a mudança de canal de
transmissão, de uma gravação direta por gravador digital para telefone celular, e (2)
determinar se algum desses parâmetros acústicos conseguem apontar para qual dos sujeitos
analisados é o “criminoso”. Para a realização deste teste, é preciso seguir algumas
condições. Para isso, foram utilizados o teste estatístico Shapiro-Wilk para verificar se os
resíduos compõem uma distribuição normal e o teste Fligner-Killeen para verificar a
homogeneidade das variâncias dos grupos. Em seguida, foi feita a análise de Kruska-
Wallis, o correspondente não-paramétrico da ANOVA.
As Tabelas 9 e 10 mostram os parâmetros acústicos estudados na pesquisa para o contexto
de gravação telefônica e gravação direta. Neste caso, se o parâmetro acústico apresentou
um valor de p > 5%, ele não sofreu variação de canal de transmissão, mostrando-se um
parâmetro robusto para a pesquisa; em outras palavras, é um bom parâmetro acústico para a
comparação de trechos por diferentes canais. Podemos analisar a partir dos testes que os
23 Disponível em: http://www.r-project.org/
53
seguintes parâmetros acústicos aceitaram a hipótese nula, apresentando-se robustos para a
transmissão telefônica: duração das vogais, taxa de elocução, ∆C e taxa de movimento do
segundo formante (F2). A seguir, mostraremos os boxplots desses parâmetros. O boxplot é
um meio padrão de se mostrar a distribuição de dados e também seu alcance de variação
(de mínimo para máximo) e o seu valor (a mediana).
Cel-NCEL MeanV MeanVV ∆C
Shapiro-Wilk p-value = 0.9108 p-value = 0.9515 p-value = 0.822
Fligner-Killeen p-value = 0.4227 p-value = 0.5611 p-value = 0.2825
ANOVA p-value = 0.245 p-value = 0.36 p-value = 0.05265
Tabela 9. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta.24
Celular -NCEL F2 Rate F2 F2 trans F0 Baseline
Ênfase espectral
Fligner-Killeen
p-value = 0.05298
p-value = 9.707e-05
p-value = 0.7776
p-value = 1.833e-13 4.435e-10
p-value < 2.2e-16
Kruskal-Wallis
p-value = 1.3e-09
p-value = 0.5911
p-value = 0.6792
p-value < 2.2e-16
p-value < 2.2e-16
p-value < 2.2e-16
Tabela 10. Valor de p para testes de condições de uso da ANOVA para a condição de gravações por celular e direta.25
24 As condições de uso da ANOVA foram a normalidade e a homogeneidade de variância, sendo α = 0,05, para a condição de gravações por celular e direta. Resultados para a média da duração das vogais (MeanV), taxa de elocução (MeanVV) e ∆C. 25 As condições de uso da ANOVA foram a normalidade e a homogeneidade de variância, sendo α = 0,05, para a condição de gravações por celular e direta para transição de F2; e Kruskal-Wallis, para α = 0,05, para os valores de segundo formante (F2), taxa de F2, frequência fundamental (F0), frequência baseline e ênfase espectral.
54
Figura 6. Boxplot para ∆C para gravação em celular (cel) e gravação direta (ncel).
A partir desse gráfico, podemos ver que, apesar de a mediana (traçado preto em negrito)
apresentar valores distintos para o contexto de gravação direta e celular, sendo o primeiro com
valor maior, o parâmetro ∆C (ms) não teve diferença significativa pelo teste de ANOVA.
55
Figura 7. Boxplot para média de duração das vogais para gravação em celular (cel) e gravação direta
(ncel).
Aqui, neste boxplot, temos o mesmo caso que o anterior. A diferença entre os canais de
transmissão não foi significativa.
Figura 8. Boxplot para a taxa de movimento do segundo formante para gravação em celular (cel) e
gravação direta (ncel).
56
Figura 9. Boxplot para duração das unidades VV (inverso da taxa de elocução) para gravação em
celular (cel) e gravação direta (ncel).
Aqui, para a média da unidade VV, os valores das medianas são muito próximos, e a
estatística confirma que não há diferença significativa para o parâmetro em um diferente
canal de transmissão, o celular.
Um dos parâmetros acústicos previstos a evidenciar variação em canal telefônico é a
frequência fundamental, apresentamos um exemplo a seguir:
57
Figura 10. Boxplot para frequência fundamental para gravação em celular (cel) e gravação direta
(ncel).
Segundo a literatura (BYRNE & FOULKES, 2004), um dos parâmetros que mais sofre pelo
canal telefônico é a frequência fundamental. O que se acredita é que falantes tendem a
aumentar o volume da sua voz ao celular para melhor serem entendidos pelo outro,
consequentemente, aumentando o valor de F0.
Outro parâmetro acústico que estudamos foi a ênfase espectral:
58
Figura 11. Boxplot para a ênfase espectral para gravação em celular (cel) e gravação direta (ncel).
É esperado, de acordo com a literatura, como dito na seção sobre os parâmetros acústicos,
que a ênfase espectral sofra um grande efeito pela mudança de canal de transmissão. Como
podemos ver na Figura 11 acima, houve grande variação de seu valor, mediana, da
gravação direta para a gravação por celular.
Em seguida, analisamos quais dos parâmetros acústicos teve ou não variação em relação
aos sujeitos. Ou seja, se um parâmetro acústico de um sujeito não apresentou variação com
o “criminoso”, poderemos dizer, a princípio, que são a mesma pessoa.
59
Sujeito F2 Rate F2 F2 trans F0 Baseline Ênfase espectral
Fligner-Killeen
p-value = 3.117e-15
p-value < 2.2e-16
p-value < 2.2e-16
p-value < 2.2e-16
p-value < 2.2e-16
p-value < 2.2e-16
Kruskal-Wallis
p-value < 2.2e-16
p-value = 0.0002058
p-value < 2.2e-16
p-value < 2.2e-16
p-value < 2.2e-16
p-value < 2.2e-16
Tabela 11. Kruskal-Wallis, para α = 0,05, para a variação inter-falante.26
Sujeito MeanV MeanVV ∆C Shapiro-Wilk p-value = 1 p-value = 0.9744 p-value = 0.7885
Fligner-Killeen p-value = 0.02925 p-value = 0.02925 p-value = 0.02925
Kruskal-Wallis p-value = 0.06432 p-value = 0.1736 p-value = 0.5828
Tabela 12. Kruskal-Wallis, para α = 0,05, para a variação inter-falante.27
Os parâmetros acústicos que apresentaram um valor de p > 0,05 foram duração média das
vogais, taxa de elocução e ∆C. Mostraremos, a seguir, os gráficos gerados pelo teste e uma
breve análise deles para os parâmetros analisados.
26 Resultado para os valores de segundo formante (F2), taxa de F2, transição de F2, frequência fundamental (F0), frequência baseline e ênfase espectral. 27 Resultados para a média da duração das vogais (MeanV), taxa de elocução (MeanVV) e ∆C.
60
Figura 12. Boxplot para média de duração das vogais para a variação inter-falantes.28
De acordo com a Figura 12 acima, podemos ver que o sujeito 4 é o que mais se assemelha
ao “criminoso” a partir da comparação de suas medianas.
28 A escala mostra, no eixo x, os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
61
Figura 13. Boxplot para média de duração em unidade VV para a variação inter-falantes.29
A partir da análise das medianas apresentadas na Figura 13, o sujeito que mais se
aproximaria do criminoso é o 4. No entanto, diferentemente do que a literatura sugere
(ERIKSSON, 2012), para uma amostra maior, o conjunto dos mesmos sujeitos aponta uma
baixa variação entre os falantes.
29 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
62
Figura 14. Boxplot para ∆C para a variação inter-falantes.30
A partir da análise das medianas apresentadas na Figura 14 acima, o sujeito que mais se
aproximaria do criminoso é o 2.
30 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
63
Figura 15. Boxplot para frequência baseline para a variação inter-falantes.31
A partir da análise das medianas apresentadas na Figura 15 acima para frequência baseline,
o sujeito que mais se aproximaria do criminoso é o 4.
31 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
64
Figura 16. Boxplot para ênfase espectral para a variação inter-falantes.32
A partir da análise das medianas apresentadas na Figura 16 acima para a ênfase espectral, o
sujeito que mais se aproximaria do criminoso é o 5. A variação que podemos ver a partir
desse parâmetro pode ser justificada pelo esforço vocal de cada sujeito. Apenas o criminoso
estava em uma sala sem ruído, com um microfone posicionado próximo, em sua frente. Já
os demais indivíduos encontravam-se em um ambiente aberto, ruidoso, tendo de,
provavelmente, fazer um esforço maior para falar.
32 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
65
Figura 17. Boxplot para a frequência fundamental para a variação inter-falantes.33
A partir da análise das medianas apresentadas na Figura 17 acima para a frequência
fundamental, o sujeito que mais se aproximaria do criminoso é o 10.
33 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
66
Figura 18. Boxplot da taxa de transição do segundo formante para a variação inter-falantes.34
De acordo com a análise das medianas apresentadas na Figura 18 acima para a frequência
fundamental, não há variação entre os sujeitos.
34 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
67
Figura 19. Boxplot da taxa do segundo formante para a variação inter-falantes.35
A partir da análise das medianas apresentadas na Figura 19 acima para a frequência
fundamental, parâmetro que obteve significância em relação à mudança de canal de
transmissão, todos os sujeitos apresentam semelhança para com o “criminoso”.
A partir da análise dos boxplots, o sujeito 4 foi o que mais se aproximou do “criminoso”
para os parâmetros de taxa de movimento do segundo formante, ∆C, taxa de elocução e
frequência baseline.
35 A escala mostra no eixo x os sujeitos: “criminoso”, sujeito 1, sujeito 10, sujeito 2, sujeito 3, sujeito 4, sujeito 5, sujeito 6, sujeito 7, sujeito 8 e sujeito 9.
68
Teste de Duncan
Este teste faz um agrupamento de valores semelhantes baseado nas médias de cada
parâmetro analisado. Se duas médias não são estatisticamente diferentes, elas ficarão no
mesmo grupo. Apresentaremos a seguir os resultados do teste para cada parâmetro acústico.
F0
Tabela 13. Resultado do teste de Duncan para a frequência fundamental.36
36 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.
Grupos Tratamentos Média
a suj5 158.2
ab crim 153.1
ab suj7 151.9
bc suj4 149.5
bc suj10 148.1
cd suj3 143.4
cd suj9 143.1
d suj2 141.2
d suj6 138.3
e suj1 125.5
f suj8 115.1
69
F2 Grupos Tratamentos Médias
a suj8 1625
a suj4 1614
a suj9 1598
a suj5 1594
a suj10 1573
b suj7 1517
b suj2 1510
b suj6 1492
b suj1 1486
b crim 1484
b suj3 1478
Tabela 14. Resultado do teste de Duncan para a frequência do segundo formante.37
Taxa de F2
Tabela 15. Resultado do teste de Duncan para a taxa de movimento do segundo formante.38
37 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste. 38 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.
Grupos Tratamentos Médias a crim 0.4424
a suj7 0.1109
a suj3 -0.266
a suj9 -0.2972
a suj4 -0.3509
a suj8 -0.5925
a suj5 -0.7919
a suj6 -0.8535
a suj2 -1.115
a suj1 -1.315
a suj10 -1.507
70
Taxa de transição de F2 Grupos Tratamentos Médias
a suj7 8.846
b suj4 7.768
b suj8 7.759
bc suj6 7.144
bcd suj2 6.818
cd suj3 6.357
cd suj9 6.35
cd suj10 6.329
cd suj1 6.241
cd suj5 6.026
d crim 5.932
Tabela 16. Resultado do teste de Duncan para a taxa de transição do segundo formante.39
Frequência baseline
Tabela 17. Resultado do teste de Duncan para a frequência baseline.40
39 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste. 40 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.
Grupos Tratamentos Médias a suj4 157.6
b crim 148.1
b suj5 145.3
b suj7 144.1
c suj10 139.3
c suj3 139.1
c suj2 138.5
c suj9 136.8
d suj6 130.6
e suj1 111.7
e suj8 109.1
71
Ênfase Espectral Grupos Tratamentos Médias
a suj1 27.08
b suj10 20.49
b suj8 20.38
bc suj3 18.8
cd suj6 17.5
cd suj4 17.49
de suj9 16.34
ef suj7 15.17
fg suj2 13.89
g suj5 12.72
h crim 7.008
Tabela 18. Resultado do teste de Duncan para a ênfase espectral.41
Mean V
Tabela 19. Resultado do teste de Duncan para a média das vogais.42
41 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste. 42 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.
Grupos Tratamentos Médias a suj8 129
ab suj6 110
abc suj10 107
abcd suj3 105
abcd suj2 94.5
abcd suj9 94.5
bcd suj7 93
bcd suj1 87.5
bcd suj5 86
cd crim 73
d suj4 69.5
72
Mean VV Grupos Tratamentos Médias
a suj8 322.5
ab suj9 286
ab suj3 284
ab suj10 283
ab suj5 279.5
ab suj6 279
ab suj1 274
ab suj7 250.5
ab suj2 248
ab crim 225
b suj4 218.5
Tabela 20. Resultado do teste de Duncan para a média de duração em unidade VV.43
∆C Grupos Tratamentos Médias
a suj5 168.5
a suj8 148.5
a suj7 138
a suj9 135.5
a suj1 131
a suj3 124.5
a suj10 121
a suj4 117
a suj6 108.5
a suj2 95.5
a crim 91
Tabela 21. Resultado do teste de Duncan para ∆C.44
43 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste. 44 A tabela está dividida em grupos, sujeitos e também na média obtida pelo teste.
73
De acordo com o teste de Duncan, os sujeitos 5 e 7 apresentaram um número maior de
médias semelhantes com as do “criminoso”. O primeiro sujeito, as semelhanças surgem
para os parâmetros de frequência fundamental, taxa de movimento do segundo formante,
taxa de transição do segundo formante, frequência baseline, média da duração das vogais,
taxa de elocução e ∆C. Já o sujeito 7 apresentou semelhança com o “criminoso” nos
seguintes parâmetros: frequência fundamental, frequência do segundo formante, taxa de
movimento do segundo formante, frequência baseline, média de duração das vogais, taxa
de elocução e ∆C. Em seguida, os sujeitos 1, 2, 3 e 10 apresentaram seis parâmetros
acústicos com média semelhante à do “criminoso”; logo após, os sujeitos 4 e 9, com cinco
semelhantes; e, por fim, os sujeitos 6 e 8, com apenas 3 combinações, foram os que menos
se assemelharam com o “criminoso”.
75
5 Discussão
Segundo os resultados analisados, os parâmetros acústicos que mais se mostraram robustos
em relação à mudança de canal de transmissão foram: média da duração das vogais, taxa de
elocução, ∆C e taxa de movimento de segundo formante.
Segundo a literatura, parâmetros de tempo conseguem capturar informações idiossincráticas
do falante (DELLWO, 2010) e foi isso o que obtivemos nos resultados.
Por sua vez, apesar de a literatura apontar a taxa de elocução como o critério que
apresentaria um baixo poder de discriminação inter-falantes (ERIKSSON, 2012), foi o
parâmetro acústico que não teve variação entre os sujeitos, porém, foi um dos critérios que
se manteve robusto na mudança de canal de transmissão, não tendo variação para o canal
telefônico em relação à gravação direta.
A frequência fundamental também obteve um resultado esperado ao ser afetada pelo
telefone celular. Segundo a literatura, a partir da transmissão GSM (2G), há um aumento de
até 217Hz em relação à gravação direta. Esse parâmetro não se manteve robusto com a
mudança do canal de transmissão, tendo aumento de seu valor em 4% em relação à
gravação direta, valor estatisticamente pequeno para a variação.
76
Outros parâmetros acústicos, como a frequência do segundo formante, também sofreram
influência da mudança de canal de transmissão. Segundo a literatura, as frequências
formânticas são parâmetros que devem ser evitados ao realizar uma tarefa de comparação
de voz (KÜNZEL, 2011; BYRNE & FOULKER, 2004) por serem suscetíveis à variação.
Em pesquisa de Iniciação Científica, o segundo formante foi um dos parâmetros que mais
discriminou os sujeitos, por esse motivo foi escolhido para a pesquisa de Mestrado. Nos
resultados do trabalho atual, a frequência do segundo formante teve diminuição de 7% em
seu valor, efeito curioso para a transmissão telefônica, pois, segundo a literatura (KÜNZEL,
2001; BYRNE & FOULKES, 2004), formantes mais baixos, como os três primeiros,
tendem a sofrer um fenômeno de “deslocamento para cima”, ou seja, ao passarem pelo
canal telefônico, os valores de suas frequências tendem a aumentar.
A frequência baseline, segundo Lindh & Eriksson (2007) seria mantida robusta em
diferentes tipos de canais de transmissão, incluindo canal telefônico. Porém, na atual
pesquisa, sofreu o impacto do efeito do celular, tendo diminuição de 4% em seu valor,
mesma porcentagem que a frequência fundamental.
De acordo com o teste estatístico ANOVA, por meio de comparação para determinarmos
quais parâmetros não apresentam variação inter-falantes, os que se mostraram menos
variáveis entre os sujeitos foram média de duração das vogais, taxa de elocução e ∆C.
Já os demais parâmetros apresentaram uma variância entre os sujeitos. O sujeito 4, por
exemplo, pela taxa de movimento do segundo formante, ∆C, taxa de elocução e frequência
baseline, mostrou-se o mais semelhante com o “criminoso”. Acreditamos, a partir da
77
literatura (ERIKSSON, 2012), que parâmetros de tempo, como o ∆C, e um parâmetro que
analisa a dinamicidade formântica, como a taxa de movimento para o segundo formante,
são parâmetros que conseguem capturar informações idiossincráticas dos falantes. Com
isso, o resultado para o sujeito 4 apontaria para um possível candidato ao criminoso,
seguido pelos sujeitos 5, 7, 1, 2, 3, 10 e 9.
O “criminoso” deste experimento foi escolhido pelo orientador da pesquisa e foi revelado
para a mestranda, após a análise de resultados, como sendo o sujeito 4.
No teste de Duncan, esse sujeito teve médias semelhantes às do criminoso para cinco
parâmetros acústicos: a frequência fundamental, taxa de movimento do segundo formante,
média de duração das vogais, taxa de elocução e ∆C. Isso nos mostra que os mesmos
parâmetros que capturam informações idiossincráticas de falantes, também apontaram o
sujeito 4 como sendo o “criminoso”.
Os sujeitos 5 e 7, de acordo com o mesmo teste estatístico, apresentaram um total de sete
médias de parâmetros acústicos similares aos do “criminoso”.
O que podemos concluir da pesquisa é que nenhum dos parâmetros acústicos foi definidor
para a identificação precisa do “criminoso”, objetivo principal do experimento. Porém,
conseguimos mostrar que os parâmetros acústicos que mais se mostram robustos pela
literatura internacional para a identificação inter-falante, também apresentou valor
significativo para o trabalho, tais parâmetros, como ∆C e a dinamicidade dos formantes,
foram essenciais para mostrar traços idiossincráticos dos indivíduos.
78
Também analisamos a robustez dos nove parâmetros acústicos analisados na mudança de
canal de transmissão da fala. Com resultados sólidos a partir do teste ANOVA, a média da
duração das vogais, a taxa de elocução e a taxa de movimento do segundo formante foram
os que não apresentaram variação do canal de gravação direta para o telefone celular.
A taxa de movimento do segundo formante foi o parâmetro acústico que apresentou
melhores resultados na pesquisa. Sugerimos a utilização dele para as pesquisas em fonética
forense que caminham com a mesma metodologia que essa. É um parâmetro que será usado
e melhor explorado em futuras pesquisas.
Assim como para Künzel (2001), os nossos resultados para as demais frequências de
formantes, incluindo a frequência fundamental, apresentaram grande variação para o
canal de telefone celular. Assim como o autor, sugerimos que evitem usar as frequências
dos formantes como formantes discriminadores para a comparação inter-falante no
contexto telefônico.
79
6 Referências bibliográficas
ARANTES, P. Implementação em Praat de algoritmos para descrição de correlatos acústicos da prosódia da fala. Anais da II Jornada de Descrição do Português, Cuiabá, out. 24-26, p. 32-38, 2011. BALDWIN, J. The forensic application of phonetics, Police Review, 18 (10): 1609. 1977. BALDWIN, J. & FRENCH, P. Forensic Phonetics, London: Pinter. 1990.
BARBOSA, P. A.; MADUREIRA, S. Manual de Fonética Acústica Experimental. Manuscrito. 2013. p. 550.
BOLT, R. H.; COOPER, F. S.; GREEN, D. M.; HAMLET, S. L.; MCKNIGHT, J. G.; PICKETT, J. M.; TOSI, O.; UNDERWOOD, B. D.; HOGAN, D. L. On the theory and practice of voice identification. National Academy of Sciences: Washington DC. 1979.
BRAUN, A. Fundamental frequency - how speaker specific is it? In: BRAUN, A. & KÖSTER, J. (eds.). Studies in Forensic Phonetics (pp. 9–23). Trier: WVT Wissenschaftlicher Verlag. 1995
BYRNE, C. & FOULKES, F. The “Mobile Phone Effect” on vowel formants. International Journal of Speech, Language and the Law, v. 11, n. 1, p. 83-102, 2004.
CONSTANTINI, A. C. Caracterização prosódica de sujeitos de diferentes variedades de fala do português brasileiro em diferentes relações sinal-ruído. Tese (Doutorado em Linguística). Campinas, SP. 2014
DELLWO, V. & KOREMAN. How speaker idiosyncratic is measurable speech rhythm? 2008
DELLWO, V. The automatic extraction of time-domain based speaker idiosyncratic features. Abstracts, IAFPA, Department of Phonetics, Trier University, Germany, 2010.
DODDINGTON, G. R. Speaker recognition: identifying people by their voices. Proc. IEEE, v. 73, p. 1651-64, 1985.
ERIKSSON, A. Tutorial on forensic speech science. Part I: Forensic phonetics.
80
Proceedings of the 9th European conference on speech communication and technology. Lisboa. 2005.
ERIKSSON, A. Aural/Acoustic vs. Automatic methods in forensic phonetic case work. In: NEUSTEIN, A. & PATIL, H. A. (eds.). Forensic speaker recognition: law enforcement and counter-terrorism. New York : Springer-Verlag New York Inc., 2012. p. 41-69.
FANT, G. Acoustic theory of speech production. Haia, Holanda: Mouton. 1960.
FRENCH, P. An overview of forensic phonetics with particular reference to speaker identification. Forensic Linguistics, v. 1, n. 2, p. 169-81, 1994.
HOLLIEN, H. Peculiar case of “voiceprints. JASA, v. 56, p. 210-3, 1974.
HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002.
HORII, Y. Some statistical characteristics of voice fundamental frequency. Journal of Speech In: ERIKSSON, A. Aural/Acoustic vs. Automatic methods in forensic phonetic casework. 2012
JESSEN, M. Forensic phonetics. Language and Linguistics Compass, v. 2, n. 4, p. 671-711, 2008.
KERSTA, L. G. Voiceprint Identification, Nature, 196: 1253 – 1257. 1962.
KOENIG, B. E.; RITENOUR, D. S.; KOHUS, B. A. & KELLY, A. S. Reply to “Some fundamental considerations regarding voice identification”. JASA, 82:688. 1987.
KÜNZEL, H. Beware of the “telephone effec”: the influence of telephone transmission on the measurement of formant frequencies. Forensic Linguistics, v. 8, p. 80-99, 2001.
KÜNZEL, H. Effects of voice disguise on speaking fundamental frequency. Forensic Linguistics, 7, 149–179. 2000.
LINDH, J. & ERIKSSON, A. Robustness of long time measures of fundamental frequency. Proceedings of Interspeech, p. 2025–8, 2007.
MCDOUGAL, K. Speaker-specific formant dynamics: an experiment on australian English /ai/. 2004.
81
NASH, E. Testimony in People (California) vs. Lawton, Gardener and Jackson, Superior Court, Riverside County, Case No. Cr. 9138 in: HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002.
NOLAN, F. Speaker Recognition and Forensic Phonetics. In: HARDCASTLE, W. & LAVER, J. (eds.). A handbook of phonetic science. Oxford: Blackwell, 1997.
NOLAN, F. The Phonetic Bases of Speaker Recognition. Cambridge: Cambridge University Press. 1983.
NOLAN, F. The limitations of auditory-phonetic speaker identification, in: KNIFFKA, H. (ed.), Texte zu Theorie und Praxis Forensicher Linguistik, Tübingen: Max Niemeyer. 1990.
ÖHMAN, L.; ERIKSSON, A.; GRANHAG, P. A. Overhearing the Planning of A Crime: Do Adults Outperform Children As Earwitnesses? 2010.
ROSE, P. Forensic-Fonetic parameters. New York: Taylor and Francis, 2002.
SASLOVE, H. & YARMEY, A. Long-term auditory memory: Speaker identification. in: HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002. p. 18.
SHIPP, T.; DOHERTY, E.T.; HOLLIEN, H. Some Fundamental Considerations Regarding Voice Identification (Letter- to-the-Editor), J. Acoust. Soc. Am., 82: 687-688. 1987.
SMRKOVSKI, L. Testimony in Crown vs Medvedew (1976), Provincial Judges Court (Criminal Division) Brandon, Manitoba, Canada. in: HOLLIEN, H. Forensic voice identification. London: Academic Press. 2002.
STEVENS, K.N.; CARBONELL, J. R.; WOODS B. Speaker Authetication and Identification: A comparison of Spectrographic and Auditory Presentations of Speech Material., J. Acoust. Soc. Am., 44: 1596-1607. 1968.
TRAÜNMULLER, H. & ERIKSSON, A. Acoustic effects of variation in vocal effort by men, women, and children. Journal of the Acoustical Society of America, v. 107, n. 6, p. 3438-51, 2000.
YOUNG, M.A. & CAMPBELL, R.A. Effects of Context on Talker Identification, J. Acoust. Soc. Am., 42: 1250-1254. 1967.