análise acústica da fala

195
Cap. 1 - Introdução ao Estudo da Acústica da Fala O Que é a Fala? Raymond H. Stetson, um pioneiro no estudo da fala, escreveu que “speech is movement made audible” (Stetson, 1928) [fala é movimento tornado audível]. Os movimentos dos órgãos da fala - estruturas como a língua, os lábios, a mandíbula, o véu palatino e as pregas vocais - resultam em padrões sonoros que são percebidos pelo ouvinte. Entretanto, a fala é mais do que sons audíveis; senão não nos importaríamos em distinguir os sons da fala de outros processos corporais, como bater palmas ou respirar. A fala ganha sua importância única como o meio principal pelo qual a língua é expressa em todas culturas humanas, exceto para as pessoas surdas. A fala é uma modalidade da linguagem. A comunicação da fala é comum a quase todos os humanos em qualquer cultura, em qualquer parte da terra – exceto os surdos. O produto final da fala é um sinal acústico. Esse sinal representa a mensagem comunicativa do falante. Sob circunstâncias comuns, o sinal acaba rapidamente à medida que as vibrações sonoras são amortecidas pelo mundo físico, mas as técnicas modernas de gravação nos permitem preservar os sinais da fala, e essa capacidade abre novos horizontes para o estudo da fala. O famoso lingüista, Charles Hockett, definiu o que ele considerou ser características de desenvolvimento da comunicação. Estas são resumidas na Tabela 1-1 e, tomadas juntas, elas caracterização a característica única da linguagem humana. Até onde sabemos, nenhuma outra espécie tem um sistema de comunicação com todos esses atributos. Considerando essas características individualmente, nós ganhamos uma apreciação da fala como uma faculdade humana e um meio de comunicação. Várias das características desenvolvidas pertencem diretamente e unicamente à fala como uma modalidade da linguagem, por exemplo, os itens 1, 2, 3, 6 e 9 na Tabela 1-1. Combinando essas características, podemos definir a fala como um canal auditório- vocal que tem uma transmissão que desaparece rapidamente; é especializada para gerar significado com símbolos sonoros arbitrários; e é composta de unidades discretas ou elementos que podem ser formados em um número infinito de mensagens. Essa definição se refere a ambos os limites e a força da fala. O fato de que a fala desaparece rapidamente apresenta desafios para sua análise. Felizmente, equipamentos modernos tornam possível armazenar e analisar o sinal seqüencial da fala. Com essa capacidade, é possível conduzir estudos da forma na qual os sons da fala se relacionam com a linguagem. No laboratório científico, a fala tem três grandes áreas de estudo: a área fisiológica (ou fonética fisiológica), a área acústica (ou fonética acústica), e a área perceptual (tipicamente chamada fonética perceptiva). Uma compreensão unificada da fala requer o estudo de cada uma dessas áreas na relação com as outras. A discussão neste livro se preocupará principalmente com a área acústica, mas referências necessariamente serão feitas às outras duas áreas. De importância específica é a necessidade de entender como a análise acústica da fala pode ajudar o estudo dos fenômenos fisiológicos, por um lado, e os fenômenos perceptuais, por outro. Devido ao fato de o sinal acústico servir de intermediário entre a produção a percepção da fala, a análise acústica ajuda na compreensão tanto da produção quanto da percepção da fala. De diversas importantes maneiras, o sinal acústico ajuda a dar uma compreensão unificada da fala. TABELA 1-1 As Características de Desenvolvimento da Comunicação (as quais caracterizam todas línguas humanas, mas não se aplicam em seu todo aos sistemas de comunicação de outras espécies) Característica Definição 1. Canal auditório-vocal O som é transmitido da boca ao ouvido.

Upload: mariana-hungria

Post on 16-Sep-2015

95 views

Category:

Documents


3 download

DESCRIPTION

Kent & Read - Análise Acústica da Fala

TRANSCRIPT

  • Cap. 1 - Introduo ao Estudo da Acstica da Fala

    O Que a Fala? Raymond H. Stetson, um pioneiro no estudo da fala, escreveu que speech is movement made audible (Stetson, 1928) [fala movimento tornado audvel]. Os movimentos dos rgos da fala - estruturas como a lngua, os lbios, a mandbula, o vu palatino e as pregas vocais - resultam em padres sonoros que so percebidos pelo ouvinte. Entretanto, a fala mais do que sons audveis; seno no nos importaramos em distinguir os sons da fala de outros processos corporais, como bater palmas ou respirar. A fala ganha sua importncia nica como o meio principal pelo qual a lngua expressa em todas culturas humanas, exceto para as pessoas surdas. A fala uma modalidade da linguagem. A comunicao da fala comum a quase todos os humanos em qualquer cultura, em qualquer parte da terra exceto os surdos. O produto final da fala um sinal acstico. Esse sinal representa a mensagem comunicativa do falante. Sob circunstncias comuns, o sinal acaba rapidamente medida que as vibraes sonoras so amortecidas pelo mundo fsico, mas as tcnicas modernas de gravao nos permitem preservar os sinais da fala, e essa capacidade abre novos horizontes para o estudo da fala. O famoso lingista, Charles Hockett, definiu o que ele considerou ser caractersticas de desenvolvimento da comunicao. Estas so resumidas na Tabela 1-1 e, tomadas juntas, elas caracterizao a caracterstica nica da linguagem humana. At onde sabemos, nenhuma outra espcie tem um sistema de comunicao com todos esses atributos. Considerando essas caractersticas individualmente, ns ganhamos uma apreciao da fala como uma faculdade humana e um meio de comunicao. Vrias das caractersticas desenvolvidas pertencem diretamente e unicamente fala como uma modalidade da linguagem, por exemplo, os itens 1, 2, 3, 6 e 9 na Tabela 1-1. Combinando essas caractersticas, podemos definir a fala como um canal auditrio-vocal que tem uma transmisso que desaparece rapidamente; especializada para gerar significado com smbolos sonoros arbitrrios; e composta de unidades discretas ou elementos que podem ser formados em um nmero infinito de mensagens. Essa definio se refere a ambos os limites e a fora da fala. O fato de que a fala desaparece rapidamente apresenta desafios para sua anlise. Felizmente, equipamentos modernos tornam possvel armazenar e analisar o sinal seqencial da fala. Com essa capacidade, possvel conduzir estudos da forma na qual os sons da fala se relacionam com a linguagem. No laboratrio cientfico, a fala tem trs grandes reas de estudo: a rea fisiolgica (ou fontica fisiolgica), a rea acstica (ou fontica acstica), e a rea perceptual (tipicamente chamada fontica perceptiva). Uma compreenso unificada da fala requer o estudo de cada uma dessas reas na relao com as outras. A discusso neste livro se preocupar principalmente com a rea acstica, mas referncias necessariamente sero feitas s outras duas reas. De importncia especfica a necessidade de entender como a anlise acstica da fala pode ajudar o estudo dos fenmenos fisiolgicos, por um lado, e os fenmenos perceptuais, por outro. Devido ao fato de o sinal acstico servir de intermedirio entre a produo a percepo da fala, a anlise acstica ajuda na compreenso tanto da produo quanto da percepo da fala. De diversas importantes maneiras, o sinal acstico ajuda a dar uma compreenso unificada da fala. TABELA 1-1 As Caractersticas de Desenvolvimento da Comunicao (as quais caracterizam todas lnguas humanas, mas no se aplicam em seu todo aos sistemas de comunicao de outras espcies)

    Caracterstica Definio

    1. Canal auditrio-vocal O som transmitido da boca ao ouvido.

  • 2. Transmisso ampla e recepo direcional Um sinal auditrio pode ser detectado por qualquer receptor dentro da faixa de audio, e os ouvidos do receptor so usados para localizar o sinal.

    3. Apagamento rpido Em oposio a alguns sinais visuais e olfativos, os sinais auditrios so transitrios.

    4. Intermutabilidade Usurios competentes de uma lngua podem produzir um sinal que eles possam compreender.

    5. Retorno total Todos os sinais produzidos podem ser refletidos de volta.

    6. Especializao A nica funo das formas de onda acsticas da fala produzir significado.

    7. Semanticidade Um sinal produz significado atravs de sua associao com objetos e eventos do meio.

    8. Arbitrariedade O sinal da fala em si no tem relao alguma com o objeto ou evento ao qual se associa.

    9. Discretude A fala composta de um pequeno conjunto de unidades (ou elementos) acusticamente distintas.

    10. Deslocamento Os sinais da fala podem ser usados para se referir a objetos ou eventos que so removidos do presente tanto no espao quanto no tempo.

    11. Produtividade A fala permite a expresso de uma variedade infinita de enunciados significativos como resultado da combinao de elementos discretos em novas sentenas.

    12. Tradicional A estrutura e o uso da lngua transmisso passada de uma gerao a outra atravs de pedagogia ou aprendizado.

    13. Dualidade de formao de padres Os elementos sonoros especficos da linguagem no tem significado intrnseco, mas se combinam a partir de estruturas (ex.: palavras, sintagmas) que possuem significado.

    A rea Fisiolgica da Fala A rea fisiolgica identificada fisicamente com o aparato da fala, constitudo de trs subsistemas anatmicos maiores: o respiratrio (incluindo os pulmes, a parede do peito e o diafragma), o fonatrio (laringe ou caixa de voz) e o articulatrio (lngua, lbios, mandbula e vu palatino). A Figura 1-1 um diagrama simplificado desses subsistemas. Essa diviso tripartida justificada tanto no campo anatmico quanto no fisiolgico, mas deve-se enfatizar que os trs subsistemas funcionam, juntos na fala, bem e so freqentemente altamente interativos. A articulao da fala um fenmeno complexo do movimento, cuja compreenso foi retardada por muitos obstculos, sendo um desses a dificuldade de se observar as estruturas de interesse, escondidas como so nas cavidades da boca, pescoo e trax. Os prximos trs pargrafos apresentam um sumrio altamente simplificado desses subsistemas. O leitor que no conhece a produo da fala pode achar til ler esse material antes de prosseguir para o resto do livro.

    Figura 1-1. O sistema de produo da fala, dividido em trs subsistemas

    primrios: respiratrio, larngeo e articulatrio. Os diferentes sistemas so desenhados em escalas diferentes e com orientaes distintas (ex.: o sistema articulatrio aumentado relativo aos outros dois e mostrado em uma vista

  • lateral em vez de frontal). De The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com

    permisso de Delmar, uma diviso da Thomson Learning.

    O Subsistema Respiratrio O subsistema respiratrio consiste da traquia, dos pulmes, da caixa torcica, e de vrios msculos (Figuras 1-1 e 1-2). Alm de fornecer ventilao para suprir a vida, esse sistema produz a maioria da energia aerodinmica da fala. Os parmetros aerodinmicos bsicos so a resistncia, a presso, o fluxo e o volume do ar. O volume uma medida da quantidade de ar e medida com unidades como litros (l) ou mililitros (ml). O fluxo a taxa de mudana do volume e expresso em unidades como litros/minuto ou mililitros/milissegundos (ml/ms), que expressa uma mudana em volume por unidade de tempo. A presso fora por unidade de rea e normalmente expressa em Pascais, uma unidade que substituiu unidades anteriores como dines por centmetro quadrado. Nos estudos da fala, a presso freqentemente gravada com uma unidade diferente, como centmetros de gua (cm H20) ou milmetros de mercrio (mm Hg). A razo para isso o fato de manmetros serem uma forma conveniente de medir presso como o deslocamento de uma coluna de lquido. A resistncia uma varivel que relaciona fluxo com presso, de acordo com uma lei importante chamada lei de Ohm. Essa lei pode ser expressa nas seguintes formas alternativas:

    Figura 1-2. Os subsistemas respiratrio e larngeo da produo da fala. Esses dois subsistemas combinados so chamados de trato respiratrio inferior. A laringe est situada logo acima

    da traquia e abaixo da faringe. A traquia se bifurca em brnquios que chegam aos pulmes. De The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com

    permisso de Delmar, uma diviso da Thomson Learning. Presso = Fluxo x Resistncia Fluxo = Presso / Resistncia Resistncia = Presso / Fluxo Note, por exemplo, que o fluxo diretamente proporcional presso, mas inversamente proporcional resistncia. Se a resistncia for mantida constante, um aumento na presso do ar resultar em um aumento no fluxo do ar. Se a presso do ar mantida constante, um aumento na resistncia causar um decrscimo no fluxo de ar.

    A fala produzida com uma presso pulmonar relativamente constante de cerca de 6-10 cm (centmetros) de gua ou cerca de 1 kPa (kPa = quilopascal ou 1.000 pascals). Para se ter idia de quanta presso isso seja, afunde um canudo a uma profundidade de 6 cm em um copo de gua filtrada (Figura 1-3). Depois, sopre o canudo at que bolhas comecem a se formar no fim do canudo imerso na gua. Essa condio corresponde a uma presso de 6 cm de gua. H apenas uma pequena perda de presso do ar nos minsculos sacos de ar dos pulmes at a laringe no topo da traquia, de forma que a presso de ar subglotal (a presso logo abaixo das pregas vocais) seja aproximadamente igual presso nos pulmes. Obviamente, se no houvesse obstrues na laringe ou no caminho superior do ar no sistema articulatrio, a presso do ar originada pelo sistema respiratrio seria imediatamente liberada para a atmosfera atravs do trato vocal. A fala produzida pela valvulao ou regulagem das presses e fluxos do ar gerados pelo subsistema respiratrio. Grosso modo, o subsistema respiratrio uma bomba de ar, fornecendo energia aerodinmica para os subsistemas articulatrios e larngeos. O padro bsico de suporte respiratrio para fala o fato de o falante inspirar ar pelos ajustes musculares que aumentam o volume do sistema respiratrio. O ar ento liberado dos pulmes atravs de combinaes de dilataes passivas e atividade

  • muscular, dependendo do volume de ar atual nos pulmes e das necessidades aerodinmicas.

    Figura 1-3. Simples demostrao da presso do ar necessria para a produo da fala.

    Coloque um canudo em um copo dgua a uma profundidade de 6 cm. Depois, sopre-o at que bolhas comecem a subir atravs da gua. Essa condio corresponde a uma presso de gua

    de 6 cm, que adequada para os propsitos da fala em uma conversao.

    O ponto essencial que a funo respiratria para a fala entendida em termos de eventos aerodinmicos volumes de ar, presso e fluxos. Os eventos mecnicos da fala, pois, comeam assim que o falante usa o sistema respiratrio para gerar a energia aerodinmica. Na maioria das lnguas, a fala produzida no ar expirado, significando que a produo da fala deve ser interrompida sempre que um falante toma a respirao. O padro tpico da fala uma inspirao rpida seguida por um expirao muito mais lenta na qual a fala produzida. Durante a respirao de descanso, as fases inspiratrias e expiratrias de um ciclo de respirao so quase iguais em durao, mas, para a fala, a fase expiratria prolongada relativa fase inspiratria. Essas diferenas no padro inspiratrio e expiratrio podem ser representadas como mostrado abaixo, onde insp = inspirao, exp = expirao, respirao de descanso mostrada esquerda da linha vertical dupla. As linhas com travesso representam a fase expiratria prolongada da respirao da fala.

    insp | exp | insp | exp | insp | exp | | insp | exp _______ | insp | exp __ _______ |

    A necessidade de interromper a fala para o propsito de inspirao significa que a fala produzida em grupos de respirao, que so grupos de palavras ou slabas produzidos em uma s respirao. Em geral, as unidades produzidas em um grupo respiratrio tem uma coerncia total, como o encaixamento em um padro entonacional (um padro de tom sobe e desce).

    O Subsistema Larngeo

    Como mostra a figura 1-2, a laringe est situada no topo da traquia e abre-se na faringe acima. A laringe consiste de um nmero de cartilagens e msculos. De importncia fundamental so as pregas vocais, pequenos rgos musculares que se fecham (se aproximam) para fechar a corrente de ar larngea ou se abrem (se separam) para abrir essa corrente de ar. Um desenho de uma seo coronal da laringe mostrado na Figura 1-4. As pregas vocais verdadeiras so as estruturas vibrantes de interesse aqui. Elas tem uma estrutura complexa em camadas mostrada na ampliao da Figura 1-4. A abertura entre as pregas vocais chamada de glote (Figura 1-5), e o termo glotal tem sido usado como um termo geral para a funo larngea, especialmente a funo das pregas vocais. Se as pregas vocais esto firmemente fechadas, o ar impedido de escapar dos pulmes

  • inflados. As pregas vocais esto tipicamente fortemente fechadas durante tarefas intensas como levantamento de pesos, evacuao e nascimento de bebs, a fim de tornar o subsistema respiratrio rgido como fonte para se empurrar.

    Figura 1-4. Seo coronal da laringe, mostrando as pregas falsas e as verdadeiras. O alargamento mostra a estrutura em camadas da ltima, que so a fonte de energia vibratria para a voz.

    De The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com permisso de Delmar, uma diviso da Thomson Learning. .

    O fato de pessoas geralmente grunhirem durante o levantamento de um objeto pesado evidncia de que as pregas vocais esto fechadas. A ocorrncia de grunhidos tambm nos indica que o som vozeado produzido com as pregas vocais fechadas. O som resultado da vibrao das pregas, que estalam alternadamente juntas e separadas, colidindo uma com a outra de forma basicamente peridica. A taxa de vibrao das pregas vocais determina essencialmente a percepo da tom vocal (vocal pitch) de um falante. Um falante com uma voz bastante aguda tem uma freqncia relativamente alta de vibrao das pregas vocais e um falante com uma voz bem grave tem uma freqncia relativamente baixa de vibrao das pregas vocais.

    Figura 1-5. Vista superior da laringe para mostrar as pregas vocais e a glote. As pregas so observadas da perspectiva mostrada em A, e a vista alargada das pregas est em B. De

    The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com permisso de Delmar, uma diviso da Thomson Learning. .

    A laringe importante para a fala no s porque uma fonte de energia de vozeamento, mas

    tambm por valvular o ar que se move para dentro ou fora dos pulmes. As funes de valvulao so descritas em termos de aduo e abduo. Quando as cordas vocais esto fortemente fechadas, nenhum movimento de ar ocorre. Esse fechamento firme importante para certas tarefas fsicas enrgicas, como descrito anteriormente, mas tambm usado para interromper o fluxo de ar para alguns sons da fala. Aduo com menos resistncia para o ar permite que as pregas vocais vibrem. Um alto grau de abduo permite que o ar se mova facilmente dos pulmes ao caminho areo superior. Sons desvozeados, como o [s] em see, requerem que a presso do ar seja armazenada dentro da boca como uma fonte para a energia do rudo. A abduo das pregas vocal satisfaz essa condio por permitir que a presso na boca se aproxime da presso nos pulmes. Por fim, uma abduo parcial das pregas vocais usada para gerar energia de rudo desvozeado, como no sussurro.

    Apesar da extrema importncia da laringe, ela contribui relativamente pouco para a diferenciao fontica dos sons da fala. Certamente, a atividade larngea diferencia sons vozeados de desvozeados, como os sons iniciais no par mnimo bill-pill. Mas a funo larngea bastante similar em agrupamentos maiores de sons. Por exemplo, a vibrao das pregas vogais difere pouco entre vogais, as quais ganham sua distintividade atravs do formato do sistema articulatrio acima da laringe. Por essa razo, a descrio fontica da fala baseada amplamente nas caractersticas articulatrias supraglotais.

    O Subsistema Articulatrio Este sistema se estende da laringe at os lbios ou nariz ou seja, as duas aberturas atravs das quais o ar e a energia podem passar (Figura 1-6). A transmisso de energia atravs dos lbios envolve a cavidade oral como um conduito, e a transmisso de energia atravs do nariz envolve a cavidade nasal como um conduito. Os articuladores so estruturas mveis e incluem a lngua, os lbios, a mandbula, o vu palatino (ou palato mole), como ilustrado na Figura 1-6. Os movimentos

  • dessas estruturas do formato ao trato vocal. O formato do trato determina suas propriedades de ressonncia. Quando o falante produz o som voclico da palavra he, o processo fsico pode ser entendido como uma modelagem do trato vocal para produzir um padro especfico de freqncias de ressonncia. Nesse processo, a energia das pregas vocais vibrando ativa o sistema de ressonncia do trato vocal. Mudar o trato vocal muda suas freqncias de ressonncia. O sistema articulatrio tambm pode ser usado para obstruir o fluxo do ar (como no caso das consoantes da palavra pop) e para gerar rudo (como no caso das consoantes da palavra seethe).

    Figura 1-6. Desenho de uma seo sagital mdia do trato vocal. Notem as cavidades principais,

    articuladores e estruturas relacionadas. De The speech sciences. A volume in the speech sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com

    permisso de Delmar, uma diviso da Thomson Learning.

    A articulao da fala tipicamente descrita em termos de posies e contatos articulatrios. Por exemplo, um foneticista pode descrever a consoante [s] em see como uma fricativa lnguo-alveolar. Lnguo-alveolar denota o lugar da constrio articulatria. Lnguo significa lngua e alveolar indica ranhuras na parte ssea do cu da boca. Fricativa indica uma consoante produzida com uma energia significativa de rudo. O foneticista usualmente descreve as vogais em relao posio da lngua e configurao dos lbios. A vogal em see chamada de alta anterior no-arredondada, pois a lngua est relativamente alta na parte frontal da boca e os lbios no esto arredondados. Essas descries articulatrias so uma forma conveniente de caracterizar as diferenas entre os sons da fala. Leitores que no estejam familiarizados com descries fonticas devem ler o Apndice A antes de ir para os outros captulos deste livro. Este apndice tambm lista os smbolos fonticos que sero usados na discusso dos sons da fala.

    A rea Acstica da Fala

    A rea acstica da fala o foco principal deste livro, mas difcil entender a acstica da fala independentemente da fisiologia e da percepo da fala. O sinal acstico da fala o evento fsico que transmitido nas telecomunicaes ou gravado em fitas magnticas, CDs e outras mdias. Assim, quando transmitimos ou armazenamos a fala, quase sempre o fazemos com base no sinal acstico. Este sinal contm a mensagem lingstica da fala. O ouvinte pode desvendar essa mensagem atravs da audio. Isso pode parecer uma afirmao bvia. H outra forma de entendermos a fala? Para responder essa questo, imagine uma pessoa que nasceu surda e cega. Esta pessoa no pode nem ouvir a fala nem ver sua articulao. Mesmo assim pessoas com essas desabilidades juntas podem aprender a produzir e a perceber a fala. Uma tcnica usada pelos surdos e cegos chamada de Tadoma. Os usurios deste mtodo colocam a mo no rosto do falante de forma a sentir as aes da produo da fala a vibrao das pregas vocais, fluxos de ar escapando do nariz ou boca, movimentos da mandbula ou lbios, e assim por diante. Usurios experientes de Tadoma podem manter conversaes. Em outras palavras, a comunicao da fala pode ser feita sem a percepo de um sinal acstico. Para esses raros indivduos, a fala apenas movimento, no movimentos que se tornam audveis.

    Entretanto, para a grande maioria, a fala audvel e necessariamente assim. Poucos conseguem entender um falante na televiso quando o som desligado. Podemos adivinhar algumas palavras observando a informao visual (leitura de lbios ou leitura da fala), mas o entendimento na melhor das hipteses difcil e incerto. Por outro lado, se o vdeo gradualmente tornado preto enquanto o sinal de udio mantido, continuamos a entender a mensagem falada, usualmente com pouca dificuldade.

    O objetivo principal deste livro descrever como os sons da fala trafegam no sinal acstico. Este objetivo envolver (a) um relato de como os eventos fisiolgicos da produo da fala resultam em vrios tipos de som, (b) a descrio dos sons da fala em termos de variveis acsticas, (c) a

  • descrio de tcnicas para o estudo da acstica da fala, e (d) uma considerao de como as pistas acsticas so usadas na percepo da fala. Um entendimento completo da acstica da fala requer que os parmetros acsticos sejam relacionados aos padres fisiolgicos de produo da fala e s decises perceptuais baseadas no sinal acstico.

    Leitores que no tenham pelo menos uma bagagem introdutria em acstica devem ler o Apndice B antes de prosseguir neste livro.

    A rea Perceptual da Fala

    O estudo da percepo da fala em grande parte uma tentativa de identificar as pistas acsticas que so usadas por um falante para chegar a decises fonticas. Por exemplo, quais so as pistas acsticas que permitem a um falante decidir que uma consoante [b] foi produzida na palavra bye? A compreenso da percepo da fala avanou muito com os aperfeioamentos na anlise acstica da fala e na sntese de fala por mquinas. A habilidade de analisar o sinal acstico da fala e a habilidade de produzir rplicas sintetizadas da fala tm sido complementares na compreenso moderna de como os humanos percebem a fala. Embora existam ainda muitas questes a serem respondidas sobre percepo da fala, as pistas acsticas bsicas so suficientemente entendidas, a ponto de sintetizadores de fala estarem se tornando altamente inteligveis e, s vezes, bastante naturais. Um grande progresso tambm tem sido alcanado no reconhecimento automtico da fala. Ao aprendermos como os humanos percebem a fala, somos mais capazes de desenvolver mquinas com capacidade para derivar decises lingsticas do sinal acstico.

    As Trs Formas do Sinal Acstico da Fala

    Progressos no estudo da fala e o desenvolvimento de tecnologias de fala como sntese e reconhecimento automtico de fala tm por base as capacidades de gravar o sinal de fala e poder tocar o sinal armazenado para anlise. As anlises acsticas modernas so altamente dependentes do computador digital, tanto que o processamento digital da fala est no cerne da anlise acstica contempornea da fala. Portanto, essencial entender como o sinal acstico adquirido no computador. Essa questo ser tomada em detalhes no Captulo 3, mas alguma bagagem informacional necessria.

    A Onda Acstica

    conveniente considerar o sinal de fala como tendo trs formas intercambiveis. A primeira dessas a onda acstica com origem no deslocamento de ar, ou o sinal que pode ser por ns ouvido ou pelo microfone sentido. Uma onda acstica uma onda longitudinal, significando que as partculas se movem na mesma direo da propagao da onda. Nossos ouvidos e a maioria dos microfones respondem ao som como variaes de presso na atmosfera. Essas variaes tomam a forma de condensaes e rarefaes. A Figura 1-7 mostra um padro de condensaes e rarefaes para uma senide simples. O ouvido converte as variaes da presso do ar em impulsos neurais que so enviados ao crebro para interpretao. Microfones convertem as variaes da presso do ar em sinais eltricos. Eles so um tipo de transdutor. Um transdutor um elemento que converte uma forma de energia em outra. Um microfone transforma a energia acstica em eltrica.

    Tecnicamente, o sinal acstico com origem no deslocamento de ar chamado de sinal acstico propagado ou radiado. Esse sinal se propaga ou se erradia no espao depois que emerge do trato vocal de um falante. Por se enfraquecer rapidamente, esse sinal no uma forma conveniente de fala para anlise. A anlise acstica da fala requer formas armazenadas da fala ou

  • rplicas do padro sonoro original, os quais possam ser examinados detalhadamente. Figura 1.7. Onda de condensaes e rarefaes produzidas por um diapaso vibrando, o qual produz uma senide ou tom puro. De The speech sciences. A volume in the speech

    sciences (1st ed.), por Kent, direitos autorais 1998. Reimpresso com permisso de Delmar, uma diviso da Thomson Learning.

    O Sinal Anlogo Armazenado A segunda forma de fala o sinal anlogo armazenado. Um exemplo comum um gravador de fitas cassete. Um sinal anlogo varia continuamente suas propriedades bsicas. O sinal anlogo da fala varia continuamente sua presso e suas propriedades temporais. Essa variao contnua evidente na representao tpica da forma de onda da fala (Figura 1-8), que mostra variaes de amplitude sobre o tempo. Ambas as dimenses temporais e de presso podem ser divididas em muitos pontos infinitos por causa de sua variao contnua. Fitas magnticas armazenam o sinal de fala como um campo magntico, que, como o sinal acstico com origem no deslocamento de ar, varia continuamente suas propriedades. A vantagem do sinal anlogo armazenado em um gravador de fitas magntico poder toc-lo para ouvir ou analisar. O playback realizado atravs da converso da energia magntica em eltrica, a qual, em contrapartida, convertida para energia acstica por um alto-falante ou um fone-de-ouvido. Cada uma dessas formas de energia preserva a natureza contnua ou anloga do sinal.

    Figura 1-8. A forma de onda da fala. O eixo vertical representa a amplitude de vibrao e o

    eixo horizontal, o tempo. A forma de onda apresentada de um som voclico.

    O Sinal Digital Armazenado A terceira forma outra forma armazenada, o sinal digital (ou digitalizado). Esta forma pode ser armazenada em um computador digital ou em fitas (ou discos) magnticas digitais. Digital significa numrico. Os computadores digitais armazenam informao como nmeros. Para armazenar um sinal da fala em um computador digital, necessrio converter o sinal anlogo (contnuo) para uma srie de nmeros. Isso feito pelo processo chamado digitalizao. Um conversor analgico-digital (A/D) um processo ou aparato que transforma o sinal anlogo em digital. Inversamente, um conversor digital-analgico (D/A) transforma o sinal digital em analgico. Por exemplo, uma converso D/A necessria para tocar o sinal armazenado digitalmente atravs de fones-de-ouvido ou em alto-falantes. As siglas ADC e DAC s vezes so usadas para esses dois tipos de converso. A representao digital da fala muito importante porque permite a anlise da fala, empregando a fora computacional dos computadores digitais modernos. At mesmo os computadores pessoais so capazes de algumas anlises sofisticadas da fala.

  • As trs formas de fala - o sinal acstico com origem no deslocamento de ar, o sinal anlogo armazenado e o sinal digital armazenado so intercambiveis no sentido de que uma forma pode ser convertida na outra e vice-versa. Por exemplo, o sinal acstico com origem no deslocamento de ar pode ser gravado por um microfone e, ento, armazenado em forma digital para ser salvo em um computador, e, por fim, convertido de volta para ativar um alto-falante e ser ouvido de novo como um sinal acstico com origem no deslocamento de ar. Tanto a armazenagem digital quanto a anloga so virtualmente permanentes, de forma que um sinal de fala possa ser mantido indefinidamente. Com as tcnicas modernas de processamento digital, no necessrio mais usar aparatos de armazenamento analgicos como gravadores de fitas de udio. O computador digital pode armazenar e analisar o sinal e, atravs de converso D/A, toc-lo do jeito que quisermos. Entretanto, uma vez que o sinal de fala armazenado, importante reconhecer algumas propriedades bsicas da fala para termos certeza de que o sinal armazenado realmente contm as caractersticas do sinal acstico com origem no deslocamento de ar. Informaes valiosas podem ser perdidas nas operaes de transduo e armazenamento. Infelizmente, muitas pessoas j descobriram que sinais supostamente gravados com segurana estavam distorcidos no playback. Tanto para a armazenagem quanto para a anlise da fala, importante conhecer algumas caractersticas bsicas do sinal em questo. Esta questo explicada a seguir.

    Consideraes das Propriedades Acsticas da Fala A energia da fala se estende sobre uma largura de banda de mais de 10kHz. A figura 1-9 mostra o espectro de longo termo da fala, ou seja, a distribuio da energia acstica ao longo das freqncias para uma amostra longa da fala, como vrios segundos ou at minutos. Embora a maioria da energia de longo termo esteja nas freqncias mais baixas, a energia se espalha bastante sobre a faixa de freqncias. De fato, a energia na fala pode se estender alm de 10kHz, mas para a maioria dos propsitos suficiente considerar uma faixa de freqncias bem mais baixa. A largura de banda para a transmisso telefnica apenas cerca de 500-3500 Hz, e um sinal de fala facilmente inteligvel pode ser transmitido com uma largura de banda total de menos de 5kHz. No entanto, sempre que a fala gravada ou analisada, importante saber como as limitaes de freqncia na gravao ou na anlise podem afetar os resultados. A resposta de freqncia do equipamento de gravao ou de anlise devem ser conhecidas antes de anlise quantitativas serem realizadas. Nunca deve-se simplesmente assumir que uma gravao em fita seja fiel na reproduo de um som. Os gravadores intitulados como de alta fidelidade no o so necessariamente. Para os propsitos deste tutorial, ser assumido que uma faixa de freqncias de pelo menos 5 kHz necessria at mesmo para objetivos modestos na anlise de fala. Entretanto, uma faixa de 10 kHz muito mais apropriada para o estudo de vrios sons produzidos por diferentes falantes, incluindo homens, mulheres e crianas.

    Figura 1-9. O espectro mdio de longo termo da fala. A energia se espalha sobre uma faixa de

    Freqncias, mas a regio de maior energia est nas freqncias mais baixas.

  • A extenso dinmica da fala - sua extenso de energia - cerca de 60 dB (decibis). Isso significa que os sons mais fracos so cerca de 60 dB menos intensos do que os sons mais fortes. As vogais so os sons mais intensos e as fricativas que comeam as palavras do ingls fin e thin so tipicamente as mais fracas. Quando um medidor VU (unidades de volume, na sigla em ingls) em um gravador de fitas ou outro instrumento usado para monitorar a intensidade de pico de uma amostra de fala, ele responde principalmente energia das vogais. Se os instrumentos para analisar e gravar no estiverem ajustados adequadamente, a extenso dinmica de gravao ou anlise pode no combinar com a extenso dinmica dos sons de interesse. Como regra geral, a extenso dinmica para um dado falante pode ser estimada dos sons da palavra thaw, que consiste de uma fricativa fraca e uma vogal intensa. Se ambos sons estiverem satisfatoriamente representados na gravao ou anlise, os procedimentos esto aproximadamente adequados. Ser assumido neste tutorial que uma extenso dinmica de cerca de 60 dB apropriada para o armazenamento e a anlise da fala. Dentro desta extenso, usualmente desejvel que gravaes sejam sensveis a variaes de 1 dB. O ouvido humano responde a variaes em torno desta magnitude e, por essa razo, uma sensitividade de 1 dB requerida. O tempo tambm uma importante dimenso a se considerar na gravao e na anlise da fala. A resoluo temporal mnima para propsitos gerais de anlise cerca de 10 ms. Esta a durao mais curta de importantes eventos da fala, como uma exploso transiente associada com a soltura de consoantes oclusivas (ex.: os sons iniciais nas palavras pat, tap e cat). As anlise que no puderem alcanar essa resoluo podem perder informao significativa sobre a estrutura temporal da fala. Finalmente, deve-se lembrar que tanto a freqncia quanto a energia dos sons da fala podem mudar rapidamente. Instantes de mudana rpida podem ser especialmente essenciais na informao transportada pelo sinal de fala e, portanto, as operaes de armazenagem e anlise devem ser capazes de acompanhar essas mudanas rpidas com pouca ou nenhuma distoro. Com esses pensamentos em mente, podemos ver que o estudo da acstica da fala envolve a anlise de um sinal cuja energia (a) distribuda sobre uma faixa de cerca de 10 kHz para a maioria dos propsitos, (b) possui uma extenso dinmica de cerca de 60 dB, e (c) possui variaes significativas no tempo que ocorrem em 10 ms ou menos. Lembremos tambm que o sinal de fala perdido rapidamente assim que sua energia acstica se dissipa na atmosfera. Podemos repetir o que foi dito, mas nunca recuperar a produo original.

    Acstica da Fala como Intermediria Entre a Expresso e a Compreenso da Linguagem Falada

    O sinal acstico da fala primeiramente o produto das operaes da expresso da linguagem e a entrada para o processo da compreenso da linguagem. Assim, a representao acstica da fala um referente bsico para se entender como os humanos usam a linguagem. De certa forma, os processos de produo e compreenso da linguagem podem ser relacionados a padres acsticos, e o estudo dessas relaes uma razo principal para a aplicao da acstica a campos como lingstica, psicolingstica, patologia de fala-linguagem, e engenharia da comunicao. A Figura 1-10 um diagrama simplificado das operaes da expresso e da compreenso da linguagem. Em vrios lugares deste livro, examinaremos a possibilidade de que vrias estruturas da linguagem so refletidas no sinal acstico. A codificao dos vrios tipos de informao lingstica, emocional e pessoal no sinal acstico da fala convida para uma anlise desse sinal como um meio bsico para entender a comunicao humana.

    Teoria, Instrumentos e Medidas

  • Este livro se dedica a questes relacionadas teoria acstica de produo da fala, aos instrumentos laboratoriais ligados a anlises acsticas, e a medies do sinal acstico da fala. Estes trs - teoria, instrumentos e medidas - esto inter-relacionados. O uso de ferramentas e medidas influenciado pela teoria acstica da fala. O teste da teoria depende da disponibilidade de instrumentos e medidas laboratoriais. A aplicao de medidas requer que o sinal seja armazenado e apropriadamente visualizado por instrumentos laboratoriais. O uso adequado da anlise acstica requer um entendimento de como a fala produzida (a teoria acstica de produo da fala), um conhecimento de instrumentos laboratoriais disponveis para anlises acsticas de sinais como a fala, e uma familiaridade com vrias medidas que podem ser feitas no sinal acstico da fala.

    Figura 1.10. Diagrama das operaes principais na expresso e compresso da linguagem. O sinal acstico da fala intermedirio entre essas duas facetas da linguagem falada.

    O Captulo 2 apresenta os conceitos bsicos da teoria acstica de produo da fala. Saber o que a fala - como gerada como um sinal acstico - ajuda no desenvolvimento e no uso de instrumentos de anlise e na seleo de medidas para caracterizar o sinal. A teoria acstica de produo da fala sumarizada no Captulo 2 um primeiro passo no entendimento da anlise acstica da fala. O Captulo 3 considera os instrumentos usados para as anlises do sinal acstico da fala. As anlises contemporneas da fala dependem fortemente do computador digital. Portanto, para entender a anlise da fala, necessita-se um conhecimento do processamento digital de sinais. O Captulo 3 descreve os procedimentos pelos quais o sinal acstico, como o obtido por um microfone, convertido para uma forma que pode ser armazenada em um computador digital. O Captulo 3 tambm descreve as anlise acsticas modernas usadas no estudo da fala. Essas anlises so tipicamente disponveis em sistemas que rodam em computadores digitais ou que so fornecidos por sistemas especializados baseados em microprocessadores. Em ambos casos, o processamento digital de sinais est envolvido. Os Captulos 4 e 5 lidam com as caractersticas acsticas de vogais e consoantes, respectivamente. Esses dois captulos definem as medidas acsticas que so tipicamente usadas na fontica acstica e tambm apresentam dados em algumas das medidas mais comumente usadas dessas. Embora a nfase seja no ingls americano, uma tentativa feita para mostrar como essas medidas se aplicam a outras lnguas tambm. Entretanto, deve-se notar que os dados acsticos no so abundantes para as lnguas do mundo, e muitas dessas foram raramente estudadas por este mtodo. O Captulo 6 considera os correlatos acsticos das caractersticas do falante como idade e gnero. Devido ao fato de os padres acsticos da fala variarem consideravelmente entre falantes, importante entender as fontes dessas variaes. O Captulo 7 discute as caractersticas suprasegmentais da fala, incluindo entonao, padres acentuais, e atributos emocionais. A fala mais do que os constituintes fonticos (segmentais) discutidos nos Captulos 4 e 5, e o Captulo 7 apresenta informaes sobre as propriedades suprasegmentais pelas quais a fala ganha sua plena riqueza e fora comunicativa. O Captulo 8 discute a sntese de fala, ou a gerao de fala por mquinas. Os apndices e o glossrio podem ser teis para uma referncia ocasional, de modo que o leitor possa querer dar uma olhada nesses materiais para se tornar familiar com os contedos antes de continuar para o prximo captulo.

    RESUMO

    A fala o canal vocal/aural da comunicao humana. Os sons da fala so produzidos pelas aes dos trs subsistemas principais (respiratrio, larngeo e articulatrio). O sinal acstico da fala de interesse especfico porque ele intervem entre a produo e a percepo da fala. Ou seja, o sinal acstico primeiramente a sada do sistema de produo e a entrada para o processo de percepo. Devido ao fato de o sinal acstico da fala codificar informaes lingsticas, emocionais e pessoais no ato da comunicao humana, um objetivo importante desenvolver meios efetivos

  • para sua anlise.

  • CAPTULO 2: TEORIA ACSTICA DA PRODUO DA FALA

    A Teoria Linear Fonte-Filtro da Produo da Fala O objetivo principal deste captulo resumir uma teoria conhecida na literatura fontica como teoria linear fonte-filtro da produo da fala. O livro clssico de Gunnar Fant, Acoustic Theory of Speech Production de Fant (1970; publicado primeiramente em 1960), uma referncia bsica, bem como o artigo de Stevens e House (1961). Essa teoria importante para se entender as relaes acstico-articulatrias, bem como para fornecer fundamentos para muitos procedimentos necessrios a uma anlise acstica da fala e para mtodos populares de sntese da fala. Somente linhas gerais da teoria sero apresentadas aqui. O leitor que precisar de uma descrio mais detalhada deve ler o livro de Fant ou o livro mais recente de Stevens (1998). Os livros de Fant e Stevens so fontes essenciais para as bases tericas da produo da fala, mas podem ser desafiadores para leitores que no tenham conhecimento de matemtica e fsica. (Tambm recomendado Stevens, 1989, e Pickett, 1999). Neste captulo, a teoria acstica da fala discutida em termos das seguintes, principais, classes de sons: vogais, fricativas, nasais, oclusivas, africadas, lquidas, ditongos e semivogais. As trs primeiras as vogais, fricativas e nasais sero discutidas mais detalhadamente, pois ilustram princpios que podem ser aplicados a outras classes de sons. Por exemplo, a semivogal /w/, como em way, pode ser entendida como uma modificao da teoria da produo de vogais, e africadas como os sons finais e iniciais da palavra judge podem ser entendidos como uma combinao de uma oclusiva (silncio) e uma fricativa. Portanto, vogais, fricativas e nasais formam a base essencial da terica acstica para a fala neste captulo. Alguns diagramas simples ajudaro a identificar as principais caractersticas de interesse. Usualmente, as vogais so sons produzidos com vibrao larngea (de modo que o vozeamento a fonte de energia) e com o trato vocal relativamente aberto, modificado para produzir padres especficos de ressonncias (de modo que o trato vocal inteiro funciona como um filtro, ou um sistema de transmisso selecionador de freqncias). Um diagrama geral para as vogais dado na Figura 2-1a, que um tubo bastante simples, com um lado na laringe e o outro aberto na atmosfera. Modificaes deste diagrama sero usadas para modelar as lquidas e as semivogais, que so similares s vogais em suas propriedades acsticas. As fricativas so produzidas com uma constrio estreita em algum ponto do trato vocal, como retratado na Figura 2-1b. O ar que passa por essa constrio gera um rudo turbulento, de modo que o rudo a fonte de energia para a produo do som. A fonte de rudo filtrada (modificada) pelo trato vocal, especialmente pela parte anterior constrio. O modelo da Figura 2-1b ser modificado para as consoantes oclusivas e africadas. Ambas envolvem um breve fechamento do trato vocal e a gerao de rudo similar das fricativas. Como podemos ver na figura 2-1c, os sons nasais so produzidos com a velofaringe aberta, de modo que o som radiado atravs da cavidade nasal. Se a boca estiver fechada, o som resultante uma consoante nasal, como m e n na palavra man. Se a boca estiver aberta, o som resultante uma vogal nasalizada. As nasais, como as vogais, tm, tipicamente, o vozeamento como fonte de energia. No entanto, as nasais diferem das vogais orais, pois a filtragem da fonte de energia determinada tanto pela passagem oral quanto pela nasal. TEORIA ACSTICA PARA VOGAIS RESSONNCIA DE TUBOS COMO UM MODELO DE PRODUO DA FALA Para introduzir a teoria acstica da produo da fala, comearemos com um aparato que no se parece muito com o trato vocal humano. Como mostrado na figura 2-2, este aparato consiste simplesmente de um vibrador (uma membrana elstica com um corte estreito no meio) acoplado a um tubo reto. O vibrador esticado para se encaixar em um lado do tubo e o outro lado deixado aberto. O

  • vibrador uma fonte de energia acstica que se propaga atravs do tubo. O tubo um ressoador. Na realidade, um exemplo de uma classe muito importante de ressoadores tubos fechados em um lado e abertos no outro. Tal tubo possui um nmero infinito de ressonncias, localizadas em freqncias dadas por uma relao que se pode denominar mltiplo mpar do quarto de comprimento de onda: Fn = (2n-1) c/4l, onde n um inteiro, c a velocidade do som (cerca de 35.000 cm/s), e l a extenso do tubo A frmula mostrada acima nos d as freqncias de ressonncia do tubo. Parafraseando a frmula, diz-se que um tubo ressoar com amplitude mxima um som cujo comprimento de onda for quatro vezes maior que o comprimento do tubo. De fato, tais ressonncias ocorrem em mltiplos e por isso que a expresso (2n-1) usada para gerar o conjunto de nmeros mpares. As ressonncias ocorrem em c/4l, 3c/4l, 5c/4l, 7c/4l, e assim por diante. Vamos assumir que o tubo tenha um comprimento (l) de 17,5 cm. Ento a primeira ressonncia ter uma freqncia dada por: F1 = c/4l = 35.000 cm/s / (4 x 17,5 cm) = 500 1/s, ou 500 Hz A segunda ressonncia ter uma freqncia calculada como: F2 = 3c/4l = 105.000 cm/s / (4 x 17,5 cm) = 1500 1/s, ou 1500 Hz Ressonncias mais altas podem ser obtidas pela continuao dos clculos para diferentes solues de (2n-1). Dessa forma obteremos os resultados nas seguintes freqncias de ressonncia: 500, 1500, 2500, 3500, 4500 Hz (e assim por diante, mas isso o bastante para os nossos propsitos). Nota-se que as freqncias de ressonncia apresentam entre si intervalos de 1000 Hz.

    Figura 2-1: Modelos do trato vocal para trs classes de sons: (a) vogais, (b) fricativas, e (c) nasais. Note a constrio parcial em (b) e a total em (c).

  • Figura 2-2: Um modelo simples de produo de vogais: tubo reto de seo transversal uniforme fechado em um lado (por um membrana vibradora que simula as pregas vocais) e aberto no outro (correspondendo abertura bucal).

    Para tornar este exemplo relevante produo da fala humana, precisamos notar duas coisas: (1) o trato vocal mdio masculino tem um comprimento de cerca de 17,5 cm da glote at os lbios, e (2) o trato vocal tem aproximadamente as mesmas freqncias de ressonncia de um tubo reto de mesmo comprimento e seo transversal. Em outras palavras, o tubo simples mostrado na figura 2.2 um modelo satisfatrio de produo de um tipo especfico de vogal da fala humana. A vogal em questo produzida com a lngua e outros articuladores posicionados de forma a criar uma seo transversal uniforme ao longo do comprimento do trato vocal. Esta vogal representada na figura 2-3. Como podemos inferir, a membrana vibradora do nosso modelo do tubo anloga s pregais vocais em vibrao. E, claro, o tubo anlogo ao trato vocal, ao menos para a vogal especfica mostrada na figura 2-3. De uma certa forma, o aparato composto de membrana elstica e tubo um gerador de som de uma vogal especfica ([]). Ele tem uma fonte de energia (a membrana vibradora) e um ressoador (o tubo). Se mudarmos a extenso do tubo ressoador, conseqentemente, mudamos as freqncias de ressonncia, como indicado na frmula do mltiplo mpar do quarto de comprimento de onda. Se o comprimento do tubo for dobrado de 17,5 cm para 35 cm, as freqncias de ressonncia assumiro valores mais baixos, i.e., 250, 750, 1250, e 1750 para as primeiras (ou mais baixas) ressonncias. Se o comprimento do tubo for reduzido pela metade, a fim de fazer um novo tubo de apenas 8,75 cm, ento as quatro ressonncias mais baixas sero 1000, 3000, 5000 e 7000 Hz. Esses resultados explicam porque os tubos mais longos em um rgo tm os tons mais baixos, enquanto os mais curtos tm os tons mais altos. De modo similar, temos uma explicao para as mudanas nas freqncias de ressonncia do trato vocal na mudana de criana para adulto. Uma criana tem aproximadamente metade do comprimento do trato vocal de um adulto e tem freqncias de ressonncia muito mais altas. Na realidade, as freqncias de ressonncia para as vogais de uma criana, correspondentes ao formato de aparelho fonador da figura 2-3, so 1000, 3000, 5000 e 7000 Hz, ou seja, os valores calculados para um tubo que tem 8,75 cm de comprimento. Obviamente, ento, o comprimento do trato vocal de um falante determinar a localizao relativa das freqncias de ressonncia. Quanto maior o trato vocal, mais baixas as freqncias de ressonncia e menor a sua separao em freqncia. Por outro lado, quanto menor o trato vocal, mais altas as freqncias de ressonncia e maior a sua separao em freqncia. Vimos que o comprimento do trato vocal determina o espaamento mdio das freqncias de ressonncia. Isso significa que as freqncias de ressonncia variam com as caractersticas do falante que determinam o comprimento do trato vocal. Os dois principais fatores so idade e sexo. Na maior parte deste captulo, os exemplos pertencem fala de adultos masculinos, e deve-se lembrar que ajustes so necessrios para se lidar com padres de fala de mulheres e crianas. Amostras de dados acsticos de falantes de ambos os sexos e vrias idades esto includos em vrios captulos deste livro.

    Figura 2-3: Configurao do trato vocal para uma vogal que corresponde, grosso modo, ao tubo idealizado na figura 2-3. A

  • seo transversal essencialmente a mesma da glote aos lbios. ESTENDENDO O MODELO DE RESSONNCIA DE TUBOS

    Nossos resultados at agora pertencem a somente uma vogal - a mdia central em que a seo transversal a mesma ao longo do comprimento do trato vocal. Quais so as freqncias de ressonncia para outras vogais? A resposta pode ser determinada experimentalmente pela descoberta das freqncias de ressonncia para vrios formatos de tubos que tenham o mesmo comprimento. Como notamos acima, as freqncias de ressonncia no so afetadas substancialmente se o tubo for reto ou curvado. (As diferenas que ocorrem foram descritas por Sondhi, 1986.) Mas mais fcil desenhar um tubo reto. Sendo assim, tubos retos de diferentes formatos serviro como modelos para esta discusso. Alguns exemplos de formatos diferentes de tubos so mostrados na figura 2-4. Cada um dos formatos corresponde grosseiramente ao formato do trato vocal de uma vogal em ingls. A figura 2-4a corresponde vogal /i/ (como em he), a figura 2-4b vogal /u/ (como em who), e a figura 2-4c vogal /a/ (como em ha). Tambm so mostrados na figura 2-4 espectros para cada um dos modelos simples de vogais. Os picos espectrais so as freqncias de ressonncia dos tubos. Lembremos que, em mdia, as freqncias de ressonncia so separadas por cerca de 1000 Hz, mas que as freqncias de ressonncia individuais variam em torno das regies de freqncia da vogal mdia-central. Por exemplo, comparada primeira ressonncia da vogal mdia-central, a primeira ressonncia para /i/ tem uma freqncia mais baixa, mas a primeira ressonncia de /a/ tem uma freqncia mais alta.

    Figura 2-4: Representao para trs vogais de uma funo de rea idealizada (AF), espectro (S) e espectrograma (SG). O lado fechado da funo de rea representa a glote, e o lado aberto, os lbios. Os formantes so representados nos espectros por picos e nos espectrogramas por faixas horizontais. SUMRIO DA RESSONNCIA DE TUBOS Est na hora de revermos alguns dos principais pontos abordados at aqui: 1. Um tubo uniforme que fechado em um lado e aberto no outro tem freqncias de ressonncia determinadas pelo comprimento do tubo (assumindo condies atmosfricas constantes). As freqncias de ressonncia so relativamente mais baixas para tubos longos; e relativamente mais altas para tubos curtos. 2. Para tubos no-uniformes (i.e., tubos em que a seo transversal no constante ao longo do tubo), as freqncias individuais de ressonncia variam em torno dos valores determinados para um tubo uniforme. 3. O tubo uniforme fechado em um lado e aberto no outro um modelo acstico para uma vogal chamada de mdia-central.

  • 4. Para que o modelo de tubos possa representar outras vogais, a seo transversal deve ser variada em funo do comprimento do tubo, de forma a se aproximar do formato do trato vocal para uma vogal especfica. Neste momento podemos questionar se tubos simples como os exibidos na figura 2-4 realmente soam como vogais produzidas por humanos. Na realidade, eles soam de fato como vogais humanas, desde que seja aplicada uma fonte apropriada de energia vibratria. (Lembremos que os ressoadores no geram energia sonora, e sim respondem energia que recebida por eles). Alm disso, todas as outras vogais em ingls podem ser modeladas, ao menos grosseiramente, por modificaes apropriadas do formato de um tubo reto. Qual a relao entre o ressoador (p.ex. um tubo) e a fonte de energia (p.ex. uma membrana elstica vibradora)? De maneira geral, a fonte de energia e o ressoador so independentes, exceto em condies especiais. Isto um fato importante, e explica porque um falante pode produzir uma vogal [i] de tom baixo ou de tom alto sem perder a sua distintividade fontica. O tom vocal (vocal pitch) determinado quase exclusivamente pelas freqncias vibratrias das pregas vocais. Quanto mais baixa a taxa de vibrao, mais baixo o tom. Portanto, uma voz de baixo tem uma freqncia de vibrao mais baixa do que uma voz de soprano. Mas a freqncia de vibrao das pregas vocais no afeta as propriedades do ressoador. As freqncias de ressonncia de um ressoador de tubos so determinadas quase que exclusivamente por apenas dois fatores: o comprimento do tubo e sua seo transversal em funo de seu comprimento. Mudar a freqncia da fonte de energia no muda as freqncias de ressonncia do tubo que recebe a energia. TEORIA FONTE-FILTRO DE PRODUO DE VOGAIS

    Os conceitos introduzidos at agora podem ser resumidos na chamada teoria fonte-filtro (figura 2-5). Esta teoria, como aplicada na produo de vogais, afirma que a energia de sada (que foi chamada em uma seo anterior de sinal da fala radiado) um produto da fonte de energia e do ressoador (ou filtro). Essa teoria poderia ser chamada de uma maneira mais precisa de teoria linear fonte-filtro, por ser baseada em um modelo matemtico linear. A questo da linearidade abre as portas para poderosas, apesar de relativamente simples, operaes matemticas. No caso mais simples, a linearidade obtida quando a funo entrada-sada de um sistema descrita por uma linha reta. Mais um adjetivo poderia ser includo para descrever a teoria como teoria linear fonte-filtro invariante temporal. Invarincia temporal significa que se a entrada do sistema avanada (ou atrasada) no tempo, a sada similarmente avanada (ou atrasada). As questes de linearidade e invarincia temporal so comumente feitas em muitas aplicaes da fsica e da engenharia, especialmente porque elas tornam o sistema em considerao matematicamente tratvel.

    conveniente pensarmos na fonte de energia na forma de um espectro. As pregas vocais em vibrao produzem um espectro sonoro como o da figura 2-6. A energia se distribui em freqncias discretas determinadas pela taxa de vibrao. O resultado chamado de espectro de linha, ou um espectro em que a distribuio de energia toma a forma de linhas. O espectro de energia de vozeamento pode ser idealizado como uma linha espectral em que as linhas individuais recaem em mltiplos inteiros da freqncia vibratria fundamental (que sempre mais baixa). Por exemplo, a freqncia fundamental mdia da voz masculina cerca de 120 Hz, e a energia deste espectro da fonte recair em freqncias de 120, 240, 360, 480 Hz, e assim por diante. Mas um homem pode produzir freqncias muito mais baixas ou mais altas que este valor mdio. Se a freqncia fundamental masculina aumenta para 300 Hz, a energia no espectro da fonte recair em freqncias de 300, 600, 900, 1200 Hz, e assim por diante. Os mesmos princpios se aplicam para as vozes de mulheres e crianas. A freqncia fundamental mdia feminina em torno de 230 Hz, de modo que a energia do espectro idealizado recair em freqncias de 230, 460, 690 Hz, e assim por diante. Essas mudanas na freqncia de vibrao para um dado falante so apenas mudanas na fonte e no tem necessariamente efeito algum no ressoador ou filtro. Analogamente, a amplitude da vibrao das pregas vocais pode ser mudada. Um falante pode produzir uma voz suave ou

  • alta. Tais mudanas s afetam o ressoador no sentido em que determinam o nvel de energia que o ressoador receber. A relativa independncia da fonte e filtro torna possvel a produo de fala inteligvel com uma variedade de fontes de energia, incluindo vozes baixas e altas, sussurradas, soprosas, e outros tipos de variaes fonatrias.

    Figura 2-5: Diagrama da teoria fonte-filtro para vogais. O espectro da fonte larngea, U(s), filtrado pela funo de transferncia do trato vocal, T(s), e a caracterstica de radiao, R(s), para resultar no espectro de sada, P(s). Matematicamente, P(s) um co-produto de U(s), T(s) e R(s), onde s = freqncia.

    Figura 2-6: Espectro larngeo idealizado em que a energia localizada em freqncias discretas, as quais so mltiplos inteiros da freqncia fundamental. As amplitudes dos harmnicos sucessivos decrescem com o aumento da freqncia.

    Para estendermos o modelo fonte-filtro para a produo de todas as vogais (e eventualmente para outros sons da fala tambm), necessrio fazermos algumas mudanas na terminologia. Primeiramente, tipos diferentes de fontes esto envolvidos na produo da fala, mas neste momento estamos preocupados apenas com um tipo de fonte a vibrao das pregas vocais. Chamaremos esta fonte de espectro larngeo (domnio das freqncias) ou forma de onda larngea (domnio temporal). O espectro larngeo, como discutido acima, pode ser idealizado como um espectro de linha. caracterstico do espectro larngeo que a energia em seus componentes harmnicos (cada linha um harmnico da freqncia fundamental) decaia com o aumento da freqncia. Este decaimento na energia dos harmnicos mais altos

  • mostrado na figura 2-6 e significa que a maioria da energia na fala vozeada est nas freqncias mais baixas. A taxa de decaimento de energia de 12 dB por oitava, ou uma queda de energia de 12 dB a cada duplicao da freqncia. Podemos dizer, ento, que o espectro larngeo pode ser visto como um espectro de linha no qual a energia dos harmnicos decai com a freqncia em uma taxa de 12 dB/oitava. (Este valor no dever ser tomado como uma constante absoluta para todos os falantes, pois ela pode diferir entre homens e mulheres e entre falantes com qualidades diferentes de voz). A prxima mudana terminolgica se aplica ao filtro. Em vez de nos referirmos a ressonncias, vamos nos referir a formantes. Um formante um modo natural de vibrao (ressonncia) do trato vocal. Teoreticamente h um nmero infinito de formantes, mas para propsitos prticos s utilizaremos os trs ou quatro primeiros formantes mais baixos. Os formantes so identificados pelo nmero do formante, por exemplo, F1, F2, F3, e F4, numerados em sucesso a partir das freqncias mais baixas dos formantes. Cada formante pode ser descrito por duas caractersticas: freqncia central (chamada comumente de a freqncia do formante) e largura de banda (largura de banda do formante, que uma medida da largura da energia no domnio da freqncia, ou uma medida da taxa de amortecimento no domnio temporal). O termo formante usado diferentemente por autores distintos. Alguns se referem a formante como um pico no espectro acstico. Neste uso, um formante uma caracterstica acstica que pode ou no ser evidncia de uma ressonncia do trato vocal. Outros usam o termo formante para designar uma ressonncia, mesmo que no sejam encontradas evidncias empricas para ela. Neste livro, formante ser usado como sinnimo de ressonncia do trato vocal. Um formante freqentemente associado com um pico no espectro acstico, mas no o necessariamente. Um dos objetivos da anlise acstica estimar a estrutura formntica de um segmento sonoro. Em conjunto, os formantes constituem a funo de transferncia do trato vocal. Uma funo de transferncia a relao entrada-sada e uma forma de descrever a operao de um processo como a filtragem. Por estar cada formante associado a um pico na funo de transferncia, cada formante potencialmente associado a um pico no espectro de sada (ou espectro radiado). Segue-se, pois, que no haver picos no espectro radiado, em uma dada regio formntica, se a fonte larngea no fornecer energia na regio de freqncia correspondente posio do formante. Os formantes no fornecem energia; eles apenas modificam a energia fornecida por uma fonte. Os formantes so determinados pelo formato e comprimento do trato vocal, mas eles se tornam fisicamente evidentes apenas quando so ativados por uma fonte de som como o vozeamento ou o sussurro. O termo final a ser introduzido caracterstica de radiao. Este termo se refere a um efeito de filtragem que surge quando sons escapam pela boca para se radiar no espao. Um engenheiro acstico dir que o acoplamento acstico da boca com a atmosfera como um defletor1 infinito. Ou seja, o som radiado se espalha por todas direes quando ele sai da boca. Este tipo de caracterstica de radiao age como um filtro passa-alta (reduzindo mais as energias em freqncias baixas do que em altas). Uma aproximao razovel a esse efeito assumir que o som de sada aumenta em frequncia em uma taxa de 6db/oitava. Por ser uma caracterstica constante, ela se combina s vezes com a queda de 12 dB/oitava no espectro larngeo para dar uma resultante de -6dB/oitava. (A caracterstica de -12dB/oitava do espectro larngeo e a caracterstica de +6dB/oitava da radiao freqentemente so tomadas como constantes na teoria acstica da produo da fala). A teoria fonte-filtro de produo de vogais resumida na figura 2-5 e na seguinte equao: P(f) = U(f) T(f) R(f). P(f) o espectro da presso sonora radiada. P representa a presso e (f) indica simplesmente uma funo de freqncia. Lembremos, como vimos anteriormente, que a maioria dos microfones e tambm o ouvido humano respondem a variaes de presso. Portanto, necessrio descrever o sinal de sada da fala como uma forma de onda da presso sonora (no domnio temporal) ou um espectro da 1 Defletor, de acordo com Novo Dicionrio Aurlio, significa que, ou aquilo que faz defletir. Defletir, por sua vez : [Do

    lat. deflectere] V.t.i. 1. Mudar a direo de movimento para um dos lados. 2. Mudar a posio ou o movimento natural; desviar.

  • presso sonora (domnio das freqncias). Os trs termos no lado direito da equao se referem, respectivamente, ao espectro da fonte larngea, funo de transferncia do trato vocal, e caracterstica de radiao. O termo U se refere velocidade volumtrica e usado por que as pregas vocais agem como uma fonte de pulsos de ar. A velocidade volumtrica anloga corrente de um circuito eltrico. T representa a funo de transferncia, e R denota a caracterstica de radiao. Colocando a equao em palavras, podemos dizer que a forma de onda da presso sonora radiada o produto do espectro larngeo, a funo de transferncia do trato vocal, e a caracterstica de radiao. Para o presente momento, consideraremos os termos U(f) e R(f) como constantes quando vogais distintas so produzidas. Ou seja, as vogais diferentes sero descritas como variaes na funo de transferncia, T(f), e no espectro radiado, P(f). Pelo fato de T(f) consistir dos formantes das vogais, a discusso se reduz aos padres formnticos das diferentes vogais. necessria aqui uma breve nota histrica. J demos crdito ao trabalho altamente influente de Gunnar Fant, especialmente seu livro Acoustic Theory of Speech Production (1970). Outra importante contribuio ao entendimento da acstica das vogais foi um livro publicado em 1946. Este livro, The vowel: Its Nature and Strutucture, de Chiba & Kajima (1946), infelizmente no foi distribudo largamente, devido a complicaes associadas com a guerra. Embora seja difcil de achar exemplares do livro, sua influncia deve ser lembrada no atual entendimento da acstica da fala. RELAES ACSTICO-ARTICULATRIAS PARA VOGAIS

    Na figura 2-7 so apresentados raios X do trato vocal. , na realidade, o trato vocal de um proeminente foneticista chamado Peter Ladefoged. Este tipo de imagem chamado de raios X lateral, porque representa uma projeo de raios X do objeto a ser estudado de um lado ao outro. Estes raios X do trato vocal correspondem anatomicamente seo sagital mdia, ou um plano que vai da parte anterior da cabea at a parte posterior, cortando-a nas metades direita e esquerda. O trato vocal inteiro, estendendo-se da laringe at os lbios, a cavidade de ressonncia da produo de vogais. Esta cavidade pode ser descrita em termos de sua seo transversal em funo do comprimento. evidente que os raios X da figura 2-7 fornecem apenas informao parcial, porque o trato vocal visto em apenas duas dimenses. Uma determinao precisa da rea ao longo do trato vocal requer informao sobre a terceira dimenso, a largura da cavidade ao longo de seu comprimento. Entretanto, por motivos de simplificao, como a afirmao de o trato vocal ser essencialmente circular ao longo de sua extenso, podemos estimar a rea do trato vocal para qualquer distncia ao longo de seu comprimento. O resultado dessa estimativa esquematizado na figura 2-8a. O que fizemos foi determinar o formato tridimensional do trato vocal. Isto equivalente a criar um molde para preencher o trato vocal com um material semilquido que gradualmente se endurece, a fim de reter o formato do trato. Como notado previamente neste captulo, o fato de o trato vocal ser curvado no de grande significncia para sua funo como um ressoador acstico. Portanto, podemos tornar reto o modelo curvado do trato vocal da figura 2-8a para produzir a verso da figura 2-8b.

  • Figura 2-7: Raios X laterais (vista lateral) do trato vocal. (Cortesia de Peter Ladefoged do Laboratrio de Fontica da Universidade da Califrnia em Los Angeles.)

    Os trabalhos descritos no pargrafo precedente so necessrios para se obter um modelo acstico acurado da cavidade ressoadora do trato vocal humano. Mas, a ttulo de discusso, suficiente representar o formato do trato vocal como um grfico de sua seo transversal em funo de seu comprimento. Tal grfico exibido para quatro vogais na figura 2-9. Na confeco desses grficos negligenciamos a terceira dimenso. Claramente, as configuraes do trato vocal para essas vogais tm algumas regies relativamente constritas e outras regies que so bem expandidas. Por exemplo, a vogal /i/ (como em beam) tem uma regio constrita perto da abertura labial, mas uma regio expandida perto da laringe e da faringe. Em contraste, a vogal /A/ (como em bomb) tem uma regio constrita na poro farngea do modelo, mas uma regio expandida perto da abertura labial. possvel calcular as freqncias de ressonncia de tais configuraes usando frmulas da teoria acstica. Quando tais clculos so realizados, os resultados geralmente se comparam aos formantes medidos das vogais humanas, sobre os quais esses modelos so baseados. A semelhana entre as freqncias dos formantes dos modelos das vogais com as freqncias das vogais humanas sendo modeladas evidncia da validade dessa abordagem.

    Figura 2-8: Derivao da funo de rea do trato vocal. (a) Determina-se o dimetro da seo transversal a fim de estimar a

  • variao da largura ao longo do trato vocal. O tubo curvado (b) pode ser tornado reto para formar o tubo em (c).

    Figura 2-9: Configuraes do trato vocal e funes de rea (idealizadas) correspondentes para as quatro vogais /i/ de beam, /u/ de boom, /A/ de bomb, e /Q/ de bam. G = glote e L = lbios.

    Figura 2-10: Espetros para as quatro vogais da figura 2-9. Os quatro picos em cada espectro refletem os formantes. Portanto, a localizao da freqncia em cada pico uma estimativa das freqncias dos formantes. O eixo da freqncia representa uma faixa de 0-4 kHz.

    As mesmas quatro vogais so mostradas novamente na figura 2-10, mas desta vez com espectros

    acsticos. Os picos espectrais representam os formantes voclicos. Notemos que as vogais altas /i/ e /u/ tm em comum uma freqncia relativamente baixa do primeiro formante (F1), enquanto que as vogais baixas /a/ e /Q/ tm em comum uma freqncia relativamente alta deste formante. Ou seja, a freqncia do primeiro formante varia inversamente com a altura da lngua da vogal. Em seguida, notemos que as vogais posteriores /u/ e /a/ compartilham uma freqncia relativamente baixa do segundo formante (F2), enquanto que as vogais anteriores /i/ e /Q/ tm uma freqncia relativamente alta para este formante. Ou seja, a freqncia do segundo formante varia com a dimenso antero-posterior da articulao das vogais. Este resultado aponta para uma correspondncia acstico-articulatria: as freqncias dos dois primeiros formantes, F1 e F2, podem ser relacionadas a dimenses da articulao das vogais. A freqncia de F1 inversamente relacionada altura da lngua (ex., as vogais altas tm uma freqncia de F1 baixa), e a freqncia de F2 relacionada ao avano da lngua (ex., a freqncia de F2 aumenta quando a posio da lngua se move para frente). Todas as vogais do ingls americano podem ser plotadas, como mostrado na figura 2-11, em funo dos valores de F1 e F2. Notemos que, neste grfico de F1-F2, os eixos podem ser considerados como tendo dois rtulos. O eixo F1 tem um rtulo articulatrio de altura da lngua, e o eixo F2 tem um rtulo articulatrio de avano da lngua (ou posio anterior-posterior). Esses rtulos acstico-articulatrios pareados so consistentes com a discusso do pargrafo precedente. Em geral, a freqncia de F1 varia com a altura da lngua e a freqncia de F2 varia com o avano da lngua. Essa correspondncia acstico-articulatria torna possvel fazer inferncias articulatrias de dados acsticos a

  • partir das freqncias dos formantes das vogais. Quando a freqncia de F1 diminui, usualmente seguro concluir que a lngua se moveu para uma posio mais alta. Quando a freqncia de F2 aumenta, usualmente seguro concluir que a lngua se moveu para uma posio mais anterior. Deve-se notar que essa relao acstico-articulatria apenas aproximada, e outras relaes sero descritas posteriormente. Os lbios tambm esto envolvidos na produo das vogais. A participao dos lbios bastante simples para as vogais inglesas. O arredondamento dos lbios ocorre para algumas vogais posteriores e centrais, como as vogais nas palavras who, hoe e her. As vogais anteriores no so arredondadas em ingls. O efeito do arredondamento dos lbios abaixar todas as freqncias dos formantes. A razo para isso segue do fato de as freqncias dos formantes dependerem do comprimento do trato vocal. Quanto maior o comprimento, mais baixas sero as freqncias de formantes. Pelo fato de o arredondamento dos lbios alongar o comprimento do trato vocal, as vogais arredondadas tendem a ter freqncias de formantes abaixadas em comparao com as vogais no-arredondadas.

    Figura 2-11: O clssico grfico de F1-F2 em que uma vogal representada acusticamente pelas suas freqncias de F1 e F2. Os valores apresentados so de um sujeito masculino adulto mdio. Os smbolos fonmicos so posicionados de forma a mostrar os valores de F1 e F2 para cada vogal. Os rtulos na figura sugerem uma relao acstico-articulatria. As vogais baixas tm uma freqncia de F1 alta; as vogais altas tm uma freqncia de F1 baixa; as vogais anteriores tm uma freqncia de F2 alta; e as vogais posteriores tm uma freqncia de F2 baixa. TEORIA DA PERTURBAO

    A teoria da perturbao permite a predio das mudanas das freqncias dos formantes resultantes de perturbaes (constries locais) do ressoador de tubos. uma teoria poderosa na acstica e particularmente importante para a acstica da produo da fala, pois pode explicar as freqncias dos formantes dos sons voclicos. A teoria da perturbao discutida aqui como uma forma de determinar como variaes no formato do trato vocal afetam os formantes voclicos. A discusso comea com as freqncias dos formantes e, ento, prossegue com a determinao das amplitudes dos formantes. Para observarmos como esta teoria se aplica produo de vogais, usaremos uma representao do trato vocal atravs de um tubo, como vemos na figura 2-12. Este modelo de tubo j deve ser bastante familiar neste momento. Tal tubo ter em cada uma de suas freqncias de ressonncia uma distribuio de ondas estacionrias da velocidade volumtrica ou o inverso da velocidade volumtrica presso. Basicamente, as variaes na velocidade volumtrica durante a ressonncia no tubo refletem o modo como as partculas individuais vibram em vrias posies no tubo. Em certas posies, a vibrao das partculas mxima (e a presso atinge o seu mnimo). Em outras posies, a vibrao das partculas

  • mnima (e a presso atinge o seu mximo). As regies onde as partculas vibram com amplitude mnima so regies de mnimo de velocidade volumtrica, ou ns. As regies onde as partculas vibram com amplitude mxima so regies de mximos de velocidade volumtrica, ou antins. caracterstico da ressonncia de tubos que a velocidade volumtrica ou o seu inverso, a presso, tenha uma distribuio estacionria ao longo da extenso do tubo. Por ter o tubo um nmero infinito de ressonncias, a velocidade volumtrica ou a distribuio de presso podem ser descritas para cada ressonncia. Restringiremos nossa discusso aos trs primeiros formantes das vogais. Alis, possvel verificar experimentalmente essas distribuies de ondas estacionrias. O ganhador do prmio Nobel Georg von Bksy (1960) demonstrou as variaes de presso dentro do trato vocal movendo vagarosamente um mini-microfone dentro do mesmo enquanto um falante produzia uma vogal. A sada do microfone tinha mximos e mnimos correspondentes s variaes de presso das ondas estacionrias.

    Figura 2-12: Modelo de tubo reto do trato vocal para a produo de vogais.

    Como podemos ver na figura 2-13, a primeira ressonncia tem uma distribuio de ondas estacionrias com mximos de velocidade volumtrica, ou antins, no lado aberto (a abertura dos lbios no trato vocal); e mnimos de velocidade volumtrica, ou ns, no lado fechado (a abertura glotal do trato vocal). Para a segunda ressonncia, h dois mximos da velocidade volumtrica (antins) e dois mnimos da velocidade volumtrica (ns). Para a terceira ressonncia, h trs mximos de velocidade volumtrica e trs mnimos. Em outras palavras, cada formante, Fn, do trato vocal tem n ns e n antins (onde n um inteiro). Suponhamos que o ressoador de um tubo da figura 2-12 seja flexvel para que possa ser comprimido em vrios pontos ao longo de sua extenso. Cada constrio local do tubo produzida pela compresso uma perturbao, e o efeito da perturbao na freqncia do formante Fn depende de a constrio ser prxima a um n ou a um antin. A relao geral a seguinte:

    1. Uma constrio local do tubo perto de um mximo da velocidade volumtrica abaixa a freqncia do formante.

    2. Uma constrio local do tubo perto de um mnimo da velocidade volumtrica aumenta a freqncia do formante. Agora a figura 2-12 pode ser redesenhada, como mostrado na figura 2-14, para se parecer com o

    trato vocal humano com ns e antins, localizados, respectivamente, pelos smbolos N e A. Os subscritos N e A indicam o nmero do formante afetado pelos ns ou antins. Por exemplo, N1,2 um n, ou mnimo da velocidade volumtrica, para os dois primeiros formantes F1 e F2. O efeito da constrio do trato vocal o de mudar as freqncias dos formantes daqueles estipulados para a vogal neutra, de acordo com as relaes que acabamos de descrever. Uma constrio no antin A tende a abaixar ambos F1 e F2 (de fato, todas as freqncias dos formantes so abaixadas pela constrio labial). Uma constrio no n B aumenta F2. Uma constrio no antin C abaixa F2. Consideremos como essas relaes se aplicam a vogais individuais. A vogal [i] (he) tem uma constrio na regio palatal (perto do n B) e, como conseqncia, uma freqncia de F2 alta. A vogal [A] (ha) tem uma constrio na regio farngea (perto do antin C) e, como conseqncia, uma freqncia de F2 baixa. A vogal /u/ tem uma constrio labial (perto do antin A) e, como conseqncia, ambas freqncias de F1 e F2 abaixadas. Dessa forma, a teoria da perturbao permite uma predio dos efeitos da constrio do trato vocal nas freqncias do formante para a configurao resultante.

  • Figura 2-13: Modelo de tubo reto do trato vocal mostrando a distribuio espacial da velocidade volumtrica para cada um dos trs primeiros formantes. U indica uma velocidade volumtrica mxima.

    Figura 2-14: Modelo do trato vocal mostrando os ns (N) e antins (A) para a distribuio da velocidade volumtrica (ou o seu inverso, a distribuio de presso). Os subscritos indicam os nmeros dos formantes. Como um modo final de mostrar as predies da teoria da perturbao, a figura 2-15 ilustra como a localizao da constrio ao longo da extenso de um ressoador de um tubo afeta as freqncias de F1, F2 e F3. Um sinal positivo indica que a constrio naquele ponto aumenta a freqncia do formante e um sinal negativo indica que a constrio naquele ponto abaixa a freqncia do formante. Notemos especificamente os seguintes efeitos:

  • 1. Todas as trs freqncias dos formantes so abaixadas pela constrio labial. 2. Todas as trs freqncias dos formantes so aumentadas por uma constrio perto da laringe. 3. A curva de F2 tem uma regio negativa correspondente constrio da lngua para [A] e uma

    regio positiva correspondente constrio da lngua para [i]. 4. A curva para F3 tem regies negativas correspondentes a constries nos lbios, no palato e na

    faringe. (Este resultado til para se entender as diferentes articulaes do [r] do ingls americano (como em ray), que pode ser arredondado, s vezes produzido com uma constrio palatal, e s vezes com uma constrio farngea todas essas trs constries so associadas com um abaixamento de F3.)

    Figura 2-15: Efeitos de perturbaes locais nas freqncias dos trs primeiros formantes, F1, F2 e F3. medida que a perturbao se move ao longo do trato vocal,os formantes aumentam (+) ou diminuem (-) em freqncia, como mostrado para cada formante.

    A primeira concluso merece um comentrio adicional. Foi mencionado anteriormente que o arredondamento dos lbios tende a abaixar todas as freqncias dos formantes, porque o arredondamento usualmente aumenta o trato vocal. Mas alguns falantes conseguem um abaixamento das freqncias dos formantes simplesmente fazendo constrio sem protruso nos lbios. Como isso possvel? Um exame das figuras 2-13, 2-14 e 2-15 d a resposta: os lbios so mximos da velocidade volumtrica para cada formante; portanto, uma constrio nesta regio abaixar todas as freqncias dos formantes. De fato, h trs modos gerais em que um falante pode realizar um abaixamento de todas as freqncias: (1) fazer uma protruso dos lbios para alongar o trato vocal, (2) constringir os lbios, e (3) abaixar a laringe, uma ao que tambm aumenta o trato vocal. AMPLITUDES DOS FORMANTES Lembremos que o trato vocal, como todos os ressoadores em tubo, tem um nmero infinito de freqncias de ressonncia. Mas, porque a maioria da energia larngea que ativa as ressonncias est em freqncias abaixo de 5 kHz, a discusso usual dos formantes voclicos limitada aos quatro ou cinco formantes mais baixos, F1, F2, F3, F4 e F5. Entretanto, os formantes mais altos no podem ser negligenciados sem introduzir erros na anlise acstica do trato vocal. De acordo com Fant, podemos considerar os formantes da produo de vogais em termos do grfico mostrado na figura 2-16. Cada um dos quatro primeiros formantes apresentado como uma curva de ressonncia. Uma curva ascendente simples pode representar as contribuies da fonte larngea, da radiao do trato vocal, e uma correo dos formantes mais altos (que lida com formantes de freqncias mais altas que no so representados individualmente). A sada acstica do trato vocal para a configurao dos formantes, mostrada na figura 2-16, pode ser determinada pela adio algbrica das curvas em separado. Ou seja, o espectro de sada em uma freqncia, por ex., 1 kHz, a soma das magnitudes das curvas em separado naquela freqncia. Um

  • exemplo do resultado mostrado na figura 2-16. O primeiro formante tipicamente o mais intenso, principalmente pela interao com as amplitudes dos outros formantes. Uma forma de pensar sobre isso dizer que F1 caminha nas caudas das freqncias baixas das outras curvas de formantes, de modo que F1 reforado em amplitude em comparao com outros formantes. Julgamentos de altura da fala tendem a ser altamente correlacionados com a amplitude de F1, o que no surpreendente dado que este formante tende a ser o mais forte.

    Figura 2-16: Formantes decompostos (esquerda) e sua combinao em um espectro voclico radiado (direita).

    Nota-se que o espectro voclico representado nas figuras 2-15 e 2-16 corresponde vogal neutra, que tem um espaamento igual de suas freqncias de formantes. De acordo com a teoria da perturbao descrita anteriormente, esta vogal neutra pode ser tomada como a configurao inicial na qual as perturbaes locais (constries) so introduzidas. A teoria da perturbao prev a mudana nas freqncias dos formantes que resulta de uma constrio local. A mudana das freqncias dos formantes, em contrapartida, pode ser usada para prever mudanas nas amplitudes dos formantes. Em outras palavras, as relaes de amplitude entre os formantes dependem de suas relaes de freqncia. Os princpios gerais podem ser descritos de maneira bem simples:

    1. Se a freqncia de F1 abaixa (aumenta), ento os formantes mais altos decrescem (aumentam) em amplitude.

    2. Se a freqncia F1 abaixa (aumenta), ento a amplitude de F1 abaixa (aumenta). 3. Se dois formantes so prximos em freqncia, ento ambos os picos aumentam em amplitude.

    Esses princpios surgem diretamente das adies algbricas produzidas nas curvas de ressonncia,

    como as da figura 2-17. Por exemplo, quando a freqncia de F1 abaixada, as amplitudes dos formantes mais altos so reduzidas porque elas ento se ancoram em uma magnitude menor da curva de F1. Da mesma maneira, o prprio F1 perder amplitude, porque ele ento se ancora em magnitudes mais baixas de outras caudas de formantes. Tente imaginar as curvas de formantes separadas se movendo em relao umas com as outras no domnio das freqncias e, ento, estime os efeitos desses movimentos na amplitude do formante. Vrios exemplos de relaes de amplitude para as vogais inglesas so mostrados na figura 2-17. A principal concluso que as relaes de amplitude dos formantes so determinadas pelas freqncias dos formantes. A dependncia que as amplitudes de ressonncia tem das freqncias de ressonncia caracterstica de ressoadores que esto conectados em srie (um aps o outro). A sada de um ressoador a entrada para o prximo, de modo que eles interagem para determinar as amplitudes relativas dos picos de ressonncia no espectro de sada.

  • Figura 2-17: Efeitos de mudanas selecionadas nas freqncias dos formantes nas relaes de amplitude dos formantes. A linha slida em cada desenho representa a vogal neutra. (a) medida que a freqncia de F1 decresce, todas as amplitudes se reduzem. (b) medida que as freqncias de F1 e F2 se aproximam, suas amplitudes aumentam. (c) medida que a freqncia de F1 diminui e as freqncias de F2 e F3 se aproximam, h uma reduo global no espectro, mas um reforo mtuo de F2 e F3. (d) medida que as freqncias de F1 e F2 diminuem, todos os formantes tendem a perder amplitude, mas h um reforo mtuo de F1 e F2. (e) medida que a freqncia de F1 aumenta, todas as amplitudes aumentam. TEORIA DOS TUBOS COMPONENTES Abordagens de tubos componentes ou desacoplamentos assumem que o trato vocal composto de vrios tubos diferentes, e que diferentes formantes podem ser identificados medida que surgem de um desses tubos componentes. Por exemplo, a maioria das vogais pode ser modelada como tendo cavidades anteriores e posteriores, e formantes especficos podem ser associados com uma cavidade ou a outra, dependendo do formato das cavidades. Essa idia tm sido discutida por Fant (1960) e Stevens (1998). Para determinar qual tubo componente afiliado com um formante especfico, necessrio determinar as condies de fronteira para formatos, comprimentos e propores especficos de tubos no trato vocal. Algumas regras gerais so:

    1. Se um lado do tubo bastante estreito, a cavidade modelada como um tubo com um lado fechado, que o desacopla do tubo adjacente, ou seja, constries radicais podem desacoplar um tubo dos tubos em ambos os lados.

    2. Se um lado do tubo bastante largo, a cavidade considerada acoplada aos tubos ao redor. 3. Se ambos os lados de um tubo tiverem constries estreitas, e se o quociente cavidade-para-

    constrio for alto, ento o tubo pode ser modelado como um ressoador Helmholtz. 4. Se um tubo tem uma constrio posterior estreita e uma constrio anterior larga, a cavidade e a

    constrio anterior podem ser modeladas como um tubo do quarto de comprimento de onda. Combinaes diferentes de tubos so associadas com diferentes clculos de freqncias de formantes. Para procedimentos matemticos, vejam Fant (1960) e Stevens (1998). Para os nossos objetivos, suficiente fazer algumas observaes para as vogais, como segue. Sob condies de fronteira apropriadas, um ressoador Helmholtz pode ser usado para modelar tanto a cavidade anterior (o comprimento do tubo anterior constrio da lngua mais o orifcio da seo dos lbios) quanto a posterior (o comprimento do tubo atrs da constrio da lngua). Por exemplo, no caso da vogal [A], a freqncia de F1 , s vezes, considerada como uma ressonncia Helmholtz da cavidade anterior. Formantes podem ser associados com ressonncias de ondas estacionrias em qualquer tubo terminado diferentemente em seus dois lados. Eles podem ser calculados como ressonncias do quarto de comprimento de onda (nc/4l, onde l o comprimento da seo e n = 1, 3, 5, etc.). Formantes tambm podem ser associados com qualquer tubo que tenha as mesmas condies de terminao em seus dois

  • lados. Eles podem ser calculados como ressonncias da metade do comprimento de onda (nc/2l, onde l o comprimento da seo e n = 1, 2, 3, etc.). Usando essas idias, Fant (1960) gerou nomogramas baseados em variaes nos trs parmetros-controle de um modelo de quatro cavidades do trato vocal. Badin, Perrier, Boe & Abry (1990) estenderam essa idia para identificar o que eles chamaram de pontos focais, ou regies em que as convergncias de formantes ocorrem e onde as afiliaes das cavidades dos formantes so trocadas. Badin e colegas notaram que as vogais cardinais extremas [i a u] so pontos focais. Essa teoria tambm usada em algumas das seguintes abordagens da acstica de vogais. DESCRIES PARAMTRICAS DA ARTICULAO DAS VOGAIS

    Muitos esforos tm sido feitos para simplificar a descrio das configuraes do trato vocal para as vogais em relao sua sada acstica. Stevens & House (1955) e Fant (1960) descreveram trs modelos do trato vocal para vogais com trs parmetros, baseados em: (a) local da constrio, (b) tamanho da constrio, e (c) quociente entre abertura da boca e extenso. Na figura 2-18 esto ilustrados nomogramas que relacionam as trs primeiras freqncias de formantes com os trs parmetros do modelo de Stevens & House. Essa simples descrio baseada em trs parmetros capta informaes importantes sobre a articulao de vogais e prev bastante bem o sinal acstico gerado por um dado formato do trato vocal. Abordagens estatsticas tambm foram levadas ao problema de se obter descries simplificadas da articulao de vogais (Harshman, Ladefoged & Goldstein, 1977; Liljencrants, 1971; Maeda, 1990). Uma das mais poderosas dessas abordagens o uso de anlise fatorial para derivar um conjunto pequeno de variveis mais importantes para se descrever a articulao das vogais. Geralmente, estudos analticos fatoriais indicam que a articulao de vogais pode ser descrita com dois fatores da lngua, um fator labial e, talvez, um fator mandibular.

    Figura 2-18: Nomogramas relacionando os parmetros do modelo de articulao voclica de Stevens e House s freqncias de sada dos formantes. As curvas mostram as freqncias dos trs primeiros formantes em funo de ro, do, e A/1. Em cada seo, os dados so apresentados para um dado grau de constrio (ro) como indicado, com a abertura bucal (A/1) como parmetro. Trs famlias de curvas correspondentes a F1, F2 e F3 esto plotadas em cada seo. A abscissa do, a distncia da glote at o ponto de constrio. Reimpresso de K.N. Stevens & A.S. House, Development of a quantitative description of vowel articulation, Journal of the Acoustical Society of America, 27, 1955, 484-493. (Reimpresso com a permisso do Instituto Americano de Fsica.)

  • Outro modo de modelar a articulao de vogais representar os rgos articulatrios como blocos funcionais controlados independentemente (Coker, 1976; Lindblom & Sundberg, 1971; Mermelstein, 1972; Rubin, Baer, & Mermelstein, 1981). O modelo desenvolvido por Mermelstein mostrado na figura 2-19. Um dos objetivos principais deste trabalho reduzir o nmero de graus de liberdade na modelagem da articulao de vogais, comparado quele requerido para um modelo de tubo acstico do trato vocal, que quantizado em sees de 0,5 ou 1,0 cm de extenso. Alm disso, tal modelo tem o potencial de refletir as propriedades biomecnicas dos articuladores, simulando, portanto, o processo natural da fala.

    Figura 2-19: Componentes de um modelo articulatrio para a produo da fala. J = mandbula, H = osso hiide, C = centro do corpo da lngua, B = ponto onde a lmina ataca o corpo da lngua, T = ponta da lngua, U = lbio superior, L = lbio inferior, V = vu palatino, R = regio farngea, e G = regio glotal (rea periaritenide). De acordo com Mermelstein, 1973. INTERAO FONTE-TRATO PARA VOGAIS At este ponto foi assumido que a vibrao das pregas vocais (a fonte de energia para vogais vozeadas) independente do formato do trato vocal (o filtro). Essa afirmativa feita tipicamente para simplificar a descrio da teoria fonte-filtro da produo da fala, e certamente uma primeira aproximao til na compreenso de como as vogais so produzidas. Em termos tcnicos, as pregas vocais so desenvolvidas para se comportar como uma fonte de alta impedncia (fluxo constante ou corrente constante). Quando uma fonte tem alta impedncia, ela relativamente no afetada pela carga (neste caso, o filtro do trato vocal) colocada nela. Entretanto, uma vez que essa afirmao simplificada tenha servido seu propsito em uma discusso introdutria, ela precisa ser descartada ou, pelo menos, modificada em favor de uma compreenso mais realstica. Na realidade, as pregas vocais no so independentes do trato no qual a energia de vozeamento propagada. Pelo contrrio, a carga do trato vocal pode afetar como as pregas vocais vibram. Por exemplo, Titze e Story (1997) apontaram que a epilaringe (a poro estreita da faringe localizada diretamente superior s pregas vocais) moldada de um jeito que ela aumenta as interaes entre fonte e trato. Em outras (mais tcnicas) palavras, a impedncia de entrada do trato vocal bastante diferente da impedncia glotal. Por que isso importa? Em primeiro lugar, significa que a vibrao vocal pode ser sensvel a certas mudanas de forma no trato vocal. Em segundo lugar, parece que cantores podem explorar essa interao fonte-trato para alcanar vrias qualidades vocais (Sundberg, 1974, 1977, 1987, 1991; Titze & Story, 1997). LIMITAES E SUPOSIES Modelos de processos naturais inevitavelmente introduzem simplificaes. Processos naturais, mesmo comuns, esto repletos de complicaes e interaes, mas muitos desses podem ser negligenciados para o propsito central da modelagem, e tambm para