motivação copulas dados lingüísticos etapas na modelagem análise discrepância

45
Análise de associação, copulas e aplicação a dados Análise de associação, copulas e aplicação a dados lingüísticos lingüísticos Verónica Andrea González-López & Jesús Enrique García Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC Universidade Estadual de Campinas – IMECC 16o. SINAPE 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística Simpósio Nacional de Probabilidade e Estatística Motivação Motivação Copulas Copulas Dados Lingüísticos Dados Lingüísticos Etapas na Modelagem Etapas na Modelagem Análise Análise Discrepância Discrepância Suporte Parcial: Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0 VAGL: FAPESP/Brasil-Projeto 01/02576-0 JEG: FAPESP/Brasil-Projetos JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; 98/3382-0 e 00/07959-1; Acordo USP-COFECUB e CAPES/PICDT Acordo USP-COFECUB e CAPES/PICDT Agradecemos a Franck Ramus por ter cedido as frases para Agradecemos a Franck Ramus por ter cedido as frases para este estudo este estudo

Upload: marc

Post on 04-Feb-2016

28 views

Category:

Documents


0 download

DESCRIPTION

Análise de associação, copulas e aplicação a dados lingüísticos Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECC 16o. SINAPE Simpósio Nacional de Probabilidade e Estatística. Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Análise de associação, copulas e aplicação a dados Análise de associação, copulas e aplicação a dados lingüísticoslingüísticos

Verónica Andrea González-López & Jesús Enrique García Verónica Andrea González-López & Jesús Enrique García Universidade Estadual de Campinas – IMECCUniversidade Estadual de Campinas – IMECC

16o. SINAPE 16o. SINAPE Simpósio Nacional de Probabilidade e EstatísticaSimpósio Nacional de Probabilidade e Estatística

MotivaçãoMotivaçãoCopulasCopulasDados LingüísticosDados LingüísticosEtapas na ModelagemEtapas na ModelagemAnálise Análise DiscrepânciaDiscrepância

Suporte Parcial: Suporte Parcial: VAGL: FAPESP/Brasil-Projeto 01/02576-0VAGL: FAPESP/Brasil-Projeto 01/02576-0JEG: FAPESP/Brasil-Projetos JEG: FAPESP/Brasil-Projetos 98/3382-0 e 00/07959-1; 98/3382-0 e 00/07959-1;

Acordo USP-COFECUB e CAPES/PICDTAcordo USP-COFECUB e CAPES/PICDTAgradecemos a Franck Ramus por ter cedido as frases para este estudo Agradecemos a Franck Ramus por ter cedido as frases para este estudo

Page 2: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Geramos x Geramos x y y x=(xx=(x11,...,x,...,xnn)~Exp(2))~Exp(2)

y=(yy=(y11,...y,...ynn)~Exp(10))~Exp(10)

0.0 0.5 1.0 1.5 2.0 2.5 3.0

x

0.0

0.2

0.4

0.6

y

Page 3: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Fx=1-exp(-2*x)Fx=1-exp(-2*x)Fy=1-exp(-10*y)Fy=1-exp(-10*y)

0.0 0.2 0.4 0.6 0.8 1.0

Fx

0.0

0.2

0.4

0.6

0.8

1.0

Fy

“independência mascaradaPelas marginais”

Genest & Boies(2003)Genest & Boies(2003)

Page 4: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Dependência entre X e Y como composição de:Dependência entre X e Y como composição de:(F(FXX, F, FYY, Copula), Copula)

Sklar(1959): Sklar(1959): FFX,YX,Y(x,y)=C(F(x,y)=C(FXX(x),F(x),FYY(y))(y))

f.d.a. conjunta f.d.a. conjunta FFX,Y X,Y

f.d.a. marginais f.d.a. marginais FFXX , , FFY Y

Copula entre X e Y Copula entre X e Y CC

((f.d.a. de (U,V)=(Ff.d.a. de (U,V)=(FXX(x),F(x),FYY(y)) (y)) ))

Page 5: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Copulas: f.d.a. em [0,1]Copulas: f.d.a. em [0,1]22

Conhecidas Conhecidas FFX,Y X,Y , F, FXX , , FFY Y determinamos Cdeterminamos C

C(u,v)= FC(u,v)= FX,Y X,Y (F(F-1-1XX(u)(u) , , FF-1-1

YY(v))(v))

Tipos de dependência: Tipos de dependência: • Concordância (TPConcordância (TP22, PA, SI), PA, SI)

• Discordância (RRDiscordância (RR22, NA, SD), NA, SD)

Page 6: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

• Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Línguas: Catalão(cat), Holandês(dul), Inglês(enl), Espanhol(esp), Francês (frl), Italiano(itl), Japonês(jap), Polonês(pol).Italiano(itl), Japonês(jap), Polonês(pol).

• Interesse: construir grupos de línguas que apresentam famílias de copulas Interesse: construir grupos de línguas que apresentam famílias de copulas “semelhantes”. “semelhantes”.

• Fundamento para a existência destes grupos:Fundamento para a existência destes grupos:

%V é a proporção de tempo %V é a proporção de tempo correspondente a vogaiscorrespondente a vogais

ΔΔC é o desvio padrão dos C é o desvio padrão dos intervalos consonantaisintervalos consonantais

(Ramus, F., Nespor, M., Mehler, (Ramus, F., Nespor, M., Mehler, J., 1999)J., 1999)

Page 7: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Sinal Acústico frase do Italiano Sinal Acústico frase do Italiano (itl1151)(itl1151)

I genitori lasciano Marco senza risorse

Page 8: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

O sinal x(t) representa a pressão do ar no microfone

Ampliação Local do Sinal AcústicoAmpliação Local do Sinal Acústico

Page 9: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Sinal Acústico e EspectrogramaSinal Acústico e Espectrograma

Page 10: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

O espectrogramaO espectrograma

f

t

O espectrograma para o tempo O espectrograma para o tempo tt e freqüência e freqüência ff , , ssxx(t,f),(t,f), pode pode ser interpretado como a energia que a freqüência ser interpretado como a energia que a freqüência ff aporta ao aporta ao sinal acústico no tempo sinal acústico no tempo t.t.

No gráfico do espectrograma as regiões mais obscuras No gráfico do espectrograma as regiões mais obscuras correspondem a valores maiores de energia.correspondem a valores maiores de energia.

Page 11: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância
Page 12: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância
Page 13: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância
Page 14: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Irregular

Regular

Para a regularidade (sonoridade) dividimos o espectrograma Para a regularidade (sonoridade) dividimos o espectrograma em duas regiões: de 80 a 800 hz e de 800 hz a 5000 hzem duas regiões: de 80 a 800 hz e de 800 hz a 5000 hz

Page 15: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Para a energia dividimos o espectrograma em três regiões: Para a energia dividimos o espectrograma em três regiões: de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz de 80 hz a 800 hz, de 800 a 1500 hz e de 1500hz a 5000hz

Baixa energia

Alta energia

Page 16: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Regiões de Interesse no Regiões de Interesse no espectrogramaespectrograma

5000 hz

1500 hz

80 hz

800 hz

Page 17: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

VariáveisVariáveis SL: sonoridade no intervalo de freqüências (80 hz, 800 hz)SL: sonoridade no intervalo de freqüências (80 hz, 800 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) SH: sonoridade no intervalo (800 hz, 5000 hz) δδS: variação da sonoridade no intervalo (80 hz, 800 hz)S: variação da sonoridade no intervalo (80 hz, 800 hz) NmaxL: media do máximo da diferencia entre pNmaxL: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (80 hz, 800 hz) no intervalo (80 hz, 800 hz) NmaxH: media do máximo da diferencia entre pNmaxH: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (800 hz, 5000 no intervalo (800 hz, 5000

hz)hz) NmaxT: media do máximo da diferencia entre pNmaxT: media do máximo da diferencia entre ptt e p e pt-1t-1 no intervalo (80 hz, 5000 no intervalo (80 hz, 5000

hz)hz) EntrL: media da entropia de pEntrL: media da entropia de ptt no intervalo (80 hz, 800 hz) no intervalo (80 hz, 800 hz) EntrH: media da entropia de pEntrH: media da entropia de ptt no intervalo (800 hz, 5000 hz) no intervalo (800 hz, 5000 hz) E1: Energia no intervalo de freqüências (80 hz, 800 hz)E1: Energia no intervalo de freqüências (80 hz, 800 hz) E2: Energia no intervalo de freqüências (800 hz, 1500 hz)E2: Energia no intervalo de freqüências (800 hz, 1500 hz) E3: Energia no intervalo de freqüências (1500 hz, 5000 hz)E3: Energia no intervalo de freqüências (1500 hz, 5000 hz) PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz)PE1: Proporção de energia no intervalo de freqüências (80 hz, 800 hz) PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz)PE2: Proporção de energia no intervalo de freqüências (800 hz, 1500 hz) PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz)PE3: Proporção de energia no intervalo de freqüências (1500 hz, 5000 hz) PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências PPE1, PPE2 e PPE3: Proporção de energia nos intervalos de freqüências

anteriores mas com pesos diferentesanteriores mas com pesos diferentes

Page 18: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Estrutura dos dados (exemplo: dul)Estrutura dos dados (exemplo: dul)

Variável: Sonoridade Baixa (SL)Variável: Sonoridade Baixa (SL)

falante 1 falante 2 falante 3 falante 4falante 1 falante 2 falante 3 falante 4

0.6550426 0.6135087 0.6117972 0.57308990.6550426 0.6135087 0.6117972 0.5730899

0.7323834 0.6992477 0.7009909 0.64870620.7323834 0.6992477 0.7009909 0.6487062 0.6542365 0.6234283 0.5932358 0.59715510.6542365 0.6234283 0.5932358 0.5971551 0.6874328 0.7043169 0.7221783 0.62675460.6874328 0.7043169 0.7221783 0.6267546 ...... ...... Variável: Sonoridade Alta (SH)Variável: Sonoridade Alta (SH)

falante 1 falante 2 falante 3 falante 4falante 1 falante 2 falante 3 falante 4

0.2941877 0.2685418 0.3287807 0.30821710.2941877 0.2685418 0.3287807 0.3082171 0.3928520 0.3540849 0.4185050 0.39288070.3928520 0.3540849 0.4185050 0.3928807 0.3615761 0.2726972 0.3262655 0.32212940.3615761 0.2726972 0.3262655 0.3221294 0.3233377 0.3160166 0.3742268 0.33241480.3233377 0.3160166 0.3742268 0.3324148 ...... ......

Page 19: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Holandês(dul): SL vs SH por falanteHolandês(dul): SL vs SH por falante

0.60 0.65 0.70 0.75 0.80

SL

0.28

0.30

0.32

0.34

SH

Falante 2

0.60 0.65 0.70 0.75 0.80

SL

0.34

0.36

0.38

0.40

0.42

0.44

0.46

SH

Falante 3

0.60 0.65 0.70 0.75 0.80

SL

0.30

0.35

0.40

0.45

SH

Falante 1

0.60 0.65 0.70 0.75 0.80

SL

0.30

0.35

0.40

0.45

SH

Falante 4

Page 20: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Japonês(jap): SL vs SH por falanteJaponês(jap): SL vs SH por falante

0.65 0.70 0.75

SL

0.32

0.34

0.36

0.38

0.40

0.42

0.44

SH

Falante 1

0.65 0.70 0.75

SL

0.35

0.40

0.45

0.50

0.55

SH

Falante 2

0.60 0.65 0.70 0.75 0.80

SL

0.35

0.40

0.45

0.50

SH

Falante 3

0.60 0.65 0.70 0.75 0.80

SL

0.32

0.34

0.36

0.38

0.40

0.42

SH

Falante 4

Page 21: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Propósito: Propósito: 1.1. modelar a dependência (copula) entre SL e modelar a dependência (copula) entre SL e

SH (e outras variáveis), tirando a influência SH (e outras variáveis), tirando a influência dos falantes. dos falantes.

2.2. Usando esta modelagem construir grupos de Usando esta modelagem construir grupos de línguas que apresentam famílias de copulas bi línguas que apresentam famílias de copulas bi variadas “semelhantes”. variadas “semelhantes”.

Passos da modelagem:Passos da modelagem:1.1. Ajuste de um modelo de Regressão Ajuste de um modelo de Regressão 2.2. Ajuste CopulaAjuste Copula

Page 22: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

YYijij==μμ++θθii++εεij ij , , i=1,...,4 (falantes)i=1,...,4 (falantes)

j=1,...,n (frases) j=1,...,n (frases)

YYij ij (SL, SH, etc...)(SL, SH, etc...)

Se YSe Yij ij =SL (por exemplo)=SL (por exemplo)

μμ =SL media =SL media

θθi i =SL (contribuição para + ou – de cada falante)=SL (contribuição para + ou – de cada falante)

εεij ij =erro associado ao falante i na frase j=erro associado ao falante i na frase j

Page 23: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Sob suposições de independência em YSob suposições de independência em Yijij, podemos , podemos assumir assumir εεijij ~ d(0, ~ d(0,σσee

22) independentes) independentes

Estimativas robustas de eij =Estimativas robustas de eij =εεij/ ij/ σσee

(Yij-TM(i))/(Yij-TM(i))/srsr •TM(i): M - estimador de posição para o falante iTM(i): M - estimador de posição para o falante i•(sr)(sr)22: : - estimador de - estimador de σσee

22

Estimativas MV de Estimativas MV de eij =eij =εεij/ ij/ σσee

(Yij-YM(i))/sv(Yij-YM(i))/sv

• YM(i): media do falante iYM(i): media do falante i

• (sv)(sv)22: estimador de MV de : estimador de MV de σσee22

Page 24: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Holandês e JaponêsHolandês e Japonês X=eX=esLsLijij (estimativas para SL) (estimativas para SL)

Y=eY=esHsHijij (estimativas para SH) (estimativas para SH)

-2 -1 0 1 2 3 4

x(MV)

-2-1

01

23

y(M

V)

Holandes

-2 -1 0 1 2 3 4

x(R)

-3-2

-10

12

3

y(R

)

Holandes

-2 0 2

x(MV)

-2-1

01

2

y(M

V)

Japones

-4 -2 0 2

x(R)

-2-1

01

2

y(R

)

Japones

Page 25: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

duldul μμ (R) (R) μμ (MV) (MV) σσ22ee (R) (R) σσ22

ee(MV)(MV)

SLSL 0.6605790.660579 0.6616830.661683 0.0016100.001610 0.0017910.001791

SHSH 0.3621210.362121 0.3568970.356897 0.0007460.000746 0.0008290.000829

JapJap μμ (R) (R) μμ (MV) (MV) σσ22ee (R) (R) σσ22

ee(MV)(MV)

SLSL 0.7061160.706116 0.7043870.704387 0.0009630.000963 0.0012550.001255

SHSH 0.4093110.409311 0.4087200.408720 0.0017000.001700 0.0016450.001645

Page 26: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Variabilidade nas classes de falantes (SL)Variabilidade nas classes de falantes (SL)

japjap σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SLSL 0.0002480.000248 0.0001090.000109

duldul σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SLSL 0.0003640.000364 0.0001220.000122

Falante/japFalante/jap YMYM TMTM

11 0.7103080.710308 0.7116120.711612

22 0.7019740.701974 0.7016710.701671

33 0.7222420.722242 0.7268530.726853

44 0.6830250.683025 0.6830520.683052

Falante/dulFalante/dul YMYM TMTM

11 0.68137470.6813747 0.67940290.6794029

22 0.66030750.6603075 0.65744300.6574430

33 0.67024710.6702471 0.66824590.6682459

44 0.63480150.6348015 0.63144550.6314455

Page 27: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Variabilidade nas classes de falantes (SH)Variabilidade nas classes de falantes (SH)

japjap σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SHSH 0.0013710.001371 0.0011110.001111

duldul σσ22θθ (MV) (MV) σσ22

θθ(R)(R)

SHSH 0.0010730.001073 0.0002030.000203

Falante/japFalante/jap YMYM TMTM

11 0.3898360.389836 0.3912830.391283

22 0.4507630.450763 0.4504030.450403

33 0.4272500.427250 0.4281980.428198

44 0.3670320.367032 0.3669880.366988

Falante/dulFalante/dul YMYM TMTM

11 0.3722750.372275 0.3717230.371723

22 0.3091410.309141 0.3091410.309141

33 0.3836400.383640 0.3826990.382699

44 0.3625310.362531 0.3582200.358220

Page 28: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância
Page 29: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância
Page 30: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância
Page 31: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Algoritmo VAGL-NITAlgoritmo VAGL-NIT Percorre 7 famílias de copulas bi - variadas e bi - Percorre 7 famílias de copulas bi - variadas e bi -

paramétricas, Arquimedianas Generalizadas mais a paramétricas, Arquimedianas Generalizadas mais a copula do máximo : CBBi, i=1,...,7 e CMaxcopula do máximo : CBBi, i=1,...,7 e CMax

Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde Dados: (ui,vi)=(FM1(xi),FM2(yi)), i=1,..., m; onde FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, FMk, k=1,2: f.d.a. a ser utilizada exemplo: empírica, normal...normal...

A copula empírica bi – variada baseada em {(uj,vj), A copula empírica bi – variada baseada em {(uj,vj), j=1,...,m} será comparada com as famílias de copulas j=1,...,m} será comparada com as famílias de copulas disponíveis na biblioteca do algoritmo, usando algum disponíveis na biblioteca do algoritmo, usando algum teste de comparação de amostras. teste de comparação de amostras.

Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)Para detalhes: Vide pôster 20 - Tanaka, N.I. (Quarta, 28 de Julho)

Page 32: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

0.0 0.2 0.4 0.6 0.8 1.0

Fx(R)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

R)

dul:Fx vs Fy

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

dul:Fx vs Fy

Croquis da Copula entre X e YCroquis da Copula entre X e Y Fx(x)=(#xi: xiFx(x)=(#xi: xi≤x≤x)/n)/nFy(y)=(#yi: yi≤y)/nFy(y)=(#yi: yi≤y)/n

0.0 0.2 0.4 0.6 0.8 1.0

Fx(R)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

R)

jap:Fx vs Fy

Page 33: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SL,deltaSL)

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SL,NormaXL)

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SH,NormaXH)

0.0 0.2 0.4 0.6 0.8 1.0

Fx(MV)

0.0

0.2

0.4

0.6

0.8

1.0

Fy(

MV

)

jap:Fx vs Fy-variaveis originais:(SH,deltaSL)

Outros croquis de copulasOutros croquis de copulas

Nica
Mjap$SL[[deltaSL]]$CopulaMV Familia pvalor delta theta MSE "BB4" "0.999367583511144" "1.07245453750394" "1.37606168195969" "0.000167392996611844"
Nica
Mjap$SL[[NormaXL]]$CopulaMV Familia pvalor delta theta MSE "BB4" "0.67095186958907" "2.15359940996946" "0.891555440279726" "0.000165474253747874"
Nica
Mjap$SH[[NormaXH]]$CopulaMV Familia pvalor delta theta MSE "BB4" "0.978184285904873" "1.07245453750394" "0.443623166358325" "9.1834079886015e-005"
Nica
Mjap$SH[[deltaSL]]$CopulaMV Familia pvalor delta theta MSE "BB7" "0.999683791506725" "0.469831652456982" "1.51417504963289" "0.000128864197540705"
Page 34: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

4

dul: SL vs SH - R

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

7

jap: SL vs SH - MV

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

1

jap: SL vs SH - R

Ajuste Copula por VAGL-NIT Ajuste Copula por VAGL-NIT para Holandês y Japonêspara Holandês y Japonês

0.0 0.2 0.4 0.6 0.8 1.0

Copula Empirica

0.0

0.2

0.4

0.6

0.8

1.0

Cop

ula

BB

4

dul: SL vs SH - MV

Page 35: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Ajuste Copula por VAGL-NIT para Holandês y JaponêsAjuste Copula por VAGL-NIT para Holandês y Japonês

SL VS SHSL VS SH CopulaCopula δδ θθ MSEMSE M-WM-W K-SK-S

dul(MV)dul(MV) BB4BB4 0.4868230.486823 0.4502800.450280 0.0001090.000109 0.99970.9997 11

dul(R)dul(R) BB4BB4 0.5268230.526823 0.4002800.400280 9e-0059e-005 11 11

Jap(MV)Jap(MV) BB7BB7 0.8324550.832455 1.1310401.131040 5e-0055e-005 11 11

Jap(R)Jap(R) BB1BB1 1.1410401.141040 0.6254660.625466 5e-0055e-005 11 11

Page 36: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Comparação de duas línguas(MV)Comparação de duas línguas(MV)(Holandês e Japonês): matriz de concordância(M) -copulas entre (Holandês e Japonês): matriz de concordância(M) -copulas entre

variável i e variável i+jvariável i e variável i+j

i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] i= [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6"[i+1] "-" "-" "-" "-" "-" "BB6“ "-" "-" "-" "BB6" "BB6“ "-" "-" "-" "-" "BB6" [i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-"[i+2] "-" "-" "-" "-" "BB6" "BB6“ "BB7" "-" "-" "-" "BB6“ "-" "-" "-" "-" [i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-"[i+3] "-" "-" "-" "-" "BB6“ "BB6" "-" "BB6" "-" "-" "-" "-" "-" "-" [i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-"[i+4] "-" "-" "-" "-" "BB6“ "BB6“ "-" "BB6“ "-" "-" "BB6" "-" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+5] "-" "-" "BB6" "-" "BB6“ "BB6" "-" "-" "BB6“ "-" "BB6" "-" [i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-"[i+6] "-" "BB1“ "-" "-" "BB6" "-" "-" "BB6" "-" "BB7“ "-" [i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-"[i+7] "-" "-" "-" "BB6" "-" "BB6“ "-" "BB6" "-" "-" [i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-"[i+8] "BB6" "-" "BB6" "-" "BB6" "-" "-" "-" "-" [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+9] "BB6" "BB6" "-" "-" "-" "-" "-" "BB6“ [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+10] "BB6“ "-" "-" "-" "-" "BB6" "-" [i+11] "-" "-" "-" "BB4" "BB6" "-"[i+11] "-" "-" "-" "BB4" "BB6" "-"[i+12] "BB6" "-" "-" "-" "-"[i+12] "BB6" "-" "-" "-" "-"[i+13] "-" "BB6" "-" "-" [i+13] "-" "BB6" "-" "-" [i+14] "-" "-" "-"[i+14] "-" "-" "-"[i+15] "BB6" "BB1" [i+15] "BB6" "BB1" [i+16] "-" [i+16] "-"

Page 37: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Critério de Discrepância (1): soma de indicadores vezes p valor Critério de Discrepância (1): soma de indicadores vezes p valor mínimo nas discrepânciasmínimo nas discrepâncias

ppLLi,j i,j =p-valor do teste M-W, para a copula ajustada na língua L , =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j)L=cat,...,pol; para a dupla de variáveis (i,j)

pp0 0 = max= maxijij {min{p {min{pL1L1ijij, p, pL2L2

ijij}} onde L1 e L2 são duas línguas diferentes}} onde L1 e L2 são duas línguas diferentes

I(MI(Mijij) = ) = 1 se M1 se Mijij=“-”; I =0 em caso contrário=“-”; I =0 em caso contrário

N=# total de copulas ajustadasN=# total de copulas ajustadas

M1(L1,L2)=(1/N)M1(L1,L2)=(1/N)ijij I(M I(Mijij)min{p)min{pL1L1ijij,p,pL2L2

ijij}/p}/p00

Page 38: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Discrepância : soma de indicadores vezes p valor mínimo nas Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias discrepâncias

M1(MV) cat dul enl esp frl itl jap pol M1(MV) cat dul enl esp frl itl jap pol cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204cat 0.000000 0.575451 0.504272 0.477394 0.437538 0.394352 0.473412 0.409204dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835dul 0.575451 0.000000 0.476681 0.473979 0.501307 0.471290 0.532815 0.434835enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167enl 0.504272 0.476681 0.000000 0.503792 0.443667 0.370986 0.555930 0.440167esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931esp 0.477394 0.473979 0.503792 0.000000 0.444721 0.424004 0.468421 0.347931frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 frl 0.437538 0.501307 0.443667 0.444721 0.000000 0.393887 0.428266 0.360984 itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256itl 0.394352 0.471290 0.370986 0.424004 0.393887 0.000000 0.411169 0.371256jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769jap 0.473412 0.532815 0.555930 0.468421 0.428266 0.411169 0.000000 0.404769pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000pol 0.409204 0.434835 0.440167 0.347931 0.360984 0.371256 0.404769 0.000000

M1(R) cat dul enl esp frl itl jap polM1(R) cat dul enl esp frl itl jap pol cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690cat 0.000000 0.512683 0.514699 0.441988 0.451922 0.418509 0.513326 0.428690dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389dul 0.512683 0.000000 0.478937 0.470930 0.467406 0.374885 0.512814 0.430389enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599enl 0.514699 0.478937 0.000000 0.466390 0.443947 0.358231 0.527366 0.415599esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357esp 0.441988 0.470930 0.466390 0.000000 0.436995 0.440963 0.473083 0.342357frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798frl 0.451922 0.467406 0.443947 0.436995 0.000000 0.406157 0.394006 0.335798Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050Itl 0.418509 0.374885 0.358231 0.440963 0.406157 0.000000 0.407137 0.358050jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945jap 0.513326 0.512814 0.527366 0.473083 0.394006 0.407137 0.000000 0.408945pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000pol 0.428690 0.430389 0.415599 0.342357 0.335798 0.358050 0.408945 0.000000

Page 39: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

0.3

40

.36

0.3

80

.40

0.4

2

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor - R

0.3

40

.36

0.3

80

.40

0.4

2

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor - MV

Cluster Discrepância : soma de indicadores vezes p valor mínimo Cluster Discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias nas discrepâncias

Page 40: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Critério de Discrepância (2): soma de indicadores vezes p valor Critério de Discrepância (2): soma de indicadores vezes p valor mínimo nas discrepâncias, ponderada pelas medidas nas caudasmínimo nas discrepâncias, ponderada pelas medidas nas caudas

ppLLi,j i,j =p-valor do teste M-W, para a copula ajustada na língua L , =p-valor do teste M-W, para a copula ajustada na língua L , L=cat,...,pol; para a dupla de variáveis (i,j)L=cat,...,pol; para a dupla de variáveis (i,j)

LLLL(i,j)=medida na cauda inferior da copula para (i,j)(i,j)=medida na cauda inferior da copula para (i,j)

UULL(i,j)=medida na cauda superior da copula para (i,j)(i,j)=medida na cauda superior da copula para (i,j)

definimos para um par de línguas L1 e L2definimos para um par de línguas L1 e L2

(i,j)={(i,j)={| | LLL1L1(i,j)- (i,j)- LL

L2L2(i,j) (i,j) |+| |+| UUL1L1(i,j)- (i,j)- UU

L2L2(i,j)(i,j)|}/2|}/2

tt0 0 = max= maxijij { {(i,j)min{p(i,j)min{pL1L1ijij, p, pL2L2

ijij}} onde L1 e L2 são duas línguas }} onde L1 e L2 são duas línguas diferentesdiferentes

I(MI(Mijij) = ) = 1 se M1 se Mijij=“-”; I =0 em caso contrário=“-”; I =0 em caso contrário

N=# total de copulas ajustadasN=# total de copulas ajustadas

M2(L1,L2)=(1/N)M2(L1,L2)=(1/N)ijij I(M I(Mijij) ) (i,j)(i,j)min{pmin{pL1L1ijij,p,pL2L2

ijij}/t}/t00

Page 41: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

M2(MV) cat dul enl esp frl itl jap polM2(MV) cat dul enl esp frl itl jap polCat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315Cat 0.000000 0.210499 0.162398 0.169914 0.125045 0.149718 0.148932 0.163315 dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412dul 0.210499 0.000000 0.150137 0.183674 0.181730 0.165417 0.157821 0.183412 enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153enl 0.162398 0.150137 0.000000 0.176209 0.149436 0.151243 0.189031 0.154153 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 esp 0.169914 0.183674 0.176209 0.000000 0.154918 0.149519 0.180642 0.139990 frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173frl 0.125045 0.181730 0.149436 0.154918 0.000000 0.153649 0.153342 0.123173 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 itl 0.149718 0.165417 0.151243 0.149519 0.153649 0.000000 0.149064 0.143485 jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061jap 0.148932 0.157821 0.189031 0.180642 0.153342 0.149064 0.000000 0.145061 pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000pol 0.163315 0.183412 0.154153 0.139990 0.123173 0.143485 0.145061 0.000000

Cluster de discrepância: soma de indicadores vezes p valor mínimo Cluster de discrepância: soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudasnas discrepâncias, ponderados pelas medidas nas caudas

M2(R) cat dul enl esp frl itl jap polM2(R) cat dul enl esp frl itl jap polcat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761cat 0.000000 0.170610 0.161725 0.142283 0.176776 0.150295 0.188911 0.159761dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207dul 0.170610 0.000000 0.157286 0.167721 0.174214 0.157020 0.173750 0.185207enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733enl 0.161725 0.157286 0.000000 0.158903 0.147521 0.156322 0.173768 0.161733esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513esp 0.142283 0.167721 0.158903 0.000000 0.140024 0.149554 0.165917 0.128513frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335frl 0.176776 0.174214 0.147521 0.140024 0.000000 0.184346 0.136060 0.136335itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588itl 0.150295 0.157020 0.156322 0.149554 0.184346 0.000000 0.129852 0.156588jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323jap 0.188911 0.173750 0.173768 0.165917 0.136060 0.129852 0.000000 0.135323pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000pol 0.159761 0.185207 0.161733 0.128513 0.136335 0.156588 0.135324 0.000000

Page 42: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

0.1

20

0.1

25

0.1

30

0.1

35

0.1

40

0.1

45

0.1

50

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor e medida caudas - MV

Cluster de discrepância : soma de indicadores vezes p valor mínimo Cluster de discrepância : soma de indicadores vezes p valor mínimo nas discrepâncias, ponderados pelas medidas nas caudasnas discrepâncias, ponderados pelas medidas nas caudas

0.1

25

0.1

30

0.1

35

0.1

40

0.1

45

0.1

50

0.1

55

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor e medida caudas - R

Page 43: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

0.15

0.20

0.25

0.30

0.35

0.40

0.45

catdu

l

enl

esp

frl

itl

jap

pol

Similaridade / p-valor entre empiricas(K-S)

Critério: são feitas as comparações (entre idiomas) via teste K-S Critério: são feitas as comparações (entre idiomas) via teste K-S comparando as empíricas bi dimensionais das variáveis uniformizadas . comparando as empíricas bi dimensionais das variáveis uniformizadas . O critério consiste em considerar o p-valor máximo de todas as comparações O critério consiste em considerar o p-valor máximo de todas as comparações

Page 44: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Comparação entre critériosComparação entre critérios

0.12

00.

125

0.13

00.

135

0.14

00.

145

0.15

0

cat

dul

enl

esp

frl

itl

jap

pol

Discrepancia Ponderada por p-valor e medida caudas - MV

δδSS

SLSL

Page 45: Motivação Copulas Dados Lingüísticos Etapas na Modelagem Análise  Discrepância

Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New Nelsen R.(1999).An Introduction to Copulas. Lecture Notes in Statistic. 139. New York: SpringerYork: Springer

Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois Genest C. & MacKay R.(1986)Copules archimédiennes el families de lois bidimensionnelles dont les marges sont données, The Canadian Journal of bidimensionnelles dont les marges sont données, The Canadian Journal of Statistics, vol 14 # 2, 145-159Statistics, vol 14 # 2, 145-159

Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The Genest C. & Boies J.C.(2003) Detecting dependence with Kendall PLot, The American Statistician, vol 57 # 4American Statistician, vol 57 # 4

González-López V. & Tanaka, N. (2003) Bi-variate data modeling through González-López V. & Tanaka, N. (2003) Bi-variate data modeling through generalized archimedean copula. RT-MAE 2003-03/IME-USP.generalized archimedean copula. RT-MAE 2003-03/IME-USP.

Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Sklar A. (1959) Fonctions de répartition à n dimensions et leurs margens. Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.Publications de l’ Institut de Statistique de l’Université de Paris, 8, 229-231.

Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Schweizer B. & Sklar, A.(1983). Probabilistics Metric Spaces, Amsterdam: North-Holland.Holland.

Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for Galves, A., Garcia, J., Duarte, D., Galves, C. , 2002 Sonority as a basis for rhythmic class discrimination. Speech Prosody 2002. rhythmic class discrimination. Speech Prosody 2002. www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf.www.lpl.univ-aix.fr/sp2002/pdf/galves-etal.pdf.

Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool Garcia, J., Gut, U., Galves, A. , 2002, Vocale - A Semi-Automatic Annotation Tool for Prosodic Research.Speech Prosody 2002, for Prosodic Research.Speech Prosody 2002, http:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdfhttp:/www.lpl.univ-aix.fr/sp2002/pdf/garcia-gut-galves.pdf

Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the Ramus, F., Nespor, M., Mehler, J., 1999. Correlates of linguistic rhythm in the speech signal. Cognition, 73, 265-292.speech signal. Cognition, 73, 265-292.