apresentação ica

Post on 17-Jan-2016

251 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Apresentação ICA (analise de componentes independentes), apresentação dos primeiros capítulos do livro de ICA. Conceitos básicos de ICA e estatística fundamental para ICA.

TRANSCRIPT

Analise de Componentes Independentes

Nicolás Bulla1

1Departamento de Engenharia ElétricaUniversidade Federal do Rio de Janeiro

ICA, 2015

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 1 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 2 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 3 / 79

Conceito básico

ICA é um método para encontrar factores subjacentes ou componentesde dados estatísticos multidimensionais.A diferença de outros métodos, ICA procura que os componentessejam independentes estatísticamente e não-gaussianos.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 4 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 5 / 79

Ajuste estatístico geral

Como encontrar a representação adequada dos dados multivariável:mais visível ou acessível.Qual deveria ser a função tal que a variável transformada entregueinformação dos dados que de outro modo estariam ocultos numgrande número de dados: fatores ou componentes subjacentes.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 6 / 79

Representação lineal de dados multivariável

Assumindo: xi (t) observações, i = 1, ...,m e t = 1, ...,Tm número de variáveis, e T número de observações

yi (t) =∑j

wijxj(t)

para i = 1, ..., n, j = 1, ...,mwij são coeficientes.

y1(t)y2(t)...

yn(t)

= W

x1(t)x2(t)...

xm(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 7 / 79

Representação lineal de dados multivariável

Para determinar o vetor W são usados alguns princípios estatísticos:

Redução das dimensões: são escolhidas as componentes com maiorinformação (PCA).Independência estatística: nenhum valor de uma componente deve darinformação de algum valor em outra componente.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 8 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 9 / 79

Separação cega de fontes

É chamada de cega porque temos muito pouco conhecimento sobre asfontes originais.Assumindo três sinais observadas x1(t), x2(t), x3(t), e os sinaisoriginais s1(t), s2(t), s3(t).

xi (t) representa a soma ponderada de si (t) onde os coeficientes dependemda distância entre a fonte e o sensor.

x1(t) = a11s1(t) + a12s2(t) + a13s3(t)x2(t) = a21s1(t) + a22s2(t) + a23s3(t)x3(t) = a31s1(t) + a32s2(t) + a33s3(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 10 / 79

Separação cega de fontes

Podemos assumir que os coeficientes de mistura aij sãosuficientemente diferentes para fazer invertível a matriz que elesformam.Existe uma matriz W de coeficientes wij que pode separa si .

s1(t) = w11x1(t) + w12x2(t) + w13x3(t)s2(t) = w21x1(t) + w22x2(t) + w23x3(t)s3(t) = w31x1(t) + w32x2(t) + w33x3(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 11 / 79

Separação cega de fontes

Como estimar os coeficientes wij?Considerando a independência estatística dos sinais(não-gaussianidade) é possível determinar os coeficientes wij .

y1(t) = w11x1(t) + w12x2(t) + w13x3(t)y2(t) = w21x1(t) + w22x2(t) + w23x3(t)y3(t) = w31x1(t) + w32x2(t) + w33x3(t)

Se as sinais y1, y2, y3 são independentes, então são iguais as sinaisoriginais s1, s2, s3.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 12 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 13 / 79

Analise de componentes independentes

Dado um conjunto de observações de variáveis aleatórias x1(t), x2(t),x3(t), assuma-se uma mistura lineal de componentes independentes:

x1(t)x2(t)...

xn(t)

= A

s1(t)s2(t)...

sn(t)

onde A é uma matriz desconhecida.ICA consiste em estimar A e si (t), somente conhecendo xi (t).É preciso que os componentes si (t) sejam não-gaussianos.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 14 / 79

Analise de componentes independentes

AplicaçõesImagens do cérebro.EconometriaExtração de características em imagens.

Como encontrar os componentes independentes?Não é suficiente ser não-correlacionado. PCA não consegue separarsinais.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 15 / 79

Analise de componentes independentes

Uma decorrelação não-linear é o método básico do ICA.Se s1 e s2 são independentes, então qualquer transformação não-linearg(s1) e h(s2) são não-correlacionadas.

Principio 1 de estimação de ICA - Decorrelação não-linear.Encontrada a matriz W para qualquer i 6= j , os componentes yi e yj sãonão-correlacionados, e as componentes transformadas g(s1) e h(s2) sãonão-correlacionadas quando g e h são funções não-lineais apropriadas.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 16 / 79

Analise de componentes independentes

Como são escolhidas as funções g e h?Teoria da estimação: Método do máximo likelihood.Teoria da informação: Informação mutua.

Os componentes independentes são componentes maximamentenão-gaussianos.

Principio 2 de estimação de ICA - Máxima não-gaussianidade.Encontrar a máxima não-gaussianidade da combinação lineal y =

∑i bixi

com a restrição que a variança de y é constante. Cada máximo localfornece um componente independente.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 17 / 79

Analise de componentes independentes

Na prática para medir a não-gaussianidade é usada a curtose.A curtose é uma medida de dispersão que caracteriza o pico ou“achatamento” da curva da função de distribuição de probabilidade.A máxima não-gaussianidade apresenta uma conexão entre ICA e atécnica busca de projeção e a técnica de codificação esparsa.A busca de projeção procura a máxima combinação linealnão-gaussiana.A codificação esparse é usada em teorias neuro-cientificas pararepresentar dados com poucas componentes “ativas” ao mesmo tempo.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 18 / 79

Analise de componentes independentes

A estimação do ICA precisa mais do que a covariança. O ICA utilizaestatística de ordem superior.Os métodos numéricos são tipicamente baseados em otimização dealgumas funções objetivo. FastICA

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 19 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 20 / 79

Distribuição de uma variável aleatória

A função de distribuição cumulativa (cdf) Fx de uma v.a. x no pontox = x0 é definida como a probabilidade de que x ≤ x0

Fx(x0) = P(x ≤ x0)

cdf para uma v.a. continua é não-negativa, não-decrescente,0 ≤ Fx(x) ≤ 1. Fx(−∞) = 0 e Fx(+∞) = 0Usualmente a distribuição de probabilidade é caracterizada em termosda função de densidade em vez da sua cdf.Formalmente a função de densidade de probabilidad (pdf) px(x) deuma v.a. x é determinada pela derivada da cdf.

px(x0) =dFx(x)

dx|x=x0

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 21 / 79

Distribuição de uma variável aleatória

Na prática a cdf é calculada a partir pdf conhecida usando a relaçãoinversa.

Fx(x0) =

∫ x0

−∞exp

(−ξ

2

2

)dξ

Exemplo: A distribuição Gaussiana. m: média, σ: desvio padrão

px(x) =1√2πσ2

exp

(−(x −m)2

2σ2

)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 22 / 79

Distribuição de uma variável aleatória

A cdf é calculada usando valores tabulados da função de erro. m = 0e σ2 = 1.

erf (x) =1√2π

∫ x

0exp

(−ξ

2

2

)dξ

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 23 / 79

Distribuição de um vetor aleatório

Assumimos um vetor aleatório n-dimensional x = x1, x2, ..., xn. Oscomponente de x são variáveis aleatórias continuas.A cdf de x é definida por Fx(x0) = P(x ≤ x0).

A cdf é não-decrescente, 0 ≤ FX(x) ≤ 1.FX(x) = 1 se xi → +∞FX(x) = 0 se xi → −∞

A pdf multivariável px(x) de x é a derivada da cdf FX(x) com respeitoa todos os componentes do vec.a. x.

pX(X0) =δ

δx1

δ

δx2...

δ

δxnFX(X) |X=X0

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 24 / 79

Distribuição de um vetor aleatório

FX(x) =∫ x0,1

−∞

∫ x0,2

−∞...

∫ x0,n

−∞pX(X)dxn...dx2d1

x0,i é o i-esimo componente do vetor x0∫ ∞−∞

pX(X)dx = 1

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 25 / 79

Distribuição de um vetor aleatório

Exemplo: Assumimos a pdf de vec.a. bi-dimensional z.

pz(z) = px ,y (x , y) =

{ 37(2− x)(x + y), x ∈ [0, 2], y ∈ [0, 1]

0, outros casos

A cpf de z:

Fz(z) = Fx ,y (x , y) =

∫ y

0

∫ x

0

37(2− ξ)(ξ + η)dξdη

Fz(z) =

0, x ≤ 0 ou y ≤ 0

37xy(x + y − 1

3x2 − 1

4xy), 0 < x ≤ 2, 0 < y ≤ 137x(1+

34x −

13x

2), 0 < x ≤ 2, y > 167y(

23 + 1

2y), x > 2, 0 < y ≤ 11, x > 2 e y > 1

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 26 / 79

Distribuição conjunta e marginal

A distribuição conjunta de dois vetores aleatórios diferentes pode sertratada da mesma forma.

Sejam y e x dois vetores aleatórios de com diferentes dimensões, m e nrespectivamente.Os vetores x e y podem ser concatenados no vetor zT = (xT , yT ).A cdf é chamada de função de distribuição conjunta de x e y

Fx,y(x0, y0) = P(x ≤ x0, y ≤ y0)

A função de densidade conjunta Px,y(x, y) é definida pelo diferencial dafunção de distribuição conjunta Fx,y(x, y).

Fx,y(x0, y0) =

∫ x0

−∞

∫ y0

−∞px,y(ξ, η)dηdξ

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 27 / 79

Distribuição conjunta e marginal

A densidade marginal px(x) de x e py(y) de y é obtida integrandosobre o outro vetor aleatório na sua densidade conjunta.

px(x) =∫ ∞−∞

px,y(x, η)dη

py(y) =∫ ∞−∞

px,y(xi , y)dξ

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 28 / 79

Distribuição conjunta e marginal

Exemplo: Considerando a pdf do exemplo anterior, as densidades marginaissão:

px(x) =

∫ 1

0

37(2− x)(x + y)dy , x ∈ [0, 2]

=

{ 37(1+

32x − x2) x ∈ [0, 2]0 outros casos

py (y) =

∫ 2

0

37(2− x)(x + y)dx , x ∈ [0, 1]

=

{ 27(2+ 3y) x ∈ [0, 1]

0 outros casos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 29 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 30 / 79

Expectativa e momentos

Na prática a densidade de probabilidade exata de um vetor ou variávelescalar aleatória é usualmente desconhecida.Pode ser usado a expectativa de algumas funções de uma variávelaleatória para o análise e o processamento.A expectativa pode ser estimada diretamente com os dados, emboraeles sejam formalmente definidos em termos da função de densidade.Seja g(x) uma quantidade caculada a partir de x.

E{g(x)} =∫ ∞−∞

g(x)px(x)dx

A integral é calculada sobre todos os componentes de x.O resultado é outro vetor ou matriz do mesmo tamanho.Se g(x) = x então E{g(x)} = E{x}.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 31 / 79

Propriedades

Linealidade: xi conjunto de vetores aleatórios diferentes, e aicoeficientes escalares não aleatórios.

E

{m∑i=1

aixi

}=

m∑i=1

aiE{xi}

Transformação lineal: x vetor aleatório m-dimensional, A e B matrizesnão aleatórias de k ×m e m × l

E{Ax} = AE{x} E{xB} = E{x}B

Transformação invariância: seja y = g(x) uma função vetorial dovetor x ∫ ∞

−∞ypy (y)dy =

∫ ∞−∞

g(x)px(x)dx

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 32 / 79

Vetor de médias e matriz de correlação

Os momentos de um vetor aleatório x são tipicamente expectativasusadas para caracterizá-lo.O primeiro momento do vetor aleatório x é chamado de vetor demédias mx de x.

mx = E{x} =∫ ∞−∞

xpx(x)dx

Cada componente da mxi do n-vetor mx é dado por

mxi = E{xi} =∫ ∞−∞

xipx(x)dx =

∫ ∞−∞

xipxi (xi )dxi

pxi é a densidade marginal do componente xi de x.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 33 / 79

Vetor de médias e matriz de correlação

O segundo momento permite obter a correlação.A correlação rij entre os componentes i e j de x está dada por

rij = E{xixj} =∫ ∞−∞

xixjpx(x)dx =

∫ ∞−∞

∫ ∞−∞

xixjpxi ,xj (xi , xj)dxjdxi

A matriz de correlação n × n Rx = E{xxT} do vetor x representatodas as correlações, rij seria o elemento da linhas i e coluna j de Rx

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 34 / 79

Propriedades da matriz de correlação

É uma matriz simétrica Rx = RTx

Semi definida positiva aTRxa ≥ 0 para todos os n-vetores de a.Todos os valores próprios de Rx são reais não-negativos. Todos osvetores próprios de Rx são reais e são mutuamente ortonormais.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 35 / 79

Covariança e momento conjunto

Os momentos centrais são definidos de maneira similar aos outrosmomentos, mas inclui a substração do vetor de médias.Os momentos centrais só têm significado por encima da primeiraordem.A matriz de correlação de Rx é chamada de matriz de covariança deCx de x

Cx = E{(x−mx)(x−mx)T}

Os elementos da matriz

cij = E{(xi −mi )(xj −mj)}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 36 / 79

Covariança e momentos conjuntos

A matriz de covariança Cx satisfaz as mesmas propriedades da matrizde correlação Rx.Usando as propriedades da expectativa

Rx = Cx +mxmTx

Se mx = 0 então Rx = Cx

Se é preciso durante o preprocessamento dos dados a é igualada azero.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 37 / 79

Covariança e momentos conjuntos

Para uma v.a. simples x , o vetor de médias reduiz-se a mx = E{x}.A matriz de correlação ao segundo momento E{x2}.A matriz de covariança a variança de x .

σ2x = E{(x −mx)

2}

Com isso é possível chegar a Ex2 = σ2x +m2x

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 38 / 79

Covariança e momentos conjuntos

A operação da expectativa pode ser estendida para vetores aleatóriosem termos da sua densidade conjunta.

E{g(x, y)} =∫ ∞∞

∫ ∞∞

g(x, y)px,y(x, y)dydx

A expectativa conjunta mais usada é a matriz de correlação cruzada

Rxy = E{xyT}

e a matriz de covariança cruzada

Cxy = E{(x−mx)(y−my)T}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 39 / 79

Covariança e momentos conjuntos

As matrizes cruzadas não são necessariamente quadradas.

Rxy = RTxy, Cxy = CT

xy,

Se o vetor de médias de x e y as matrizes de correlação cruzada ecovariança cruzada são a mesma.A matriz de covariança Cx+y da soma de dois vetores aleatórios x e ytendo a mesma dimensão é usado frequentemente na prática.

Cx+y = Cx + Cxy + Cyx + Cy

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 40 / 79

Covariança e momentos conjuntos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 41 / 79

Estimação da expectativa

Usualmente a densidade de probabilidade de um vetor aleatório x édesconhecido, mas estão disponíveis um conjunto de K amostrasx1, ..., xK .A expectativa estimada

E{g(x)} ≈ 1K

K∑j=1

g(xj)

Exemplo: Obtemos para o vetor de médias mx de x seu estimadopadrão, a média das amostras

m̂x =1K

K∑j=1

xj

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 42 / 79

Estimação da expectativa

Se em lugar da densidade conjunta px,y dos vetores aleatórios x e y,conhecemos K pares de amostras (x1, y1), ..., (xK , yK ), a expectativaconjunta estimada

E{g(x,y)} ≈ 1K

K∑j=1

g(xj , yj)

Para a matriz de correlação cruzada

R̂xy =1K

K∑j=1

xjyTj

Formulas similares são facilmente obtidas para outros tipos dematrizes de correlação.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 43 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 44 / 79

Não-correlação e brancura

Dois vetores aleatórios são não-correlacionados se a sua matriz decovariança cruzada é uma matriz zero

Cxy = E{(x−mx)(y−my )T} = 0

É equivalente à condição

Rxy = E{(xyT} = E{x}E{yT} = mxmTy

Duas variáveis aleatórios escalares diferentes, x e y sãonão-correlacionadas se sua covariança cxy é zero

cxy = E{(x −mx)(y −my )} = 0

Equivalentemente

rxy = E{xy} = E{x}E{y} = mxmy

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 45 / 79

Não-correlação e independência

Pela correlação entre componentes de um vetor aleatório único x acondição de não-correlação está definida por

Cx = E{(x−mx)(x−mx)T} = D

D é uma matriz diagonal n × n

D = diag(c11, c22, ..., cnn) = diag(σ2x1 , σ

2x2 , ..., σ

2xn)

Os n elementos da diagonal são a variança σ2 = E{xi −mxi} = ciidos componentes xi de x.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 46 / 79

Não-correlação e independência

Vetores aleatórios com média zero e matriz de covariança unitária,possivelmente multiplicado por uma variança constante σ2, são ditosde brancos.

mx = 0, Rx = Cx = I

Assumindo que aplicamos uma matriz de transformação T ao vetoraleatório x

y = Tx, onde TTT = TTT = I

Se x é branco, então

my = E{Tx} = TE{x} = Tmx = 0

e

Cy = Ry = E{Tx(Tx)T} = TE{xxT}TT = TRxTT = TTT = I

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 47 / 79

Independência estatística

Constitui o fundamento do ICA.Duas variáveis aleatórias x e y são independentes, se conhecendo umvalor de y não obtenho alguma informação sobre os valores de x .A independência estatística é definida em termos da densidade deprobabilidade.A densidade conjunta px ,y (x , y) de x e y deve se fatorizar nosprodutos de suas densidades marginais px(x) e py (y).As funções de distribuição também devem ser fatorizáveis.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 48 / 79

Independência estatística

Variáveis aleatórias independentes satisfazem a propriedade básica

E{g(x)h(y)} = E{g(x)}E{h(y)}

A definição de independência estatística pode ser generalizada paradiferentes dimensões.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 49 / 79

Independência estatística

Exemplo A:

px ,y (x , y) =

{ 37(2− x)(x + y), x ∈ [0, 2], y ∈ [0, 1]

0, outros casos

Exemplo B:

px,y(x, y) ={

(x1 + 3x2)y , x ∈ [0, 2], y ∈ [0, 1]0, outros casos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 50 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 51 / 79

Densidade condicional

Qual é a densidade de probabilidade de um vetor aleatório x dado queoutro vetor aleatório y tem um valor fixo y0?Assumindo uma densidade conjunta px,y(x, y) de x e y e suasdensidades marginais, a densidade de probabilidade condicional de xdado y

px|y(x | y) =px,y(x, y)py(y)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 52 / 79

Densidade condicional

Exemplo:

py |x(y | x0) =px ,y (x0, y)

px(x0)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 53 / 79

Densidade condicional

py |x(y | x0) =px ,y (x0, y)

px(x0)

px |y (x | y0) =px ,y (x , y0)

py (y0)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 54 / 79

Densidade condicional e regra de Bayes

Se dois vetores aleatórios x e y são estatísticamente independentes, adensidade condicional px|y(x | y) é igual à densidade não-condicionalde px(x).e com a definição de independência podemos encontrar uma soluçãopara a densidade de y condiciona em x

py|x(y | x) =px|y(x | y)py(y)

px(x)

onde o denominador pode ser calculado integrando o numerador se énecessario

px(x) =∫ ∞∞

px|y(x | η)py(η)dη

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 55 / 79

Regra de Bayes

Regra importante na teoria de estimação estatística.A regra de Bayes permite o calculo da densidade py|x(y | x) doparâmetro y, dada uma observação específica do vetor x, e assumindoo conhecimento da distribuição py(y)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 56 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 57 / 79

Densidade gaussiana multivariável

Função de densidade de probabilidade

px(x) =1

(2π)n2 (detCx)

12exp(−1

2(x−mx)

TC−1x (x−mx))

Só tem importância a estatística de primeiro e segundo ordem

E{x} = mx, E{(x−mx)(x−mx)T} = Cx

Transformações lineais são gaussianas.Densidades marginais e condicional são gaussianas.Variáveis aleatórias gaussianas não correlacionadas são independentes.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 58 / 79

Teorema do limite central

Quando o tamanho da amostra aumenta, o distribuição amostral dasua média aproxima-se cada vez mais de uma distribuição normal.

xk =k∑

i=1

zi

xk é a soma parcial da variável aleatória zi ,

yk =xk −mxk

σxk

yk é uma variável padronizada, mxk a média de xk e σxk é o desviopadrão de xk .A distribuição de yk converge a uma distribuição gaussiana quandok →∞.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 59 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 60 / 79

Densidade de uma transformação

Se dois vetores aleatórios n-dimensionais x e y estão relacionados porum vetor de mapeamento y = g(x) e existe um único mapeamentoinverso x = g−1(y) então é possível obter a densidade py(y) a partirde px(x)

py(y) =1

| detJg(g−1(y)) |px(g−1(y))

Jg é a matriz Jacobiana.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 61 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 62 / 79

Estatística de ordem superior

É considerada de ordem superior quando a ordem é maior que 2.O j-ésimo momento dado por

αj = E{x j} =∫ ∞∞

ξjpx(ξ)dξ, j = 1, 2, ...

O j-ésimo momento central

µj = E{(x − α1)j} =

∫ ∞−∞

(ξ −mx)jpx(ξ)dξ, j = 1, 2, ...

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 63 / 79

Estatística de ordem superior

Primeiro momento E{x} = mx = α1 médiaSegundo momento E{x2} = α2 potência médiaSegundo momento central E{(x −mx)

2} = µ2 = σ2 variânciaTerceiro momento centralE{(x −mx)

3} = µ3 assimetria, usada paramedir a assimetria de uma função de distribuição

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 64 / 79

Curtose e classificação de densidade

Quarto momento E{x4} = α4

Quarto momento central E{(x −mx)4} = µ4

A curtose é definida por

kurt(x) = E{x4} − 3(E{x2})2

Para dados branqueados (E{x2} = 1)

kurt(x) = E{x4} − 3

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 65 / 79

Curtose e classificação de densidade

Para variáveis aleatórias gaussianas a curtose é zero.Se a curtose é positiva, a distribuição é chamada de super-gaussianaou leptocúrtica.Se a curtose é negativa, a distribuição é chamada de sub-gaussiana ouplaticúrtica.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 66 / 79

Cumulantes, momentos, e propriedades

Assumindo uma variável aleatória de média zero x , com função dedensidade de probabilidade px(x).A primeira função característica ϕ(ω) é definida como a transformadacontinua de Fourier de px(x)

ϕ(ω) = E{exp(jωx)} =∫ ∞−∞

exp(jωx)px(x)dx

ω é a variável transformada correspondente a x , e j =√−1.

Expandida em series de Taylor

ϕ(ω) =

∫ ∞−∞

( ∞∑k=0

xk(jω)k

k!

)px(x)dx =

∞∑k=0

E{xk}(jω)k

k!

Os coeficientes são momentos de x .

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 67 / 79

Cumulantes, momentos, e propriedades

A segunda função característica de x , é a função geradora decumulantes

φ(ω) = ln(ϕ(ω)) = ln(E{exp(jωx)})

Expandida em series de Taylor

φ(ω) =∞∑k=0

κk(jω)k

k!

Os cumulantes são os coeficientes, onde o k-ésimo cumulante

κk = (−j)k dkφ(ω)

dωk|ω=0

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 68 / 79

Cumulantes, momentos, e propriedades

Para variáveis aleatórias os primeiros 4 cumulantesκ1 = E{x}κ2 = E{x2} − (E{x})2κ3 = E{x3} − 3E{x2}E{x}+ 2(E{x})3κ4 = E{x4}−3(E{x2})2−4E{x3}E{x}+12E{x2}(E{x})2−6(E{x})4

Os cumulantes do vetor aleatório x com média zerocum(xi , xj) = E{xixj}cum(xi , xj , xk) = E{xixjxk}cum(xi , xj , xk , xl) =E{xixjxkxl} − E{xixj}E{xkxl} − E{xixk}E{xjxl} − E{xixl}E{xjxk}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 69 / 79

Cumulantes, momentos, e propriedades

Propriedades dos cumulantes que não possuem os momentosSeja x e y vetores aleatórios estatísticamente independentes, da mesmadimensão, o cumulante de sua soma z = x + y é igual a soma doscumulantes de x e y.Se a distribuição do vetor aleatório ou processo x é multivariávelgaussiana, todos os cumulantes de ordem 3 ou superior são zero.

Para usar estatística de ordem superior é preciso de muitas maisamostras do que a estatística de segundo ordem.A estatística de ordem superior pode ser muito sensível a dadosatípicos.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 70 / 79

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 71 / 79

Processos estocásticos

Processos estocásticos ou aleatórios são funções aleatórias de tempo.Características básicas

São funções no tempo: observadas num intervalo de tempo.São aleatórias: antes da experiência não é possível descreverexatamente a forma da onda observada.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 72 / 79

Estacionalidade, funções de média e auto-correlação

Um processo estocástico é estacionário se sua densidade conjunta éinvariante num deslocamento do tempo de origem.Os processos estocásticos são caracterizados pelo primeiro e segundomomento, as funções de média e autocorrelação ou auto-covariança.

Função de média

mx(t) = E{x(t)} =∫ ∞−∞

x(t)px(x(t))dx(t)

Função de variância

σ2x (t) = E{(x(t)−mx(t))

2} =∫ ∞−∞

(x(t)−mx(t))2px(x(t))dx(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 73 / 79

Estacionalidade, funções de média e autocorrelação

Função de auto-covariância

cx(t, τ) = cov(x(t), x(t−τ)) = E{(x(t)−mx(t))(x(t−τ)−mx(t−τ))}

τ é um tempo constante de atraso entre as observações t e t − τFunção de auto-correlação

rx(t, τ) = E{x(t)x(t − τ)}

Para dois processos estocásticos x(t) e y(t)

Função de correlação cruzada

rxy (t, τ) = E{x(t)y(t − τ)}

Função de covariância cruzada

cxy (t, τ) = E{(x(t)−mx(t))(y(t − τ)−my (t − τ))}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 74 / 79

Processos estacionários no sentido amplo

Processos estacionários no sentido amplo satisfazem as propriedadesA função de médias mx(t) de todo o processo é uma constante mx

para todo t.A função de autocorrelação é independente do deslocamento do tempo:E{x(t)x(t − τ)} = rx(τ) para todo t.A variança, ou o valor quadrático médio rx(0) = E{x2(t)} do processoé finito.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 75 / 79

Médias de tempo e ergodicidade

Médias de tempo ou médias amostrais de longo prazo é o cálculorealizado da média a partir de uma única realização disponível.A média de estimada para um processo que contem K amostras

m̂x(K ) =1K

K∑k=1

x(k)

A função de auto-correlação estimada para um valor de atraso de l

r̂x(l ,K ) =1

K − l

K−l∑k=1

x(k + l)x(k)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 76 / 79

Médias de tempo e ergodicidade

Os processos estocásticos são chamados ergódicos se sua médiaensemble e equiparada com a média de tempo.Um processo aleatório é ergódico com respeito a sua função de médiae auto-correlação, se é estacionário.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 77 / 79

Potência espectral

O espectro de potência ou densidade espectral descreve a frequênciacontidas num do processo estocástico, mostrando quais frequênciasestão presentes e quanta potência elas possuem.A potência espectral é definida como a transformada discreta deFourier da sequencia de auto-correlação rx(0), rx(1), ...

Sx(ω) =∞∑

k=−∞rx(k)exp(−jkω)

A representação no dominio do tempo

rx(k) =12π

∫ π

−πSx(ω)exp(jkω)dω k = 1, 2, ...

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 78 / 79

Modelos de sinais estocásticos

Os processos estocásticos frequentemente são modelados em termosde processos auto-regressivos

x(n) = −M∑i=1

aix(n − i) + v(n)

v(n) é ruido branco, ai são coeficientes constantes do modelo AR, eM é a ordem do modelo, que da o número de amostras previas em queo valor atual x(n) do processo AR depende.Os processos auto-regressivos são um caso especial de processosauto-regressivos de média móvel

x(n) +M∑i=1

aix(n − i) = v(n) +N∑i=1

biv(n − i)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 79 / 79

top related