apresentação ica

79
Analise de Componentes Independentes Nicolás Bulla 1 1 Departamento de Engenharia Elétrica Universidade Federal do Rio de Janeiro ICA, 2015 Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 1 / 79

Upload: nicolas-bulla-cruz

Post on 17-Jan-2016

251 views

Category:

Documents


0 download

DESCRIPTION

Apresentação ICA (analise de componentes independentes), apresentação dos primeiros capítulos do livro de ICA. Conceitos básicos de ICA e estatística fundamental para ICA.

TRANSCRIPT

Page 1: Apresentação ICA

Analise de Componentes Independentes

Nicolás Bulla1

1Departamento de Engenharia ElétricaUniversidade Federal do Rio de Janeiro

ICA, 2015

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 1 / 79

Page 2: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 2 / 79

Page 3: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 3 / 79

Page 4: Apresentação ICA

Conceito básico

ICA é um método para encontrar factores subjacentes ou componentesde dados estatísticos multidimensionais.A diferença de outros métodos, ICA procura que os componentessejam independentes estatísticamente e não-gaussianos.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 4 / 79

Page 5: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 5 / 79

Page 6: Apresentação ICA

Ajuste estatístico geral

Como encontrar a representação adequada dos dados multivariável:mais visível ou acessível.Qual deveria ser a função tal que a variável transformada entregueinformação dos dados que de outro modo estariam ocultos numgrande número de dados: fatores ou componentes subjacentes.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 6 / 79

Page 7: Apresentação ICA

Representação lineal de dados multivariável

Assumindo: xi (t) observações, i = 1, ...,m e t = 1, ...,Tm número de variáveis, e T número de observações

yi (t) =∑j

wijxj(t)

para i = 1, ..., n, j = 1, ...,mwij são coeficientes.

y1(t)y2(t)...

yn(t)

= W

x1(t)x2(t)...

xm(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 7 / 79

Page 8: Apresentação ICA

Representação lineal de dados multivariável

Para determinar o vetor W são usados alguns princípios estatísticos:

Redução das dimensões: são escolhidas as componentes com maiorinformação (PCA).Independência estatística: nenhum valor de uma componente deve darinformação de algum valor em outra componente.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 8 / 79

Page 9: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 9 / 79

Page 10: Apresentação ICA

Separação cega de fontes

É chamada de cega porque temos muito pouco conhecimento sobre asfontes originais.Assumindo três sinais observadas x1(t), x2(t), x3(t), e os sinaisoriginais s1(t), s2(t), s3(t).

xi (t) representa a soma ponderada de si (t) onde os coeficientes dependemda distância entre a fonte e o sensor.

x1(t) = a11s1(t) + a12s2(t) + a13s3(t)x2(t) = a21s1(t) + a22s2(t) + a23s3(t)x3(t) = a31s1(t) + a32s2(t) + a33s3(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 10 / 79

Page 11: Apresentação ICA

Separação cega de fontes

Podemos assumir que os coeficientes de mistura aij sãosuficientemente diferentes para fazer invertível a matriz que elesformam.Existe uma matriz W de coeficientes wij que pode separa si .

s1(t) = w11x1(t) + w12x2(t) + w13x3(t)s2(t) = w21x1(t) + w22x2(t) + w23x3(t)s3(t) = w31x1(t) + w32x2(t) + w33x3(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 11 / 79

Page 12: Apresentação ICA

Separação cega de fontes

Como estimar os coeficientes wij?Considerando a independência estatística dos sinais(não-gaussianidade) é possível determinar os coeficientes wij .

y1(t) = w11x1(t) + w12x2(t) + w13x3(t)y2(t) = w21x1(t) + w22x2(t) + w23x3(t)y3(t) = w31x1(t) + w32x2(t) + w33x3(t)

Se as sinais y1, y2, y3 são independentes, então são iguais as sinaisoriginais s1, s2, s3.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 12 / 79

Page 13: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 13 / 79

Page 14: Apresentação ICA

Analise de componentes independentes

Dado um conjunto de observações de variáveis aleatórias x1(t), x2(t),x3(t), assuma-se uma mistura lineal de componentes independentes:

x1(t)x2(t)...

xn(t)

= A

s1(t)s2(t)...

sn(t)

onde A é uma matriz desconhecida.ICA consiste em estimar A e si (t), somente conhecendo xi (t).É preciso que os componentes si (t) sejam não-gaussianos.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 14 / 79

Page 15: Apresentação ICA

Analise de componentes independentes

AplicaçõesImagens do cérebro.EconometriaExtração de características em imagens.

Como encontrar os componentes independentes?Não é suficiente ser não-correlacionado. PCA não consegue separarsinais.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 15 / 79

Page 16: Apresentação ICA

Analise de componentes independentes

Uma decorrelação não-linear é o método básico do ICA.Se s1 e s2 são independentes, então qualquer transformação não-linearg(s1) e h(s2) são não-correlacionadas.

Principio 1 de estimação de ICA - Decorrelação não-linear.Encontrada a matriz W para qualquer i 6= j , os componentes yi e yj sãonão-correlacionados, e as componentes transformadas g(s1) e h(s2) sãonão-correlacionadas quando g e h são funções não-lineais apropriadas.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 16 / 79

Page 17: Apresentação ICA

Analise de componentes independentes

Como são escolhidas as funções g e h?Teoria da estimação: Método do máximo likelihood.Teoria da informação: Informação mutua.

Os componentes independentes são componentes maximamentenão-gaussianos.

Principio 2 de estimação de ICA - Máxima não-gaussianidade.Encontrar a máxima não-gaussianidade da combinação lineal y =

∑i bixi

com a restrição que a variança de y é constante. Cada máximo localfornece um componente independente.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 17 / 79

Page 18: Apresentação ICA

Analise de componentes independentes

Na prática para medir a não-gaussianidade é usada a curtose.A curtose é uma medida de dispersão que caracteriza o pico ou“achatamento” da curva da função de distribuição de probabilidade.A máxima não-gaussianidade apresenta uma conexão entre ICA e atécnica busca de projeção e a técnica de codificação esparsa.A busca de projeção procura a máxima combinação linealnão-gaussiana.A codificação esparse é usada em teorias neuro-cientificas pararepresentar dados com poucas componentes “ativas” ao mesmo tempo.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 18 / 79

Page 19: Apresentação ICA

Analise de componentes independentes

A estimação do ICA precisa mais do que a covariança. O ICA utilizaestatística de ordem superior.Os métodos numéricos são tipicamente baseados em otimização dealgumas funções objetivo. FastICA

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 19 / 79

Page 20: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 20 / 79

Page 21: Apresentação ICA

Distribuição de uma variável aleatória

A função de distribuição cumulativa (cdf) Fx de uma v.a. x no pontox = x0 é definida como a probabilidade de que x ≤ x0

Fx(x0) = P(x ≤ x0)

cdf para uma v.a. continua é não-negativa, não-decrescente,0 ≤ Fx(x) ≤ 1. Fx(−∞) = 0 e Fx(+∞) = 0Usualmente a distribuição de probabilidade é caracterizada em termosda função de densidade em vez da sua cdf.Formalmente a função de densidade de probabilidad (pdf) px(x) deuma v.a. x é determinada pela derivada da cdf.

px(x0) =dFx(x)

dx|x=x0

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 21 / 79

Page 22: Apresentação ICA

Distribuição de uma variável aleatória

Na prática a cdf é calculada a partir pdf conhecida usando a relaçãoinversa.

Fx(x0) =

∫ x0

−∞exp

(−ξ

2

2

)dξ

Exemplo: A distribuição Gaussiana. m: média, σ: desvio padrão

px(x) =1√2πσ2

exp

(−(x −m)2

2σ2

)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 22 / 79

Page 23: Apresentação ICA

Distribuição de uma variável aleatória

A cdf é calculada usando valores tabulados da função de erro. m = 0e σ2 = 1.

erf (x) =1√2π

∫ x

0exp

(−ξ

2

2

)dξ

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 23 / 79

Page 24: Apresentação ICA

Distribuição de um vetor aleatório

Assumimos um vetor aleatório n-dimensional x = x1, x2, ..., xn. Oscomponente de x são variáveis aleatórias continuas.A cdf de x é definida por Fx(x0) = P(x ≤ x0).

A cdf é não-decrescente, 0 ≤ FX(x) ≤ 1.FX(x) = 1 se xi → +∞FX(x) = 0 se xi → −∞

A pdf multivariável px(x) de x é a derivada da cdf FX(x) com respeitoa todos os componentes do vec.a. x.

pX(X0) =δ

δx1

δ

δx2...

δ

δxnFX(X) |X=X0

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 24 / 79

Page 25: Apresentação ICA

Distribuição de um vetor aleatório

FX(x) =∫ x0,1

−∞

∫ x0,2

−∞...

∫ x0,n

−∞pX(X)dxn...dx2d1

x0,i é o i-esimo componente do vetor x0∫ ∞−∞

pX(X)dx = 1

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 25 / 79

Page 26: Apresentação ICA

Distribuição de um vetor aleatório

Exemplo: Assumimos a pdf de vec.a. bi-dimensional z.

pz(z) = px ,y (x , y) =

{ 37(2− x)(x + y), x ∈ [0, 2], y ∈ [0, 1]

0, outros casos

A cpf de z:

Fz(z) = Fx ,y (x , y) =

∫ y

0

∫ x

0

37(2− ξ)(ξ + η)dξdη

Fz(z) =

0, x ≤ 0 ou y ≤ 0

37xy(x + y − 1

3x2 − 1

4xy), 0 < x ≤ 2, 0 < y ≤ 137x(1+

34x −

13x

2), 0 < x ≤ 2, y > 167y(

23 + 1

2y), x > 2, 0 < y ≤ 11, x > 2 e y > 1

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 26 / 79

Page 27: Apresentação ICA

Distribuição conjunta e marginal

A distribuição conjunta de dois vetores aleatórios diferentes pode sertratada da mesma forma.

Sejam y e x dois vetores aleatórios de com diferentes dimensões, m e nrespectivamente.Os vetores x e y podem ser concatenados no vetor zT = (xT , yT ).A cdf é chamada de função de distribuição conjunta de x e y

Fx,y(x0, y0) = P(x ≤ x0, y ≤ y0)

A função de densidade conjunta Px,y(x, y) é definida pelo diferencial dafunção de distribuição conjunta Fx,y(x, y).

Fx,y(x0, y0) =

∫ x0

−∞

∫ y0

−∞px,y(ξ, η)dηdξ

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 27 / 79

Page 28: Apresentação ICA

Distribuição conjunta e marginal

A densidade marginal px(x) de x e py(y) de y é obtida integrandosobre o outro vetor aleatório na sua densidade conjunta.

px(x) =∫ ∞−∞

px,y(x, η)dη

py(y) =∫ ∞−∞

px,y(xi , y)dξ

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 28 / 79

Page 29: Apresentação ICA

Distribuição conjunta e marginal

Exemplo: Considerando a pdf do exemplo anterior, as densidades marginaissão:

px(x) =

∫ 1

0

37(2− x)(x + y)dy , x ∈ [0, 2]

=

{ 37(1+

32x − x2) x ∈ [0, 2]0 outros casos

py (y) =

∫ 2

0

37(2− x)(x + y)dx , x ∈ [0, 1]

=

{ 27(2+ 3y) x ∈ [0, 1]

0 outros casos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 29 / 79

Page 30: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 30 / 79

Page 31: Apresentação ICA

Expectativa e momentos

Na prática a densidade de probabilidade exata de um vetor ou variávelescalar aleatória é usualmente desconhecida.Pode ser usado a expectativa de algumas funções de uma variávelaleatória para o análise e o processamento.A expectativa pode ser estimada diretamente com os dados, emboraeles sejam formalmente definidos em termos da função de densidade.Seja g(x) uma quantidade caculada a partir de x.

E{g(x)} =∫ ∞−∞

g(x)px(x)dx

A integral é calculada sobre todos os componentes de x.O resultado é outro vetor ou matriz do mesmo tamanho.Se g(x) = x então E{g(x)} = E{x}.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 31 / 79

Page 32: Apresentação ICA

Propriedades

Linealidade: xi conjunto de vetores aleatórios diferentes, e aicoeficientes escalares não aleatórios.

E

{m∑i=1

aixi

}=

m∑i=1

aiE{xi}

Transformação lineal: x vetor aleatório m-dimensional, A e B matrizesnão aleatórias de k ×m e m × l

E{Ax} = AE{x} E{xB} = E{x}B

Transformação invariância: seja y = g(x) uma função vetorial dovetor x ∫ ∞

−∞ypy (y)dy =

∫ ∞−∞

g(x)px(x)dx

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 32 / 79

Page 33: Apresentação ICA

Vetor de médias e matriz de correlação

Os momentos de um vetor aleatório x são tipicamente expectativasusadas para caracterizá-lo.O primeiro momento do vetor aleatório x é chamado de vetor demédias mx de x.

mx = E{x} =∫ ∞−∞

xpx(x)dx

Cada componente da mxi do n-vetor mx é dado por

mxi = E{xi} =∫ ∞−∞

xipx(x)dx =

∫ ∞−∞

xipxi (xi )dxi

pxi é a densidade marginal do componente xi de x.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 33 / 79

Page 34: Apresentação ICA

Vetor de médias e matriz de correlação

O segundo momento permite obter a correlação.A correlação rij entre os componentes i e j de x está dada por

rij = E{xixj} =∫ ∞−∞

xixjpx(x)dx =

∫ ∞−∞

∫ ∞−∞

xixjpxi ,xj (xi , xj)dxjdxi

A matriz de correlação n × n Rx = E{xxT} do vetor x representatodas as correlações, rij seria o elemento da linhas i e coluna j de Rx

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 34 / 79

Page 35: Apresentação ICA

Propriedades da matriz de correlação

É uma matriz simétrica Rx = RTx

Semi definida positiva aTRxa ≥ 0 para todos os n-vetores de a.Todos os valores próprios de Rx são reais não-negativos. Todos osvetores próprios de Rx são reais e são mutuamente ortonormais.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 35 / 79

Page 36: Apresentação ICA

Covariança e momento conjunto

Os momentos centrais são definidos de maneira similar aos outrosmomentos, mas inclui a substração do vetor de médias.Os momentos centrais só têm significado por encima da primeiraordem.A matriz de correlação de Rx é chamada de matriz de covariança deCx de x

Cx = E{(x−mx)(x−mx)T}

Os elementos da matriz

cij = E{(xi −mi )(xj −mj)}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 36 / 79

Page 37: Apresentação ICA

Covariança e momentos conjuntos

A matriz de covariança Cx satisfaz as mesmas propriedades da matrizde correlação Rx.Usando as propriedades da expectativa

Rx = Cx +mxmTx

Se mx = 0 então Rx = Cx

Se é preciso durante o preprocessamento dos dados a é igualada azero.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 37 / 79

Page 38: Apresentação ICA

Covariança e momentos conjuntos

Para uma v.a. simples x , o vetor de médias reduiz-se a mx = E{x}.A matriz de correlação ao segundo momento E{x2}.A matriz de covariança a variança de x .

σ2x = E{(x −mx)

2}

Com isso é possível chegar a Ex2 = σ2x +m2x

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 38 / 79

Page 39: Apresentação ICA

Covariança e momentos conjuntos

A operação da expectativa pode ser estendida para vetores aleatóriosem termos da sua densidade conjunta.

E{g(x, y)} =∫ ∞∞

∫ ∞∞

g(x, y)px,y(x, y)dydx

A expectativa conjunta mais usada é a matriz de correlação cruzada

Rxy = E{xyT}

e a matriz de covariança cruzada

Cxy = E{(x−mx)(y−my)T}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 39 / 79

Page 40: Apresentação ICA

Covariança e momentos conjuntos

As matrizes cruzadas não são necessariamente quadradas.

Rxy = RTxy, Cxy = CT

xy,

Se o vetor de médias de x e y as matrizes de correlação cruzada ecovariança cruzada são a mesma.A matriz de covariança Cx+y da soma de dois vetores aleatórios x e ytendo a mesma dimensão é usado frequentemente na prática.

Cx+y = Cx + Cxy + Cyx + Cy

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 40 / 79

Page 41: Apresentação ICA

Covariança e momentos conjuntos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 41 / 79

Page 42: Apresentação ICA

Estimação da expectativa

Usualmente a densidade de probabilidade de um vetor aleatório x édesconhecido, mas estão disponíveis um conjunto de K amostrasx1, ..., xK .A expectativa estimada

E{g(x)} ≈ 1K

K∑j=1

g(xj)

Exemplo: Obtemos para o vetor de médias mx de x seu estimadopadrão, a média das amostras

m̂x =1K

K∑j=1

xj

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 42 / 79

Page 43: Apresentação ICA

Estimação da expectativa

Se em lugar da densidade conjunta px,y dos vetores aleatórios x e y,conhecemos K pares de amostras (x1, y1), ..., (xK , yK ), a expectativaconjunta estimada

E{g(x,y)} ≈ 1K

K∑j=1

g(xj , yj)

Para a matriz de correlação cruzada

R̂xy =1K

K∑j=1

xjyTj

Formulas similares são facilmente obtidas para outros tipos dematrizes de correlação.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 43 / 79

Page 44: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 44 / 79

Page 45: Apresentação ICA

Não-correlação e brancura

Dois vetores aleatórios são não-correlacionados se a sua matriz decovariança cruzada é uma matriz zero

Cxy = E{(x−mx)(y−my )T} = 0

É equivalente à condição

Rxy = E{(xyT} = E{x}E{yT} = mxmTy

Duas variáveis aleatórios escalares diferentes, x e y sãonão-correlacionadas se sua covariança cxy é zero

cxy = E{(x −mx)(y −my )} = 0

Equivalentemente

rxy = E{xy} = E{x}E{y} = mxmy

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 45 / 79

Page 46: Apresentação ICA

Não-correlação e independência

Pela correlação entre componentes de um vetor aleatório único x acondição de não-correlação está definida por

Cx = E{(x−mx)(x−mx)T} = D

D é uma matriz diagonal n × n

D = diag(c11, c22, ..., cnn) = diag(σ2x1 , σ

2x2 , ..., σ

2xn)

Os n elementos da diagonal são a variança σ2 = E{xi −mxi} = ciidos componentes xi de x.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 46 / 79

Page 47: Apresentação ICA

Não-correlação e independência

Vetores aleatórios com média zero e matriz de covariança unitária,possivelmente multiplicado por uma variança constante σ2, são ditosde brancos.

mx = 0, Rx = Cx = I

Assumindo que aplicamos uma matriz de transformação T ao vetoraleatório x

y = Tx, onde TTT = TTT = I

Se x é branco, então

my = E{Tx} = TE{x} = Tmx = 0

e

Cy = Ry = E{Tx(Tx)T} = TE{xxT}TT = TRxTT = TTT = I

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 47 / 79

Page 48: Apresentação ICA

Independência estatística

Constitui o fundamento do ICA.Duas variáveis aleatórias x e y são independentes, se conhecendo umvalor de y não obtenho alguma informação sobre os valores de x .A independência estatística é definida em termos da densidade deprobabilidade.A densidade conjunta px ,y (x , y) de x e y deve se fatorizar nosprodutos de suas densidades marginais px(x) e py (y).As funções de distribuição também devem ser fatorizáveis.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 48 / 79

Page 49: Apresentação ICA

Independência estatística

Variáveis aleatórias independentes satisfazem a propriedade básica

E{g(x)h(y)} = E{g(x)}E{h(y)}

A definição de independência estatística pode ser generalizada paradiferentes dimensões.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 49 / 79

Page 50: Apresentação ICA

Independência estatística

Exemplo A:

px ,y (x , y) =

{ 37(2− x)(x + y), x ∈ [0, 2], y ∈ [0, 1]

0, outros casos

Exemplo B:

px,y(x, y) ={

(x1 + 3x2)y , x ∈ [0, 2], y ∈ [0, 1]0, outros casos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 50 / 79

Page 51: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 51 / 79

Page 52: Apresentação ICA

Densidade condicional

Qual é a densidade de probabilidade de um vetor aleatório x dado queoutro vetor aleatório y tem um valor fixo y0?Assumindo uma densidade conjunta px,y(x, y) de x e y e suasdensidades marginais, a densidade de probabilidade condicional de xdado y

px|y(x | y) =px,y(x, y)py(y)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 52 / 79

Page 53: Apresentação ICA

Densidade condicional

Exemplo:

py |x(y | x0) =px ,y (x0, y)

px(x0)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 53 / 79

Page 54: Apresentação ICA

Densidade condicional

py |x(y | x0) =px ,y (x0, y)

px(x0)

px |y (x | y0) =px ,y (x , y0)

py (y0)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 54 / 79

Page 55: Apresentação ICA

Densidade condicional e regra de Bayes

Se dois vetores aleatórios x e y são estatísticamente independentes, adensidade condicional px|y(x | y) é igual à densidade não-condicionalde px(x).e com a definição de independência podemos encontrar uma soluçãopara a densidade de y condiciona em x

py|x(y | x) =px|y(x | y)py(y)

px(x)

onde o denominador pode ser calculado integrando o numerador se énecessario

px(x) =∫ ∞∞

px|y(x | η)py(η)dη

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 55 / 79

Page 56: Apresentação ICA

Regra de Bayes

Regra importante na teoria de estimação estatística.A regra de Bayes permite o calculo da densidade py|x(y | x) doparâmetro y, dada uma observação específica do vetor x, e assumindoo conhecimento da distribuição py(y)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 56 / 79

Page 57: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 57 / 79

Page 58: Apresentação ICA

Densidade gaussiana multivariável

Função de densidade de probabilidade

px(x) =1

(2π)n2 (detCx)

12exp(−1

2(x−mx)

TC−1x (x−mx))

Só tem importância a estatística de primeiro e segundo ordem

E{x} = mx, E{(x−mx)(x−mx)T} = Cx

Transformações lineais são gaussianas.Densidades marginais e condicional são gaussianas.Variáveis aleatórias gaussianas não correlacionadas são independentes.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 58 / 79

Page 59: Apresentação ICA

Teorema do limite central

Quando o tamanho da amostra aumenta, o distribuição amostral dasua média aproxima-se cada vez mais de uma distribuição normal.

xk =k∑

i=1

zi

xk é a soma parcial da variável aleatória zi ,

yk =xk −mxk

σxk

yk é uma variável padronizada, mxk a média de xk e σxk é o desviopadrão de xk .A distribuição de yk converge a uma distribuição gaussiana quandok →∞.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 59 / 79

Page 60: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 60 / 79

Page 61: Apresentação ICA

Densidade de uma transformação

Se dois vetores aleatórios n-dimensionais x e y estão relacionados porum vetor de mapeamento y = g(x) e existe um único mapeamentoinverso x = g−1(y) então é possível obter a densidade py(y) a partirde px(x)

py(y) =1

| detJg(g−1(y)) |px(g−1(y))

Jg é a matriz Jacobiana.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 61 / 79

Page 62: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 62 / 79

Page 63: Apresentação ICA

Estatística de ordem superior

É considerada de ordem superior quando a ordem é maior que 2.O j-ésimo momento dado por

αj = E{x j} =∫ ∞∞

ξjpx(ξ)dξ, j = 1, 2, ...

O j-ésimo momento central

µj = E{(x − α1)j} =

∫ ∞−∞

(ξ −mx)jpx(ξ)dξ, j = 1, 2, ...

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 63 / 79

Page 64: Apresentação ICA

Estatística de ordem superior

Primeiro momento E{x} = mx = α1 médiaSegundo momento E{x2} = α2 potência médiaSegundo momento central E{(x −mx)

2} = µ2 = σ2 variânciaTerceiro momento centralE{(x −mx)

3} = µ3 assimetria, usada paramedir a assimetria de uma função de distribuição

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 64 / 79

Page 65: Apresentação ICA

Curtose e classificação de densidade

Quarto momento E{x4} = α4

Quarto momento central E{(x −mx)4} = µ4

A curtose é definida por

kurt(x) = E{x4} − 3(E{x2})2

Para dados branqueados (E{x2} = 1)

kurt(x) = E{x4} − 3

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 65 / 79

Page 66: Apresentação ICA

Curtose e classificação de densidade

Para variáveis aleatórias gaussianas a curtose é zero.Se a curtose é positiva, a distribuição é chamada de super-gaussianaou leptocúrtica.Se a curtose é negativa, a distribuição é chamada de sub-gaussiana ouplaticúrtica.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 66 / 79

Page 67: Apresentação ICA

Cumulantes, momentos, e propriedades

Assumindo uma variável aleatória de média zero x , com função dedensidade de probabilidade px(x).A primeira função característica ϕ(ω) é definida como a transformadacontinua de Fourier de px(x)

ϕ(ω) = E{exp(jωx)} =∫ ∞−∞

exp(jωx)px(x)dx

ω é a variável transformada correspondente a x , e j =√−1.

Expandida em series de Taylor

ϕ(ω) =

∫ ∞−∞

( ∞∑k=0

xk(jω)k

k!

)px(x)dx =

∞∑k=0

E{xk}(jω)k

k!

Os coeficientes são momentos de x .

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 67 / 79

Page 68: Apresentação ICA

Cumulantes, momentos, e propriedades

A segunda função característica de x , é a função geradora decumulantes

φ(ω) = ln(ϕ(ω)) = ln(E{exp(jωx)})

Expandida em series de Taylor

φ(ω) =∞∑k=0

κk(jω)k

k!

Os cumulantes são os coeficientes, onde o k-ésimo cumulante

κk = (−j)k dkφ(ω)

dωk|ω=0

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 68 / 79

Page 69: Apresentação ICA

Cumulantes, momentos, e propriedades

Para variáveis aleatórias os primeiros 4 cumulantesκ1 = E{x}κ2 = E{x2} − (E{x})2κ3 = E{x3} − 3E{x2}E{x}+ 2(E{x})3κ4 = E{x4}−3(E{x2})2−4E{x3}E{x}+12E{x2}(E{x})2−6(E{x})4

Os cumulantes do vetor aleatório x com média zerocum(xi , xj) = E{xixj}cum(xi , xj , xk) = E{xixjxk}cum(xi , xj , xk , xl) =E{xixjxkxl} − E{xixj}E{xkxl} − E{xixk}E{xjxl} − E{xixl}E{xjxk}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 69 / 79

Page 70: Apresentação ICA

Cumulantes, momentos, e propriedades

Propriedades dos cumulantes que não possuem os momentosSeja x e y vetores aleatórios estatísticamente independentes, da mesmadimensão, o cumulante de sua soma z = x + y é igual a soma doscumulantes de x e y.Se a distribuição do vetor aleatório ou processo x é multivariávelgaussiana, todos os cumulantes de ordem 3 ou superior são zero.

Para usar estatística de ordem superior é preciso de muitas maisamostras do que a estatística de segundo ordem.A estatística de ordem superior pode ser muito sensível a dadosatípicos.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 70 / 79

Page 71: Apresentação ICA

Roteiro

1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes

2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 71 / 79

Page 72: Apresentação ICA

Processos estocásticos

Processos estocásticos ou aleatórios são funções aleatórias de tempo.Características básicas

São funções no tempo: observadas num intervalo de tempo.São aleatórias: antes da experiência não é possível descreverexatamente a forma da onda observada.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 72 / 79

Page 73: Apresentação ICA

Estacionalidade, funções de média e auto-correlação

Um processo estocástico é estacionário se sua densidade conjunta éinvariante num deslocamento do tempo de origem.Os processos estocásticos são caracterizados pelo primeiro e segundomomento, as funções de média e autocorrelação ou auto-covariança.

Função de média

mx(t) = E{x(t)} =∫ ∞−∞

x(t)px(x(t))dx(t)

Função de variância

σ2x (t) = E{(x(t)−mx(t))

2} =∫ ∞−∞

(x(t)−mx(t))2px(x(t))dx(t)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 73 / 79

Page 74: Apresentação ICA

Estacionalidade, funções de média e autocorrelação

Função de auto-covariância

cx(t, τ) = cov(x(t), x(t−τ)) = E{(x(t)−mx(t))(x(t−τ)−mx(t−τ))}

τ é um tempo constante de atraso entre as observações t e t − τFunção de auto-correlação

rx(t, τ) = E{x(t)x(t − τ)}

Para dois processos estocásticos x(t) e y(t)

Função de correlação cruzada

rxy (t, τ) = E{x(t)y(t − τ)}

Função de covariância cruzada

cxy (t, τ) = E{(x(t)−mx(t))(y(t − τ)−my (t − τ))}

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 74 / 79

Page 75: Apresentação ICA

Processos estacionários no sentido amplo

Processos estacionários no sentido amplo satisfazem as propriedadesA função de médias mx(t) de todo o processo é uma constante mx

para todo t.A função de autocorrelação é independente do deslocamento do tempo:E{x(t)x(t − τ)} = rx(τ) para todo t.A variança, ou o valor quadrático médio rx(0) = E{x2(t)} do processoé finito.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 75 / 79

Page 76: Apresentação ICA

Médias de tempo e ergodicidade

Médias de tempo ou médias amostrais de longo prazo é o cálculorealizado da média a partir de uma única realização disponível.A média de estimada para um processo que contem K amostras

m̂x(K ) =1K

K∑k=1

x(k)

A função de auto-correlação estimada para um valor de atraso de l

r̂x(l ,K ) =1

K − l

K−l∑k=1

x(k + l)x(k)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 76 / 79

Page 77: Apresentação ICA

Médias de tempo e ergodicidade

Os processos estocásticos são chamados ergódicos se sua médiaensemble e equiparada com a média de tempo.Um processo aleatório é ergódico com respeito a sua função de médiae auto-correlação, se é estacionário.

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 77 / 79

Page 78: Apresentação ICA

Potência espectral

O espectro de potência ou densidade espectral descreve a frequênciacontidas num do processo estocástico, mostrando quais frequênciasestão presentes e quanta potência elas possuem.A potência espectral é definida como a transformada discreta deFourier da sequencia de auto-correlação rx(0), rx(1), ...

Sx(ω) =∞∑

k=−∞rx(k)exp(−jkω)

A representação no dominio do tempo

rx(k) =12π

∫ π

−πSx(ω)exp(jkω)dω k = 1, 2, ...

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 78 / 79

Page 79: Apresentação ICA

Modelos de sinais estocásticos

Os processos estocásticos frequentemente são modelados em termosde processos auto-regressivos

x(n) = −M∑i=1

aix(n − i) + v(n)

v(n) é ruido branco, ai são coeficientes constantes do modelo AR, eM é a ordem do modelo, que da o número de amostras previas em queo valor atual x(n) do processo AR depende.Os processos auto-regressivos são um caso especial de processosauto-regressivos de média móvel

x(n) +M∑i=1

aix(n − i) = v(n) +N∑i=1

biv(n − i)

Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 79 / 79