Download - Apresentação ICA
Analise de Componentes Independentes
Nicolás Bulla1
1Departamento de Engenharia ElétricaUniversidade Federal do Rio de Janeiro
ICA, 2015
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 1 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 2 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 3 / 79
Conceito básico
ICA é um método para encontrar factores subjacentes ou componentesde dados estatísticos multidimensionais.A diferença de outros métodos, ICA procura que os componentessejam independentes estatísticamente e não-gaussianos.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 4 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 5 / 79
Ajuste estatístico geral
Como encontrar a representação adequada dos dados multivariável:mais visível ou acessível.Qual deveria ser a função tal que a variável transformada entregueinformação dos dados que de outro modo estariam ocultos numgrande número de dados: fatores ou componentes subjacentes.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 6 / 79
Representação lineal de dados multivariável
Assumindo: xi (t) observações, i = 1, ...,m e t = 1, ...,Tm número de variáveis, e T número de observações
yi (t) =∑j
wijxj(t)
para i = 1, ..., n, j = 1, ...,mwij são coeficientes.
y1(t)y2(t)...
yn(t)
= W
x1(t)x2(t)...
xm(t)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 7 / 79
Representação lineal de dados multivariável
Para determinar o vetor W são usados alguns princípios estatísticos:
Redução das dimensões: são escolhidas as componentes com maiorinformação (PCA).Independência estatística: nenhum valor de uma componente deve darinformação de algum valor em outra componente.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 8 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 9 / 79
Separação cega de fontes
É chamada de cega porque temos muito pouco conhecimento sobre asfontes originais.Assumindo três sinais observadas x1(t), x2(t), x3(t), e os sinaisoriginais s1(t), s2(t), s3(t).
xi (t) representa a soma ponderada de si (t) onde os coeficientes dependemda distância entre a fonte e o sensor.
x1(t) = a11s1(t) + a12s2(t) + a13s3(t)x2(t) = a21s1(t) + a22s2(t) + a23s3(t)x3(t) = a31s1(t) + a32s2(t) + a33s3(t)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 10 / 79
Separação cega de fontes
Podemos assumir que os coeficientes de mistura aij sãosuficientemente diferentes para fazer invertível a matriz que elesformam.Existe uma matriz W de coeficientes wij que pode separa si .
s1(t) = w11x1(t) + w12x2(t) + w13x3(t)s2(t) = w21x1(t) + w22x2(t) + w23x3(t)s3(t) = w31x1(t) + w32x2(t) + w33x3(t)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 11 / 79
Separação cega de fontes
Como estimar os coeficientes wij?Considerando a independência estatística dos sinais(não-gaussianidade) é possível determinar os coeficientes wij .
y1(t) = w11x1(t) + w12x2(t) + w13x3(t)y2(t) = w21x1(t) + w22x2(t) + w23x3(t)y3(t) = w31x1(t) + w32x2(t) + w33x3(t)
Se as sinais y1, y2, y3 são independentes, então são iguais as sinaisoriginais s1, s2, s3.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 12 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 13 / 79
Analise de componentes independentes
Dado um conjunto de observações de variáveis aleatórias x1(t), x2(t),x3(t), assuma-se uma mistura lineal de componentes independentes:
x1(t)x2(t)...
xn(t)
= A
s1(t)s2(t)...
sn(t)
onde A é uma matriz desconhecida.ICA consiste em estimar A e si (t), somente conhecendo xi (t).É preciso que os componentes si (t) sejam não-gaussianos.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 14 / 79
Analise de componentes independentes
AplicaçõesImagens do cérebro.EconometriaExtração de características em imagens.
Como encontrar os componentes independentes?Não é suficiente ser não-correlacionado. PCA não consegue separarsinais.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 15 / 79
Analise de componentes independentes
Uma decorrelação não-linear é o método básico do ICA.Se s1 e s2 são independentes, então qualquer transformação não-linearg(s1) e h(s2) são não-correlacionadas.
Principio 1 de estimação de ICA - Decorrelação não-linear.Encontrada a matriz W para qualquer i 6= j , os componentes yi e yj sãonão-correlacionados, e as componentes transformadas g(s1) e h(s2) sãonão-correlacionadas quando g e h são funções não-lineais apropriadas.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 16 / 79
Analise de componentes independentes
Como são escolhidas as funções g e h?Teoria da estimação: Método do máximo likelihood.Teoria da informação: Informação mutua.
Os componentes independentes são componentes maximamentenão-gaussianos.
Principio 2 de estimação de ICA - Máxima não-gaussianidade.Encontrar a máxima não-gaussianidade da combinação lineal y =
∑i bixi
com a restrição que a variança de y é constante. Cada máximo localfornece um componente independente.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 17 / 79
Analise de componentes independentes
Na prática para medir a não-gaussianidade é usada a curtose.A curtose é uma medida de dispersão que caracteriza o pico ou“achatamento” da curva da função de distribuição de probabilidade.A máxima não-gaussianidade apresenta uma conexão entre ICA e atécnica busca de projeção e a técnica de codificação esparsa.A busca de projeção procura a máxima combinação linealnão-gaussiana.A codificação esparse é usada em teorias neuro-cientificas pararepresentar dados com poucas componentes “ativas” ao mesmo tempo.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 18 / 79
Analise de componentes independentes
A estimação do ICA precisa mais do que a covariança. O ICA utilizaestatística de ordem superior.Os métodos numéricos são tipicamente baseados em otimização dealgumas funções objetivo. FastICA
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 19 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 20 / 79
Distribuição de uma variável aleatória
A função de distribuição cumulativa (cdf) Fx de uma v.a. x no pontox = x0 é definida como a probabilidade de que x ≤ x0
Fx(x0) = P(x ≤ x0)
cdf para uma v.a. continua é não-negativa, não-decrescente,0 ≤ Fx(x) ≤ 1. Fx(−∞) = 0 e Fx(+∞) = 0Usualmente a distribuição de probabilidade é caracterizada em termosda função de densidade em vez da sua cdf.Formalmente a função de densidade de probabilidad (pdf) px(x) deuma v.a. x é determinada pela derivada da cdf.
px(x0) =dFx(x)
dx|x=x0
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 21 / 79
Distribuição de uma variável aleatória
Na prática a cdf é calculada a partir pdf conhecida usando a relaçãoinversa.
Fx(x0) =
∫ x0
−∞exp
(−ξ
2
2
)dξ
Exemplo: A distribuição Gaussiana. m: média, σ: desvio padrão
px(x) =1√2πσ2
exp
(−(x −m)2
2σ2
)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 22 / 79
Distribuição de uma variável aleatória
A cdf é calculada usando valores tabulados da função de erro. m = 0e σ2 = 1.
erf (x) =1√2π
∫ x
0exp
(−ξ
2
2
)dξ
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 23 / 79
Distribuição de um vetor aleatório
Assumimos um vetor aleatório n-dimensional x = x1, x2, ..., xn. Oscomponente de x são variáveis aleatórias continuas.A cdf de x é definida por Fx(x0) = P(x ≤ x0).
A cdf é não-decrescente, 0 ≤ FX(x) ≤ 1.FX(x) = 1 se xi → +∞FX(x) = 0 se xi → −∞
A pdf multivariável px(x) de x é a derivada da cdf FX(x) com respeitoa todos os componentes do vec.a. x.
pX(X0) =δ
δx1
δ
δx2...
δ
δxnFX(X) |X=X0
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 24 / 79
Distribuição de um vetor aleatório
FX(x) =∫ x0,1
−∞
∫ x0,2
−∞...
∫ x0,n
−∞pX(X)dxn...dx2d1
x0,i é o i-esimo componente do vetor x0∫ ∞−∞
pX(X)dx = 1
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 25 / 79
Distribuição de um vetor aleatório
Exemplo: Assumimos a pdf de vec.a. bi-dimensional z.
pz(z) = px ,y (x , y) =
{ 37(2− x)(x + y), x ∈ [0, 2], y ∈ [0, 1]
0, outros casos
A cpf de z:
Fz(z) = Fx ,y (x , y) =
∫ y
0
∫ x
0
37(2− ξ)(ξ + η)dξdη
Fz(z) =
0, x ≤ 0 ou y ≤ 0
37xy(x + y − 1
3x2 − 1
4xy), 0 < x ≤ 2, 0 < y ≤ 137x(1+
34x −
13x
2), 0 < x ≤ 2, y > 167y(
23 + 1
2y), x > 2, 0 < y ≤ 11, x > 2 e y > 1
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 26 / 79
Distribuição conjunta e marginal
A distribuição conjunta de dois vetores aleatórios diferentes pode sertratada da mesma forma.
Sejam y e x dois vetores aleatórios de com diferentes dimensões, m e nrespectivamente.Os vetores x e y podem ser concatenados no vetor zT = (xT , yT ).A cdf é chamada de função de distribuição conjunta de x e y
Fx,y(x0, y0) = P(x ≤ x0, y ≤ y0)
A função de densidade conjunta Px,y(x, y) é definida pelo diferencial dafunção de distribuição conjunta Fx,y(x, y).
Fx,y(x0, y0) =
∫ x0
−∞
∫ y0
−∞px,y(ξ, η)dηdξ
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 27 / 79
Distribuição conjunta e marginal
A densidade marginal px(x) de x e py(y) de y é obtida integrandosobre o outro vetor aleatório na sua densidade conjunta.
px(x) =∫ ∞−∞
px,y(x, η)dη
py(y) =∫ ∞−∞
px,y(xi , y)dξ
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 28 / 79
Distribuição conjunta e marginal
Exemplo: Considerando a pdf do exemplo anterior, as densidades marginaissão:
px(x) =
∫ 1
0
37(2− x)(x + y)dy , x ∈ [0, 2]
=
{ 37(1+
32x − x2) x ∈ [0, 2]0 outros casos
py (y) =
∫ 2
0
37(2− x)(x + y)dx , x ∈ [0, 1]
=
{ 27(2+ 3y) x ∈ [0, 1]
0 outros casos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 29 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 30 / 79
Expectativa e momentos
Na prática a densidade de probabilidade exata de um vetor ou variávelescalar aleatória é usualmente desconhecida.Pode ser usado a expectativa de algumas funções de uma variávelaleatória para o análise e o processamento.A expectativa pode ser estimada diretamente com os dados, emboraeles sejam formalmente definidos em termos da função de densidade.Seja g(x) uma quantidade caculada a partir de x.
E{g(x)} =∫ ∞−∞
g(x)px(x)dx
A integral é calculada sobre todos os componentes de x.O resultado é outro vetor ou matriz do mesmo tamanho.Se g(x) = x então E{g(x)} = E{x}.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 31 / 79
Propriedades
Linealidade: xi conjunto de vetores aleatórios diferentes, e aicoeficientes escalares não aleatórios.
E
{m∑i=1
aixi
}=
m∑i=1
aiE{xi}
Transformação lineal: x vetor aleatório m-dimensional, A e B matrizesnão aleatórias de k ×m e m × l
E{Ax} = AE{x} E{xB} = E{x}B
Transformação invariância: seja y = g(x) uma função vetorial dovetor x ∫ ∞
−∞ypy (y)dy =
∫ ∞−∞
g(x)px(x)dx
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 32 / 79
Vetor de médias e matriz de correlação
Os momentos de um vetor aleatório x são tipicamente expectativasusadas para caracterizá-lo.O primeiro momento do vetor aleatório x é chamado de vetor demédias mx de x.
mx = E{x} =∫ ∞−∞
xpx(x)dx
Cada componente da mxi do n-vetor mx é dado por
mxi = E{xi} =∫ ∞−∞
xipx(x)dx =
∫ ∞−∞
xipxi (xi )dxi
pxi é a densidade marginal do componente xi de x.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 33 / 79
Vetor de médias e matriz de correlação
O segundo momento permite obter a correlação.A correlação rij entre os componentes i e j de x está dada por
rij = E{xixj} =∫ ∞−∞
xixjpx(x)dx =
∫ ∞−∞
∫ ∞−∞
xixjpxi ,xj (xi , xj)dxjdxi
A matriz de correlação n × n Rx = E{xxT} do vetor x representatodas as correlações, rij seria o elemento da linhas i e coluna j de Rx
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 34 / 79
Propriedades da matriz de correlação
É uma matriz simétrica Rx = RTx
Semi definida positiva aTRxa ≥ 0 para todos os n-vetores de a.Todos os valores próprios de Rx são reais não-negativos. Todos osvetores próprios de Rx são reais e são mutuamente ortonormais.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 35 / 79
Covariança e momento conjunto
Os momentos centrais são definidos de maneira similar aos outrosmomentos, mas inclui a substração do vetor de médias.Os momentos centrais só têm significado por encima da primeiraordem.A matriz de correlação de Rx é chamada de matriz de covariança deCx de x
Cx = E{(x−mx)(x−mx)T}
Os elementos da matriz
cij = E{(xi −mi )(xj −mj)}
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 36 / 79
Covariança e momentos conjuntos
A matriz de covariança Cx satisfaz as mesmas propriedades da matrizde correlação Rx.Usando as propriedades da expectativa
Rx = Cx +mxmTx
Se mx = 0 então Rx = Cx
Se é preciso durante o preprocessamento dos dados a é igualada azero.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 37 / 79
Covariança e momentos conjuntos
Para uma v.a. simples x , o vetor de médias reduiz-se a mx = E{x}.A matriz de correlação ao segundo momento E{x2}.A matriz de covariança a variança de x .
σ2x = E{(x −mx)
2}
Com isso é possível chegar a Ex2 = σ2x +m2x
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 38 / 79
Covariança e momentos conjuntos
A operação da expectativa pode ser estendida para vetores aleatóriosem termos da sua densidade conjunta.
E{g(x, y)} =∫ ∞∞
∫ ∞∞
g(x, y)px,y(x, y)dydx
A expectativa conjunta mais usada é a matriz de correlação cruzada
Rxy = E{xyT}
e a matriz de covariança cruzada
Cxy = E{(x−mx)(y−my)T}
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 39 / 79
Covariança e momentos conjuntos
As matrizes cruzadas não são necessariamente quadradas.
Rxy = RTxy, Cxy = CT
xy,
Se o vetor de médias de x e y as matrizes de correlação cruzada ecovariança cruzada são a mesma.A matriz de covariança Cx+y da soma de dois vetores aleatórios x e ytendo a mesma dimensão é usado frequentemente na prática.
Cx+y = Cx + Cxy + Cyx + Cy
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 40 / 79
Covariança e momentos conjuntos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 41 / 79
Estimação da expectativa
Usualmente a densidade de probabilidade de um vetor aleatório x édesconhecido, mas estão disponíveis um conjunto de K amostrasx1, ..., xK .A expectativa estimada
E{g(x)} ≈ 1K
K∑j=1
g(xj)
Exemplo: Obtemos para o vetor de médias mx de x seu estimadopadrão, a média das amostras
m̂x =1K
K∑j=1
xj
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 42 / 79
Estimação da expectativa
Se em lugar da densidade conjunta px,y dos vetores aleatórios x e y,conhecemos K pares de amostras (x1, y1), ..., (xK , yK ), a expectativaconjunta estimada
E{g(x,y)} ≈ 1K
K∑j=1
g(xj , yj)
Para a matriz de correlação cruzada
R̂xy =1K
K∑j=1
xjyTj
Formulas similares são facilmente obtidas para outros tipos dematrizes de correlação.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 43 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 44 / 79
Não-correlação e brancura
Dois vetores aleatórios são não-correlacionados se a sua matriz decovariança cruzada é uma matriz zero
Cxy = E{(x−mx)(y−my )T} = 0
É equivalente à condição
Rxy = E{(xyT} = E{x}E{yT} = mxmTy
Duas variáveis aleatórios escalares diferentes, x e y sãonão-correlacionadas se sua covariança cxy é zero
cxy = E{(x −mx)(y −my )} = 0
Equivalentemente
rxy = E{xy} = E{x}E{y} = mxmy
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 45 / 79
Não-correlação e independência
Pela correlação entre componentes de um vetor aleatório único x acondição de não-correlação está definida por
Cx = E{(x−mx)(x−mx)T} = D
D é uma matriz diagonal n × n
D = diag(c11, c22, ..., cnn) = diag(σ2x1 , σ
2x2 , ..., σ
2xn)
Os n elementos da diagonal são a variança σ2 = E{xi −mxi} = ciidos componentes xi de x.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 46 / 79
Não-correlação e independência
Vetores aleatórios com média zero e matriz de covariança unitária,possivelmente multiplicado por uma variança constante σ2, são ditosde brancos.
mx = 0, Rx = Cx = I
Assumindo que aplicamos uma matriz de transformação T ao vetoraleatório x
y = Tx, onde TTT = TTT = I
Se x é branco, então
my = E{Tx} = TE{x} = Tmx = 0
e
Cy = Ry = E{Tx(Tx)T} = TE{xxT}TT = TRxTT = TTT = I
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 47 / 79
Independência estatística
Constitui o fundamento do ICA.Duas variáveis aleatórias x e y são independentes, se conhecendo umvalor de y não obtenho alguma informação sobre os valores de x .A independência estatística é definida em termos da densidade deprobabilidade.A densidade conjunta px ,y (x , y) de x e y deve se fatorizar nosprodutos de suas densidades marginais px(x) e py (y).As funções de distribuição também devem ser fatorizáveis.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 48 / 79
Independência estatística
Variáveis aleatórias independentes satisfazem a propriedade básica
E{g(x)h(y)} = E{g(x)}E{h(y)}
A definição de independência estatística pode ser generalizada paradiferentes dimensões.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 49 / 79
Independência estatística
Exemplo A:
px ,y (x , y) =
{ 37(2− x)(x + y), x ∈ [0, 2], y ∈ [0, 1]
0, outros casos
Exemplo B:
px,y(x, y) ={
(x1 + 3x2)y , x ∈ [0, 2], y ∈ [0, 1]0, outros casos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 50 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 51 / 79
Densidade condicional
Qual é a densidade de probabilidade de um vetor aleatório x dado queoutro vetor aleatório y tem um valor fixo y0?Assumindo uma densidade conjunta px,y(x, y) de x e y e suasdensidades marginais, a densidade de probabilidade condicional de xdado y
px|y(x | y) =px,y(x, y)py(y)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 52 / 79
Densidade condicional
Exemplo:
py |x(y | x0) =px ,y (x0, y)
px(x0)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 53 / 79
Densidade condicional
py |x(y | x0) =px ,y (x0, y)
px(x0)
px |y (x | y0) =px ,y (x , y0)
py (y0)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 54 / 79
Densidade condicional e regra de Bayes
Se dois vetores aleatórios x e y são estatísticamente independentes, adensidade condicional px|y(x | y) é igual à densidade não-condicionalde px(x).e com a definição de independência podemos encontrar uma soluçãopara a densidade de y condiciona em x
py|x(y | x) =px|y(x | y)py(y)
px(x)
onde o denominador pode ser calculado integrando o numerador se énecessario
px(x) =∫ ∞∞
px|y(x | η)py(η)dη
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 55 / 79
Regra de Bayes
Regra importante na teoria de estimação estatística.A regra de Bayes permite o calculo da densidade py|x(y | x) doparâmetro y, dada uma observação específica do vetor x, e assumindoo conhecimento da distribuição py(y)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 56 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 57 / 79
Densidade gaussiana multivariável
Função de densidade de probabilidade
px(x) =1
(2π)n2 (detCx)
12exp(−1
2(x−mx)
TC−1x (x−mx))
Só tem importância a estatística de primeiro e segundo ordem
E{x} = mx, E{(x−mx)(x−mx)T} = Cx
Transformações lineais são gaussianas.Densidades marginais e condicional são gaussianas.Variáveis aleatórias gaussianas não correlacionadas são independentes.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 58 / 79
Teorema do limite central
Quando o tamanho da amostra aumenta, o distribuição amostral dasua média aproxima-se cada vez mais de uma distribuição normal.
xk =k∑
i=1
zi
xk é a soma parcial da variável aleatória zi ,
yk =xk −mxk
σxk
yk é uma variável padronizada, mxk a média de xk e σxk é o desviopadrão de xk .A distribuição de yk converge a uma distribuição gaussiana quandok →∞.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 59 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 60 / 79
Densidade de uma transformação
Se dois vetores aleatórios n-dimensionais x e y estão relacionados porum vetor de mapeamento y = g(x) e existe um único mapeamentoinverso x = g−1(y) então é possível obter a densidade py(y) a partirde px(x)
py(y) =1
| detJg(g−1(y)) |px(g−1(y))
Jg é a matriz Jacobiana.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 61 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 62 / 79
Estatística de ordem superior
É considerada de ordem superior quando a ordem é maior que 2.O j-ésimo momento dado por
αj = E{x j} =∫ ∞∞
ξjpx(ξ)dξ, j = 1, 2, ...
O j-ésimo momento central
µj = E{(x − α1)j} =
∫ ∞−∞
(ξ −mx)jpx(ξ)dξ, j = 1, 2, ...
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 63 / 79
Estatística de ordem superior
Primeiro momento E{x} = mx = α1 médiaSegundo momento E{x2} = α2 potência médiaSegundo momento central E{(x −mx)
2} = µ2 = σ2 variânciaTerceiro momento centralE{(x −mx)
3} = µ3 assimetria, usada paramedir a assimetria de uma função de distribuição
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 64 / 79
Curtose e classificação de densidade
Quarto momento E{x4} = α4
Quarto momento central E{(x −mx)4} = µ4
A curtose é definida por
kurt(x) = E{x4} − 3(E{x2})2
Para dados branqueados (E{x2} = 1)
kurt(x) = E{x4} − 3
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 65 / 79
Curtose e classificação de densidade
Para variáveis aleatórias gaussianas a curtose é zero.Se a curtose é positiva, a distribuição é chamada de super-gaussianaou leptocúrtica.Se a curtose é negativa, a distribuição é chamada de sub-gaussiana ouplaticúrtica.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 66 / 79
Cumulantes, momentos, e propriedades
Assumindo uma variável aleatória de média zero x , com função dedensidade de probabilidade px(x).A primeira função característica ϕ(ω) é definida como a transformadacontinua de Fourier de px(x)
ϕ(ω) = E{exp(jωx)} =∫ ∞−∞
exp(jωx)px(x)dx
ω é a variável transformada correspondente a x , e j =√−1.
Expandida em series de Taylor
ϕ(ω) =
∫ ∞−∞
( ∞∑k=0
xk(jω)k
k!
)px(x)dx =
∞∑k=0
E{xk}(jω)k
k!
Os coeficientes são momentos de x .
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 67 / 79
Cumulantes, momentos, e propriedades
A segunda função característica de x , é a função geradora decumulantes
φ(ω) = ln(ϕ(ω)) = ln(E{exp(jωx)})
Expandida em series de Taylor
φ(ω) =∞∑k=0
κk(jω)k
k!
Os cumulantes são os coeficientes, onde o k-ésimo cumulante
κk = (−j)k dkφ(ω)
dωk|ω=0
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 68 / 79
Cumulantes, momentos, e propriedades
Para variáveis aleatórias os primeiros 4 cumulantesκ1 = E{x}κ2 = E{x2} − (E{x})2κ3 = E{x3} − 3E{x2}E{x}+ 2(E{x})3κ4 = E{x4}−3(E{x2})2−4E{x3}E{x}+12E{x2}(E{x})2−6(E{x})4
Os cumulantes do vetor aleatório x com média zerocum(xi , xj) = E{xixj}cum(xi , xj , xk) = E{xixjxk}cum(xi , xj , xk , xl) =E{xixjxkxl} − E{xixj}E{xkxl} − E{xixk}E{xjxl} − E{xixl}E{xjxk}
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 69 / 79
Cumulantes, momentos, e propriedades
Propriedades dos cumulantes que não possuem os momentosSeja x e y vetores aleatórios estatísticamente independentes, da mesmadimensão, o cumulante de sua soma z = x + y é igual a soma doscumulantes de x e y.Se a distribuição do vetor aleatório ou processo x é multivariávelgaussiana, todos os cumulantes de ordem 3 ou superior são zero.
Para usar estatística de ordem superior é preciso de muitas maisamostras do que a estatística de segundo ordem.A estatística de ordem superior pode ser muito sensível a dadosatípicos.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 70 / 79
Roteiro
1 IntroduçãoConceito básicoRepresentação lineal de dados multivariávelSeparação cega de fontesAnalise de componentes independentes
2 Vetores Aleatórios e IndependênciaAs distribuições de probabilidade e densidadesExpectativa e momentosNão-correlação e independênciaDensidade condicional e regra de BayesDensidade gaussiana multivariávelDensidade de uma transformaçãoEstatística de ordem superiorProcessos estocásticos
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 71 / 79
Processos estocásticos
Processos estocásticos ou aleatórios são funções aleatórias de tempo.Características básicas
São funções no tempo: observadas num intervalo de tempo.São aleatórias: antes da experiência não é possível descreverexatamente a forma da onda observada.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 72 / 79
Estacionalidade, funções de média e auto-correlação
Um processo estocástico é estacionário se sua densidade conjunta éinvariante num deslocamento do tempo de origem.Os processos estocásticos são caracterizados pelo primeiro e segundomomento, as funções de média e autocorrelação ou auto-covariança.
Função de média
mx(t) = E{x(t)} =∫ ∞−∞
x(t)px(x(t))dx(t)
Função de variância
σ2x (t) = E{(x(t)−mx(t))
2} =∫ ∞−∞
(x(t)−mx(t))2px(x(t))dx(t)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 73 / 79
Estacionalidade, funções de média e autocorrelação
Função de auto-covariância
cx(t, τ) = cov(x(t), x(t−τ)) = E{(x(t)−mx(t))(x(t−τ)−mx(t−τ))}
τ é um tempo constante de atraso entre as observações t e t − τFunção de auto-correlação
rx(t, τ) = E{x(t)x(t − τ)}
Para dois processos estocásticos x(t) e y(t)
Função de correlação cruzada
rxy (t, τ) = E{x(t)y(t − τ)}
Função de covariância cruzada
cxy (t, τ) = E{(x(t)−mx(t))(y(t − τ)−my (t − τ))}
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 74 / 79
Processos estacionários no sentido amplo
Processos estacionários no sentido amplo satisfazem as propriedadesA função de médias mx(t) de todo o processo é uma constante mx
para todo t.A função de autocorrelação é independente do deslocamento do tempo:E{x(t)x(t − τ)} = rx(τ) para todo t.A variança, ou o valor quadrático médio rx(0) = E{x2(t)} do processoé finito.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 75 / 79
Médias de tempo e ergodicidade
Médias de tempo ou médias amostrais de longo prazo é o cálculorealizado da média a partir de uma única realização disponível.A média de estimada para um processo que contem K amostras
m̂x(K ) =1K
K∑k=1
x(k)
A função de auto-correlação estimada para um valor de atraso de l
r̂x(l ,K ) =1
K − l
K−l∑k=1
x(k + l)x(k)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 76 / 79
Médias de tempo e ergodicidade
Os processos estocásticos são chamados ergódicos se sua médiaensemble e equiparada com a média de tempo.Um processo aleatório é ergódico com respeito a sua função de médiae auto-correlação, se é estacionário.
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 77 / 79
Potência espectral
O espectro de potência ou densidade espectral descreve a frequênciacontidas num do processo estocástico, mostrando quais frequênciasestão presentes e quanta potência elas possuem.A potência espectral é definida como a transformada discreta deFourier da sequencia de auto-correlação rx(0), rx(1), ...
Sx(ω) =∞∑
k=−∞rx(k)exp(−jkω)
A representação no dominio do tempo
rx(k) =12π
∫ π
−πSx(ω)exp(jkω)dω k = 1, 2, ...
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 78 / 79
Modelos de sinais estocásticos
Os processos estocásticos frequentemente são modelados em termosde processos auto-regressivos
x(n) = −M∑i=1
aix(n − i) + v(n)
v(n) é ruido branco, ai são coeficientes constantes do modelo AR, eM é a ordem do modelo, que da o número de amostras previas em queo valor atual x(n) do processo AR depende.Os processos auto-regressivos são um caso especial de processosauto-regressivos de média móvel
x(n) +M∑i=1
aix(n − i) = v(n) +N∑i=1
biv(n − i)
Nicolás Bulla (UFRJ) Analise de Componentes Independentes ICA, 2015 79 / 79