teoria da informaç˜ao

54
Teoria da Informa¸ ao Charles Casimiro Cavalcante [email protected] Grupo de Pesquisa em Telecomunica¸ oes Sem Fio – GTEL Programa de P´ os-Gradua¸ ao em Engenharia de Teleinform´ atica Universidade Federal do Cear´ a – UFC http://www.gtel.ufc.br/charles c C. C. Cavalcante Teoria da Informa¸ ao

Upload: phamlien

Post on 06-Jan-2017

217 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Teoria da Informaç˜ao

Teoria da Informacao

Charles Casimiro [email protected]

Grupo de Pesquisa em Telecomunicacoes Sem Fio – GTEL

Programa de Pos-Graduacao em Engenharia de Teleinformatica

Universidade Federal do Ceara – UFC

http://www.gtel.ufc.br/∼charles

c© C. C. Cavalcante Teoria da Informacao

Page 2: Teoria da Informaç˜ao

“A principal funcao de um sistema de comunicacao e reproduzir,exatamente ou de forma aproximada, uma informacao provenientede outro ponto diferente.”

Claude Shannon, 1948

c© C. C. Cavalcante Teoria da Informacao

Page 3: Teoria da Informaç˜ao

Conteudo do curso

1 Revisao de probabilidade

2 Informacao e Entropia

3 Codificacao de fontes

4 Codificacao e capacidade de canal

5 Complexidade de Kolmogorov

6 Funcoes de otimizacao

7 Independent Component Analysis

c© C. C. Cavalcante Teoria da Informacao

Page 4: Teoria da Informaç˜ao

Parte II

Informacao e Entropia

c© C. C. Cavalcante Teoria da Informacao

Page 5: Teoria da Informaç˜ao

O que e informacao?

Medida da quantidade de incerteza de um processo que ocorrecom alguma probabilidade

Definicao de Shannon, 1948

Ferramentas probabilısticas

Contexto

Fonte discretaAlfabeto finito: A = {a0, a1, · · · , aK−1}Probabilidades: Pr(A = ak) = pk em que

K−1∑k=0

pk = 1

c© C. C. Cavalcante Teoria da Informacao

Page 6: Teoria da Informaç˜ao

Definicao

Informacao

I(ak) = logα

(1

Pr(ak)

)

= logα

(1

pk

)

= − logα (pk)

(23)

Unidade da informacao depende da base α, e.g.1 α = 2⇒ informacao em bits2 α = e⇒ informacao em nats

c© C. C. Cavalcante Teoria da Informacao

Page 7: Teoria da Informaç˜ao

O que mede a informacao?

De uma forma mais informal, informacao e a surpresa daocorrencia de um evento

Quanto mais surpresa (incerteza) mais informacao e, de formacontraria, quanto menos incerteza menos informacao

c© C. C. Cavalcante Teoria da Informacao

Page 8: Teoria da Informaç˜ao

Propriedades da informacao

1 I(ak) = 0 se pk = 1

2 I(ak) ≥ 0 para 0 ≤ pk ≤ 1Nunca ha perda de informacao!

3 I(ak) > I(ai) para pk < pi

4 I(akai) = I(ak) + I(ai) se ak e ai sao estatisticamenteindependentes

c© C. C. Cavalcante Teoria da Informacao

Page 9: Teoria da Informaç˜ao

Quantidade de informacao

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

5

6

7

8

9

10

BitsNats

Probabilidade de ocorrencia

Quan

tidad

ede

info

rmac

ao

c© C. C. Cavalcante Teoria da Informacao

Page 10: Teoria da Informaç˜ao

Informacao pontual e informacao media

Pode-se desejar entao calcular a quantidade media deinformacao de uma fonte A

A essa media da informacao denomina-se entropia

H(A) =K−1∑

k=0

pk · I(ak)

= −K−1∑

k=0

pk · logα(pk)

(24)

A entropia mede a quantidade de informacao media porsımbolo da fonte

c© C. C. Cavalcante Teoria da Informacao

Page 11: Teoria da Informaç˜ao

Propriedades da entropia

0 ≤ H(A) ≤ logα(K) (25)

H(A) = 0 se e somente se a probabilidade de ocorrencia pk

de um certo evento ak for pk = 1 e todas as demais foremiguais a zero. Neste ponto nao existe nenhuma incerteza econsequentemente a entropia e mınima.

H(A) = logα (K) se e somente se as probabilidades de todosos eventos ak forem iguais, ou seja, os eventos foremequiprovaveis

(pk = 1

K

).

c© C. C. Cavalcante Teoria da Informacao

Page 12: Teoria da Informaç˜ao

Entropia de uma fonte binaria

Seja uma fonte binaria com p0 e p1 as probabilidades dos sımbolosa0 e a1. A entropia e dada por:

H(A) = −p0 logα(p0)− p1 logα(p1)

= −p0 logα(p0)− (1− p0) logα(1− p0)

c© C. C. Cavalcante Teoria da Informacao

Page 13: Teoria da Informaç˜ao

Entropia de uma fonte binaria - grafico H(p0)× p0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

Probabilidade de ocorrencia (p0)

Entr

opia

H(p

0)

c© C. C. Cavalcante Teoria da Informacao

Page 14: Teoria da Informaç˜ao

Entropia - observacoes

A entropia pode ainda ser representada matematicamentecomo

H(A) = −E {log(pA(a))} , (26)

em que pA(a) e a funcao de densidade de probabilidade de A.

O que a entropia fornece e a de quanto de informacao ha, emmedia, num determinado sımbolo de uma fonte. Isto sera degrande interesse no projeto de codificadores de fonte.

c© C. C. Cavalcante Teoria da Informacao

Page 15: Teoria da Informaç˜ao

Entropia conjunta

Ate o momento foi vista a entropia de uma unica variavelaleatoria

Estendendo o conceito para duas variaveis tem-se novasdefinicoes

Entropia conjunta

H(A,B) = −∑

a∈A

b∈Bp(a, b) log[pA,B(a, b)]

= −E {log[pA,B(a, b)]}(27)

Fornece a quantidade de informacao media na ocorrencia deduas v.a.

c© C. C. Cavalcante Teoria da Informacao

Page 16: Teoria da Informaç˜ao

Entropia condicional

Entropia condicional

H(A|B) =∑

b∈BpB(b) ·H(A|B = b)

= −∑

b∈BpB(b)

a∈ApA|B(a|b) log[pA|B(a|b)]

= −∑

b∈B

a∈ApA,B(a, b) log[pA|B(a|b)]

= −E {log[pA|B(a|b)]}

(28)

Medida da quantidade media de informacao de uma v.a. dadaa ocorrencia de outra

c© C. C. Cavalcante Teoria da Informacao

Page 17: Teoria da Informaç˜ao

Entropia - Relacoes importantes

1 Regra da cadeia

H(A,B) = H(A) + H(B|A) (29)

A entropia de um par de variaveis e igual a entropia de umamais a entropia condicional.

2 Corolario da regra da cadeia

H(A,B|C) = H(A|C) + H(B|A,C), (30)

c© C. C. Cavalcante Teoria da Informacao

Page 18: Teoria da Informaç˜ao

Entropia relativa

Entropia relativa: e a medida de “distancia” entre duasdistribuicoes. Pode ser entendido como uma medida deineficiencia de assumir que uma v.a. tem distribuicao p(x)quando a verdadeira distribuicao e g(x).

D(p‖g) =∑

x∈Xp(x) · log

(p(x)

g(x)

)

= Ep(x)

{log

(p(x)

g(x)

)} (31)

A Equacao (31) e tambem conhecida como Divergencia deKullback-Leibler (KLD) ou ainda entropia cruzada

c© C. C. Cavalcante Teoria da Informacao

Page 19: Teoria da Informaç˜ao

Entropia relativa

Propriedades

1 e sempre de valor positivo ou zero; KLD e zero para o casoespecıfico de px(x) = gx(x).

2 e invariante com relacao as seguintes mudancas noscomponentes do vetor x;

permutacao de ordemescalonamento de amplitudetransformacao monotonica nao-linear

3 nao e uma distancia no espaco euclidiano poisD(p‖g) 6= D(g‖p)

4 e uma distancia no espaco das distribuicoes de probabilidade(espaco de Riemann)

c© C. C. Cavalcante Teoria da Informacao

Page 20: Teoria da Informaç˜ao

Informacao mutua

Definicao: para duas variaveis aleatorias A e B, ainformacao mutua e a entropia relativa entre a distribuicaoconjunta de A e B e o produto das distribuicoes marginais.

I(A,B) =∑

a∈A

b∈BpA,B(a, b) log

(pA,B(a, b)

pA(a)pB(b)

)

= D (pA,B(a, b)‖pA(a)pB(b))

= EA,B

{log

(pA,B(a, b)

pA(a)pB(b)

)}(32)

c© C. C. Cavalcante Teoria da Informacao

Page 21: Teoria da Informaç˜ao

Informacao mutua e entropia - relacoes importantes

1 Reducao da incerteza de A devido ao conhecimento de B

I(A,B) = H(A) −H(A|B) (33)

2 Simetria da relacao 1

I(A,B) = H(B)−H(B|A) (34)

3 Soma de entropias

I(A,B) = H(A) + H(B)−H(A,B) (35)

4 Auto-informacao mutua

I(A,A) = H(A)−H(A|A) = H(A) (36)

c© C. C. Cavalcante Teoria da Informacao

Page 22: Teoria da Informaç˜ao

Informacao mutua e entropia - relacoes importantes

H(A,B)

H(A) H(B)

I(A, B)H(A|B) H(B|A)

c© C. C. Cavalcante Teoria da Informacao

Page 23: Teoria da Informaç˜ao

Extensao de uma fonte discreta sem memoria

Utilizacao de blocos de dados, cada bloco com n sımbolos dafonte

Cada bloco pode ser entendido como sendo produzido poruma fonte estendida

Alfabeto An com Kn blocos distintos, com K o numero desımbolos na fonte original

Considerando que os sımbolos da fonte sao estatisticamenteindependentes

P (s[An]) =

n∏

i=1

P (si[A]) (37)

Daı, podemos escrever entao

H(An) = n ·H(A) (38)

c© C. C. Cavalcante Teoria da Informacao

Page 24: Teoria da Informaç˜ao

Definicoes importantes

Informacao condicional mutua de v.a. X e Y dado Z

I(X,Y |Z) = H(X|Z)−H(X|Y,Z)

= Ep(x,y,z)

{log

(p(X,Y |Z)

P (X|Z)p(Y |Z)

)}(39)

Entropia relativa condicional

D (p(y|x)‖q(y|x)) =∑

x

p(x)∑

y

p(y|x) log

(p(y|x)

q(y|x)

)

= EX,Y

{log

(p(y|x)

q(y|x)

)} (40)

c© C. C. Cavalcante Teoria da Informacao

Page 25: Teoria da Informaç˜ao

Variaveis contınuas

Entropia

H(A) = −∞∫

−∞

pA(a) log (pA(a)) da (41)

Divergencia de Kullback-Leibler

D(p‖q) =

∞∫

−∞

p(x) log

(p(x)

q(x)

)dx (42)

Nota: Vamos estudar mais detalhes destas grandezas a seguir!

c© C. C. Cavalcante Teoria da Informacao

Page 26: Teoria da Informaç˜ao

Entropia diferencial

Embora a entropia definida por Shannon seja aplicada ao casodiscreto, podemos expandir o conceito para variaveis contınuas

A semelhanca entre os casos discreto e contınuo e bastantegrande, mas algumas diferencas sao importantes e o uso detal conceito merece cuidado

Quando as variaveis sao contınuas a entropia recebe o nomede entropia diferencial

c© C. C. Cavalcante Teoria da Informacao

Page 27: Teoria da Informaç˜ao

Entropia diferencial - cont.

Definicao

A entropia diferencial H(X) de uma variavel aleatoria contınua Xcom densidade de probabilidade pX(x) e definida por

H(X) = −∫

SpX(x) · log [pX(x)] dx (43)

em que S e o conjunto suporte da v.a.

Como no caso discreto, a entropia diferencial so depende dadensidade de probabilidade, sendo por vezes escrita comoH [pX(x)] ao inves de H(X)

Lembrete: como em qualquer problema envolvendo integralou densidade de probabilidade, nos precisamos garantir queelas existem.

c© C. C. Cavalcante Teoria da Informacao

Page 28: Teoria da Informaç˜ao

Entropia diferencial - cont.

Exemplo - Distribuicao uniforme

Seja uma v.a. distribuıda uniformemente entre 0 e a, entao suadensidade e 1/a entre 0 a a e 0 caso contrario. Entao sua entropiadiferencial e

H(X) = −a∫

0

1

a· log

[1

a

]dx = log(a) (44)

Note que, para a < 1, temos log(a) < 0 e a entropia diferencial enegativa. Daı ao contrario da entropia discreta, a entropiadiferencial pode ser negativa. Entretanto, 2H(X) = 2log(a) = a e ovolume do conjunto suporte, o qual e sempre nao-negativo, comoesperado.

c© C. C. Cavalcante Teoria da Informacao

Page 29: Teoria da Informaç˜ao

Entropia diferencial - cont.

Exemplo - Distribuicao normal

Seja X ∼ N (0, σ2) em que denotamos pX(x) = φ(x). Entao,calculando a entropia diferencial em nats, temos

H [pX(x)] = −∫

φ(x) ln[φ(x)] dx

= −∫

φ(x)

[− x2

2σ2− ln(

√2πσ2)

]dx

=E{X2}

2σ2+

1

2ln(2πσ2)

=1

2+

1

2ln(2πσ2)

=1

2ln(e) +

1

2ln(2πσ2)

=1

2ln(2πeσ2) nats

(45)

c© C. C. Cavalcante Teoria da Informacao

Page 30: Teoria da Informaç˜ao

Entropia diferencial - cont.Entropia diferencial conjunta

Definicao

Seja um conjunto de N v.a. X1,X2, . . . ,XN com densidadepX(x) = pX(x1, x2, . . . , xN ), a entropia diferencial e definida como

H [pX(x)] = −∫

pX(x) · log [pX(x)] dx

= −∫ ∫

· · ·∫

pX1,X2,...,XN(x1, x2, . . . , xN )·

· log [pX1,X2,...,XN(x1, x2, . . . , xN )] dx1 dx2 . . . dxN

(46)

c© C. C. Cavalcante Teoria da Informacao

Page 31: Teoria da Informaç˜ao

Entropia diferencial - cont.Entropia diferencial condicional

Definicao

Se X,Y tem uma funcao de densidade conjunta pX,Y (x, y),podemos definir a entropia diferencial condicional H(X|Y ) como

H(X|Y ) = −∫ ∫

pX,Y (x, y) · log[pX|Y (x|y)

]dx dy (47)

Uma vez que em geral pX|Y (x|y) = pX,Y (x, y)/pY (y), podemostambem escrever

H(X|Y ) = H(X,Y )−H(Y ) (48)

Deve-se entretanto garantir que nenhuma das entropias diferenciaisseja infinita.

c© C. C. Cavalcante Teoria da Informacao

Page 32: Teoria da Informaç˜ao

Regras da cadeia

Entropia

H(A1, A2, · · · , An) =n∑

i=1

H(Ai|Ai−1, Ai−2, · · · , A1) (49)

Informacao mutua

I(A1, A2, · · · , An;B) =

n∑

i=1

I(Ai;B|Ai−1, Ai−2, · · · , A1) (50)

Entropia relativa

D (pA,B(a, b)‖qA,B(a, b)) = D (pA(a)‖qA(a))+D(pB|A(b|a)‖qB|A(b|a)

)

(51)

c© C. C. Cavalcante Teoria da Informacao

Page 33: Teoria da Informaç˜ao

Entropia diferencial - cont.Propriedades da entropia diferencial, entropia relativa e informacao mutua

1 D(p‖g) ≥ 0

2 I(X,Y ) ≥ 0 com igualdade se mantendo se e somente se X eY sao independentes

3 H(X|Y ) ≤ H(X), com igualdade se mantendo se e somentese X e Y sao independentes

4 H(X + c) = H(X) - translacao nao altera entropia

5 H(cX) = H(X) + log(|c|)6 Para vetores e matrizes temos: H(CX) = H(X) + log(|C|),

em que |C| e o determinante da matrix C

c© C. C. Cavalcante Teoria da Informacao

Page 34: Teoria da Informaç˜ao

Entropia diferencial - cont.Decomposicao Pitagorica

Seja um vetor de N amostras aleatorias X formado de amostrasindependentes, ou seja,

pX(x) =

N∏

i=1

pXi(xi) (52)

e seja um vetor Y definido em termos de x como Y = AX, emque A e uma matriz nao-diagonal. Seja pYi

(yi) a densidade deprobabilidade marginal de cada Yi derivada a partir de pY(y).Entao, a KLD entre pX(x) e pY(y) admite a seguintedecomposicao Pitagorica

D(pY||pX) = D(pY||pX) + D(pY||pX) (53)

c© C. C. Cavalcante Teoria da Informacao

Page 35: Teoria da Informaç˜ao

Entropia diferencial - cont.Inequacao de Jensen

Deriva da seguinte formula de funcao convexa

f (λx1 + (1− λ)x2) ≤ λf(x1) + (1− λ)f(x2) (54)

Exemplo de funcoes convexas: x2, |x|, ex, x log(x) parax ≥ 0, etc

Inequacao de JensenE {f(X)} ≥ f (E {X}) (55)

c© C. C. Cavalcante Teoria da Informacao

Page 36: Teoria da Informaç˜ao

Entropia diferencial - cont.Prova do mınimo da KLD

Deseja-se provar que D(p‖q) ≥ 0, entao tem-se

−D(p‖q) = −∑

x

p(x) · log(

p(x)

q(x)

)=∑

x

p(x) · log(

q(x)

p(x)

)

Utilizando a inequacao de Jensen

x

p(x) · log(

q(x)

p(x)

)≤ log

(∑

x

p(x) ·(

q(x)

p(x)

))

log

(∑

x

p(x) ·(

q(x)

p(x)

))= log

(∑

x

q(x)

)

= log(1)

= 0

c© C. C. Cavalcante Teoria da Informacao

Page 37: Teoria da Informaç˜ao

Outras definicoes de entropiaEntropia de Renyi

A entropia de Renyi, uma generalizacao da entropia de Shannon, euma famılia de funcionais para quantificacao da diversidade,incerteza ou aleatoriedade de um sistema.

Definicao

A entropia de Renyi de ordem α, para α > 0 e definida como

Hα(X) =1

1− αlog

(N−1∑

i=0

pαi

)(56)

em que pi e a probabilidade do evento i.

Uma importante propriedade, e que se os eventos foremequiprovaveis, entao todas as entropias de Renyi (para qualquer α)sao iguais para a distribuicao com Hα(X) = log(N). Casocontrario, as entropias decrescem em funcao do α.

c© C. C. Cavalcante Teoria da Informacao

Page 38: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia de Renyi - cont.

Alguns casos particulares1 H0(X) = log(N) - e tambem chamada de entropia de

Hartley

2 No limite quando α→ 1 temos H1(X) = −N−1∑i=0

pi log(pi),

que e a entropia de Shannon3 Frequentemente, a entropia de Renyi e dada para α = 2 sendo

H2(X) = − log

(N−1∑

i=0

p2i

)(57)

4 Para α→∞ tem-se a Min-entropia, que e o menor valor deH∞(X) dada por

H∞(X) = − log

(sup

i=1,...,Npi

)(58)

c© C. C. Cavalcante Teoria da Informacao

Page 39: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia de Renyi - cont.

Como a entropia de Renyi define o ganho de informacao, hatambem uma medida para ganhos relativos de informacao. Destaforma temos uma generalizacao da Divergencia de Kullback-Leiblerdada pela Divergencia Generalizada de Renyi de ordem α

Dα(p||q) =1

α− 1log

(N−1∑

i=0

pαi

qα−1i

)(59)

A exemplo da KLD, a divergencia generalizada de Renyi e semprenao negativa.

Referencia:A. Renyi. “On measures of information and entropy”. Proceedingsof the 4th Berkeley Symposium on Mathematics, Statistics andProbability, 1960: 547-561.

c© C. C. Cavalcante Teoria da Informacao

Page 40: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia de Boltzmann-Gibbs

Entropia usada na termodinamica

H = −kB

α

pα log pα, (60)

em que kB e a constante de Boltzmann e pα e a probabilidade dosistema estar no estado α.

c© C. C. Cavalcante Teoria da Informacao

Page 41: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia de Tsallis

A entropia de Tsallis e uma generalizacao da entropia deBoltzmann-Gibbs, que e a entropia da termodinamica. Assim, aentropia de Tsallis e dada por

Hq(p) =1

q − 1

(1−

∫pq(x) dx

)(61)

ou, no caso discreto

Hq(p) =1

q − 1

(1−

∑pq(x)

)(62)

Neste caso, p denota a densidade de probabilidade de interesse e qe um valor real. No limite quando q → 1 obtem-se a entropia deBoltzmann-Gibbs

c© C. C. Cavalcante Teoria da Informacao

Page 42: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia de von Neumann

A entropia de von Neumann e utilizada para medir a informacaomedia em densidade de estados quanticos. Um estado quanticorepresenta as possibilidades de existencia de uma partıcula emdiferentes estados, desta forma, representamos um estado quanticopara dois estados possıveis, 0 e 1, por exemplo, como uma matrizde dimensao 2× 2, ou seja,

ρ =

[a bc d

](63)

Com isso, define-se a entropia de von Neumann comoH(ρ) = trace [ρ log(ρ)] (64)

a qual generaliza a entropia de Shannon.

c© C. C. Cavalcante Teoria da Informacao

Page 43: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia de von Neumann - cont.

Tambem temos a entropia quantica relativa, que generaliza aentropia relativa (divergencia de Kullback-Leibler) para estadosquanticos, a qual e definida comoD(ρ||) = trace [ρ log(ρ)− ρ log()] (65)

em que ρ e sao matrizes Hermitianas positivas com traco igual a1.

A ideia da entropia quantica (relativa ou de von Neumann) e a demensurar a informacao “espalhada” nos diversos estados quanticos.

Referencia:T.T. Georgiou, “Relative entropy and the multivariablemultidimensional moment problem”, IEEE Trans. on InformationTheory, vol. 52, No. 3, pp. 1052-1066, March 2006.

c© C. C. Cavalcante Teoria da Informacao

Page 44: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia espectral

A ideia da entropia espectral e a de analisar a informacao noespectro do sinal. Utilizando-se da entropia de Shannon,substitui-se a densidade de probabilidade pela densidade espectral.Assim, podemos definir como

Hsp(P ) = −fh∑

i=fl

Pi log(Pi) (66)

em que a faixa [fl, fh] define a faixa de frequencia de interesse.

c© C. C. Cavalcante Teoria da Informacao

Page 45: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Entropia espectral - cont.

O interesse e de medir a quantidade de informacao media noespectro a partir da informacao contida em cada uma dascomponentes de frequencia. Encontra aplicacao em areas debiomedicas, por exemplo.

Referencia:R. Ferenets, T. Lipping, A. Anier, V. Jantti, S. Melto, andS.Hovilehto, “Comparison of Entropy and Complexity Measures forthe Assessment of Depth of Sedation”, IEEE Trans. on BiomedicalEngineering, vol. 53, No. 6, pp. 1067-1077, June 2006.

c© C. C. Cavalcante Teoria da Informacao

Page 46: Teoria da Informaç˜ao

Outras definicoes de entropia - cont.Taxa de informacao

A taxa de informacao de uma fonte e determinada a partir de suasentropia e taxa de transmissao.Sendo uma fonte de informacao S que transmite r sımbolos a cadasegundo, cujos sımbolos sao variaveis aleatorias as pertencentes aum alfabeto A = {as : 1 ≤ s ≤ S} com entropia H(A), define-sea taxa de informacao R como sendo determinada pela equacao:

R = r ·H(A). (67)

c© C. C. Cavalcante Teoria da Informacao

Page 47: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I

Entropia e informacao mutua sao importantes caracterısticasde processos aleatorios com possibilidade de aplicacao emvarias areas.

Um problema inerente ao tratamento por teoria da estimacaoe como estimar tais quantidades uma vez que elas sao funcoesda densidade de probabilidade, a qual e difıcil de estimar apartir dos dados.

Como fazer estimativas dos dados a partir apenas de medidas?

Estimadores!!

c© C. C. Cavalcante Teoria da Informacao

Page 48: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na expansao de Gram-Charlier

Expansao de Gram-Charlier: aproximacao polinomial dadensidade de probabilidade em torno de uma pdf gaussiana

pX(x) = pG(x)

(1 +

∞∑

k=3

Ck · hi(x)

), (68)

Os coeficientes Ck serao funcoes dos momentos/cumulantesde X e hi e o polinomio de Hermite de ordem k

c© C. C. Cavalcante Teoria da Informacao

Page 49: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na expansao de Gram-Charlier - cont.

Sabendo que podemos escrever a entropia como (sera vistoem maiores detalhes mais adiante!)

H(pX) = H(pG)−NG(pX) (69)

em que NG(pX) e a chamada negentropia.

Pode-se escrever entao

H(pX) = H(pG)−∫

VpX(v) log

[pX(v)

pG(v)

]dv (70)

c© C. C. Cavalcante Teoria da Informacao

Page 50: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na expansao de Gram-Charlier - cont.

Entao

H(pX) ≈ H(pG)−∫

VpG(v) (1 + Z(v)) log [1 + Z(v)] dv

≈ H(pG)−∫

VpG(v)

[Z(v) + Z2(v)

]dv

= H(pG)− 1

12

d∑

i=1

(κi,i,i

)2+ 3

d∑

i,j=1i6=j

(κi,i,j

)2+

1

6

d∑

i,j=1i6=jj 6=k

(κi,j,k

)2

(71)em que Z(v) = 1

3!

∑i,j,k κi,j,khijk(v), hijk e o polinomio de ordem

ijk e κi,i,i e o momento de terceira ordem.

c© C. C. Cavalcante Teoria da Informacao

Page 51: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na expansao de Gram-Charlier - cont.

E importante mencionar que foi feita uma aproximacao emserie, de segunda ordem, na expansao de Edgeworth(expansao de Gram-Charlier ordenada pela ordem deimportancia dos seus termos).

Os momentos podem entao ser estimados a partir dasamostras

Os polinomios de Hermite tem forma fechada e pode sercalculados a partir dos dados.

Entretanto, as expansoes de Edgeworth e Gram-Charlier sopodem aproxima funcoes que sao “proximas” a umagaussiana

c© C. C. Cavalcante Teoria da Informacao

Page 52: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na estimacao de Parzen

O estimador de Parzen para pdfs aproxima a densidade(qualquer!) por um somatorio de funcoes kernel. Dentre asclasses de funcoes que podem ser consideradas kernel afuncao gaussiana e a mais conhecida

Assim podemos ter

pX(x) =1

N

N∑

i=1

K(x− xi, σI) (72)

Sabe-se ainda que, para dois kernels vale

x

K(x− xi, σ1I)K(x− xj , σ2I) = K (xi − xj, (σ1 + σ2)I)

(73)

c© C. C. Cavalcante Teoria da Informacao

Page 53: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na estimacao de Parzen - cont.

Assim, teremos o seguinte aproximador para a entropia deShannon

H(pX) = −∫

x

pX(x) · log (pX(x)) dx

= −∫

x

N∑

i=1

K(x− xi) · log[

N∑

i=1

K(x− xi)

] (74)

c© C. C. Cavalcante Teoria da Informacao

Page 54: Teoria da Informaç˜ao

Informacao e entropiaEstimacao de H e I - cont.

Baseado na estimacao de Parzen - cont.

Para a entropia de Renyi temos para o caso de α = 2:

H(pX) = − log

[∫

x

p2

X(x) dx

]

≈ − log

1

N2

x

N∑

i=1

N∑

j=1

K(x − xi, σI)K(x − xj , σI) dx

≈ − log

1

N2

N∑

i=1

N∑

j=1

K(xi − xj , 2σI)

(75)

E entao possıvel fazer desenvolvimento similares para aentropia condicional, relativa e informacao mutua

c© C. C. Cavalcante Teoria da Informacao