teoria da informaç˜ao

Teoria da Informacao

Charles Casimiro [email protected]

Grupo de Pesquisa em Telecomunicacoes Sem Fio – GTEL

Programa de Pos-Graduacao em Engenharia de Teleinformatica

Universidade Federal do Ceara – UFC

http://www.gtel.ufc.br/∼charles

c© C. C. Cavalcante Teoria da Informacao

“A principal funcao de um sistema de comunicacao e reproduzir,exatamente ou de forma aproximada, uma informacao provenientede outro ponto diferente.”

Claude Shannon, 1948


Conteudo do curso

1 Revisao de probabilidade

2 Informacao e Entropia

3 Codificacao de fontes

4 Codificacao e capacidade de canal

5 Complexidade de Kolmogorov

6 Funcoes de otimizacao

7 Independent Component Analysis


Parte II

Informacao e Entropia


O que e informacao?

Medida da quantidade de incerteza de um processo que ocorrecom alguma probabilidade

Definicao de Shannon, 1948

Ferramentas probabilısticas

Contexto

Fonte discretaAlfabeto finito: A = {a0, a1, · · · , aK−1}Probabilidades: Pr(A = ak) = pk em que

K−1∑k=0

pk = 1


Definicao

Informacao

I(ak) = logα

(1

Pr(ak)

)

= logα

(1

pk

)

= − logα (pk)

(23)

Unidade da informacao depende da base α, e.g.1 α = 2⇒ informacao em bits2 α = e⇒ informacao em nats


O que mede a informacao?

De uma forma mais informal, informacao e a surpresa daocorrencia de um evento

Quanto mais surpresa (incerteza) mais informacao e, de formacontraria, quanto menos incerteza menos informacao


Propriedades da informacao

1 I(ak) = 0 se pk = 1

2 I(ak) ≥ 0 para 0 ≤ pk ≤ 1Nunca ha perda de informacao!

3 I(ak) > I(ai) para pk < pi

4 I(akai) = I(ak) + I(ai) se ak e ai sao estatisticamenteindependentes


Quantidade de informacao

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

5

6

7

8

9

10

BitsNats

Probabilidade de ocorrencia

Quan

tidad

ede

info

rmac

ao


Informacao pontual e informacao media

Pode-se desejar entao calcular a quantidade media deinformacao de uma fonte A

A essa media da informacao denomina-se entropia

H(A) =K−1∑

k=0

pk · I(ak)

= −K−1∑

k=0

pk · logα(pk)

(24)

A entropia mede a quantidade de informacao media porsımbolo da fonte


Propriedades da entropia

0 ≤ H(A) ≤ logα(K) (25)

H(A) = 0 se e somente se a probabilidade de ocorrencia pk

de um certo evento ak for pk = 1 e todas as demais foremiguais a zero. Neste ponto nao existe nenhuma incerteza econsequentemente a entropia e mınima.

H(A) = logα (K) se e somente se as probabilidades de todosos eventos ak forem iguais, ou seja, os eventos foremequiprovaveis

(pk = 1

K

).


Entropia de uma fonte binaria

Seja uma fonte binaria com p0 e p1 as probabilidades dos sımbolosa0 e a1. A entropia e dada por:

H(A) = −p0 logα(p0)− p1 logα(p1)

= −p0 logα(p0)− (1− p0) logα(1− p0)


Entropia de uma fonte binaria - grafico H(p0)× p0

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

1.1

Probabilidade de ocorrencia (p0)

Entr

opia

H(p

0)


Entropia - observacoes

A entropia pode ainda ser representada matematicamentecomo

H(A) = −E {log(pA(a))} , (26)

em que pA(a) e a funcao de densidade de probabilidade de A.

O que a entropia fornece e a de quanto de informacao ha, emmedia, num determinado sımbolo de uma fonte. Isto sera degrande interesse no projeto de codificadores de fonte.


Entropia conjunta

Ate o momento foi vista a entropia de uma unica variavelaleatoria

Estendendo o conceito para duas variaveis tem-se novasdefinicoes

Entropia conjunta

H(A,B) = −∑

a∈A

∑

b∈Bp(a, b) log[pA,B(a, b)]

= −E {log[pA,B(a, b)]}(27)

Fornece a quantidade de informacao media na ocorrencia deduas v.a.


Entropia condicional

Entropia condicional

H(A|B) =∑

b∈BpB(b) ·H(A|B = b)

= −∑

b∈BpB(b)

∑

a∈ApA|B(a|b) log[pA|B(a|b)]

= −∑

b∈B

∑

a∈ApA,B(a, b) log[pA|B(a|b)]

= −E {log[pA|B(a|b)]}

(28)

Medida da quantidade media de informacao de uma v.a. dadaa ocorrencia de outra


Entropia - Relacoes importantes

1 Regra da cadeia

H(A,B) = H(A) + H(B|A) (29)

A entropia de um par de variaveis e igual a entropia de umamais a entropia condicional.

2 Corolario da regra da cadeia

H(A,B|C) = H(A|C) + H(B|A,C), (30)


Entropia relativa

Entropia relativa: e a medida de “distancia” entre duasdistribuicoes. Pode ser entendido como uma medida deineficiencia de assumir que uma v.a. tem distribuicao p(x)quando a verdadeira distribuicao e g(x).

D(p‖g) =∑

x∈Xp(x) · log

(p(x)

g(x)

)

= Ep(x)

{log

(p(x)

g(x)

)} (31)

A Equacao (31) e tambem conhecida como Divergencia deKullback-Leibler (KLD) ou ainda entropia cruzada


Entropia relativa

Propriedades

1 e sempre de valor positivo ou zero; KLD e zero para o casoespecıfico de px(x) = gx(x).

2 e invariante com relacao as seguintes mudancas noscomponentes do vetor x;

permutacao de ordemescalonamento de amplitudetransformacao monotonica nao-linear

3 nao e uma distancia no espaco euclidiano poisD(p‖g) 6= D(g‖p)

4 e uma distancia no espaco das distribuicoes de probabilidade(espaco de Riemann)


Informacao mutua

Definicao: para duas variaveis aleatorias A e B, ainformacao mutua e a entropia relativa entre a distribuicaoconjunta de A e B e o produto das distribuicoes marginais.

I(A,B) =∑

a∈A

∑

b∈BpA,B(a, b) log

(pA,B(a, b)

pA(a)pB(b)

)

= D (pA,B(a, b)‖pA(a)pB(b))

= EA,B

{log

(pA,B(a, b)

pA(a)pB(b)

)}(32)


Informacao mutua e entropia - relacoes importantes

1 Reducao da incerteza de A devido ao conhecimento de B

I(A,B) = H(A) −H(A|B) (33)

2 Simetria da relacao 1

I(A,B) = H(B)−H(B|A) (34)

3 Soma de entropias

I(A,B) = H(A) + H(B)−H(A,B) (35)

4 Auto-informacao mutua

I(A,A) = H(A)−H(A|A) = H(A) (36)


Informacao mutua e entropia - relacoes importantes

H(A,B)

H(A) H(B)

I(A, B)H(A|B) H(B|A)


Extensao de uma fonte discreta sem memoria

Utilizacao de blocos de dados, cada bloco com n sımbolos dafonte

Cada bloco pode ser entendido como sendo produzido poruma fonte estendida

Alfabeto An com Kn blocos distintos, com K o numero desımbolos na fonte original

Considerando que os sımbolos da fonte sao estatisticamenteindependentes

P (s[An]) =

n∏

i=1

P (si[A]) (37)

Daı, podemos escrever entao

H(An) = n ·H(A) (38)


Definicoes importantes

Informacao condicional mutua de v.a. X e Y dado Z

I(X,Y |Z) = H(X|Z)−H(X|Y,Z)

= Ep(x,y,z)

{log

(p(X,Y |Z)

P (X|Z)p(Y |Z)

)}(39)

Entropia relativa condicional

D (p(y|x)‖q(y|x)) =∑

x

p(x)∑

y

p(y|x) log

(p(y|x)

q(y|x)

)

= EX,Y

{log

(p(y|x)

q(y|x)

)} (40)


Variaveis contınuas

Entropia

H(A) = −∞∫

−∞

pA(a) log (pA(a)) da (41)

Divergencia de Kullback-Leibler

D(p‖q) =

∞∫

−∞

p(x) log

(p(x)

q(x)

)dx (42)

Nota: Vamos estudar mais detalhes destas grandezas a seguir!


Entropia diferencial

Embora a entropia definida por Shannon seja aplicada ao casodiscreto, podemos expandir o conceito para variaveis contınuas

A semelhanca entre os casos discreto e contınuo e bastantegrande, mas algumas diferencas sao importantes e o uso detal conceito merece cuidado

Quando as variaveis sao contınuas a entropia recebe o nomede entropia diferencial


Entropia diferencial - cont.

Definicao

A entropia diferencial H(X) de uma variavel aleatoria contınua Xcom densidade de probabilidade pX(x) e definida por

H(X) = −∫

SpX(x) · log [pX(x)] dx (43)

em que S e o conjunto suporte da v.a.

Como no caso discreto, a entropia diferencial so depende dadensidade de probabilidade, sendo por vezes escrita comoH [pX(x)] ao inves de H(X)

Lembrete: como em qualquer problema envolvendo integralou densidade de probabilidade, nos precisamos garantir queelas existem.



Exemplo - Distribuicao uniforme

Seja uma v.a. distribuıda uniformemente entre 0 e a, entao suadensidade e 1/a entre 0 a a e 0 caso contrario. Entao sua entropiadiferencial e

H(X) = −a∫

0

1

a· log

[1

a

]dx = log(a) (44)

Note que, para a < 1, temos log(a) < 0 e a entropia diferencial enegativa. Daı ao contrario da entropia discreta, a entropiadiferencial pode ser negativa. Entretanto, 2H(X) = 2log(a) = a e ovolume do conjunto suporte, o qual e sempre nao-negativo, comoesperado.



Exemplo - Distribuicao normal

Seja X ∼ N (0, σ2) em que denotamos pX(x) = φ(x). Entao,calculando a entropia diferencial em nats, temos

H [pX(x)] = −∫

φ(x) ln[φ(x)] dx

= −∫

φ(x)

[− x2

2σ2− ln(

√2πσ2)

]dx

=E{X2}

2σ2+

1

2ln(2πσ2)

=1

2+

1

2ln(2πσ2)

=1

2ln(e) +

1

2ln(2πσ2)

=1

2ln(2πeσ2) nats

(45)


Entropia diferencial - cont.Entropia diferencial conjunta

Definicao

Seja um conjunto de N v.a. X1,X2, . . . ,XN com densidadepX(x) = pX(x1, x2, . . . , xN ), a entropia diferencial e definida como

H [pX(x)] = −∫

pX(x) · log [pX(x)] dx

= −∫ ∫

· · ·∫

pX1,X2,...,XN(x1, x2, . . . , xN )·

· log [pX1,X2,...,XN(x1, x2, . . . , xN )] dx1 dx2 . . . dxN

(46)


Entropia diferencial - cont.Entropia diferencial condicional

Definicao

Se X,Y tem uma funcao de densidade conjunta pX,Y (x, y),podemos definir a entropia diferencial condicional H(X|Y ) como

H(X|Y ) = −∫ ∫

pX,Y (x, y) · log[pX|Y (x|y)

]dx dy (47)

Uma vez que em geral pX|Y (x|y) = pX,Y (x, y)/pY (y), podemostambem escrever

H(X|Y ) = H(X,Y )−H(Y ) (48)

Deve-se entretanto garantir que nenhuma das entropias diferenciaisseja infinita.


Regras da cadeia

Entropia

H(A1, A2, · · · , An) =n∑

i=1

H(Ai|Ai−1, Ai−2, · · · , A1) (49)

Informacao mutua

I(A1, A2, · · · , An;B) =

n∑

i=1

I(Ai;B|Ai−1, Ai−2, · · · , A1) (50)

Entropia relativa

D (pA,B(a, b)‖qA,B(a, b)) = D (pA(a)‖qA(a))+D(pB|A(b|a)‖qB|A(b|a)

)

(51)


Entropia diferencial - cont.Propriedades da entropia diferencial, entropia relativa e informacao mutua

1 D(p‖g) ≥ 0

2 I(X,Y ) ≥ 0 com igualdade se mantendo se e somente se X eY sao independentes

3 H(X|Y ) ≤ H(X), com igualdade se mantendo se e somentese X e Y sao independentes

4 H(X + c) = H(X) - translacao nao altera entropia

5 H(cX) = H(X) + log(|c|)6 Para vetores e matrizes temos: H(CX) = H(X) + log(|C|),

em que |C| e o determinante da matrix C


Entropia diferencial - cont.Decomposicao Pitagorica

Seja um vetor de N amostras aleatorias X formado de amostrasindependentes, ou seja,

pX(x) =

N∏

i=1

pXi(xi) (52)

e seja um vetor Y definido em termos de x como Y = AX, emque A e uma matriz nao-diagonal. Seja pYi

(yi) a densidade deprobabilidade marginal de cada Yi derivada a partir de pY(y).Entao, a KLD entre pX(x) e pY(y) admite a seguintedecomposicao Pitagorica

D(pY||pX) = D(pY||pX) + D(pY||pX) (53)


Entropia diferencial - cont.Inequacao de Jensen

Deriva da seguinte formula de funcao convexa

f (λx1 + (1− λ)x2) ≤ λf(x1) + (1− λ)f(x2) (54)

Exemplo de funcoes convexas: x2, |x|, ex, x log(x) parax ≥ 0, etc

Inequacao de JensenE {f(X)} ≥ f (E {X}) (55)


Entropia diferencial - cont.Prova do mınimo da KLD

Deseja-se provar que D(p‖q) ≥ 0, entao tem-se

−D(p‖q) = −∑

x

p(x) · log(

p(x)

q(x)

)=∑

x

p(x) · log(

q(x)

p(x)

)

Utilizando a inequacao de Jensen

∑

x

p(x) · log(

q(x)

p(x)

)≤ log

(∑

x

p(x) ·(

q(x)

p(x)

))

log

(∑

x

p(x) ·(

q(x)

p(x)

))= log

(∑

x

q(x)

)

= log(1)

= 0


Outras definicoes de entropiaEntropia de Renyi

A entropia de Renyi, uma generalizacao da entropia de Shannon, euma famılia de funcionais para quantificacao da diversidade,incerteza ou aleatoriedade de um sistema.

Definicao

A entropia de Renyi de ordem α, para α > 0 e definida como

Hα(X) =1

1− αlog

(N−1∑

i=0

pαi

)(56)

em que pi e a probabilidade do evento i.

Uma importante propriedade, e que se os eventos foremequiprovaveis, entao todas as entropias de Renyi (para qualquer α)sao iguais para a distribuicao com Hα(X) = log(N). Casocontrario, as entropias decrescem em funcao do α.


Outras definicoes de entropia - cont.Entropia de Renyi - cont.

Alguns casos particulares1 H0(X) = log(N) - e tambem chamada de entropia de

Hartley

2 No limite quando α→ 1 temos H1(X) = −N−1∑i=0

pi log(pi),

que e a entropia de Shannon3 Frequentemente, a entropia de Renyi e dada para α = 2 sendo

H2(X) = − log

(N−1∑

i=0

p2i

)(57)

4 Para α→∞ tem-se a Min-entropia, que e o menor valor deH∞(X) dada por

H∞(X) = − log

(sup

i=1,...,Npi

)(58)


Outras definicoes de entropia - cont.Entropia de Renyi - cont.

Como a entropia de Renyi define o ganho de informacao, hatambem uma medida para ganhos relativos de informacao. Destaforma temos uma generalizacao da Divergencia de Kullback-Leiblerdada pela Divergencia Generalizada de Renyi de ordem α

Dα(p||q) =1

α− 1log

(N−1∑

i=0

pαi

qα−1i

)(59)

A exemplo da KLD, a divergencia generalizada de Renyi e semprenao negativa.

Referencia:A. Renyi. “On measures of information and entropy”. Proceedingsof the 4th Berkeley Symposium on Mathematics, Statistics andProbability, 1960: 547-561.


Outras definicoes de entropia - cont.Entropia de Boltzmann-Gibbs

Entropia usada na termodinamica

H = −kB

∑

α

pα log pα, (60)

em que kB e a constante de Boltzmann e pα e a probabilidade dosistema estar no estado α.


Outras definicoes de entropia - cont.Entropia de Tsallis

A entropia de Tsallis e uma generalizacao da entropia deBoltzmann-Gibbs, que e a entropia da termodinamica. Assim, aentropia de Tsallis e dada por

Hq(p) =1

q − 1

(1−

∫pq(x) dx

)(61)

ou, no caso discreto

Hq(p) =1

q − 1

(1−

∑pq(x)

)(62)

Neste caso, p denota a densidade de probabilidade de interesse e qe um valor real. No limite quando q → 1 obtem-se a entropia deBoltzmann-Gibbs


Outras definicoes de entropia - cont.Entropia de von Neumann

A entropia de von Neumann e utilizada para medir a informacaomedia em densidade de estados quanticos. Um estado quanticorepresenta as possibilidades de existencia de uma partıcula emdiferentes estados, desta forma, representamos um estado quanticopara dois estados possıveis, 0 e 1, por exemplo, como uma matrizde dimensao 2× 2, ou seja,

ρ =

[a bc d

](63)

Com isso, define-se a entropia de von Neumann comoH(ρ) = trace [ρ log(ρ)] (64)

a qual generaliza a entropia de Shannon.


Outras definicoes de entropia - cont.Entropia de von Neumann - cont.

Tambem temos a entropia quantica relativa, que generaliza aentropia relativa (divergencia de Kullback-Leibler) para estadosquanticos, a qual e definida comoD(ρ||) = trace [ρ log(ρ)− ρ log()] (65)

em que ρ e sao matrizes Hermitianas positivas com traco igual a1.

A ideia da entropia quantica (relativa ou de von Neumann) e a demensurar a informacao “espalhada” nos diversos estados quanticos.

Referencia:T.T. Georgiou, “Relative entropy and the multivariablemultidimensional moment problem”, IEEE Trans. on InformationTheory, vol. 52, No. 3, pp. 1052-1066, March 2006.


Outras definicoes de entropia - cont.Entropia espectral

A ideia da entropia espectral e a de analisar a informacao noespectro do sinal. Utilizando-se da entropia de Shannon,substitui-se a densidade de probabilidade pela densidade espectral.Assim, podemos definir como

Hsp(P ) = −fh∑

i=fl

Pi log(Pi) (66)

em que a faixa [fl, fh] define a faixa de frequencia de interesse.


Outras definicoes de entropia - cont.Entropia espectral - cont.

O interesse e de medir a quantidade de informacao media noespectro a partir da informacao contida em cada uma dascomponentes de frequencia. Encontra aplicacao em areas debiomedicas, por exemplo.

Referencia:R. Ferenets, T. Lipping, A. Anier, V. Jantti, S. Melto, andS.Hovilehto, “Comparison of Entropy and Complexity Measures forthe Assessment of Depth of Sedation”, IEEE Trans. on BiomedicalEngineering, vol. 53, No. 6, pp. 1067-1077, June 2006.


Outras definicoes de entropia - cont.Taxa de informacao

A taxa de informacao de uma fonte e determinada a partir de suasentropia e taxa de transmissao.Sendo uma fonte de informacao S que transmite r sımbolos a cadasegundo, cujos sımbolos sao variaveis aleatorias as pertencentes aum alfabeto A = {as : 1 ≤ s ≤ S} com entropia H(A), define-sea taxa de informacao R como sendo determinada pela equacao:

R = r ·H(A). (67)


Informacao e entropiaEstimacao de H e I

Entropia e informacao mutua sao importantes caracterısticasde processos aleatorios com possibilidade de aplicacao emvarias areas.

Um problema inerente ao tratamento por teoria da estimacaoe como estimar tais quantidades uma vez que elas sao funcoesda densidade de probabilidade, a qual e difıcil de estimar apartir dos dados.

Como fazer estimativas dos dados a partir apenas de medidas?

Estimadores!!


Informacao e entropiaEstimacao de H e I - cont.

Baseado na expansao de Gram-Charlier

Expansao de Gram-Charlier: aproximacao polinomial dadensidade de probabilidade em torno de uma pdf gaussiana

pX(x) = pG(x)

(1 +

∞∑

k=3

Ck · hi(x)

), (68)

Os coeficientes Ck serao funcoes dos momentos/cumulantesde X e hi e o polinomio de Hermite de ordem k



Baseado na expansao de Gram-Charlier - cont.

Sabendo que podemos escrever a entropia como (sera vistoem maiores detalhes mais adiante!)

H(pX) = H(pG)−NG(pX) (69)

em que NG(pX) e a chamada negentropia.

Pode-se escrever entao

H(pX) = H(pG)−∫

VpX(v) log

[pX(v)

pG(v)

]dv (70)




Entao

H(pX) ≈ H(pG)−∫

VpG(v) (1 + Z(v)) log [1 + Z(v)] dv

≈ H(pG)−∫

VpG(v)

[Z(v) + Z2(v)

]dv

= H(pG)− 1

12

d∑

i=1

(κi,i,i

)2+ 3

d∑

i,j=1i6=j

(κi,i,j

)2+

1

6

d∑

i,j=1i6=jj 6=k

(κi,j,k

)2

(71)em que Z(v) = 1

3!

∑i,j,k κi,j,khijk(v), hijk e o polinomio de ordem

ijk e κi,i,i e o momento de terceira ordem.




E importante mencionar que foi feita uma aproximacao emserie, de segunda ordem, na expansao de Edgeworth(expansao de Gram-Charlier ordenada pela ordem deimportancia dos seus termos).

Os momentos podem entao ser estimados a partir dasamostras

Os polinomios de Hermite tem forma fechada e pode sercalculados a partir dos dados.

Entretanto, as expansoes de Edgeworth e Gram-Charlier sopodem aproxima funcoes que sao “proximas” a umagaussiana



Baseado na estimacao de Parzen

O estimador de Parzen para pdfs aproxima a densidade(qualquer!) por um somatorio de funcoes kernel. Dentre asclasses de funcoes que podem ser consideradas kernel afuncao gaussiana e a mais conhecida

Assim podemos ter

pX(x) =1

N

N∑

i=1

K(x− xi, σI) (72)

Sabe-se ainda que, para dois kernels vale

∫

x

K(x− xi, σ1I)K(x− xj , σ2I) = K (xi − xj, (σ1 + σ2)I)

(73)



Baseado na estimacao de Parzen - cont.

Assim, teremos o seguinte aproximador para a entropia deShannon

H(pX) = −∫

x

pX(x) · log (pX(x)) dx

= −∫

x

N∑

i=1

K(x− xi) · log[

N∑

i=1

K(x− xi)

] (74)



Baseado na estimacao de Parzen - cont.

Para a entropia de Renyi temos para o caso de α = 2:

H(pX) = − log

[∫

x

p2

X(x) dx

]

≈ − log

1

N2

∫

x

N∑

i=1

N∑

j=1

K(x − xi, σI)K(x − xj , σI) dx

≈ − log

1

N2

N∑

i=1

N∑

j=1

K(xi − xj , 2σI)

(75)

E entao possıvel fazer desenvolvimento similares para aentropia condicional, relativa e informacao mutua


teoria da informaç˜ao

Documents