teoria da informaç˜ao
TRANSCRIPT
Teoria da Informacao
Charles Casimiro [email protected]
Grupo de Pesquisa em Telecomunicacoes Sem Fio – GTEL
Programa de Pos-Graduacao em Engenharia de Teleinformatica
Universidade Federal do Ceara – UFC
http://www.gtel.ufc.br/∼charles
c© C. C. Cavalcante Teoria da Informacao
“A principal funcao de um sistema de comunicacao e reproduzir,exatamente ou de forma aproximada, uma informacao provenientede outro ponto diferente.”
Claude Shannon, 1948
c© C. C. Cavalcante Teoria da Informacao
Conteudo do curso
1 Revisao de probabilidade
2 Informacao e Entropia
3 Codificacao de fontes
4 Codificacao e capacidade de canal
5 Complexidade de Kolmogorov
6 Funcoes de otimizacao
7 Independent Component Analysis
c© C. C. Cavalcante Teoria da Informacao
Parte II
Informacao e Entropia
c© C. C. Cavalcante Teoria da Informacao
O que e informacao?
Medida da quantidade de incerteza de um processo que ocorrecom alguma probabilidade
Definicao de Shannon, 1948
Ferramentas probabilısticas
Contexto
Fonte discretaAlfabeto finito: A = {a0, a1, · · · , aK−1}Probabilidades: Pr(A = ak) = pk em que
K−1∑k=0
pk = 1
c© C. C. Cavalcante Teoria da Informacao
Definicao
Informacao
I(ak) = logα
(1
Pr(ak)
)
= logα
(1
pk
)
= − logα (pk)
(23)
Unidade da informacao depende da base α, e.g.1 α = 2⇒ informacao em bits2 α = e⇒ informacao em nats
c© C. C. Cavalcante Teoria da Informacao
O que mede a informacao?
De uma forma mais informal, informacao e a surpresa daocorrencia de um evento
Quanto mais surpresa (incerteza) mais informacao e, de formacontraria, quanto menos incerteza menos informacao
c© C. C. Cavalcante Teoria da Informacao
Propriedades da informacao
1 I(ak) = 0 se pk = 1
2 I(ak) ≥ 0 para 0 ≤ pk ≤ 1Nunca ha perda de informacao!
3 I(ak) > I(ai) para pk < pi
4 I(akai) = I(ak) + I(ai) se ak e ai sao estatisticamenteindependentes
c© C. C. Cavalcante Teoria da Informacao
Quantidade de informacao
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
1
2
3
4
5
6
7
8
9
10
BitsNats
Probabilidade de ocorrencia
Quan
tidad
ede
info
rmac
ao
c© C. C. Cavalcante Teoria da Informacao
Informacao pontual e informacao media
Pode-se desejar entao calcular a quantidade media deinformacao de uma fonte A
A essa media da informacao denomina-se entropia
H(A) =K−1∑
k=0
pk · I(ak)
= −K−1∑
k=0
pk · logα(pk)
(24)
A entropia mede a quantidade de informacao media porsımbolo da fonte
c© C. C. Cavalcante Teoria da Informacao
Propriedades da entropia
0 ≤ H(A) ≤ logα(K) (25)
H(A) = 0 se e somente se a probabilidade de ocorrencia pk
de um certo evento ak for pk = 1 e todas as demais foremiguais a zero. Neste ponto nao existe nenhuma incerteza econsequentemente a entropia e mınima.
H(A) = logα (K) se e somente se as probabilidades de todosos eventos ak forem iguais, ou seja, os eventos foremequiprovaveis
(pk = 1
K
).
c© C. C. Cavalcante Teoria da Informacao
Entropia de uma fonte binaria
Seja uma fonte binaria com p0 e p1 as probabilidades dos sımbolosa0 e a1. A entropia e dada por:
H(A) = −p0 logα(p0)− p1 logα(p1)
= −p0 logα(p0)− (1− p0) logα(1− p0)
c© C. C. Cavalcante Teoria da Informacao
Entropia de uma fonte binaria - grafico H(p0)× p0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
Probabilidade de ocorrencia (p0)
Entr
opia
H(p
0)
c© C. C. Cavalcante Teoria da Informacao
Entropia - observacoes
A entropia pode ainda ser representada matematicamentecomo
H(A) = −E {log(pA(a))} , (26)
em que pA(a) e a funcao de densidade de probabilidade de A.
O que a entropia fornece e a de quanto de informacao ha, emmedia, num determinado sımbolo de uma fonte. Isto sera degrande interesse no projeto de codificadores de fonte.
c© C. C. Cavalcante Teoria da Informacao
Entropia conjunta
Ate o momento foi vista a entropia de uma unica variavelaleatoria
Estendendo o conceito para duas variaveis tem-se novasdefinicoes
Entropia conjunta
H(A,B) = −∑
a∈A
∑
b∈Bp(a, b) log[pA,B(a, b)]
= −E {log[pA,B(a, b)]}(27)
Fornece a quantidade de informacao media na ocorrencia deduas v.a.
c© C. C. Cavalcante Teoria da Informacao
Entropia condicional
Entropia condicional
H(A|B) =∑
b∈BpB(b) ·H(A|B = b)
= −∑
b∈BpB(b)
∑
a∈ApA|B(a|b) log[pA|B(a|b)]
= −∑
b∈B
∑
a∈ApA,B(a, b) log[pA|B(a|b)]
= −E {log[pA|B(a|b)]}
(28)
Medida da quantidade media de informacao de uma v.a. dadaa ocorrencia de outra
c© C. C. Cavalcante Teoria da Informacao
Entropia - Relacoes importantes
1 Regra da cadeia
H(A,B) = H(A) + H(B|A) (29)
A entropia de um par de variaveis e igual a entropia de umamais a entropia condicional.
2 Corolario da regra da cadeia
H(A,B|C) = H(A|C) + H(B|A,C), (30)
c© C. C. Cavalcante Teoria da Informacao
Entropia relativa
Entropia relativa: e a medida de “distancia” entre duasdistribuicoes. Pode ser entendido como uma medida deineficiencia de assumir que uma v.a. tem distribuicao p(x)quando a verdadeira distribuicao e g(x).
D(p‖g) =∑
x∈Xp(x) · log
(p(x)
g(x)
)
= Ep(x)
{log
(p(x)
g(x)
)} (31)
A Equacao (31) e tambem conhecida como Divergencia deKullback-Leibler (KLD) ou ainda entropia cruzada
c© C. C. Cavalcante Teoria da Informacao
Entropia relativa
Propriedades
1 e sempre de valor positivo ou zero; KLD e zero para o casoespecıfico de px(x) = gx(x).
2 e invariante com relacao as seguintes mudancas noscomponentes do vetor x;
permutacao de ordemescalonamento de amplitudetransformacao monotonica nao-linear
3 nao e uma distancia no espaco euclidiano poisD(p‖g) 6= D(g‖p)
4 e uma distancia no espaco das distribuicoes de probabilidade(espaco de Riemann)
c© C. C. Cavalcante Teoria da Informacao
Informacao mutua
Definicao: para duas variaveis aleatorias A e B, ainformacao mutua e a entropia relativa entre a distribuicaoconjunta de A e B e o produto das distribuicoes marginais.
I(A,B) =∑
a∈A
∑
b∈BpA,B(a, b) log
(pA,B(a, b)
pA(a)pB(b)
)
= D (pA,B(a, b)‖pA(a)pB(b))
= EA,B
{log
(pA,B(a, b)
pA(a)pB(b)
)}(32)
c© C. C. Cavalcante Teoria da Informacao
Informacao mutua e entropia - relacoes importantes
1 Reducao da incerteza de A devido ao conhecimento de B
I(A,B) = H(A) −H(A|B) (33)
2 Simetria da relacao 1
I(A,B) = H(B)−H(B|A) (34)
3 Soma de entropias
I(A,B) = H(A) + H(B)−H(A,B) (35)
4 Auto-informacao mutua
I(A,A) = H(A)−H(A|A) = H(A) (36)
c© C. C. Cavalcante Teoria da Informacao
Informacao mutua e entropia - relacoes importantes
H(A,B)
H(A) H(B)
I(A, B)H(A|B) H(B|A)
c© C. C. Cavalcante Teoria da Informacao
Extensao de uma fonte discreta sem memoria
Utilizacao de blocos de dados, cada bloco com n sımbolos dafonte
Cada bloco pode ser entendido como sendo produzido poruma fonte estendida
Alfabeto An com Kn blocos distintos, com K o numero desımbolos na fonte original
Considerando que os sımbolos da fonte sao estatisticamenteindependentes
P (s[An]) =
n∏
i=1
P (si[A]) (37)
Daı, podemos escrever entao
H(An) = n ·H(A) (38)
c© C. C. Cavalcante Teoria da Informacao
Definicoes importantes
Informacao condicional mutua de v.a. X e Y dado Z
I(X,Y |Z) = H(X|Z)−H(X|Y,Z)
= Ep(x,y,z)
{log
(p(X,Y |Z)
P (X|Z)p(Y |Z)
)}(39)
Entropia relativa condicional
D (p(y|x)‖q(y|x)) =∑
x
p(x)∑
y
p(y|x) log
(p(y|x)
q(y|x)
)
= EX,Y
{log
(p(y|x)
q(y|x)
)} (40)
c© C. C. Cavalcante Teoria da Informacao
Variaveis contınuas
Entropia
H(A) = −∞∫
−∞
pA(a) log (pA(a)) da (41)
Divergencia de Kullback-Leibler
D(p‖q) =
∞∫
−∞
p(x) log
(p(x)
q(x)
)dx (42)
Nota: Vamos estudar mais detalhes destas grandezas a seguir!
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial
Embora a entropia definida por Shannon seja aplicada ao casodiscreto, podemos expandir o conceito para variaveis contınuas
A semelhanca entre os casos discreto e contınuo e bastantegrande, mas algumas diferencas sao importantes e o uso detal conceito merece cuidado
Quando as variaveis sao contınuas a entropia recebe o nomede entropia diferencial
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.
Definicao
A entropia diferencial H(X) de uma variavel aleatoria contınua Xcom densidade de probabilidade pX(x) e definida por
H(X) = −∫
SpX(x) · log [pX(x)] dx (43)
em que S e o conjunto suporte da v.a.
Como no caso discreto, a entropia diferencial so depende dadensidade de probabilidade, sendo por vezes escrita comoH [pX(x)] ao inves de H(X)
Lembrete: como em qualquer problema envolvendo integralou densidade de probabilidade, nos precisamos garantir queelas existem.
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.
Exemplo - Distribuicao uniforme
Seja uma v.a. distribuıda uniformemente entre 0 e a, entao suadensidade e 1/a entre 0 a a e 0 caso contrario. Entao sua entropiadiferencial e
H(X) = −a∫
0
1
a· log
[1
a
]dx = log(a) (44)
Note que, para a < 1, temos log(a) < 0 e a entropia diferencial enegativa. Daı ao contrario da entropia discreta, a entropiadiferencial pode ser negativa. Entretanto, 2H(X) = 2log(a) = a e ovolume do conjunto suporte, o qual e sempre nao-negativo, comoesperado.
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.
Exemplo - Distribuicao normal
Seja X ∼ N (0, σ2) em que denotamos pX(x) = φ(x). Entao,calculando a entropia diferencial em nats, temos
H [pX(x)] = −∫
φ(x) ln[φ(x)] dx
= −∫
φ(x)
[− x2
2σ2− ln(
√2πσ2)
]dx
=E{X2}
2σ2+
1
2ln(2πσ2)
=1
2+
1
2ln(2πσ2)
=1
2ln(e) +
1
2ln(2πσ2)
=1
2ln(2πeσ2) nats
(45)
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.Entropia diferencial conjunta
Definicao
Seja um conjunto de N v.a. X1,X2, . . . ,XN com densidadepX(x) = pX(x1, x2, . . . , xN ), a entropia diferencial e definida como
H [pX(x)] = −∫
pX(x) · log [pX(x)] dx
= −∫ ∫
· · ·∫
pX1,X2,...,XN(x1, x2, . . . , xN )·
· log [pX1,X2,...,XN(x1, x2, . . . , xN )] dx1 dx2 . . . dxN
(46)
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.Entropia diferencial condicional
Definicao
Se X,Y tem uma funcao de densidade conjunta pX,Y (x, y),podemos definir a entropia diferencial condicional H(X|Y ) como
H(X|Y ) = −∫ ∫
pX,Y (x, y) · log[pX|Y (x|y)
]dx dy (47)
Uma vez que em geral pX|Y (x|y) = pX,Y (x, y)/pY (y), podemostambem escrever
H(X|Y ) = H(X,Y )−H(Y ) (48)
Deve-se entretanto garantir que nenhuma das entropias diferenciaisseja infinita.
c© C. C. Cavalcante Teoria da Informacao
Regras da cadeia
Entropia
H(A1, A2, · · · , An) =n∑
i=1
H(Ai|Ai−1, Ai−2, · · · , A1) (49)
Informacao mutua
I(A1, A2, · · · , An;B) =
n∑
i=1
I(Ai;B|Ai−1, Ai−2, · · · , A1) (50)
Entropia relativa
D (pA,B(a, b)‖qA,B(a, b)) = D (pA(a)‖qA(a))+D(pB|A(b|a)‖qB|A(b|a)
)
(51)
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.Propriedades da entropia diferencial, entropia relativa e informacao mutua
1 D(p‖g) ≥ 0
2 I(X,Y ) ≥ 0 com igualdade se mantendo se e somente se X eY sao independentes
3 H(X|Y ) ≤ H(X), com igualdade se mantendo se e somentese X e Y sao independentes
4 H(X + c) = H(X) - translacao nao altera entropia
5 H(cX) = H(X) + log(|c|)6 Para vetores e matrizes temos: H(CX) = H(X) + log(|C|),
em que |C| e o determinante da matrix C
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.Decomposicao Pitagorica
Seja um vetor de N amostras aleatorias X formado de amostrasindependentes, ou seja,
pX(x) =
N∏
i=1
pXi(xi) (52)
e seja um vetor Y definido em termos de x como Y = AX, emque A e uma matriz nao-diagonal. Seja pYi
(yi) a densidade deprobabilidade marginal de cada Yi derivada a partir de pY(y).Entao, a KLD entre pX(x) e pY(y) admite a seguintedecomposicao Pitagorica
D(pY||pX) = D(pY||pX) + D(pY||pX) (53)
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.Inequacao de Jensen
Deriva da seguinte formula de funcao convexa
f (λx1 + (1− λ)x2) ≤ λf(x1) + (1− λ)f(x2) (54)
Exemplo de funcoes convexas: x2, |x|, ex, x log(x) parax ≥ 0, etc
Inequacao de JensenE {f(X)} ≥ f (E {X}) (55)
c© C. C. Cavalcante Teoria da Informacao
Entropia diferencial - cont.Prova do mınimo da KLD
Deseja-se provar que D(p‖q) ≥ 0, entao tem-se
−D(p‖q) = −∑
x
p(x) · log(
p(x)
q(x)
)=∑
x
p(x) · log(
q(x)
p(x)
)
Utilizando a inequacao de Jensen
∑
x
p(x) · log(
q(x)
p(x)
)≤ log
(∑
x
p(x) ·(
q(x)
p(x)
))
log
(∑
x
p(x) ·(
q(x)
p(x)
))= log
(∑
x
q(x)
)
= log(1)
= 0
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropiaEntropia de Renyi
A entropia de Renyi, uma generalizacao da entropia de Shannon, euma famılia de funcionais para quantificacao da diversidade,incerteza ou aleatoriedade de um sistema.
Definicao
A entropia de Renyi de ordem α, para α > 0 e definida como
Hα(X) =1
1− αlog
(N−1∑
i=0
pαi
)(56)
em que pi e a probabilidade do evento i.
Uma importante propriedade, e que se os eventos foremequiprovaveis, entao todas as entropias de Renyi (para qualquer α)sao iguais para a distribuicao com Hα(X) = log(N). Casocontrario, as entropias decrescem em funcao do α.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia de Renyi - cont.
Alguns casos particulares1 H0(X) = log(N) - e tambem chamada de entropia de
Hartley
2 No limite quando α→ 1 temos H1(X) = −N−1∑i=0
pi log(pi),
que e a entropia de Shannon3 Frequentemente, a entropia de Renyi e dada para α = 2 sendo
H2(X) = − log
(N−1∑
i=0
p2i
)(57)
4 Para α→∞ tem-se a Min-entropia, que e o menor valor deH∞(X) dada por
H∞(X) = − log
(sup
i=1,...,Npi
)(58)
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia de Renyi - cont.
Como a entropia de Renyi define o ganho de informacao, hatambem uma medida para ganhos relativos de informacao. Destaforma temos uma generalizacao da Divergencia de Kullback-Leiblerdada pela Divergencia Generalizada de Renyi de ordem α
Dα(p||q) =1
α− 1log
(N−1∑
i=0
pαi
qα−1i
)(59)
A exemplo da KLD, a divergencia generalizada de Renyi e semprenao negativa.
Referencia:A. Renyi. “On measures of information and entropy”. Proceedingsof the 4th Berkeley Symposium on Mathematics, Statistics andProbability, 1960: 547-561.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia de Boltzmann-Gibbs
Entropia usada na termodinamica
H = −kB
∑
α
pα log pα, (60)
em que kB e a constante de Boltzmann e pα e a probabilidade dosistema estar no estado α.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia de Tsallis
A entropia de Tsallis e uma generalizacao da entropia deBoltzmann-Gibbs, que e a entropia da termodinamica. Assim, aentropia de Tsallis e dada por
Hq(p) =1
q − 1
(1−
∫pq(x) dx
)(61)
ou, no caso discreto
Hq(p) =1
q − 1
(1−
∑pq(x)
)(62)
Neste caso, p denota a densidade de probabilidade de interesse e qe um valor real. No limite quando q → 1 obtem-se a entropia deBoltzmann-Gibbs
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia de von Neumann
A entropia de von Neumann e utilizada para medir a informacaomedia em densidade de estados quanticos. Um estado quanticorepresenta as possibilidades de existencia de uma partıcula emdiferentes estados, desta forma, representamos um estado quanticopara dois estados possıveis, 0 e 1, por exemplo, como uma matrizde dimensao 2× 2, ou seja,
ρ =
[a bc d
](63)
Com isso, define-se a entropia de von Neumann comoH(ρ) = trace [ρ log(ρ)] (64)
a qual generaliza a entropia de Shannon.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia de von Neumann - cont.
Tambem temos a entropia quantica relativa, que generaliza aentropia relativa (divergencia de Kullback-Leibler) para estadosquanticos, a qual e definida comoD(ρ||) = trace [ρ log(ρ)− ρ log()] (65)
em que ρ e sao matrizes Hermitianas positivas com traco igual a1.
A ideia da entropia quantica (relativa ou de von Neumann) e a demensurar a informacao “espalhada” nos diversos estados quanticos.
Referencia:T.T. Georgiou, “Relative entropy and the multivariablemultidimensional moment problem”, IEEE Trans. on InformationTheory, vol. 52, No. 3, pp. 1052-1066, March 2006.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia espectral
A ideia da entropia espectral e a de analisar a informacao noespectro do sinal. Utilizando-se da entropia de Shannon,substitui-se a densidade de probabilidade pela densidade espectral.Assim, podemos definir como
Hsp(P ) = −fh∑
i=fl
Pi log(Pi) (66)
em que a faixa [fl, fh] define a faixa de frequencia de interesse.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Entropia espectral - cont.
O interesse e de medir a quantidade de informacao media noespectro a partir da informacao contida em cada uma dascomponentes de frequencia. Encontra aplicacao em areas debiomedicas, por exemplo.
Referencia:R. Ferenets, T. Lipping, A. Anier, V. Jantti, S. Melto, andS.Hovilehto, “Comparison of Entropy and Complexity Measures forthe Assessment of Depth of Sedation”, IEEE Trans. on BiomedicalEngineering, vol. 53, No. 6, pp. 1067-1077, June 2006.
c© C. C. Cavalcante Teoria da Informacao
Outras definicoes de entropia - cont.Taxa de informacao
A taxa de informacao de uma fonte e determinada a partir de suasentropia e taxa de transmissao.Sendo uma fonte de informacao S que transmite r sımbolos a cadasegundo, cujos sımbolos sao variaveis aleatorias as pertencentes aum alfabeto A = {as : 1 ≤ s ≤ S} com entropia H(A), define-sea taxa de informacao R como sendo determinada pela equacao:
R = r ·H(A). (67)
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I
Entropia e informacao mutua sao importantes caracterısticasde processos aleatorios com possibilidade de aplicacao emvarias areas.
Um problema inerente ao tratamento por teoria da estimacaoe como estimar tais quantidades uma vez que elas sao funcoesda densidade de probabilidade, a qual e difıcil de estimar apartir dos dados.
Como fazer estimativas dos dados a partir apenas de medidas?
Estimadores!!
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na expansao de Gram-Charlier
Expansao de Gram-Charlier: aproximacao polinomial dadensidade de probabilidade em torno de uma pdf gaussiana
pX(x) = pG(x)
(1 +
∞∑
k=3
Ck · hi(x)
), (68)
Os coeficientes Ck serao funcoes dos momentos/cumulantesde X e hi e o polinomio de Hermite de ordem k
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na expansao de Gram-Charlier - cont.
Sabendo que podemos escrever a entropia como (sera vistoem maiores detalhes mais adiante!)
H(pX) = H(pG)−NG(pX) (69)
em que NG(pX) e a chamada negentropia.
Pode-se escrever entao
H(pX) = H(pG)−∫
VpX(v) log
[pX(v)
pG(v)
]dv (70)
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na expansao de Gram-Charlier - cont.
Entao
H(pX) ≈ H(pG)−∫
VpG(v) (1 + Z(v)) log [1 + Z(v)] dv
≈ H(pG)−∫
VpG(v)
[Z(v) + Z2(v)
]dv
= H(pG)− 1
12
d∑
i=1
(κi,i,i
)2+ 3
d∑
i,j=1i6=j
(κi,i,j
)2+
1
6
d∑
i,j=1i6=jj 6=k
(κi,j,k
)2
(71)em que Z(v) = 1
3!
∑i,j,k κi,j,khijk(v), hijk e o polinomio de ordem
ijk e κi,i,i e o momento de terceira ordem.
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na expansao de Gram-Charlier - cont.
E importante mencionar que foi feita uma aproximacao emserie, de segunda ordem, na expansao de Edgeworth(expansao de Gram-Charlier ordenada pela ordem deimportancia dos seus termos).
Os momentos podem entao ser estimados a partir dasamostras
Os polinomios de Hermite tem forma fechada e pode sercalculados a partir dos dados.
Entretanto, as expansoes de Edgeworth e Gram-Charlier sopodem aproxima funcoes que sao “proximas” a umagaussiana
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na estimacao de Parzen
O estimador de Parzen para pdfs aproxima a densidade(qualquer!) por um somatorio de funcoes kernel. Dentre asclasses de funcoes que podem ser consideradas kernel afuncao gaussiana e a mais conhecida
Assim podemos ter
pX(x) =1
N
N∑
i=1
K(x− xi, σI) (72)
Sabe-se ainda que, para dois kernels vale
∫
x
K(x− xi, σ1I)K(x− xj , σ2I) = K (xi − xj, (σ1 + σ2)I)
(73)
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na estimacao de Parzen - cont.
Assim, teremos o seguinte aproximador para a entropia deShannon
H(pX) = −∫
x
pX(x) · log (pX(x)) dx
= −∫
x
N∑
i=1
K(x− xi) · log[
N∑
i=1
K(x− xi)
] (74)
c© C. C. Cavalcante Teoria da Informacao
Informacao e entropiaEstimacao de H e I - cont.
Baseado na estimacao de Parzen - cont.
Para a entropia de Renyi temos para o caso de α = 2:
H(pX) = − log
[∫
x
p2
X(x) dx
]
≈ − log
1
N2
∫
x
N∑
i=1
N∑
j=1
K(x − xi, σI)K(x − xj , σI) dx
≈ − log
1
N2
N∑
i=1
N∑
j=1
K(xi − xj , 2σI)
(75)
E entao possıvel fazer desenvolvimento similares para aentropia condicional, relativa e informacao mutua
c© C. C. Cavalcante Teoria da Informacao