Estimativas inesperadas para o valor esperado
Roberto Imbuzeiro Oliveira
Colóquio da Matemática - UFMG http://arxiv.org/abs/1509.05845
MatthieuLerasle
(CNRS/Nice)
LucDevroye(McGill)
Colaboradores
GáborLugosi
(ICREA/UPF)
Amostras e valores esperados
Valores esperados
Qual é a altura média de um brasileiro?
Quantos anos de sobrevida, em média, depois de um transplante de coração?
Qual o gasto médio de energia elétrica das casas na sua vizinhança?
Valores esperados
Matematicamente, estas são perguntas sobre valores esperados ou esperanças: médias possivelmente ponderadas sobre populações.
Definição formal
Definicao:
Se P e medida de probabilidade sobre R,µP :=
RR xP(dx) = EP(X)
e o valor esperado ou esperanca de P.
Para que esperanças?
Grande parte dos problemas da Estatística corresponde a estimar valores esperados, seja como fim em si, seja como meio para algum outro fim.
Estimativas quase ótimas tem aplicações nos mais variados campos.
Estimar via amostras
Em geral supõe-se que a distribuição P não é conhecida, mas que é possível obter n amostras independentes e identicamente distribuídas de P.
Estimar via amostras
Xn1 = (X1, . . . , Xn) =d Pn se
8A1, . . . , An ⇢ R mensuraveisP(
Tni=1{Xi 2 Ai}) =
Qni=1 P(Ai).
Estimar via amostras
Nosso objetivo: como estimar o valor esperado a partir das amostras de modo a minimizar a chance de erros grandes.
Definições e hipóteses
Hipótese principal
Desvio padrão finito, o mesmo que segundo momento finito.
Um dos objetivos é comparar com a aproximação Gaussiana que vem do Teorema Central do Limite.
Desvio padrão
Valor esperado:
µP = EP(X).
Desvio padrao:
a raız quadrada da variancia,�2P := EP[(X � µP)2].
Estimadores e erroEstimador: uma funcao mensuravel
bEn : Rn ! R.
Desejo: | bEn(Xn1 )� µP| ⌧ 1.
Escala dos erros (Catoni)
Se Xn1 =d P
n, na melhor das hipoteses,
| bEn(Xn1 )� µP| ⇡ �P/
pn
P desconhecida
Formalizamos isto dizendo que P é um elemento arbitrário de uma família de distribuições.
Maior interesse em famílias grandes (“não paramétricas”).
Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Queremos grande (não paramétrica)
Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Problema não-assintótico
Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Exponencialmente pequeno!
Enunciado formalDados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Escala dos erros (Catoni)
Breve resumo dos resultados
Resumo dos resultados
Em muitos casos dá para obter estimadores com erros de ordem sub Gaussiana (que é a melhor possível).
Isto vale para classes enormes, como a de todas as distribuições com desvio padrão 1.
O interessante é que os estimadores ótimos nunca são o estimador óbvio.
Dados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Subgaussiano?
Dados: Famılia P de distribuicoes sobre Rcom desvio padrao finito. Tamanho de amostra n.
Objetivo: Encontrar estimador
bEn,
�min,n menor possıvel e r = r(�) menor possıvel
tais que, se � 2 [�min,n, 1), P 2 P e Xn1 =d P
n:
P⇣| bEn(Xn
1 )� µP| > r(�) �Ppn
⌘ �.
Subgaussiano?r(�) = LP
p1 + ln(1/�)
�min,n = CP e�cP n.
LP , CP e cP so dependem de P.
Um resultadoFamılia: P [�1,n,�2,n]
2 = distribuicoes com
desvio padrao no intervalo [�1,n,�2,n].
Teorema: Defina Rn := �2,n/�1,n.
Se supn Rn < +1, entao ha �min,n ⇡ e�cn,
e n0, L finitos tais que, para qualquer n � n0,
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]
2 .
Nada disso funciona se supn Rn = +1 e �min,n ! 0.
Outro resultadoFamılia: P2+↵,⌘ = distribuicoes com
EP[|X � µP|2+↵] (⌘n �P)
2+↵.
Teorema: Para ↵ 2 (0, 2], existem c↵,⌘ ⇡ ⌘�2↵/(2+↵),
L > 0 e �min,n ⇡ e�c↵,⌘npara os quais
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P2+↵,⌘.
Nada disso funciona se �min,n tem expoente muito menor.
Mais resultados
Constantes quase ótimas no caso de curtose limitada.
Resultados de impossibilidade quando o desvio padrão é infinito.
Observações
Artigo de Olivier Catoni (2013) é base. Propôs noção mais fraca de estimador e obteve resultados positivos e negativos.
Nossa contribuição: formulação mais forte e muitos resultados dos dois tipos, para diversas famílias.
Muita coisa continua em aberto.
A média empírica não serve
ou: Chebyshev contra Gauss
O estimador óbvio
bEn(Xn1 ) :=
1
n
nX
i=1
Xi, a media empırica.
Propriedades
Melhor estimador possível para a família (paramétrica) de distribuições Gaussianas.
Muito ruim para famílias mais gerais, embora assintoticamente tudo seja Gaussiano.
Caso Gaussiano
Distribuicao Gaussiana
com media µ e desvio padrao � > 0.
Pµ,�(A) :=
RA
e� (x�µ)2
2�2p2⇡ �
dx
Caso Gaussiano
Função cumulativa da Gauss padrão.
�(r) :=
Z r
�1
e
� x
2
2dxp
2⇡
�
�1(1� �) ⇠
p2 ln(1/�) for � ⌧ 1.
Caso GaussianoTeorema (Catoni):
Fixe � > 0, � 2 (0, 1);r(�) := �
�1(1� �) ⇡
p2 ln(1/�).
Entao para qualquer estimador
bEn
supXn1 =dPµ,�
P⇣±(
bEn(Xn1 )� µ) > �p
nr(�)
⌘� �.
Igualdade quando o estimador e a media empırica.
Assintótica?
Teorema Central do Limite (De Moivre/Laplace/Kolmogorov/Lindberg/…): Quando n cresce, o comportamento da média empírica se aproxima cada vez mais do caso Gaussiano.
No entanto, em termos não-assintóticos, a média empírica está bem longe do caso Gaussiano.
Chebyshev
Desigualdade de Chebyshev:P�2 :=todas as P com �P = � > 0.
Dados qualquer � 2 (0, 1) e qualquer P 2 P�2 ,
se Xn1 = P
n, entao:
P⇣�� 1
n
Pni=1 Xi � µP
�� > �Ppn �
⌘ �.
Chebyshev
Desigualdade de Chebyshev:P�2 :=todas as P com �P = � > 0.
Dados qualquer � 2 (0, 1) e qualquer P 2 P�2 ,
se Xn1 = P
n, entao:
P⇣�� 1
n
Pni=1 Xi � µP
�� > �Ppn �
⌘ �.
Para Gaussianas seria
⇡�P
pln(1/�)pn
Chebyshev
Desigualdade de Chebyshev:P�2 :=todas as P com �P = � > 0.
Dados qualquer � 2 (0, 1) e qualquer P 2 P�2 ,
se Xn1 = P
n, entao:
P⇣�� 1
n
Pni=1 Xi � µP
�� > �Ppn �
⌘ �.
Catoni: este é o comportamento ótimo da média empírica para esta
família de P’s.
Não-assintótica?
Chebyshev é essencialmente a melhor desigualdade para a média empírica se você supõe apenas desvio padrão finito.
O mesmo vale sob hipóteses mais fortes (por exemplo 3os e 4os momentos finitos).
Há alguém melhor que a média empírica?
Um pouco de história
Catoni foi o primeiro a formular o problema de estimadores ótimos, com uma definição um pouco diferente de estimador.
Exemplo de resultadoDados: P�
2 = todas as distribuicoes
com desvio padrao �.
Teorema (Catoni):
Se �min,n = e�"n/4, L =
p2 + ",
8�min,n < � < 1 9 bEn,� tal que,
para toda P 2 P�2 , se Xn
1 =d P
n,
P⇣| bEn(Xn
1 )� µ| > Lpln(2/�) �p
n
⌘ �.
Exemplo de resultadoDados: P�
2 = todas as distribuicoes
com desvio padrao �.
Teorema (Catoni):
Se �min,n = e�"n/4, L =
p2 + ",
8�min,n < � < 1 9 bEn,� tal que,
para toda P 2 P�2 , se Xn
1 =d P
n,
P⇣| bEn(Xn
1 )� µ| > Lpln(2/�) �p
n
⌘ �.
Desvio padrão conhecido.
Pode trocar por cota pro 4o. momento (curtose).
Exemplo de resultadoDados: P�
2 = todas as distribuicoes
com desvio padrao �.
Teorema (Catoni):
Se �min,n = e�"n/4, L =
p2 + ",
8�min,n < � < 1 9 bEn,� tal que,
para toda P 2 P�2 , se Xn
1 =d P
n,
P⇣| bEn(Xn
1 )� µ| > Lpln(2/�) �p
n
⌘ �.
Constante L quase ótima!
Exemplo de resultadoDados: P�
2 = todas as distribuicoes
com desvio padrao �.
Teorema (Catoni):
Se �min,n = e�"n/4, L =
p2 + ",
8�min,n < � < 1 9 bEn,� tal que,
para toda P 2 P�2 , se Xn
1 =d P
n,
P⇣| bEn(Xn
1 )� µ| > Lpln(2/�) �p
n
⌘ �.
Estimador depende do do parâmetro de confiança
desejado!
Porque isto não é bom
Se você quer confiança alta, sua única garantia é que a probabilidade de um erro enorme é baixa.
Não diz nada sobre a magnitude do erro em eventos mais típicos.
Porque isto não é bom
Aplicações dos resultados de Catoni e outros semelhantes (Bubeck et al., Brownlees et al., Hsu/Sabato) sofrem por causa desta dependência.
Resultados melhores?
De fato, nossos resultados são diferentes.
Mostramos que há estimadores independentes da confiança na maior parte das situações, mas não em todas.
A mediana das médias
Mediana das médias
Uma construção simples e surpreendente de estimadores sub-Gaussianos que dependem da confiança.
Funciona para todas as distribuições com desvio padrão finito.
Implícita em muitos artigos (Nemirovski/Yudin, Alon/Matias/Szégedy, Levin, Jerrum/Sinclair, Hsu…).
Mediana das médiasDados: P2 = todas as distribuicoes
com desvio padrao finito.
Teorema (folclore):
Se �min,n = e�n/8, L = 2
p2e,
8�min,n < � < 1 9 bEn,� tal que,
para toda P 2 P2, se Xn1 =d P
n,
P⇣| bEn,�(Xn
1 )� µ| > Lp
1 + ln(1/�) �Ppn
⌘ �.
Mediana das médiasDados: Xn
1 = (X1, . . . , Xn) =d P
n
Blocos: quebre {1, 2, 3, . . . , n} em blocos disjuntos
B1, . . . , Bb, todos de tamanho n/b. Aqui b ⇡ ln(1/�).
Tome as medias dos blocos: Y` :=bn
Pi2B`
Xi.
Mediana das medias: para calcular
bEn,�(Xn1 )
ordene Y1, Y2, . . . , Y` e tome o valor do meio.
Análise
RµPµP � L�P
rb
nµP + L�P
rb
n
Intervalo
Análise
RµPµP � L�P
rb
nµP + L�P
rb
n
Queremos: mediana de Y1, . . . , Yb no intervalo.
Suficiente: mais da metade dos Y` no intervalo.
Análise
RµPµP � L�P
rb
nµP + L�P
rb
n
Y` =bn
Pi2B`
Xi com Xi i.i.d. P.
Logo E(Y`) = µP, Var(Y`) =b�2
Pn .
Análise
RµPµP � L�P
rb
nµP + L�P
rb
n
Chebyshev) P(Y` 62 I) L�2, 1 ` b.
Blocos sao disjuntos, logo eventos independentes.
Análise
RµPµP � L�P
rb
nµP + L�P
rb
n
Conclusao:
P(mais da metade das Y` fora de I)e cotada por probabilidade binomial.
Para L, b bem escolhidos,
P(Bin(b, L�2) e�b �
Um de nossos resultados
Saber o desvio…Famılia: P [�1,n,�2,n]
2 = distribuicoes com
desvio padrao no intervalo [�1,n,�2,n].
Teorema: Defina Rn := �2,n/�1,n.
Se supn Rn < +1, entao ha �min,n ⇡ e�cn,
e n0, L finitos tais que, para qualquer n � n0,
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]
2 .
Nada disso funciona se supn Rn = +1 e �min,n ! 0.
Saber o desvio…Famılia: P [�1,n,�2,n]
2 = distribuicoes com
desvio padrao no intervalo [�1,n,�2,n].
Teorema: Defina Rn := �2,n/�1,n.
Se supn Rn < +1, entao ha �min,n ⇡ e�cn,
e n0, L finitos tais que, para qualquer n � n0,
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]
2 .
Nada disso funciona se supn Rn = +1 e �min,n ! 0.
Intervalos de confiançaUse a mediana das médias. Obtenha um intervalo de confiança de comprimento sub Gaussiano.
bI�(Xn1 ) :=
bEn,�(Xn
1 )±L�2,n
p1+ln(1/�)pn
�
|bI�(Xn1 )| (const.)�P
p1 + ln(1/�)/
pn.
P(µP 2 bI�(Xn1 )) � 1� �.
Um lema de intervalos
Lemma: I1, I2, . . . , IK random nonempty closed intervals.
Assume µ 2 R, P (µ 62 Ik) 2
�k, 1 k K.
Set
ˆK := min{k K : \Kj=kIj 6= ;}.
Let
bE :=midpoint of \Kj=K
Ij .
Then 81 k K : P⇣| bE � µ| > |Ik|
⌘ 2
1�k.
Esboço da provaI1, I2, . . . , IK random nonempty closed intervals.Set K := min{k K : \K
j=kIj 6= ;}.Let bE :=midpoint of \K
j=KIj .
Assume 8j � k, µ 2 Ij .
Obtain, \Kj=kIj 6= ;, so K k.
Hence bE, µ 2 Ik under the assumption.
) P⇣| bE � µ| > |Ik|
⌘
Pj�k P (µ 62 Ij).
Outros usos do lemaFamılia: P2+↵,⌘ = distribuicoes com
EP[|X � µP|2+↵] (⌘n �P)
2+↵.
Teorema: Para ↵ 2 (0, 2], existem c↵,⌘ ⇡ ⌘�2↵/(2+↵),
L > 0 e �min,n ⇡ e�c↵,⌘npara os quais
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P2+↵,⌘.
Nada disso funciona se �min,n tem expoente muito menor.
Construa intervalos de confiança a partir de “quantis de médias.”
Cotas de Barry-Essen aparecem na análise.
Resultados negativosFamılia: P [�1,n,�2,n]
2 = distribuicoes com
desvio padrao no intervalo [�1,n,�2,n].
Teorema: Defina Rn := �2,n/�1,n.
Se supn Rn < +1, entao ha �min,n ⇡ e�cn,
e n0, L finitos tais que, para qualquer n � n0,
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]
2 .
Nada disso funciona se supn Rn = +1 e �min,n ! 0.
Resultados negativosFamılia: P [�1,n,�2,n]
2 = distribuicoes com
desvio padrao no intervalo [�1,n,�2,n].
Teorema: Defina Rn := �2,n/�1,n.
Se supn Rn < +1, entao ha �min,n ⇡ e�cn,
e n0, L finitos tais que, para qualquer n � n0,
9 bEn com P✓| bEn(Xn
1 )� µP| >L�P
p1+ln(1/�)pn
◆ �
sempre que � 2 [�min,n, 1) e Xn1 vem de P [�1,n,�2,n]
2 .
Nada disso funciona se supn Rn = +1 e �min,n ! 0.
Distribuições de Poisson com variâncias pequenas e bem diferentes.
Com certa probabilidade (não muito baixa), as amostras se parecem muito e qualquer
estimador se confunde.
Porque R grande é ruim
Family: P [c/n,R c/n]Po
, Poisson random variables
with very small means c/n µP
Rc/n.
Recall mean=variance for Poisson!
Xn1
:= sample with mean c/n, SX := X1
+ · · ·+Xn.
Y n1
:= sample with mean Rc/n, SY := Y1
+ · · ·+ Yn.
Porque R grande é ruim
Xn1 := sample with mean c/n, SX := X1 + · · ·+Xn.
Y n1 := sample with mean Rc/n, SY := Y1 + · · ·+ Yn.
Assume good estimator
bEn with constant L.
P⇣n bE(Y n
1 ) � Rc/2⌘� 1� e1�
Rc4L2
In particular, P⇣n bE(Y n
1 ) � Rc/2 | SY = Rc⌘⇡ 1.
Porque R grande é ruim
Xn1 := sample with mean c/n, SX := X1 + · · ·+Xn.
Y n1 := sample with mean Rc/n, SY := Y1 + · · ·+ Yn.
Assume good estimator
bEn with constant L.
P⇣n bE(Y n
1 ) � Rc/2⌘� 1� e1�
Rc4L2
In particular, P⇣n bE(Y n
1 ) � Rc/2 | SY = Rc⌘⇡ 1.
Same for X as for Y! (Sample sum is sufficient statistic)
Porque R grande é ruim
P⇣n bE(Xn
1 ) � Rc/2 | SX = Rc⌘⇡ 1.
So P⇣n bE(Xn
1 ) � Rc/2⌘� P (SX = Rc) ⇡ e�R lnRc
On the other hand, the prob. should be ⇡ e�R2 cL2
by the sub-Gaussian estimation property
)( for R large
Outras ideias
Curtose limitada: técnicas de processos empíricos e desigualdades de concentração dão constantes quase ótimas.
Ideia do estimador: escolha estimadores preliminares da média e variância e trunque a amostra de acordo com eles! Mostre que, se os preliminares não são muito ruins, isso funciona bem.
Conclusão
Conclusão
Estudamos e obtivemos resultados sobre um problema que já devia ter sido resolvido há muito tempo.
Métodos bastante elementares levam a resultados surpreendentes.
Métodos menos elementares também são necessários…
Em abertoConstantes ótimas na maioria dos casos (importante na prática).
Quais são os desvios ótimos dos estimadores para classes que não são sub-Gaussianas?
Estimadores de distribuição realmente indistinguível da Gaussiana, fora de eventos de probabilidade extremamente baixa.
Novas aplicações?
Obrigado! (referências nos próximos slides)
Artigos de Catoni
J.-Y. Audibert & O. Catoni. "Robust linear least squares regression.” Ann. Stat. 39 no. 5 (2011)
O. Catoni. "Challenging the empirical mean and empirical variance: A deviation study.” Ann. Inst. H. Poincaré Probab. Statist. 48 no. 4 (2012) [nossa base]
Mediana das médiasD. Hsu http://www.inherentuncertainty.org/2010/12/robust-statistics.html (Ver também Levin, L. "Notes for Miscellaneous Lectures.” arXiv:cs/0503039)
N. Alon, Y. Matias & M. Szégedy. "The Space Complexity of Approximating the Frequency Moments." J. Comput. Syst. Sci. 58 no. 1 (1999)
A. Nemirovski & D. Yudin. Problem complexity and method efficiency in optimization. Wiley (1983).
AplicaçõesC. Brownlees, E. Joly & G. Lugosi. "Empirical risk minimization for heavy-tailed losses.” To appear in Ann. Stat.
S. Bubeck, N. Cesa-Bianchi & G. Lugosi. “Bandits with heavy tail.” IEEE Transactions on Information Theory 59 no. 11 (2013)
D. Hsu & S. Sabato. "Loss minimization and parameter estimation with heavy tails.” arXiv:1307.1827. Abstract in ICML proceedings (2014).