distribuição de probabilidades e detecção de outliers
TRANSCRIPT
Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis
Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PBTelefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: [email protected]
DISTRIBUIÇÕES DE PROBABILIDADES E OUTLIERS
Felipe Ponteswww.contabilidademq.blogspot.com
1. Revisão do Exercício da aula passada 2. Ditribuições de probabilidades (revisão de conceitos básicos) 3. Aplicação do assunto da aula 1 e 2 com uma base de dados real
INTRODUÇÃO• Na aula passada vimos como descrever um conjunto de variáveis
(estatísticas descritivas). Isso nos permite identificar certos padrões e tendências. Vamos discutir rapidamente sobre as suas respostas, depois entraremos nos conceitos básicos e por fim nas aplicações práticas! ATENÇÃO: hoje faremos alguns exercícios. Façam de forma organizada em uma planilha do Excel, ou no Word, e me enviem pela “tarefa” do SIGAA.
• Importância do assunto de hoje: o fundamento da tomada de decisões (teste de hipóteses) é a probabilidade (LEVIN; FOX; FORD, 2012), pois envolve a incerteza.
• Probabilidade teórica (50% de chance de nascer homem) x Probabilidade empírica (51% de chance de nascer homem com dados de longo prazo)
www.ccsa.ufpb.br/ppgcc
DEFINIÇÃO:• As variáveis econômicas são, por sua natureza, aleatórias. Não sabemos quais serão
seus valores, até observá-los (“experimentando”). • Como são aleatórias, a ocorrência de seus valores é incerta. A probabilidade é uma
forma de expressar esta incerteza.
EXPERIMENTO CONTROLADO E NÃO CONTROLADO• Controlado variável não aleatória • Não controlado variável aleatória
VARIÁVEIS ALEATÓRIAS
www.ccsa.ufpb.br/ppgcc
“O Lado B do Insider Trading”: a) empresa sem operações dos insiders e b) empresa com operações dos insiders (QI e QII)
Tudo é constante, exceto uma “variável”
VARIÁVEIS ALEATÓRIAS• Sobre a importância dos experimentos, leiam o capítulo 2 do
livro Superprevisores.
• Apesar de não haver perfeição em nossas pesquisas, os experimentos são melhores do que apenas “sabichões coçando o queixo” e pessoas com “complexo de deus”.
• Para conhecer um pouco mais sobre o livro, leia a minha review lá no blog: http://contabilidademq.blogspot.com.br/2017/03/review-superprevisores-arte-e-ciencia-de-antecipar-o-futuro.html
www.ccsa.ufpb.br/ppgcc
VARIÁVEIS ALEATÓRIAS• Para trabalhar com variáveis aleatórias e testar hipóteses,
precisamos de uma distribuição de probabilidades (contínuas ou discretas).
www.ccsa.ufpb.br/ppgcc
http://isomorphism.es/post/18913494015/probability-distributions
VARIÁVEIS ALEATÓRIAS• No mundo real• http://isomorphism.es/
www.ccsa.ufpb.br/ppgcc
DISTRIBUIÇÃO DE PROBABILIDADES
• A é o resultado de um evento qualquer, a partir de um experimento não controlado. A probabilidade de A, representada por P(A), é a frequência relativa com que o resultado A ocorre em muitas provas repetidas do experimento. Para qualquer evento, 0≤P(A)≤1 e Σp(A)= 1.
• Função de probabilidade – quando se relacionam os valores de uma variável aleatória discreta com sua probabilidade de ocorrência, o resultado é uma função de probabilidade. No caso de uma variável continua temos a função densidade de probabilidade (f.d.p ou p.d.f).
www.ccsa.ufpb.br/ppgcc
NORMAL• É um modelo teórico (ou ideal) muito usado em econometria
básica (foco desta disciplina). Por meio dela o pesquisador pode generalizar seus resultados de amostras para populações.
CARACTERÍSTICAS BÁSICAS:1. Formato de sino2. Simétrica3. Unimodal (só tem um pico de máxima probabilidade)4. Média = Moda = Mediana
www.ccsa.ufpb.br/ppgcc
https://www.mathsisfun.com/data/standard-normal-distribution.html
IMPLICAÇÃO: por exemplo, teríamos poucas empresas com retornos extremos (positivos ou negativos) – as empresas não devem gerar lucros “anormais” para sempre.
NORMAL • Na prática, o que encontramos são coisas assim:
www.ccsa.ufpb.br/ppgcc
0
2
4
6
8
10
12
14
16
18
20
-0.1 0 0.1 0.2 0.3
Dens
ity
acc_disc_abs
acc_disc_absN(0.036252,0.051882)
Test statistic for normality:Chi-square(2) = 356.744 [0.0000]
0
5
10
15
20
25
30
0.00 0.05 0.10 0.15 0.20 0.25 0.30
Series: ACC_DISC_ABSSample 1 89Observations 89
Mean 0.036252Median 0.020848Maximum 0.334798Minimum 6.94e-18Std. Dev. 0.051882Skewness 3.665601Kurtosis 18.70847
Jarque-Bera 1114.363Probability 0.000000
05
1015
20D
ensi
ty
0 .1 .2 .3 .4acc_disc_abs
A assimetria é muito maior do que 0,5. Regra geral: -0,5 < Skew < 0,5.
A Normal tem curtose = 3.A partir dessa análise, o que pode ter gerado nosso “problema”?
No Eviews, GRETL e Stata.
NORMAL
www.ccsa.ufpb.br/ppgcc
02
46
Den
sity
0 .2 .4 .6 .8 1rpegaverage
010
2030
40Fr
eque
ncy
0 5 10 15 20cob_eps
0.1
.2.3
.4D
ensi
ty
18 20 22 24 26lnvm
O que é mais próximo da normalidade?
01.
0e-1
12.
0e-1
13.
0e-1
14.
0e-1
1D
ensi
ty
0 1.000e+11 2.000e+11 3.000e+11 4.000e+11valor_de_mercado
NORMAL
www.ccsa.ufpb.br/ppgcc
0.1
.2.3
.4ac
c_di
sc_a
bs
Os pontos fora da “caixa” são outliers (maiores que 0,1 nesse caso)
A linha dentro da caixa é a mediana, como não está no meio... Evidencia assimetria.
O limite superior da caixa indica o percentil 75% e o limite inferior representa 25%.
O “bigode” de cima é o limite superior = P75% - 1,5*(P75% - P25%)
O “bigode” de baixo é o limite inferior = P25% - 1,5*(P75% - P25%)
0.2
.4.6
.81
rpeg
aver
age
NORMAL
www.ccsa.ufpb.br/ppgcc
Os pontos fora da “caixa” são outliers (maiores que 0,4 nesse caso)
A linha dentro da caixa é a mediana, como não está no meio... Evidencia assimetria.
O limite superior da caixa indica o percentil 75% e o limite inferior representa 25%.
O “bigode” de cima é o limite superior = P75% - 1,5*(P75% - P25%)
O “bigode” de baixo é o limite inferior = P25% - 1,5*(P75% - P25%)
NORMAL18
2022
2426
lnvm
www.ccsa.ufpb.br/ppgcc
O que dizer sobre isso?
05
1015
20co
b_ep
s
1820
2224
26ln
vm
Consumer Discretionary Consumer Staples Energy Health Care Industrials Information Technology Materials Telecommunication Services Utilities
NORMALComando: graph box lnvm, over(gics_sector)
www.ccsa.ufpb.br/ppgcc
Quais são os setores mais homogêneos e heterogêneos?
Quais são os setores com mais outliers?
Por causa dessa heterogeneidade, temos que controlar esses fatores (qreg, painel etc).
NORMAL• Se a distribuição for normal, os pontos ficarão em cima da reta
www.ccsa.ufpb.br/ppgcc
-.10
.1.2
.3ac
c_di
sc_a
bs
-.1 -.05 0 .05 .1 .15Inverse Normal
NORMAL18
2022
2426
lnvm
18 20 22 24 26Inverse Normal
www.ccsa.ufpb.br/ppgcc-5
05
1015
20co
b_ep
s
-5 0 5 10 15 20Inverse Normal
Quem é discreto e quem é contínuo?
NORMAL• Algumas vezes, transformações resolvem nosso problema: log 10,
ln, sqrt (assimetria à direita), quadrática, cúbica (assimetria à esquerda) etc.
• Plotem o histograma da variável vm (valor de mercado) (histogram vm). Qual é o tipo de assimetria? Depois compare com o histograma da variável lnvm.
• O comando para transformar a variável é “generate NOME_DA_NOVA_VARIÁVEL=TIPO_DE_TRANSF(inserir a variável a ser transformada)”
• generate lnvm=ln(vm)
www.ccsa.ufpb.br/ppgcc
NORMAL
www.ccsa.ufpb.br/ppgcc
1/cubic 1/(vm^3) . 0.0001/square 1/(vm^2) . 0.000inverse 1/vm . 0.0001/(square root) 1/sqrt(vm) . 0.000log log(vm) 3.25 0.197square root sqrt(vm) . 0.000identity vm . 0.000square vm^2 . 0.000cubic vm^3 . 0.000 Transformation formula chi2(2) P(chi2)
. ladder vm O comando ladder do Stata nos diz qual é a melhor transformação (você não precisa ficar calculando uma por uma). Faça com a variável vm.
NORMAL
www.ccsa.ufpb.br/ppgcc
1/cubic 1/(lnvm^3) 47.04 0.0001/square 1/(lnvm^2) 31.10 0.000inverse 1/lnvm 18.07 0.0001/(square root) 1/sqrt(lnvm) 12.80 0.002log log(lnvm) 8.51 0.014square root sqrt(lnvm) 5.26 0.072identity lnvm 3.25 0.197square lnvm^2 5.77 0.056cubic lnvm^3 15.44 0.000 Transformation formula chi2(2) P(chi2)
. ladder lnvm
NORMAL
02.0
e-34
4.0e
-34
6.0e
-34
8.0e
-34
0 2.00e+344.00e+346.00e+348.00e+34
cubic
01.0
e-22
2.0e
-22
3.0e
-22
4.0e
-22
0 5.00e+221.00e+231.50e+232.00e+23
square
02.0
e-11
4.0e
-11
6.0e
-11
8.0e
-11
0 1.00e+112.00e+113.00e+114.00e+11
identity
05.
0e-0
61.
0e-0
51.
5e-0
5
0 200000 400000 600000
sqrt
0.1
.2.3
.4.5
18 20 22 24 26
log
02.0
e+04
4.0e
+04
6.0e
+04
8.0e
+04
-.00015 -.0001 -.00005 0
1/sqrt
05.0e
+08
1.0e
+09
1.5e
+09
2.0e
+09
2.5e
+09
-2.00e-08-1.50e-08-1.00e-08-5.00e-09 0
inverse
05.0
e+16
1.0e
+17
1.5e
+17
2.0e
+17
-3.00e-16 -2.00e-16 -1.00e-16 0
1/square
05.
0e+2
41.0e
+25
-6.00e-24 -4.00e-24 -2.00e-24 0
1/cubic
Den
sity
valor_de_mercadoHistograms by transformation
www.ccsa.ufpb.br/ppgcc
NORMAL• O gladder projeta os tipos de transformações
www.ccsa.ufpb.br/ppgcc
01.0
e-04
2.0e
-04
3.0e
-04
4.0e
-04
5000 10000 15000 20000
cubic
0.00
2.004.0
06.008.0
1
300 400 500 600 700
square
0.1
.2.3
.4.5
18 20 22 24 26
identity0
12
34
5
4.2 4.4 4.6 4.8 5 5.2
sqrt
05
10
2.9 3 3.1 3.2 3.3
log
020
4060
8010
0
-.24 -.23 -.22 -.21 -.2 -.19
1/sqrt
050
10015
020025
0
-.055 -.05 -.045 -.04 -.035
inverse0
10002
00030
00
-.003 -.0025 -.002 -.0015
1/square
01.0e
+04
2.0e
+04
3.0e
+04
4.0e
+04
-.0002 -.00015 -.0001 -.00005
1/cubic
Den
sity
lnvmHistograms by transformation
NORMAL
www.ccsa.ufpb.br/ppgcc
1/cubic 1/(cob_eps^3) . .1/square 1/(cob_eps^2) . .inverse 1/cob_eps . .1/(square root) 1/sqrt(cob_eps) . .log log(cob_eps) . .square root sqrt(cob_eps) 43.48 0.000identity cob_eps 63.13 0.000square cob_eps^2 34.52 0.000cubic cob_eps^3 42.33 0.000 Transformation formula chi2(2) P(chi2)
. ladder cob_eps Por que será que nenhuma transformação deu jeito? Pense e confirme o raciocínio no próximo slide
NORMAL• Dá para perceber a diferença com relação aos gráficos
anteriores?
www.ccsa.ufpb.br/ppgcc
05.0
e-04.0
01.00
15.00
2.002
5
0 2000 4000 6000
cubic
0.0
05.0
1.01
5.02
.025
0 100 200 300
square
0.1
.2.3
0 5 10 15 20
identity
0.5
11.
50 1 2 3 4
sqrtDen
sity
cob_epsHistograms by transformation
50001
000015
00020
000
5000 10000 15000 20000
cubic
3004
005006
00700
300 400 500 600 700
square
1820
2224
26
18 20 22 24 26
identity
4.24
.44.64
.85
5.2
4.2 4.4 4.6 4.8 5 5.2
sqrt
2.9
33.
13.2
3.3
2.9 3 3.1 3.2 3.3
log
-.24-.2
3-.22-.2
1-.2-.1
9
-.23 -.22 -.21 -.2 -.19
1/sqrt
-.055-.
05-.0
45-.04-
.035
-.055 -.05 -.045 -.04 -.035
inverse-.0
03-.002
5-.0
02-.001
5-.0
01
-.003 -.0025 -.002 -.0015 -.001
1/square
-.000
2-.0
0015-.0
001
-.000
05
-.00014-.00012-.0001-.00008-.00006-.00004
1/cubic
lnvmQuantile-Normal plots by transformation
NORMAL• Para verificar o gráfico da normal, pode-se utilizar o qladder
www.ccsa.ufpb.br/ppgcc
-2.0
0e+3
402.00
e+34
4.00
e+34
6.00
e+34
-1.00e+34-5.00e+33 0 5.00e+331.00e+341.50e+34
cubic
-5.0
0e+2
205.00
e+22
1.00
e+23
1.50
e+23
-4.00e+22-2.00e+22 0 2.00e+224.00e+22
square
-1.0
0e+1
101.00
e+11
2.00
e+11
3.00
e+11
4.00
e+11
-1.00e+11-5.00e+10 0 5.00e+101.00e+111.50e+11
identity
-200
000020
00004000
0060
0000
-100000 0 100000200000300000
sqrt
1820
2224
26
18 20 22 24 26
log
-.000
15-.000
1-.0
00050
.000
05
-.00006 -.00004 -.00002 0 .00002
1/sqrt-2
.00e
-08
-1.5
0e-0
8-1
.00e
-08
-5.0
0e-0
905.00
e-09
-4.00e-09-2.00e-09 0 2.00e-094.00e-09
inverse
-3.0
0e-1
6-2
.00e
-16
-1.0
0e-1
601.00
e-16
-4.00e-17-2.00e-17 0 2.00e-174.00e-17
1/square
-6.0
0e-2
4-4
.00e
-24
-2.0
0e-2
402.00
e-24
-1.00e-24-5.00e-25 0 5.00e-251.00e-24
1/cubic
valor_de_mercadoQuantile-Normal plots by transformation
www.ccsa.ufpb.br/ppgcc
-200
00
2000
4000
6000
-2000 0 2000 4000 6000
cubic
-100
010
020
030
0
-100 0 100 200 300
square
-50
510
1520
-5 0 5 10 15 20
identity
02
46
0 2 4 6
sqrt
cob_epsQuantile-Normal plots by transformation
www.ccsa.ufpb.br/ppgcc
NORMAL• É importante fazer essa análise antes de rodar o modelo final,
para detectar os problemas e tratá-los, se possível ou ter ideia das possíveis limitações da sua análise: usar outros estimadores que não o OLS, por exemplo.
• Esses gráficos precisam estar na versão final do artigo? Definitivamente Não!
www.ccsa.ufpb.br/ppgcc
NORMAL• Utilize os seguintes comandos com os dados do “sysuse nlsw88, clear”.
Analise a variável wage e tenure.• Analise brevemente e salve os gráficos em um arquivo do Word, no final
faremos um exercício completo:• histogram wage, normal• graph box wage• qnorm wage• ladder wage• gladder wage• sktest wage • ** testa a normalidade univariada• ** Use transformações para testar, a exemplo de:• g logwage=log(wage) ou lnwage=ln(wage)
www.ccsa.ufpb.br/ppgcc
NORMALESCORE PADRÃO (Z) E A CURVA NORMAL• O Z-escore nos diz quantos desvios-padrão um valor X está acima ou
abaixo da média.
• Tem algumas utilidades quando trabalhamos com a Normal e também é utilizado para identificar outliers univariados (geralmente 3 DP da média – mas fiquem de olho no tamanho da amostra, as pequenas são mais sensíveis). Também é usada para tratar o efeito do uso de diferentes escalas na análise multivariada.
• Para identificar outliers com o Z-escore, presume-se a normalidade dos dados. Quando os dados não são normalmente distribuídos, o box-plot é uma ferramenta melhor para detectá-los.
www.ccsa.ufpb.br/ppgcc
NORMALESCORE PADRÃO (Z) E A CURVA NORMAL• Supondo que os dados são normalmente distribuídos e que têm
média 9,5 e desvio-padrão de 17, qual é o Z-Escore de uma observação X = 53?
• Calcule o Z-Escore da variável FCO, na planilha “Pasta 1”, de modo a encontrar possíveis outliers.
• Quais são os outliers, usando 2 DP da média, por ser uma amostra pequena?
www.ccsa.ufpb.br/ppgcc
NORMAL• Como padronizar variáveis no Stata, com o Z-escore (exemplo
com Wage):• sum wage• ** A média foi 7.766949 e o desvio-padrão foi 5.755523.
Aplicamos isso na fórmula do Z-escore para padronizar a variável, fazendo com que ela fique com média zero e variância constante
• ** Crio a nova variável• g Zwage=(wage-7.766949)/5.755523• ** Verificando:• sum Zwage
• Para calcular o Z-Escore, existe também a função “padronizar” no Excel.www.ccsa.ufpb.br/ppgcc
AMOSTRAS E POPULAÇÕES• A contabilidade é uma ciência social aplicada, isso implica dizer
que temos tempo e recursos escassos (por exemplo não dá para entrevistar todos os auditores do mundo). Para tirar nossas conclusões, partimos de um grupo pequeno de indivíduos (amostra) e fazemos inferências sobre o grupo de todos os indivíduos (população).
• Amostragem aleatória x não aleatória (intencional)
• O resultado obtido na amostragem dificilmente seráigual ao da população, devido ao “erro amostral”.www.ccsa.ufpb.br/ppgcc
Todos têm a mesma chance de estar na amostra
Não estamos falando de “erro intencional”: cada amostra terá características “próprias”, mas não intencionais. Ex.: QIC apenas em empresas do Novo Mercado
AMOSTRAS E POPULAÇÕESINTERVALO DE CONFIANÇA• Nós convencionamos usar 95% como nível de confiança (Z = 1,96 para cada
lado, – 47,5% e + 47,5% = 95% - VER NA TABELA NORMAL = 5%/2 = 2,5%).
• Mesmo usando os 95% de nível de confiança, podemos ter a “sorte” de selecionar uma amostra que gere uma média dentro dos 5% restantes. Exemplo com várias amostras da idade da turma.
• Calcule a média do FCO e utilize o nível de 95% para estimar um intervalo de confiança: Média amostral + ou – 1,96*[DP/(N^0,5)]. Considere que o desvio-padrão da amostra é igual ao da população.
• Considerando que a um nível de significância de 90% o Z é 1,645 (90%/2 = 0,45 buscando 0,45 na Tabela Normal, temos 1,645 aproximadamente), estime o IC do FCO.
• Agora considere um nível de 99% (Z = 2,575) para o mesmo FCO.
www.ccsa.ufpb.br/ppgcc
AMOSTRAS E POPULAÇÕESDISTRIBUIÇÃO t• Anteriormente consideramos que sabíamos o desvio-padrão da
população. Isso faz pouco sentido!• Para poder usar o DP amostral, basta utilizar o ajuste nos graus
de liberdade que vimos na aula passada: Média amostral + ou – t*{DP/[(N – 1)^0,5]}.
• Em amostras grandes isso faz pouca diferença. À medida que aumentamos os GL a t tende à normal.
• A tabela t de Student é um pouco diferente da normal, ela usa os GL (N-1) e o alfa. Lembrem de dividir por 2, porque estamos falando de duas caudas.
• Refaça os exercícios do slide anterior, considerando a tabela t.
www.ccsa.ufpb.br/ppgcc
Felipe Pontes 37
APLICAÇÃO 1• Vamos usar outras metodologias de detecção de outliers.• Use a base “dados para aula de normalidade” para detector
outliers na variável “rpegaverage”, comparando com a variável “cob_eps”:
• sum rpegaverage cob_eps• extremes rpegaverage cob_eps• scatter rpegaverage cob_eps
www.contabilidademq.blogspot.com
APLICAÇÃO 2• Utilize a base de dados da aula de hoje (Plan1) para efetuar uma
análise descritiva (estatísticas descritivas, testes de normalidade, detecção de outliers etc).
• Escreva um relatório, como se fosse um artigo. Por isso vocês analisaram as estatísticas descritivas de um artigo na semana passada!
www.ccsa.ufpb.br/ppgcc
Questões para a próxima aula1. Por que experimentos controlados são importantes?2. Cite 2 exemplos de experimentos controlados. 1 deles deve ser
um artigo publicado em uma revista A1, A2 ou B1.3. Cite algumas maneiras de se “induzir” a normalidade dos
dados (não se limite aos slides). A ideia é buscar maneiras de se “corrigir” esse problema.
4. Diferencie amostragem aleatória da não aleatória. Quais são as vantagens e desvantagens de cada uma delas?
5. O que é amostragem por cotas, por julgamento, aleatória simples, sistemática e estratificada?
6. Como se pode estimar o tamanho de uma amostra confiável?
www.ccsa.ufpb.br/ppgcc