distribuição de probabilidades e detecção de outliers

Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis

Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PBTelefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: [email protected]

DISTRIBUIÇÕES DE PROBABILIDADES E OUTLIERS

Felipe Ponteswww.contabilidademq.blogspot.com

1. Revisão do Exercício da aula passada 2. Ditribuições de probabilidades (revisão de conceitos básicos) 3. Aplicação do assunto da aula 1 e 2 com uma base de dados real

http://www.contabilidademq.blogspot.com/

[email protected] 2

INTRODUÇÃO• Na aula passada vimos como descrever um conjunto de variáveis

(estatísticas descritivas). Isso nos permite identificar certos padrões e tendências. Vamos discutir rapidamente sobre as suas respostas, depois entraremos nos conceitos básicos e por fim nas aplicações práticas! ATENÇÃO: hoje faremos alguns exercícios. Façam de forma organizada em uma planilha do Excel, ou no Word, e me enviem pela “tarefa” do SIGAA.

• Importância do assunto de hoje: o fundamento da tomada de decisões (teste de hipóteses) é a probabilidade (LEVIN; FOX; FORD, 2012), pois envolve a incerteza.

• Probabilidade teórica (50% de chance de nascer homem) x Probabilidade empírica (51% de chance de nascer homem com dados de longo prazo)

www.ccsa.ufpb.br/ppgcc

[email protected] 3

DEFINIÇÃO:• As variáveis econômicas são, por sua natureza, aleatórias. Não sabemos quais serão

seus valores, até observá-los (“experimentando”). • Como são aleatórias, a ocorrência de seus valores é incerta. A probabilidade é uma

forma de expressar esta incerteza.

EXPERIMENTO CONTROLADO E NÃO CONTROLADO• Controlado variável não aleatória • Não controlado variável aleatória

VARIÁVEIS ALEATÓRIAS


“O Lado B do Insider Trading”: a) empresa sem operações dos insiders e b) empresa com operações dos insiders (QI e QII)

Tudo é constante, exceto uma “variável”

[email protected] 4

VARIÁVEIS ALEATÓRIAS• Sobre a importância dos experimentos, leiam o capítulo 2 do

livro Superprevisores.

• Apesar de não haver perfeição em nossas pesquisas, os experimentos são melhores do que apenas “sabichões coçando o queixo” e pessoas com “complexo de deus”.

• Para conhecer um pouco mais sobre o livro, leia a minha review lá no blog: http://contabilidademq.blogspot.com.br/2017/03/review-superprevisores-arte-e-ciencia-de-antecipar-o-futuro.html


http://contabilidademq.blogspot.com.br/2017/03/review-superprevisores-arte-e-ciencia-de-antecipar-o-futuro.html



[email protected] 5

VARIÁVEIS ALEATÓRIAS• Para trabalhar com variáveis aleatórias e testar hipóteses,

precisamos de uma distribuição de probabilidades (contínuas ou discretas).


http://isomorphism.es/post/18913494015/probability-distributions

[email protected] 6

VARIÁVEIS ALEATÓRIAS• No mundo real• http://isomorphism.es/


[email protected] 7

DISTRIBUIÇÃO DE PROBABILIDADES


[email protected] 8

DISTRIBUIÇÃO DE PROBABILIDADES

• A é o resultado de um evento qualquer, a partir de um experimento não controlado. A probabilidade de A, representada por P(A), é a frequência relativa com que o resultado A ocorre em muitas provas repetidas do experimento. Para qualquer evento, 0≤P(A)≤1 e Σp(A)= 1.

• Função de probabilidade – quando se relacionam os valores de uma variável aleatória discreta com sua probabilidade de ocorrência, o resultado é uma função de probabilidade. No caso de uma variável continua temos a função densidade de probabilidade (f.d.p ou p.d.f).


[email protected] 9

NORMAL• É um modelo teórico (ou ideal) muito usado em econometria

básica (foco desta disciplina). Por meio dela o pesquisador pode generalizar seus resultados de amostras para populações.

CARACTERÍSTICAS BÁSICAS:1. Formato de sino2. Simétrica3. Unimodal (só tem um pico de máxima probabilidade)4. Média = Moda = Mediana


https://www.mathsisfun.com/data/standard-normal-distribution.html

IMPLICAÇÃO: por exemplo, teríamos poucas empresas com retornos extremos (positivos ou negativos) – as empresas não devem gerar lucros “anormais” para sempre.

[email protected] 10

NORMAL • Na prática, o que encontramos são coisas assim:


0

2

4

6

8

10

12

14

16

18

20

-0.1 0 0.1 0.2 0.3

Dens

ity

acc_disc_abs

acc_disc_absN(0.036252,0.051882)

Test statistic for normality:Chi-square(2) = 356.744 [0.0000]

0

5

10

15

20

25

30

0.00 0.05 0.10 0.15 0.20 0.25 0.30

Series: ACC_DISC_ABSSample 1 89Observations 89

Mean 0.036252Median 0.020848Maximum 0.334798Minimum 6.94e-18Std. Dev. 0.051882Skewness 3.665601Kurtosis 18.70847

Jarque-Bera 1114.363Probability 0.000000

05

1015

20D

ensi

ty

0 .1 .2 .3 .4acc_disc_abs

A assimetria é muito maior do que 0,5. Regra geral: -0,5 < Skew < 0,5.

A Normal tem curtose = 3.A partir dessa análise, o que pode ter gerado nosso “problema”?

No Eviews, GRETL e Stata.


NORMAL


02

46

Den

sity

0 .2 .4 .6 .8 1rpegaverage

010

2030

40Fr

eque

ncy

0 5 10 15 20cob_eps

0.1

.2.3

.4D

ensi

ty

18 20 22 24 26lnvm

O que é mais próximo da normalidade?

01.

0e-1

12.

0e-1

13.

0e-1

14.

0e-1

1D

ensi

ty

0 1.000e+11 2.000e+11 3.000e+11 4.000e+11valor_de_mercado


NORMAL


0.1

.2.3

.4ac

c_di

sc_a

bs

Os pontos fora da “caixa” são outliers (maiores que 0,1 nesse caso)

A linha dentro da caixa é a mediana, como não está no meio... Evidencia assimetria.

O limite superior da caixa indica o percentil 75% e o limite inferior representa 25%.

O “bigode” de cima é o limite superior = P75% - 1,5*(P75% - P25%)

O “bigode” de baixo é o limite inferior = P25% - 1,5*(P75% - P25%)


0.2

.4.6

.81

rpeg

aver

age

NORMAL


Os pontos fora da “caixa” são outliers (maiores que 0,4 nesse caso)

A linha dentro da caixa é a mediana, como não está no meio... Evidencia assimetria.

O limite superior da caixa indica o percentil 75% e o limite inferior representa 25%.

O “bigode” de cima é o limite superior = P75% - 1,5*(P75% - P25%)

O “bigode” de baixo é o limite inferior = P25% - 1,5*(P75% - P25%)


NORMAL18

2022

2426

lnvm


O que dizer sobre isso?

05

1015

20co

b_ep

s


1820

2224

26ln

vm

Consumer Discretionary Consumer Staples Energy Health Care Industrials Information Technology Materials Telecommunication Services Utilities

NORMALComando: graph box lnvm, over(gics_sector)


Quais são os setores mais homogêneos e heterogêneos?

Quais são os setores com mais outliers?

Por causa dessa heterogeneidade, temos que controlar esses fatores (qreg, painel etc).


NORMAL• Se a distribuição for normal, os pontos ficarão em cima da reta


-.10

.1.2

.3ac

c_di

sc_a

bs

-.1 -.05 0 .05 .1 .15Inverse Normal


NORMAL18

2022

2426

lnvm

18 20 22 24 26Inverse Normal

www.ccsa.ufpb.br/ppgcc-5

05

1015

20co

b_ep

s

-5 0 5 10 15 20Inverse Normal

Quem é discreto e quem é contínuo?


NORMAL• Algumas vezes, transformações resolvem nosso problema: log 10,

ln, sqrt (assimetria à direita), quadrática, cúbica (assimetria à esquerda) etc.

• Plotem o histograma da variável vm (valor de mercado) (histogram vm). Qual é o tipo de assimetria? Depois compare com o histograma da variável lnvm.

• O comando para transformar a variável é “generate NOME_DA_NOVA_VARIÁVEL=TIPO_DE_TRANSF(inserir a variável a ser transformada)”

• generate lnvm=ln(vm)



NORMAL


1/cubic 1/(vm^3) . 0.0001/square 1/(vm^2) . 0.000inverse 1/vm . 0.0001/(square root) 1/sqrt(vm) . 0.000log log(vm) 3.25 0.197square root sqrt(vm) . 0.000identity vm . 0.000square vm^2 . 0.000cubic vm^3 . 0.000 Transformation formula chi2(2) P(chi2)

. ladder vm O comando ladder do Stata nos diz qual é a melhor transformação (você não precisa ficar calculando uma por uma). Faça com a variável vm.


NORMAL


1/cubic 1/(lnvm^3) 47.04 0.0001/square 1/(lnvm^2) 31.10 0.000inverse 1/lnvm 18.07 0.0001/(square root) 1/sqrt(lnvm) 12.80 0.002log log(lnvm) 8.51 0.014square root sqrt(lnvm) 5.26 0.072identity lnvm 3.25 0.197square lnvm^2 5.77 0.056cubic lnvm^3 15.44 0.000 Transformation formula chi2(2) P(chi2)

. ladder lnvm


NORMAL

02.0

e-34

4.0e

-34

6.0e

-34

8.0e

-34

0 2.00e+344.00e+346.00e+348.00e+34

cubic

01.0

e-22

2.0e

-22

3.0e

-22

4.0e

-22

0 5.00e+221.00e+231.50e+232.00e+23

square

02.0

e-11

4.0e

-11

6.0e

-11

8.0e

-11

0 1.00e+112.00e+113.00e+114.00e+11

identity

05.

0e-0

61.

0e-0

51.

5e-0

5

0 200000 400000 600000

sqrt

0.1

.2.3

.4.5

18 20 22 24 26

log

02.0

e+04

4.0e

+04

6.0e

+04

8.0e

+04

-.00015 -.0001 -.00005 0

1/sqrt

05.0e

+08

1.0e

+09

1.5e

+09

2.0e

+09

2.5e

+09

-2.00e-08-1.50e-08-1.00e-08-5.00e-09 0

inverse

05.0

e+16

1.0e

+17

1.5e

+17

2.0e

+17

-3.00e-16 -2.00e-16 -1.00e-16 0

1/square

05.

0e+2

41.0e

+25

-6.00e-24 -4.00e-24 -2.00e-24 0

1/cubic

Den

sity

valor_de_mercadoHistograms by transformation



NORMAL• O gladder projeta os tipos de transformações


01.0

e-04

2.0e

-04

3.0e

-04

4.0e

-04

5000 10000 15000 20000

cubic

0.00

2.004.0

06.008.0

1

300 400 500 600 700

square

0.1

.2.3

.4.5

18 20 22 24 26

identity0

12

34

5

4.2 4.4 4.6 4.8 5 5.2

sqrt

05

10

2.9 3 3.1 3.2 3.3

log

020

4060

8010

0

-.24 -.23 -.22 -.21 -.2 -.19

1/sqrt

050

10015

020025

0

-.055 -.05 -.045 -.04 -.035

inverse0

10002

00030

00

-.003 -.0025 -.002 -.0015

1/square

01.0e

+04

2.0e

+04

3.0e

+04

4.0e

+04

-.0002 -.00015 -.0001 -.00005

1/cubic

Den

sity

lnvmHistograms by transformation


NORMAL


1/cubic 1/(cob_eps^3) . .1/square 1/(cob_eps^2) . .inverse 1/cob_eps . .1/(square root) 1/sqrt(cob_eps) . .log log(cob_eps) . .square root sqrt(cob_eps) 43.48 0.000identity cob_eps 63.13 0.000square cob_eps^2 34.52 0.000cubic cob_eps^3 42.33 0.000 Transformation formula chi2(2) P(chi2)

. ladder cob_eps Por que será que nenhuma transformação deu jeito? Pense e confirme o raciocínio no próximo slide


NORMAL• Dá para perceber a diferença com relação aos gráficos

anteriores?


05.0

e-04.0

01.00

15.00

2.002

5

0 2000 4000 6000

cubic

0.0

05.0

1.01

5.02

.025

0 100 200 300

square

0.1

.2.3

0 5 10 15 20

identity

0.5

11.

50 1 2 3 4

sqrtDen

sity

cob_epsHistograms by transformation


50001

000015

00020

000

5000 10000 15000 20000

cubic

3004

005006

00700

300 400 500 600 700

square

1820

2224

26

18 20 22 24 26

identity

4.24

.44.64

.85

5.2

4.2 4.4 4.6 4.8 5 5.2

sqrt

2.9

33.

13.2

3.3

2.9 3 3.1 3.2 3.3

log

-.24-.2

3-.22-.2

1-.2-.1

9

-.23 -.22 -.21 -.2 -.19

1/sqrt

-.055-.

05-.0

45-.04-

.035

-.055 -.05 -.045 -.04 -.035

inverse-.0

03-.002

5-.0

02-.001

5-.0

01

-.003 -.0025 -.002 -.0015 -.001

1/square

-.000

2-.0

0015-.0

001

-.000

05

-.00014-.00012-.0001-.00008-.00006-.00004

1/cubic

lnvmQuantile-Normal plots by transformation

NORMAL• Para verificar o gráfico da normal, pode-se utilizar o qladder



-2.0

0e+3

402.00

e+34

4.00

e+34

6.00

e+34

-1.00e+34-5.00e+33 0 5.00e+331.00e+341.50e+34

cubic

-5.0

0e+2

205.00

e+22

1.00

e+23

1.50

e+23

-4.00e+22-2.00e+22 0 2.00e+224.00e+22

square

-1.0

0e+1

101.00

e+11

2.00

e+11

3.00

e+11

4.00

e+11

-1.00e+11-5.00e+10 0 5.00e+101.00e+111.50e+11

identity

-200

000020

00004000

0060

0000

-100000 0 100000200000300000

sqrt

1820

2224

26

18 20 22 24 26

log

-.000

15-.000

1-.0

00050

.000

05

-.00006 -.00004 -.00002 0 .00002

1/sqrt-2

.00e

-08

-1.5

0e-0

8-1

.00e

-08

-5.0

0e-0

905.00

e-09

-4.00e-09-2.00e-09 0 2.00e-094.00e-09

inverse

-3.0

0e-1

6-2

.00e

-16

-1.0

0e-1

601.00

e-16

-4.00e-17-2.00e-17 0 2.00e-174.00e-17

1/square

-6.0

0e-2

4-4

.00e

-24

-2.0

0e-2

402.00

e-24

-1.00e-24-5.00e-25 0 5.00e-251.00e-24

1/cubic

valor_de_mercadoQuantile-Normal plots by transformation



-200

00

2000

4000

6000

-2000 0 2000 4000 6000

cubic

-100

010

020

030

0

-100 0 100 200 300

square

-50

510

1520

-5 0 5 10 15 20

identity

02

46

0 2 4 6

sqrt

cob_epsQuantile-Normal plots by transformation



NORMAL• É importante fazer essa análise antes de rodar o modelo final,

para detectar os problemas e tratá-los, se possível ou ter ideia das possíveis limitações da sua análise: usar outros estimadores que não o OLS, por exemplo.

• Esses gráficos precisam estar na versão final do artigo? Definitivamente Não!



NORMAL• Utilize os seguintes comandos com os dados do “sysuse nlsw88, clear”.

Analise a variável wage e tenure.• Analise brevemente e salve os gráficos em um arquivo do Word, no final

faremos um exercício completo:• histogram wage, normal• graph box wage• qnorm wage• ladder wage• gladder wage• sktest wage • ** testa a normalidade univariada• ** Use transformações para testar, a exemplo de:• g logwage=log(wage) ou lnwage=ln(wage)



NORMALESCORE PADRÃO (Z) E A CURVA NORMAL• O Z-escore nos diz quantos desvios-padrão um valor X está acima ou

abaixo da média.

• Tem algumas utilidades quando trabalhamos com a Normal e também é utilizado para identificar outliers univariados (geralmente 3 DP da média – mas fiquem de olho no tamanho da amostra, as pequenas são mais sensíveis). Também é usada para tratar o efeito do uso de diferentes escalas na análise multivariada.

• Para identificar outliers com o Z-escore, presume-se a normalidade dos dados. Quando os dados não são normalmente distribuídos, o box-plot é uma ferramenta melhor para detectá-los.



NORMAL


http://resources.esri.com/


NORMALESCORE PADRÃO (Z) E A CURVA NORMAL• Supondo que os dados são normalmente distribuídos e que têm

média 9,5 e desvio-padrão de 17, qual é o Z-Escore de uma observação X = 53?

• Calcule o Z-Escore da variável FCO, na planilha “Pasta 1”, de modo a encontrar possíveis outliers.

• Quais são os outliers, usando 2 DP da média, por ser uma amostra pequena?



NORMAL• Como padronizar variáveis no Stata, com o Z-escore (exemplo

com Wage):• sum wage• ** A média foi 7.766949 e o desvio-padrão foi 5.755523.

Aplicamos isso na fórmula do Z-escore para padronizar a variável, fazendo com que ela fique com média zero e variância constante

• ** Crio a nova variável• g Zwage=(wage-7.766949)/5.755523• ** Verificando:• sum Zwage

• Para calcular o Z-Escore, existe também a função “padronizar” no Excel.www.ccsa.ufpb.br/ppgcc


AMOSTRAS E POPULAÇÕES• A contabilidade é uma ciência social aplicada, isso implica dizer

que temos tempo e recursos escassos (por exemplo não dá para entrevistar todos os auditores do mundo). Para tirar nossas conclusões, partimos de um grupo pequeno de indivíduos (amostra) e fazemos inferências sobre o grupo de todos os indivíduos (população).

• Amostragem aleatória x não aleatória (intencional)

• O resultado obtido na amostragem dificilmente seráigual ao da população, devido ao “erro amostral”.www.ccsa.ufpb.br/ppgcc

Todos têm a mesma chance de estar na amostra

Não estamos falando de “erro intencional”: cada amostra terá características “próprias”, mas não intencionais. Ex.: QIC apenas em empresas do Novo Mercado


AMOSTRAS E POPULAÇÕESINTERVALO DE CONFIANÇA• Nós convencionamos usar 95% como nível de confiança (Z = 1,96 para cada

lado, – 47,5% e + 47,5% = 95% - VER NA TABELA NORMAL = 5%/2 = 2,5%).

• Mesmo usando os 95% de nível de confiança, podemos ter a “sorte” de selecionar uma amostra que gere uma média dentro dos 5% restantes. Exemplo com várias amostras da idade da turma.

• Calcule a média do FCO e utilize o nível de 95% para estimar um intervalo de confiança: Média amostral + ou – 1,96*[DP/(N^0,5)]. Considere que o desvio-padrão da amostra é igual ao da população.

• Considerando que a um nível de significância de 90% o Z é 1,645 (90%/2 = 0,45 buscando 0,45 na Tabela Normal, temos 1,645 aproximadamente), estime o IC do FCO.

• Agora considere um nível de 99% (Z = 2,575) para o mesmo FCO.



AMOSTRAS E POPULAÇÕESDISTRIBUIÇÃO t• Anteriormente consideramos que sabíamos o desvio-padrão da

população. Isso faz pouco sentido!• Para poder usar o DP amostral, basta utilizar o ajuste nos graus

de liberdade que vimos na aula passada: Média amostral + ou – t*{DP/[(N – 1)^0,5]}.

• Em amostras grandes isso faz pouca diferença. À medida que aumentamos os GL a t tende à normal.

• A tabela t de Student é um pouco diferente da normal, ela usa os GL (N-1) e o alfa. Lembrem de dividir por 2, porque estamos falando de duas caudas.

• Refaça os exercícios do slide anterior, considerando a tabela t.


Felipe Pontes 37

APLICAÇÃO 1• Vamos usar outras metodologias de detecção de outliers.• Use a base “dados para aula de normalidade” para detector

outliers na variável “rpegaverage”, comparando com a variável “cob_eps”:

• sum rpegaverage cob_eps• extremes rpegaverage cob_eps• scatter rpegaverage cob_eps

www.contabilidademq.blogspot.com


APLICAÇÃO 2• Utilize a base de dados da aula de hoje (Plan1) para efetuar uma

análise descritiva (estatísticas descritivas, testes de normalidade, detecção de outliers etc).

• Escreva um relatório, como se fosse um artigo. Por isso vocês analisaram as estatísticas descritivas de um artigo na semana passada!



Questões para a próxima aula1. Por que experimentos controlados são importantes?2. Cite 2 exemplos de experimentos controlados. 1 deles deve ser

um artigo publicado em uma revista A1, A2 ou B1.3. Cite algumas maneiras de se “induzir” a normalidade dos

dados (não se limite aos slides). A ideia é buscar maneiras de se “corrigir” esse problema.

4. Diferencie amostragem aleatória da não aleatória. Quais são as vantagens e desvantagens de cada uma delas?

5. O que é amostragem por cotas, por julgamento, aleatória simples, sistemática e estratificada?

6. Como se pode estimar o tamanho de uma amostra confiável?


distribuição de probabilidades e detecção de outliers

Data & Analytics