distribuição de probabilidades e detecção de outliers

39
Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PB Telefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: [email protected] DISTRIBUIÇÕES DE PROBABILIDADES E OUTLIERS Felipe Pontes www.contabilidademq.blogspot.com 1. Revisão do Exercício da aula passada 2. Ditribuições de probabilidades (revisão de conceitos básicos) 3. Aplicação do assunto da aula 1 e 2 com uma base de dados real

Upload: felipe-pontes

Post on 11-Apr-2017

787 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: Distribuição de probabilidades e detecção de outliers

Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis

Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PBTelefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: [email protected]

DISTRIBUIÇÕES DE PROBABILIDADES E OUTLIERS

Felipe Ponteswww.contabilidademq.blogspot.com

1. Revisão do Exercício da aula passada 2. Ditribuições de probabilidades (revisão de conceitos básicos) 3. Aplicação do assunto da aula 1 e 2 com uma base de dados real

Page 2: Distribuição de probabilidades e detecção de outliers

[email protected] 2

INTRODUÇÃO• Na aula passada vimos como descrever um conjunto de variáveis

(estatísticas descritivas). Isso nos permite identificar certos padrões e tendências. Vamos discutir rapidamente sobre as suas respostas, depois entraremos nos conceitos básicos e por fim nas aplicações práticas! ATENÇÃO: hoje faremos alguns exercícios. Façam de forma organizada em uma planilha do Excel, ou no Word, e me enviem pela “tarefa” do SIGAA.

• Importância do assunto de hoje: o fundamento da tomada de decisões (teste de hipóteses) é a probabilidade (LEVIN; FOX; FORD, 2012), pois envolve a incerteza.

• Probabilidade teórica (50% de chance de nascer homem) x Probabilidade empírica (51% de chance de nascer homem com dados de longo prazo)

www.ccsa.ufpb.br/ppgcc

Page 3: Distribuição de probabilidades e detecção de outliers

[email protected] 3

DEFINIÇÃO:• As variáveis econômicas são, por sua natureza, aleatórias. Não sabemos quais serão

seus valores, até observá-los (“experimentando”). • Como são aleatórias, a ocorrência de seus valores é incerta. A probabilidade é uma

forma de expressar esta incerteza.

EXPERIMENTO CONTROLADO E NÃO CONTROLADO• Controlado variável não aleatória • Não controlado variável aleatória

VARIÁVEIS ALEATÓRIAS

www.ccsa.ufpb.br/ppgcc

“O Lado B do Insider Trading”: a) empresa sem operações dos insiders e b) empresa com operações dos insiders (QI e QII)

Tudo é constante, exceto uma “variável”

Page 4: Distribuição de probabilidades e detecção de outliers

[email protected] 4

VARIÁVEIS ALEATÓRIAS• Sobre a importância dos experimentos, leiam o capítulo 2 do

livro Superprevisores.

• Apesar de não haver perfeição em nossas pesquisas, os experimentos são melhores do que apenas “sabichões coçando o queixo” e pessoas com “complexo de deus”.

• Para conhecer um pouco mais sobre o livro, leia a minha review lá no blog: http://contabilidademq.blogspot.com.br/2017/03/review-superprevisores-arte-e-ciencia-de-antecipar-o-futuro.html

www.ccsa.ufpb.br/ppgcc

Page 5: Distribuição de probabilidades e detecção de outliers

[email protected] 5

VARIÁVEIS ALEATÓRIAS• Para trabalhar com variáveis aleatórias e testar hipóteses,

precisamos de uma distribuição de probabilidades (contínuas ou discretas).

www.ccsa.ufpb.br/ppgcc

http://isomorphism.es/post/18913494015/probability-distributions

Page 6: Distribuição de probabilidades e detecção de outliers

[email protected] 6

VARIÁVEIS ALEATÓRIAS• No mundo real• http://isomorphism.es/

www.ccsa.ufpb.br/ppgcc

Page 7: Distribuição de probabilidades e detecção de outliers

[email protected] 7

DISTRIBUIÇÃO DE PROBABILIDADES

www.ccsa.ufpb.br/ppgcc

Page 8: Distribuição de probabilidades e detecção de outliers

[email protected] 8

DISTRIBUIÇÃO DE PROBABILIDADES

• A é o resultado de um evento qualquer, a partir de um experimento não controlado. A probabilidade de A, representada por P(A), é a frequência relativa com que o resultado A ocorre em muitas provas repetidas do experimento. Para qualquer evento, 0≤P(A)≤1 e Σp(A)= 1.

• Função de probabilidade – quando se relacionam os valores de uma variável aleatória discreta com sua probabilidade de ocorrência, o resultado é uma função de probabilidade. No caso de uma variável continua temos a função densidade de probabilidade (f.d.p ou p.d.f).

www.ccsa.ufpb.br/ppgcc

Page 9: Distribuição de probabilidades e detecção de outliers

[email protected] 9

NORMAL• É um modelo teórico (ou ideal) muito usado em econometria

básica (foco desta disciplina). Por meio dela o pesquisador pode generalizar seus resultados de amostras para populações.

CARACTERÍSTICAS BÁSICAS:1. Formato de sino2. Simétrica3. Unimodal (só tem um pico de máxima probabilidade)4. Média = Moda = Mediana

www.ccsa.ufpb.br/ppgcc

https://www.mathsisfun.com/data/standard-normal-distribution.html

IMPLICAÇÃO: por exemplo, teríamos poucas empresas com retornos extremos (positivos ou negativos) – as empresas não devem gerar lucros “anormais” para sempre.

Page 10: Distribuição de probabilidades e detecção de outliers

[email protected] 10

NORMAL • Na prática, o que encontramos são coisas assim:

www.ccsa.ufpb.br/ppgcc

0

2

4

6

8

10

12

14

16

18

20

-0.1 0 0.1 0.2 0.3

Dens

ity

acc_disc_abs

acc_disc_absN(0.036252,0.051882)

Test statistic for normality:Chi-square(2) = 356.744 [0.0000]

0

5

10

15

20

25

30

0.00 0.05 0.10 0.15 0.20 0.25 0.30

Series: ACC_DISC_ABSSample 1 89Observations 89

Mean 0.036252Median 0.020848Maximum 0.334798Minimum 6.94e-18Std. Dev. 0.051882Skewness 3.665601Kurtosis 18.70847

Jarque-Bera 1114.363Probability 0.000000

05

1015

20D

ensi

ty

0 .1 .2 .3 .4acc_disc_abs

A assimetria é muito maior do que 0,5. Regra geral: -0,5 < Skew < 0,5.

A Normal tem curtose = 3.A partir dessa análise, o que pode ter gerado nosso “problema”?

No Eviews, GRETL e Stata.

Page 11: Distribuição de probabilidades e detecção de outliers

[email protected] 11

NORMAL

www.ccsa.ufpb.br/ppgcc

02

46

Den

sity

0 .2 .4 .6 .8 1rpegaverage

010

2030

40Fr

eque

ncy

0 5 10 15 20cob_eps

0.1

.2.3

.4D

ensi

ty

18 20 22 24 26lnvm

O que é mais próximo da normalidade?

01.

0e-1

12.

0e-1

13.

0e-1

14.

0e-1

1D

ensi

ty

0 1.000e+11 2.000e+11 3.000e+11 4.000e+11valor_de_mercado

Page 12: Distribuição de probabilidades e detecção de outliers

[email protected] 12

NORMAL

www.ccsa.ufpb.br/ppgcc

0.1

.2.3

.4ac

c_di

sc_a

bs

Os pontos fora da “caixa” são outliers (maiores que 0,1 nesse caso)

A linha dentro da caixa é a mediana, como não está no meio... Evidencia assimetria.

O limite superior da caixa indica o percentil 75% e o limite inferior representa 25%.

O “bigode” de cima é o limite superior = P75% - 1,5*(P75% - P25%)

O “bigode” de baixo é o limite inferior = P25% - 1,5*(P75% - P25%)

Page 13: Distribuição de probabilidades e detecção de outliers

[email protected] 13

0.2

.4.6

.81

rpeg

aver

age

NORMAL

www.ccsa.ufpb.br/ppgcc

Os pontos fora da “caixa” são outliers (maiores que 0,4 nesse caso)

A linha dentro da caixa é a mediana, como não está no meio... Evidencia assimetria.

O limite superior da caixa indica o percentil 75% e o limite inferior representa 25%.

O “bigode” de cima é o limite superior = P75% - 1,5*(P75% - P25%)

O “bigode” de baixo é o limite inferior = P25% - 1,5*(P75% - P25%)

Page 14: Distribuição de probabilidades e detecção de outliers

[email protected] 14

NORMAL18

2022

2426

lnvm

www.ccsa.ufpb.br/ppgcc

O que dizer sobre isso?

05

1015

20co

b_ep

s

Page 15: Distribuição de probabilidades e detecção de outliers

[email protected] 15

1820

2224

26ln

vm

Consumer Discretionary Consumer Staples Energy Health Care Industrials Information Technology Materials Telecommunication Services Utilities

NORMALComando: graph box lnvm, over(gics_sector)

www.ccsa.ufpb.br/ppgcc

Quais são os setores mais homogêneos e heterogêneos?

Quais são os setores com mais outliers?

Por causa dessa heterogeneidade, temos que controlar esses fatores (qreg, painel etc).

Page 16: Distribuição de probabilidades e detecção de outliers

[email protected] 16

NORMAL• Se a distribuição for normal, os pontos ficarão em cima da reta

www.ccsa.ufpb.br/ppgcc

-.10

.1.2

.3ac

c_di

sc_a

bs

-.1 -.05 0 .05 .1 .15Inverse Normal

Page 17: Distribuição de probabilidades e detecção de outliers

[email protected] 17

NORMAL18

2022

2426

lnvm

18 20 22 24 26Inverse Normal

www.ccsa.ufpb.br/ppgcc-5

05

1015

20co

b_ep

s

-5 0 5 10 15 20Inverse Normal

Quem é discreto e quem é contínuo?

Page 18: Distribuição de probabilidades e detecção de outliers

[email protected] 18

NORMAL• Algumas vezes, transformações resolvem nosso problema: log 10,

ln, sqrt (assimetria à direita), quadrática, cúbica (assimetria à esquerda) etc.

• Plotem o histograma da variável vm (valor de mercado) (histogram vm). Qual é o tipo de assimetria? Depois compare com o histograma da variável lnvm.

• O comando para transformar a variável é “generate NOME_DA_NOVA_VARIÁVEL=TIPO_DE_TRANSF(inserir a variável a ser transformada)”

• generate lnvm=ln(vm)

www.ccsa.ufpb.br/ppgcc

Page 19: Distribuição de probabilidades e detecção de outliers

[email protected] 19

NORMAL

www.ccsa.ufpb.br/ppgcc

1/cubic 1/(vm^3) . 0.0001/square 1/(vm^2) . 0.000inverse 1/vm . 0.0001/(square root) 1/sqrt(vm) . 0.000log log(vm) 3.25 0.197square root sqrt(vm) . 0.000identity vm . 0.000square vm^2 . 0.000cubic vm^3 . 0.000 Transformation formula chi2(2) P(chi2)

. ladder vm O comando ladder do Stata nos diz qual é a melhor transformação (você não precisa ficar calculando uma por uma). Faça com a variável vm.

Page 20: Distribuição de probabilidades e detecção de outliers

[email protected] 20

NORMAL

www.ccsa.ufpb.br/ppgcc

1/cubic 1/(lnvm^3) 47.04 0.0001/square 1/(lnvm^2) 31.10 0.000inverse 1/lnvm 18.07 0.0001/(square root) 1/sqrt(lnvm) 12.80 0.002log log(lnvm) 8.51 0.014square root sqrt(lnvm) 5.26 0.072identity lnvm 3.25 0.197square lnvm^2 5.77 0.056cubic lnvm^3 15.44 0.000 Transformation formula chi2(2) P(chi2)

. ladder lnvm

Page 21: Distribuição de probabilidades e detecção de outliers

[email protected] 21

NORMAL

02.0

e-34

4.0e

-34

6.0e

-34

8.0e

-34

0 2.00e+344.00e+346.00e+348.00e+34

cubic

01.0

e-22

2.0e

-22

3.0e

-22

4.0e

-22

0 5.00e+221.00e+231.50e+232.00e+23

square

02.0

e-11

4.0e

-11

6.0e

-11

8.0e

-11

0 1.00e+112.00e+113.00e+114.00e+11

identity

05.

0e-0

61.

0e-0

51.

5e-0

5

0 200000 400000 600000

sqrt

0.1

.2.3

.4.5

18 20 22 24 26

log

02.0

e+04

4.0e

+04

6.0e

+04

8.0e

+04

-.00015 -.0001 -.00005 0

1/sqrt

05.0e

+08

1.0e

+09

1.5e

+09

2.0e

+09

2.5e

+09

-2.00e-08-1.50e-08-1.00e-08-5.00e-09 0

inverse

05.0

e+16

1.0e

+17

1.5e

+17

2.0e

+17

-3.00e-16 -2.00e-16 -1.00e-16 0

1/square

05.

0e+2

41.0e

+25

-6.00e-24 -4.00e-24 -2.00e-24 0

1/cubic

Den

sity

valor_de_mercadoHistograms by transformation

www.ccsa.ufpb.br/ppgcc

Page 22: Distribuição de probabilidades e detecção de outliers

[email protected] 22

NORMAL• O gladder projeta os tipos de transformações

www.ccsa.ufpb.br/ppgcc

01.0

e-04

2.0e

-04

3.0e

-04

4.0e

-04

5000 10000 15000 20000

cubic

0.00

2.004.0

06.008.0

1

300 400 500 600 700

square

0.1

.2.3

.4.5

18 20 22 24 26

identity0

12

34

5

4.2 4.4 4.6 4.8 5 5.2

sqrt

05

10

2.9 3 3.1 3.2 3.3

log

020

4060

8010

0

-.24 -.23 -.22 -.21 -.2 -.19

1/sqrt

050

10015

020025

0

-.055 -.05 -.045 -.04 -.035

inverse0

10002

00030

00

-.003 -.0025 -.002 -.0015

1/square

01.0e

+04

2.0e

+04

3.0e

+04

4.0e

+04

-.0002 -.00015 -.0001 -.00005

1/cubic

Den

sity

lnvmHistograms by transformation

Page 23: Distribuição de probabilidades e detecção de outliers

[email protected] 23

NORMAL

www.ccsa.ufpb.br/ppgcc

1/cubic 1/(cob_eps^3) . .1/square 1/(cob_eps^2) . .inverse 1/cob_eps . .1/(square root) 1/sqrt(cob_eps) . .log log(cob_eps) . .square root sqrt(cob_eps) 43.48 0.000identity cob_eps 63.13 0.000square cob_eps^2 34.52 0.000cubic cob_eps^3 42.33 0.000 Transformation formula chi2(2) P(chi2)

. ladder cob_eps Por que será que nenhuma transformação deu jeito? Pense e confirme o raciocínio no próximo slide

Page 24: Distribuição de probabilidades e detecção de outliers

[email protected] 24

NORMAL• Dá para perceber a diferença com relação aos gráficos

anteriores?

www.ccsa.ufpb.br/ppgcc

05.0

e-04.0

01.00

15.00

2.002

5

0 2000 4000 6000

cubic

0.0

05.0

1.01

5.02

.025

0 100 200 300

square

0.1

.2.3

0 5 10 15 20

identity

0.5

11.

50 1 2 3 4

sqrtDen

sity

cob_epsHistograms by transformation

Page 25: Distribuição de probabilidades e detecção de outliers

[email protected] 25

50001

000015

00020

000

5000 10000 15000 20000

cubic

3004

005006

00700

300 400 500 600 700

square

1820

2224

26

18 20 22 24 26

identity

4.24

.44.64

.85

5.2

4.2 4.4 4.6 4.8 5 5.2

sqrt

2.9

33.

13.2

3.3

2.9 3 3.1 3.2 3.3

log

-.24-.2

3-.22-.2

1-.2-.1

9

-.23 -.22 -.21 -.2 -.19

1/sqrt

-.055-.

05-.0

45-.04-

.035

-.055 -.05 -.045 -.04 -.035

inverse-.0

03-.002

5-.0

02-.001

5-.0

01

-.003 -.0025 -.002 -.0015 -.001

1/square

-.000

2-.0

0015-.0

001

-.000

05

-.00014-.00012-.0001-.00008-.00006-.00004

1/cubic

lnvmQuantile-Normal plots by transformation

NORMAL• Para verificar o gráfico da normal, pode-se utilizar o qladder

www.ccsa.ufpb.br/ppgcc

Page 26: Distribuição de probabilidades e detecção de outliers

[email protected] 26

-2.0

0e+3

402.00

e+34

4.00

e+34

6.00

e+34

-1.00e+34-5.00e+33 0 5.00e+331.00e+341.50e+34

cubic

-5.0

0e+2

205.00

e+22

1.00

e+23

1.50

e+23

-4.00e+22-2.00e+22 0 2.00e+224.00e+22

square

-1.0

0e+1

101.00

e+11

2.00

e+11

3.00

e+11

4.00

e+11

-1.00e+11-5.00e+10 0 5.00e+101.00e+111.50e+11

identity

-200

000020

00004000

0060

0000

-100000 0 100000200000300000

sqrt

1820

2224

26

18 20 22 24 26

log

-.000

15-.000

1-.0

00050

.000

05

-.00006 -.00004 -.00002 0 .00002

1/sqrt-2

.00e

-08

-1.5

0e-0

8-1

.00e

-08

-5.0

0e-0

905.00

e-09

-4.00e-09-2.00e-09 0 2.00e-094.00e-09

inverse

-3.0

0e-1

6-2

.00e

-16

-1.0

0e-1

601.00

e-16

-4.00e-17-2.00e-17 0 2.00e-174.00e-17

1/square

-6.0

0e-2

4-4

.00e

-24

-2.0

0e-2

402.00

e-24

-1.00e-24-5.00e-25 0 5.00e-251.00e-24

1/cubic

valor_de_mercadoQuantile-Normal plots by transformation

www.ccsa.ufpb.br/ppgcc

Page 27: Distribuição de probabilidades e detecção de outliers

[email protected] 27

-200

00

2000

4000

6000

-2000 0 2000 4000 6000

cubic

-100

010

020

030

0

-100 0 100 200 300

square

-50

510

1520

-5 0 5 10 15 20

identity

02

46

0 2 4 6

sqrt

cob_epsQuantile-Normal plots by transformation

www.ccsa.ufpb.br/ppgcc

Page 28: Distribuição de probabilidades e detecção de outliers

[email protected] 28

NORMAL• É importante fazer essa análise antes de rodar o modelo final,

para detectar os problemas e tratá-los, se possível ou ter ideia das possíveis limitações da sua análise: usar outros estimadores que não o OLS, por exemplo.

• Esses gráficos precisam estar na versão final do artigo? Definitivamente Não!

www.ccsa.ufpb.br/ppgcc

Page 29: Distribuição de probabilidades e detecção de outliers

[email protected] 29

NORMAL• Utilize os seguintes comandos com os dados do “sysuse nlsw88, clear”.

Analise a variável wage e tenure.• Analise brevemente e salve os gráficos em um arquivo do Word, no final

faremos um exercício completo:• histogram wage, normal• graph box wage• qnorm wage• ladder wage• gladder wage• sktest wage • ** testa a normalidade univariada• ** Use transformações para testar, a exemplo de:• g logwage=log(wage) ou lnwage=ln(wage)

www.ccsa.ufpb.br/ppgcc

Page 30: Distribuição de probabilidades e detecção de outliers

[email protected] 30

NORMALESCORE PADRÃO (Z) E A CURVA NORMAL• O Z-escore nos diz quantos desvios-padrão um valor X está acima ou

abaixo da média.

• Tem algumas utilidades quando trabalhamos com a Normal e também é utilizado para identificar outliers univariados (geralmente 3 DP da média – mas fiquem de olho no tamanho da amostra, as pequenas são mais sensíveis). Também é usada para tratar o efeito do uso de diferentes escalas na análise multivariada.

• Para identificar outliers com o Z-escore, presume-se a normalidade dos dados. Quando os dados não são normalmente distribuídos, o box-plot é uma ferramenta melhor para detectá-los.

www.ccsa.ufpb.br/ppgcc

Page 31: Distribuição de probabilidades e detecção de outliers

[email protected] 31

NORMAL

www.ccsa.ufpb.br/ppgcc

http://resources.esri.com/

Page 32: Distribuição de probabilidades e detecção de outliers

[email protected] 32

NORMALESCORE PADRÃO (Z) E A CURVA NORMAL• Supondo que os dados são normalmente distribuídos e que têm

média 9,5 e desvio-padrão de 17, qual é o Z-Escore de uma observação X = 53?

• Calcule o Z-Escore da variável FCO, na planilha “Pasta 1”, de modo a encontrar possíveis outliers.

• Quais são os outliers, usando 2 DP da média, por ser uma amostra pequena?

www.ccsa.ufpb.br/ppgcc

Page 33: Distribuição de probabilidades e detecção de outliers

[email protected] 33

NORMAL• Como padronizar variáveis no Stata, com o Z-escore (exemplo

com Wage):• sum wage• ** A média foi 7.766949 e o desvio-padrão foi 5.755523.

Aplicamos isso na fórmula do Z-escore para padronizar a variável, fazendo com que ela fique com média zero e variância constante

• ** Crio a nova variável• g Zwage=(wage-7.766949)/5.755523• ** Verificando:• sum Zwage

• Para calcular o Z-Escore, existe também a função “padronizar” no Excel.www.ccsa.ufpb.br/ppgcc

Page 34: Distribuição de probabilidades e detecção de outliers

[email protected] 34

AMOSTRAS E POPULAÇÕES• A contabilidade é uma ciência social aplicada, isso implica dizer

que temos tempo e recursos escassos (por exemplo não dá para entrevistar todos os auditores do mundo). Para tirar nossas conclusões, partimos de um grupo pequeno de indivíduos (amostra) e fazemos inferências sobre o grupo de todos os indivíduos (população).

• Amostragem aleatória x não aleatória (intencional)

• O resultado obtido na amostragem dificilmente seráigual ao da população, devido ao “erro amostral”.www.ccsa.ufpb.br/ppgcc

Todos têm a mesma chance de estar na amostra

Não estamos falando de “erro intencional”: cada amostra terá características “próprias”, mas não intencionais. Ex.: QIC apenas em empresas do Novo Mercado

Page 35: Distribuição de probabilidades e detecção de outliers

[email protected] 35

AMOSTRAS E POPULAÇÕESINTERVALO DE CONFIANÇA• Nós convencionamos usar 95% como nível de confiança (Z = 1,96 para cada

lado, – 47,5% e + 47,5% = 95% - VER NA TABELA NORMAL = 5%/2 = 2,5%).

• Mesmo usando os 95% de nível de confiança, podemos ter a “sorte” de selecionar uma amostra que gere uma média dentro dos 5% restantes. Exemplo com várias amostras da idade da turma.

• Calcule a média do FCO e utilize o nível de 95% para estimar um intervalo de confiança: Média amostral + ou – 1,96*[DP/(N^0,5)]. Considere que o desvio-padrão da amostra é igual ao da população.

• Considerando que a um nível de significância de 90% o Z é 1,645 (90%/2 = 0,45 buscando 0,45 na Tabela Normal, temos 1,645 aproximadamente), estime o IC do FCO.

• Agora considere um nível de 99% (Z = 2,575) para o mesmo FCO.

www.ccsa.ufpb.br/ppgcc

Page 36: Distribuição de probabilidades e detecção de outliers

[email protected] 36

AMOSTRAS E POPULAÇÕESDISTRIBUIÇÃO t• Anteriormente consideramos que sabíamos o desvio-padrão da

população. Isso faz pouco sentido!• Para poder usar o DP amostral, basta utilizar o ajuste nos graus

de liberdade que vimos na aula passada: Média amostral + ou – t*{DP/[(N – 1)^0,5]}.

• Em amostras grandes isso faz pouca diferença. À medida que aumentamos os GL a t tende à normal.

• A tabela t de Student é um pouco diferente da normal, ela usa os GL (N-1) e o alfa. Lembrem de dividir por 2, porque estamos falando de duas caudas.

• Refaça os exercícios do slide anterior, considerando a tabela t.

www.ccsa.ufpb.br/ppgcc

Page 37: Distribuição de probabilidades e detecção de outliers

Felipe Pontes 37

APLICAÇÃO 1• Vamos usar outras metodologias de detecção de outliers.• Use a base “dados para aula de normalidade” para detector

outliers na variável “rpegaverage”, comparando com a variável “cob_eps”:

• sum rpegaverage cob_eps• extremes rpegaverage cob_eps• scatter rpegaverage cob_eps

www.contabilidademq.blogspot.com

Page 38: Distribuição de probabilidades e detecção de outliers

[email protected] 38

APLICAÇÃO 2• Utilize a base de dados da aula de hoje (Plan1) para efetuar uma

análise descritiva (estatísticas descritivas, testes de normalidade, detecção de outliers etc).

• Escreva um relatório, como se fosse um artigo. Por isso vocês analisaram as estatísticas descritivas de um artigo na semana passada!

www.ccsa.ufpb.br/ppgcc

Page 39: Distribuição de probabilidades e detecção de outliers

[email protected] 39

Questões para a próxima aula1. Por que experimentos controlados são importantes?2. Cite 2 exemplos de experimentos controlados. 1 deles deve ser

um artigo publicado em uma revista A1, A2 ou B1.3. Cite algumas maneiras de se “induzir” a normalidade dos

dados (não se limite aos slides). A ideia é buscar maneiras de se “corrigir” esse problema.

4. Diferencie amostragem aleatória da não aleatória. Quais são as vantagens e desvantagens de cada uma delas?

5. O que é amostragem por cotas, por julgamento, aleatória simples, sistemática e estratificada?

6. Como se pode estimar o tamanho de uma amostra confiável?

www.ccsa.ufpb.br/ppgcc