probabilidade e estatística · 2019. 10. 2. · “meu tio fuma duas carteiras por dia e está em...

71
Probabilidade e Estatística Prof. Dr. Jhames Sampaio

Upload: others

Post on 18-Sep-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Probabilidade e Estatística Prof. Dr. Jhames Sampaio

pesquisassobrefumo

“Meutiofumaduascarteiraspordiaeestáemperfeitascondições

desaúde"

pesquisassobrefumo

“Meutiofumaduascarteiraspordiaeestáemperfeitascondições

desaúde"

pesquisassobrefumo

evidênciaanedótica

“Meutiofumaduascarteiraspordiaeestáemperfeitascondições

desaúde"

pesquisassobrefumo

evidênciaanedótica

“fumaréumcomportamentohumanocomplexo,pornatureza

di=ícildeestudar,confundidopelanatureza

humana"

populaçõese

amostras

pesquisa

Osconsumidoresdeumacerta

marcadebebidastemmaior

probabilidadedepararna

emergênciacomcontusões?

populaçõese

amostras

pesquisa

Osconsumidoresdeumacerta

marcadebebidastemmaior

probabilidadedepararna

emergênciacomcontusões?

populaçõese

amostraspopulação

Todomundo

amostrapesquisa

Osconsumidoresdeumacerta

marcadebebidastemmaior

probabilidadedepararna

emergênciacomcontusões?

populaçõese

amostraspopulação

Todomundo

EstudantesdaUnB

matriculadosemPE

amostrapesquisa

Osconsumidoresdeumacerta

marcadebebidastemmaior

probabilidadedepararna

emergênciacomcontusões?

populaçõese

amostraspopulação

Todomundo

generalizarpara

EstudantesdaUnB

EstudantesdaUnB

matriculadosemPE

amostrapesquisa

Osconsumidoresdeumacerta

marcadebebidastemmaior

probabilidadedepararna

emergênciacomcontusões?

populaçõese

amostraspopulação

Todomundo

População

Conjunto de todos os elementos de interesse

População

Indivíduo

População Amostra

Subconjunto finito da população

Análise de dados

População Amostra

Coleta, organização e descrição dos dados

Cálculo de Probabilidades

Análise de dados

População Amostra

Estudo das incertezas

Cálculo de Probabilidades

Análise de dados

População Amostra

Erro

Inferência Estatística

Cálculo de Probabilidades

Análise de dados

População Amostra

Erro

Análise e interpretação dos dados

VariávelCaracterísticas dos elementos observados e/ou medidos em uma população ou amostra sob as

mesmas condições

Atributos

Qualitativa

Variável

Atributos

Qualitativa QuantitativaNumerário

Variável

Qualitativa QuantitativaNumerário

Ordinal NominalOrdem Nomes

Variável

Qualitativa QuantitativaNumerário

Ordinal NominalOrdem NomesExcelente

BomPéssimo

Variável

Qualitativa QuantitativaNumerário

Ordinal NominalOrdem NomesExcelente

BomPéssimo

SexoCor

Naturalidade

Variável

Qualitativa Quantitativa

Ordinal NominalOrdem NomesExcelente

BomPéssimo

SexoCor

Naturalidade

Discreta ContínuaContável Não contável

Variável

Qualitativa Quantitativa

Ordinal NominalOrdem NomesExcelente

BomPéssimo

SexoCor

Naturalidade

Discreta ContínuaContável Não contável

Chutes a golCliques numa páginaJogos da mega-sena

Variável

Qualitativa Quantitativa

Ordinal NominalOrdem NomesExcelente

BomPéssimo

SexoCor

Naturalidade

Discreta ContínuaContável Não contável

Chutes a golCliques numa páginaJogos da mega-sena

AlturaPeso

Preço de uma ação

Variável

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

pais: Nome dos países

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

re_cto: Número de solicitações de remoção de conteúdo feitas ao Google

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

re_cto: Número de solicitações de remoção de conteúdo feitas ao Google

quantitativadiscreta

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google

quantitativacontínua

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

du_cr: Número de solicitações de dados de usuários investigados criminalmente

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

du_cr: Número de solicitações de dados de usuários investigados criminalmente

quantitativadiscreta

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google

quantitativacontínua

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

hemisferio: Hemisfério no qual o país está localizado(norte, sul)

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

hemisferio: Hemisfério no qual o país está localizado(norte, sul)

qualitativanominal

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

idh: Índice de Desenvolvimento Humano(muito alto, alto, medio, baixo)

pais re_cto re_cump du_cr du_cump … hemisferio idh

ARG 21 100 134 32 … sul muitoalto

AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …

EUA 92 63 5950 93 … norte muitoalto

Dados de solicitação de remoção de conteúdo do Google

idh: Índice de Desenvolvimento Humano(muito alto, alto, medio, baixo)

qualitativaordinal

Variáveis qualitativas Conjunto de dados

Cor declarada antes do julgamentoBranco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros

Branco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros

Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros

Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Pardo Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros

Variáveis qualitativasA ideia é contar o número de ocorrências em cada categoria da variável

Por exemplo, vamos considerar o conjunto de dados relativo à composição de um juri em um julgamento realizado no Brasil ★ Os elementos do juri declaram sua cor antes do julgamento

✓ 74 brancos ✓ 26 negros ✓ 25 pardos ✓ 19 outros

Variáveis qualitativas Distribuição de Frequências

É interessante facilitarmos a visualização das informações

Isso pode ser feito construindo uma tabela de contingência ou, popularmente falando, distribuição de frequências:

cor frequênciafrequência relativa

branco 74 0,5139

negro 26 0,1806

pardo 25 0,1319

outros 19 0,1736

Total 144 1,0000

Variáveis qualitativas Gráficos

0

20

40

60

branco negro outros pardoCor

Obs

erva

ções

Gráfico em Barras da Cor

branco 51%

negro 18%

outro 13%

pardo 17%

Gráfico em Pizza da Cor

cor frequênciafrequência relativa

branco 74 0,5139

negro 26 0,1806

pardo 25 0,1319

outros 19 0,1736

Total 144 1,0000

Variáveis quantitativas discretas Conjunto de dados

Numero de filhos dos funcionários- 1 2 - - 0

- - 1 - 2 -

- 3 0 - 1 2

- - 1 - - 0

2 2 - 0 5 2

- 1 3 - 2 3

Considere uma amostra de 20 funcionários de uma empresa que responderam a uma questão sobre o número de filhos que possuem:

✓ 4 funcionários não possuem filhos ✓ 5 funcionários possuem 1 filho ✓ 7 funcionários possuem 2 filhos ✓ 3 funcionários possuem 3 filhos ✓ 1 funcionário possui 5 filhos

Aqui também faz sentido contarmos o número de ocorrências em cada categoria

Variáveis quantitativas discretas

Variáveis quantitativas discretas Distribuição de Frequências

• Podemos construir uma tabela de contingência para melhor observarmos os dados:

filhos frequência frequência relativa

0 4 0,20

1 5 0,25

2 7 0,35

3 3 0,15

5 1 0,05

Total 20 1,00

Variáveis quantitativas discretas Gráficos

0 2 4Filhos

Número de filhos dos funcionários

0

2

4

6

0 1 2 3 4 5Filhos

Obs

erva

ções

Número de filhos dos funcionários

filhos frequência frequência relativa

0 4 0,20

1 5 0,25

2 7 0,35

3 3 0,15

5 1 0,05

Total 20 1,00

Variáveis quantitativas discretas Gráficos

Se um determinado conjunto de dados possuir uma quant idade mui to grande de informaçõe s, pode ser impraticável construirmos uma tabela de contingência;Nesse sentido, os gráficos se tornam ainda mais importantes para uma rápida visualização;Vamos tomar agora uma base de dados obtida ao entrevistar alunos de uma universidade. Eles responderam sobre o primeiro beijo e o número de vezes que visitam o Facebook em um dia.

Variáveis quantitativas discretas Gráficos

0 5 10 15 20Primeiro beijo

Com quantos anos deu seu primeiro beijo?

0 50 100 150 200Visitas ao Facebook por dia

Quantas vezes você visita o Facebook por dia?

Variáveis quantitativas contínuas Conjunto de dados

Salários dos funcionários (x salário mínimo)4,00 4,56 5,25 5,73 6,26 6,66

6,86 7,39 7,59 7,44 8,12 8,46

8,74 8,95 9,13 9,35 9,77 9,80

10,53 10,76 11,06 11,59 12,00 12,79

13,23 13,60 13,85 14,69 14,71 15,99

16,22 16,61 17,26 18,75 19,40 23,30

Vamos tomar, novamente, os dados relativos aos 36 funcionários de uma empresa e olhar para os salários destes funcionários

Como a variável é contínua, não faz sentido pensarmos em cada valor registrado separadamente. Isso seria ainda pior se a base de dados fosse muito extensa

Variáveis quantitativas contínuas

Apesar de não sermos capazes de contar o número de elementos num conjunto contínuo, podemos separá-lo em intervalos que possamos contabilizar

Variáveis quantitativas contínuas Distribuição de Frequências

• Podemos construir uma tabela de contingência para melhor observarmos os dados:

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

Variáveis quantitativas contínuas Distribuição de Frequências

• Podemos construir uma tabela de contingência para melhor observarmos os dados:

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

Classes

Variáveis quantitativas contínuas Distribuição de Frequências

• Podemos construir uma tabela de contingência para melhor observarmos os dados:

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

Classes

a|—bSimboliza o intervalo

[a,b)

Variáveis quantitativas contínuas Distribuição de Frequências

• Podemos construir uma tabela de contingência para melhor observarmos os dados:

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

Classes

a|—bSimboliza o intervalo

[a,b)

Limite inferior da classe i

Limite superior da classe i

Para cada classe i temos [LI

i , LSi )

Variáveis quantitativas contínuas Distribuição de Frequências

• Podemos construir uma tabela de contingência para melhor observarmos os dados:

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

Classes

a|—bSimboliza o intervalo

[a,b)

Para cada classe i temos

Limite inferior da classe i

Limite superior da classe i

Amplitude da classe iAi = LSi � LI

i

[LIi , L

Si )

Variáveis quantitativas contínuas Gráfico

• O gráfico adequado a esse tipo de dados é o histograma

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

• Nós utilizamos cada classe como base de um re tângulo com altura dada pe la frequência

0.0

2.5

5.0

7.5

10.0

12.5

4 8 12 16 20 24Salários

Freq

uênc

ia

Salários dos funcionários

Variáveis quantitativas contínuas Gráfico

• O gráfico adequado a esse tipo de dados é o histograma

salários frequência frequência relativa

04|—08 10 0,2778

08|—12 12 0,3333

12|—16 8 0,2222

16|—20 5 0,1389

20|—24 1 0,0278

Total 36 1,0000

• Nós utilizamos cada classe como base de um retângulo cuja área é dada pela frequência relativa

0.00

0.02

0.04

0.06

0.08

4 8 12 16 20 24Salários

Altu

ra

Salário dos funcionários altura

0,0694

0,0833

0,0556

0,0347

0,0069

Altura = Frequência relativa / Amplitude da classe

Variáveis quantitativas contínuas Gráfico

• Uma alternativa interessante para visualizarmos melhor a distribuição dos dados é alterar a amplitude dos intervalos à partir da frequência ou frequência relativa

salários frequência frequência relativa

04|—06 4 0,1111

06|—08 6 0,1667

08|—10 8 0,2222

10|—12 4 0,1111

12|—14 5 0,1389

14|—16 3 0,0833

16|—18 3 0,0833

18|—20 2 0,0556

20|—22 0 0,0000

22|—24 1 0,0278

Total 36 1,0000

0

2

4

6

8

4 6 8 10 12 14 16 18 20 22 24Salários

Freq

uênc

ia

Salários dos funcionários

Variáveis quantitativas contínuas Gráfico

• Uma alternativa interessante para visualizarmos melhor a distribuição dos dados é alterar a amplitude dos intervalos à partir da frequência ou frequência relativa

salários frequência frequência relativa

04|—06 4 0,1111

06|—08 6 0,1667

08|—10 8 0,2222

10|—12 4 0,1111

12|—14 5 0,1389

14|—16 3 0,0833

16|—18 3 0,0833

18|—20 2 0,0556

20|—22 0 0,0000

22|—24 1 0,0278

Total 36 1,0000

0.00

0.03

0.06

0.09

4 8 12 16 20 24Salários

Altu

ra

Salário dos funcionários altura

0,0556

0,0833

0,1111

0,0556

0,0694

0,0417

0,0417

0,0278

0,0000

0,0139

Variáveis quantitativas contínuas Gráfico

• Quanto mais dados estiverem disponíveis em relação a uma variável, melhor poderemos aproximar a distribuição destes e poderemos vê-los segundo uma curva que fornece a distribuição de acordo com a área abaixo dela

0.00

0.02

0.04

0.06

0.08

4 6 8 10 12 14 16 18 20 22 24Salários

Altu

ra

Salário dos funcionários

0.00

0.03

0.06

0.09

4 6 8 10 12 14 16 18 20 22 24Salários

Altu

ra

Salário dos funcionários

Variáveis quantitativas Formas - Simetria

• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados

0

500

1000

1500

−6 −4 −2 0

0

250

500

750

1000

−2.5 0.0 2.5

0

500

1000

1500

0 1 2 3 4 5

Assimétrica à esquerda Assimétrica à direitaSimétrica

Variáveis quantitativas Formas - Simetria

• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados

0

500

1000

1500

−6 −4 −2 0

0

250

500

750

1000

−2.5 0.0 2.5

0

500

1000

1500

0 1 2 3 4 5

Assimétrica à esquerda Assimétrica à direitaSimétrica

Variáveis quantitativas Formas - Modalidade

0

100

200

300

400

0 10 20 30

0

250

500

750

1000

−2.5 0.0 2.5

Uniforme Unimodal

Variáveis quantitativas Formas - Modalidade

0

100

200

300

400

0 10 20 30

0

250

500

750

1000

−2.5 0.0 2.5

Uniforme Unimodal

Variáveis quantitativas Formas - Modalidade

0

250

500

750

−1 0 1 2

0

500

1000

1500

2000

−1 0 1 2

Bimodal Multimodal

Variáveis quantitativas Formas - Modalidade

0

250

500

750

−1 0 1 2

0

500

1000

1500

2000

−1 0 1 2

Bimodal Multimodal

Variáveis quantitativas Formas - Modalidade

0

250

500

750

−1 0 1 2

0

500

1000

1500

2000

−1 0 1 2

Bimodal Multimodal

Altura dos alunosAltura dos professores