probabilidade e estatística · 2019. 10. 2. · “meu tio fuma duas carteiras por dia e está em...
TRANSCRIPT
“Meutiofumaduascarteiraspordiaeestáemperfeitascondições
desaúde"
pesquisassobrefumo
evidênciaanedótica
“Meutiofumaduascarteiraspordiaeestáemperfeitascondições
desaúde"
pesquisassobrefumo
evidênciaanedótica
“fumaréumcomportamentohumanocomplexo,pornatureza
di=ícildeestudar,confundidopelanatureza
humana"
pesquisa
Osconsumidoresdeumacerta
marcadebebidastemmaior
probabilidadedepararna
emergênciacomcontusões?
populaçõese
amostras
pesquisa
Osconsumidoresdeumacerta
marcadebebidastemmaior
probabilidadedepararna
emergênciacomcontusões?
populaçõese
amostraspopulação
Todomundo
amostrapesquisa
Osconsumidoresdeumacerta
marcadebebidastemmaior
probabilidadedepararna
emergênciacomcontusões?
populaçõese
amostraspopulação
Todomundo
EstudantesdaUnB
matriculadosemPE
amostrapesquisa
Osconsumidoresdeumacerta
marcadebebidastemmaior
probabilidadedepararna
emergênciacomcontusões?
populaçõese
amostraspopulação
Todomundo
generalizarpara
EstudantesdaUnB
EstudantesdaUnB
matriculadosemPE
amostrapesquisa
Osconsumidoresdeumacerta
marcadebebidastemmaior
probabilidadedepararna
emergênciacomcontusões?
populaçõese
amostraspopulação
Todomundo
Inferência Estatística
Cálculo de Probabilidades
Análise de dados
População Amostra
Erro
Análise e interpretação dos dados
VariávelCaracterísticas dos elementos observados e/ou medidos em uma população ou amostra sob as
mesmas condições
Qualitativa QuantitativaNumerário
Ordinal NominalOrdem NomesExcelente
BomPéssimo
SexoCor
Naturalidade
Variável
Qualitativa Quantitativa
Ordinal NominalOrdem NomesExcelente
BomPéssimo
SexoCor
Naturalidade
Discreta ContínuaContável Não contável
Variável
Qualitativa Quantitativa
Ordinal NominalOrdem NomesExcelente
BomPéssimo
SexoCor
Naturalidade
Discreta ContínuaContável Não contável
Chutes a golCliques numa páginaJogos da mega-sena
Variável
Qualitativa Quantitativa
Ordinal NominalOrdem NomesExcelente
BomPéssimo
SexoCor
Naturalidade
Discreta ContínuaContável Não contável
Chutes a golCliques numa páginaJogos da mega-sena
AlturaPeso
Preço de uma ação
Variável
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
pais: Nome dos países
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
re_cto: Número de solicitações de remoção de conteúdo feitas ao Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
re_cto: Número de solicitações de remoção de conteúdo feitas ao Google
quantitativadiscreta
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
re_cump: Percentual de solicitações de remoção de conteúdo cumpridas pelo Google
quantitativacontínua
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
du_cr: Número de solicitações de dados de usuários investigados criminalmente
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
du_cr: Número de solicitações de dados de usuários investigados criminalmente
quantitativadiscreta
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
du_cr: Percentual de solicitações de dados de usuários investigados criminalmente cumpridas pelo Google
quantitativacontínua
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
hemisferio: Hemisfério no qual o país está localizado(norte, sul)
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
hemisferio: Hemisfério no qual o país está localizado(norte, sul)
qualitativanominal
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
idh: Índice de Desenvolvimento Humano(muito alto, alto, medio, baixo)
pais re_cto re_cump du_cr du_cump … hemisferio idh
ARG 21 100 134 32 … sul muitoalto
AUS 10 40 361 73 … sul muitoaltoBEL <10 100 90 67 … norte muitoaltoBRA 224 67 703 82 … sul alto… … … … … … … …
EUA 92 63 5950 93 … norte muitoalto
Dados de solicitação de remoção de conteúdo do Google
idh: Índice de Desenvolvimento Humano(muito alto, alto, medio, baixo)
qualitativaordinal
Variáveis qualitativas Conjunto de dados
Cor declarada antes do julgamentoBranco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Negro Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Pardo Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Branco Branco Branco Branco Branco Branco Negro Negro Pardo Pardo Outros Outros
Variáveis qualitativasA ideia é contar o número de ocorrências em cada categoria da variável
Por exemplo, vamos considerar o conjunto de dados relativo à composição de um juri em um julgamento realizado no Brasil ★ Os elementos do juri declaram sua cor antes do julgamento
✓ 74 brancos ✓ 26 negros ✓ 25 pardos ✓ 19 outros
Variáveis qualitativas Distribuição de Frequências
É interessante facilitarmos a visualização das informações
Isso pode ser feito construindo uma tabela de contingência ou, popularmente falando, distribuição de frequências:
cor frequênciafrequência relativa
branco 74 0,5139
negro 26 0,1806
pardo 25 0,1319
outros 19 0,1736
Total 144 1,0000
Variáveis qualitativas Gráficos
0
20
40
60
branco negro outros pardoCor
Obs
erva
ções
Gráfico em Barras da Cor
branco 51%
negro 18%
outro 13%
pardo 17%
Gráfico em Pizza da Cor
cor frequênciafrequência relativa
branco 74 0,5139
negro 26 0,1806
pardo 25 0,1319
outros 19 0,1736
Total 144 1,0000
Variáveis quantitativas discretas Conjunto de dados
Numero de filhos dos funcionários- 1 2 - - 0
- - 1 - 2 -
- 3 0 - 1 2
- - 1 - - 0
2 2 - 0 5 2
- 1 3 - 2 3
Considere uma amostra de 20 funcionários de uma empresa que responderam a uma questão sobre o número de filhos que possuem:
✓ 4 funcionários não possuem filhos ✓ 5 funcionários possuem 1 filho ✓ 7 funcionários possuem 2 filhos ✓ 3 funcionários possuem 3 filhos ✓ 1 funcionário possui 5 filhos
Aqui também faz sentido contarmos o número de ocorrências em cada categoria
Variáveis quantitativas discretas
Variáveis quantitativas discretas Distribuição de Frequências
• Podemos construir uma tabela de contingência para melhor observarmos os dados:
filhos frequência frequência relativa
0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
Total 20 1,00
Variáveis quantitativas discretas Gráficos
0 2 4Filhos
Número de filhos dos funcionários
0
2
4
6
0 1 2 3 4 5Filhos
Obs
erva
ções
Número de filhos dos funcionários
filhos frequência frequência relativa
0 4 0,20
1 5 0,25
2 7 0,35
3 3 0,15
5 1 0,05
Total 20 1,00
Variáveis quantitativas discretas Gráficos
Se um determinado conjunto de dados possuir uma quant idade mui to grande de informaçõe s, pode ser impraticável construirmos uma tabela de contingência;Nesse sentido, os gráficos se tornam ainda mais importantes para uma rápida visualização;Vamos tomar agora uma base de dados obtida ao entrevistar alunos de uma universidade. Eles responderam sobre o primeiro beijo e o número de vezes que visitam o Facebook em um dia.
Variáveis quantitativas discretas Gráficos
0 5 10 15 20Primeiro beijo
Com quantos anos deu seu primeiro beijo?
0 50 100 150 200Visitas ao Facebook por dia
Quantas vezes você visita o Facebook por dia?
Variáveis quantitativas contínuas Conjunto de dados
Salários dos funcionários (x salário mínimo)4,00 4,56 5,25 5,73 6,26 6,66
6,86 7,39 7,59 7,44 8,12 8,46
8,74 8,95 9,13 9,35 9,77 9,80
10,53 10,76 11,06 11,59 12,00 12,79
13,23 13,60 13,85 14,69 14,71 15,99
16,22 16,61 17,26 18,75 19,40 23,30
Vamos tomar, novamente, os dados relativos aos 36 funcionários de uma empresa e olhar para os salários destes funcionários
Como a variável é contínua, não faz sentido pensarmos em cada valor registrado separadamente. Isso seria ainda pior se a base de dados fosse muito extensa
Variáveis quantitativas contínuas
Apesar de não sermos capazes de contar o número de elementos num conjunto contínuo, podemos separá-lo em intervalos que possamos contabilizar
Variáveis quantitativas contínuas Distribuição de Frequências
• Podemos construir uma tabela de contingência para melhor observarmos os dados:
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
Variáveis quantitativas contínuas Distribuição de Frequências
• Podemos construir uma tabela de contingência para melhor observarmos os dados:
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
Classes
Variáveis quantitativas contínuas Distribuição de Frequências
• Podemos construir uma tabela de contingência para melhor observarmos os dados:
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
Classes
a|—bSimboliza o intervalo
[a,b)
Variáveis quantitativas contínuas Distribuição de Frequências
• Podemos construir uma tabela de contingência para melhor observarmos os dados:
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
Classes
a|—bSimboliza o intervalo
[a,b)
Limite inferior da classe i
Limite superior da classe i
Para cada classe i temos [LI
i , LSi )
Variáveis quantitativas contínuas Distribuição de Frequências
• Podemos construir uma tabela de contingência para melhor observarmos os dados:
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
Classes
a|—bSimboliza o intervalo
[a,b)
Para cada classe i temos
Limite inferior da classe i
Limite superior da classe i
Amplitude da classe iAi = LSi � LI
i
[LIi , L
Si )
Variáveis quantitativas contínuas Gráfico
• O gráfico adequado a esse tipo de dados é o histograma
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
• Nós utilizamos cada classe como base de um re tângulo com altura dada pe la frequência
0.0
2.5
5.0
7.5
10.0
12.5
4 8 12 16 20 24Salários
Freq
uênc
ia
Salários dos funcionários
Variáveis quantitativas contínuas Gráfico
• O gráfico adequado a esse tipo de dados é o histograma
salários frequência frequência relativa
04|—08 10 0,2778
08|—12 12 0,3333
12|—16 8 0,2222
16|—20 5 0,1389
20|—24 1 0,0278
Total 36 1,0000
• Nós utilizamos cada classe como base de um retângulo cuja área é dada pela frequência relativa
0.00
0.02
0.04
0.06
0.08
4 8 12 16 20 24Salários
Altu
ra
Salário dos funcionários altura
0,0694
0,0833
0,0556
0,0347
0,0069
Altura = Frequência relativa / Amplitude da classe
Variáveis quantitativas contínuas Gráfico
• Uma alternativa interessante para visualizarmos melhor a distribuição dos dados é alterar a amplitude dos intervalos à partir da frequência ou frequência relativa
salários frequência frequência relativa
04|—06 4 0,1111
06|—08 6 0,1667
08|—10 8 0,2222
10|—12 4 0,1111
12|—14 5 0,1389
14|—16 3 0,0833
16|—18 3 0,0833
18|—20 2 0,0556
20|—22 0 0,0000
22|—24 1 0,0278
Total 36 1,0000
0
2
4
6
8
4 6 8 10 12 14 16 18 20 22 24Salários
Freq
uênc
ia
Salários dos funcionários
Variáveis quantitativas contínuas Gráfico
• Uma alternativa interessante para visualizarmos melhor a distribuição dos dados é alterar a amplitude dos intervalos à partir da frequência ou frequência relativa
salários frequência frequência relativa
04|—06 4 0,1111
06|—08 6 0,1667
08|—10 8 0,2222
10|—12 4 0,1111
12|—14 5 0,1389
14|—16 3 0,0833
16|—18 3 0,0833
18|—20 2 0,0556
20|—22 0 0,0000
22|—24 1 0,0278
Total 36 1,0000
0.00
0.03
0.06
0.09
4 8 12 16 20 24Salários
Altu
ra
Salário dos funcionários altura
0,0556
0,0833
0,1111
0,0556
0,0694
0,0417
0,0417
0,0278
0,0000
0,0139
Variáveis quantitativas contínuas Gráfico
• Quanto mais dados estiverem disponíveis em relação a uma variável, melhor poderemos aproximar a distribuição destes e poderemos vê-los segundo uma curva que fornece a distribuição de acordo com a área abaixo dela
0.00
0.02
0.04
0.06
0.08
4 6 8 10 12 14 16 18 20 22 24Salários
Altu
ra
Salário dos funcionários
0.00
0.03
0.06
0.09
4 6 8 10 12 14 16 18 20 22 24Salários
Altu
ra
Salário dos funcionários
Variáveis quantitativas Formas - Simetria
• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados
0
500
1000
1500
−6 −4 −2 0
0
250
500
750
1000
−2.5 0.0 2.5
0
500
1000
1500
0 1 2 3 4 5
Assimétrica à esquerda Assimétrica à direitaSimétrica
Variáveis quantitativas Formas - Simetria
• O histograma pode nos revelar importantes características da distribuição de um conjunto de dados
0
500
1000
1500
−6 −4 −2 0
0
250
500
750
1000
−2.5 0.0 2.5
0
500
1000
1500
0 1 2 3 4 5
Assimétrica à esquerda Assimétrica à direitaSimétrica
Variáveis quantitativas Formas - Modalidade
0
100
200
300
400
0 10 20 30
0
250
500
750
1000
−2.5 0.0 2.5
Uniforme Unimodal
Variáveis quantitativas Formas - Modalidade
0
100
200
300
400
0 10 20 30
0
250
500
750
1000
−2.5 0.0 2.5
Uniforme Unimodal
Variáveis quantitativas Formas - Modalidade
0
250
500
750
−1 0 1 2
0
500
1000
1500
2000
−1 0 1 2
Bimodal Multimodal
Variáveis quantitativas Formas - Modalidade
0
250
500
750
−1 0 1 2
0
500
1000
1500
2000
−1 0 1 2
Bimodal Multimodal