estatisca

50
Conteúdo: 01. Estatística descritiva. 02. Distribuição de probabilidade: discreta. Noções de Estatística For Evaluation Only. Copyright (c) by Foxit Software Company, 2004 - 2007 Edited by Foxit PDF Editor

Upload: jonhnn

Post on 27-Jun-2015

1.714 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: estatisca

Conteúdo:

01. Estatística descritiva. 02. Distribuição de probabilidade: discreta.

Noções de Estatística

For Evaluation Only.Copyright (c) by Foxit Software Company, 2004 - 2007Edited by Foxit PDF Editor

Page 2: estatisca

11

Estatística descritiva

Qualquer conjunto de dados, tais como o tempo de uma ligação

telefônica, a velocidade de processamento de um computador, a pro-

porção de participação no mercado das empresas de um determinado

setor, suscetibilidade de empresas a uma determinada mudança no

mercado, opinião dos alunos quanto à didática de um professor, etc.,

contém informação sobre algum grupo de indivíduos. As possíveis

diferenças entre indivíduos determinam a variação que está sempre

presente na análise de dados.

Uma característica que pode assumir diferentes valores de indi-

víduo para indivíduo é denominada variável, pois de outra forma se-

ria denominada constante.

A classificação das variáveis em qualitativas e quantitativas foi

apresentada na disciplina de Metodologia de Pesquisa. Caso não se

lembre, reveja o material de Metodologia de Pesquisa.

Desta forma, apenas para relembrar, como você faria a classifi-

cação das seguintes variáveis?

a) Número de páginas desta unidade;

b) peso dos funcionários do setor de marketing de umaempresa;

c) tipos de empresas em relação a adoção de determina-da técnica; e

d) tamanho de empresas (pequena, média e grande).

Respostas: a) quantitativa discreta; b) quantitativa contínua;

c) qualitativa nominal; d) qualitativa ordinal.

Os dados qualitativas são divididos em nominais e ordinais;enquanto os dados quantitativas são divididos em discretas econtínuas.

Page 3: estatisca

12

Quando você coleta os dados para uma pesquisa, estas observa-

ções são chamadas de dados brutos. Um exemplo de dados brutos

corresponde ao tempo em minutos que consumidores de uma determi-

nada operadora de telefonia celular utilizariam em um mês (dados simu-

lados pelo autor a partir de um caso real). Os dados foram obtidos em uma

pesquisa de mercado e apresentados na forma em que foram coletados

(Tabela 1), por este motivo são denominados dados brutos*.

Geralmente, este tipo de dado traz pouca ou nenhuma informa-

ção ao leitor, sendo necessário organizar os dados, com o intuito de

aumentar sua capacidade de informação.

GLOSSÁRIO*Dados Brutos:–dados na forma emque foram coletados,sem nenhum trata-m e n t o . F o n t e :Lacombe (2004)

GLOSSÁRIO*Rol – é a mais sim-ples organizaçãonumérica. É a orde-nação dos dados emordem crescente oudecrescente.

*Amplitude Total –corresponde à dife-rença entre o maiore o menor valor ob-servado em um con-junto de dados. No-taremos por A.

Tabela 1: Tempo (T) em minutos de uso de telefone celular por consu-

midores (C) de uma determinada operadora

Como você pode observar na Tabela 1, a simples organização

dos dados em um rol* aumenta muito a capacidade de informação

destes. Na Tabela 2, você pode verificar que o menor tempo observa-

do foi 82 minutos, e o maior, 210 minutos, o que nos fornece uma

amplitude total* de variação da ordem de 128 minutos.

Outra informação que podemos obter nos dados por meio da

Tabela 2 (organizada em rol crescente) é que alguns tempos, como

122 min, 132 min, 138 min e 142 min, foram os mais freqüentes, ou

seja, os mais citados na pesquisa.

C

1

2

3

4

5

6

7

8

T

104

108

138

101

163

141

90

154

C

9

10

11

12

13

14

15

16

T

122

142

106

201

169

120

210

98

C

17

18

19

20

21

22

23

24

T

129

138

122

161

167

189

132

127

C

25

26

27

28

29

30

31

32

T

144

151

146

82

137

132

172

87

C

33

34

35

36

37

38

39

40

T

183

138

115

179

142

111

140

136

Page 4: estatisca

13

Então surge uma pergunta:

Como você pode organizar os dados de uma forma mais efi-ciente, na qual se possa apresentar uma quantidade maiorde informações?

Uma maneira de organizar um conjunto de dados para você

melhor representá-lo é por meio de uma tabela de distribuição de

freqüências (tabela onde são apresentadas as freqüências de cada uma

das classes).

Distribuindo-se os dados observados em classes* e contando-se

o número de observações contidas em cada classe, obtém-se a fre-

qüência de classe. Veja que a disposição tabular dos dados agrupa-

dos em classes, juntamente com as freqüências correspondentes, se

denomina distribuição de freqüências.

Por exemplo, para o caso do tempo em minutos do uso decelulares, pode-se desejar incluir em uma única classe todosos indivíduos que possuam tempo entre 128 e 138 minutosassim, a classe irá variar de 128 a 138 minutos.

GLOSSÁRIO*Classes: – Interva-los nos quais os va-lores da variávelanalisada são agru-pados.

Tabela 2: Tempo em minutos de uso de telefone celular por consumido-

res de uma determinada operadora (dados em rol crescente).

82

87

90

98

101

104

106

108

111

115

120

122

122

127

129

132

132

136

137

138

138

138

140

141

142

142

144

146

151

154

161

163

167

169

172

179

183

189

201

210

Page 5: estatisca

14

, para

n ¢ 100; ,

para n > 100

Este tipo de intervalo é

o mais utilizado.

Para identificar uma classe, deve-se conhecer os valores dos limites

inferior e superior da classe, que delimitam o intervalo de classe.

Neste ponto, surge uma dúvida.

Indivíduos que apresentem tempo exatamente iguais a 128 oua 138 minutos pertencem ou não a esta classe? (128 a 138)

Deste modo, surge a necessidade de definir a natureza do inter-

valo de classe, se é aberto ou fechado. Portanto, podemos ter exem-

plo de notação dos diferentes tipos de intervalos: Intervalos abertos*

128 min – 138 min; Intervalos fechados* 128 min |–|

138 min. Pode-se ter ainda intervalos mistos*, como por exemplo:

128 min |– 138 min.

Vamos, então, a partir dos dados do exemplo relativo ao tem-po de utilização dos celulares, construir uma distribuição defreqüência e ao longo deste exercício identificar conceitospresentes em uma distribuição de freqüências.

Então, vamos exercitar.

Para elaborar uma distribuição de freqüências é necessário que

primeiramente, se determine o número de classes (k) em que os da-

dos serão agrupados. Por questões de ordem prática e estética, sugere-

se utilizar de 5 a 20 classes. O número de classes (k) a ser utilizado,

pode ser calculado em função do número de observações (n).

Na pesquisa, como temos n = 40 consumidores, teremos, então,

o número de classes definido por = = 6,32, e como o

número de classes é inteiro, usaremos 6 classes. O arredondamento

utilizado neste material é o padrão de algarismos significativos (como

foi aprendido no Ensino Médio). O número de classes pode também

ser definido de uma forma arbitrária sem o uso desta regra.

GLOSSÁRIO*Intervalos abertos–os limites da classe(inferior e superior)não pertencem a ela.

*Intervalos fecha-dos – os limites declasse (superior einferior) pertencemà classe em questão.

*Intervalos mistos –um dos limites per-tence à classe, e ooutro, não.

Page 6: estatisca

15

onde:

c = amplitude de

classe; A = amplitude

total; e k = número de

classes.

PM = onde:

LI: Limite inferior; e

LS: Limite superior

Após você determinar o número de classes (k) em que os dados

serão agrupados, deve-se, então, determinar a amplitude do interva-

lo de classe (c).

Para calcularmos a amplitude do intervalo de classe, vamos pri-

meiramente calcular a amplitude total dos dados (A), que

corresponde à diferença entre o maior valor observado e o menor

valor observado. No nosso caso, teremos A = 210 – 82 =128 mm.

Com base neste valor da amplitude total (A) calculado, vamos

obter a amplitude do intervalo de classe (c), como é mostrado a seguir:

Deve ficar claro para você, que existem outros procedimentos

para determinação da amplitude do intervalo de classe que podem ser

encontrados na literatura.

Conhecida a amplitude de classes, você deve determinar os in-

tervalos de classe. O limite inferior e o superior das classes devem ser

escolhidos de modo que o menor valor observado esteja localizado no

ponto médio (PM) da primeira classe.

Partindo deste raciocínio, então, o limite inferior da primeira

classe será:

Limite inf. 1ª = menor valor – .

No nosso caso, temos: Limite inf. 1ª = 82 – = 69,2 min

Definindo, então, o limite inferior da primeira classe, para obter-

mos as classes da nossa distribuição, basta que somemos a amplitude

do intervalo de classe a cada limite inferior.

Assim, teremos:

69,2 | – 94,8 primeira classe

94,8 | – 120,4 segunda classe

20,4 | – 146,0 terceira classe

146,0 | – 171,6 quarta classe

171,6 | – 197,2 quinta classe

197,2 | – 222,8 sexta classe

Page 7: estatisca

16

Então, você pode obter uma tabela como a apresentada a seguir.

A freqüência absoluta (fa) corresponde ao numero de ob-servações que temos em uma determinada classe ou em umdeterminado atributo de uma variável qualitativa e a freqüên-

cia relativa (fr) corresponde à proporção do número de ob-servações em uma determinada classe em relação ao totalde observações que temos.

Esta freqüência pode ser expressa em termos porcentuais. Paraisto, basta multiplicar a freqüência relativa obtida por 100.

Tabela 3: Distribuição de freqüências do tempo em minutos de uso de

telefone celular por consumidores de uma determinada operadora

Na tabela, aparece uma nova denominação chamada “freqüên-

cia”. Podem ter freqüências chamadas de freqüência absoluta (fa),

freqüência relativa (fr) e freqüência acumulada (discutida posterior-

mente).

O cálculo da freqüência relativa é obtido por meio da seguinte

expressão:

, com fai = freqüência absoluta da classe i.

Apresentando os dados na forma de distribuição de freqüência,

você consegue sintetizar as informações contidas neles, além de facili-

Classes (mm)

69,2 | – 94,8

94,8 | – 120,4

120,4 | – 146,0

146,0 | – 171,6

171,6 | – 197,2

197,2 | – 222,8

Total

Freqüência

?

?

?

?

?

?

Page 8: estatisca

17

tar sua visualização. Na Tabela apresentada a seguir, temos as freqüên-

cias (fa e fr) relacionadas ao tempo de utilização do aparelho celular.

Como ficaria, então, a interpretação da distribuição de freqüências?

Pode-se verificar claramente na Tabela 4 que os tempos de utili-

zação do celular das 40 pessoas avaliadas em questão estão concen-

trados nas classes segunda, terceira e quarta, decrescendo em direção

às classes do início e do fim da tabela. A apresentação dos dados em

forma de distribuição de freqüência facilita ainda o cálculo manual de

várias medidas estatísticas de interesse e sua apresentação gráfica.

Além das freqüências absolutas e relativas, muitas vezes pode-

se estar interessado na quantidade de observações que existe acima ou

abaixo de um determinado ponto na distribuição.

Desta forma, podemos trabalhar com a freqüência acumulada*.

A título de ilustração, você pode visualizar nas Tabelas 4 e 5,

respectivamente, as freqüências acumuladas para cima e para baixo

dos tempos de utilização das 40 pessoas avaliadas na pesquisa. A fre-

qüência acumulada apresentada na Tabela 4 pode ser obtida da se-

guinte forma: abaixo do limite superior da primeira classe, temos três

pessoas que estão presentes nesta classe, como pode ser visto na Ta-

bela 3 da distribuição de freqüências absoluta. Quando consideramos

a segunda classe, a freqüência acumulada corresponde ao número de

Tabela 4: Distribuição de freqüências do tempo em minutos de uso de

telefone celular por consumidores de uma determinada operadora

GLOSSÁRIO*Freqüência Acu-mulada – Freqüên-cia Acumuladacorresponde à somada freqüência da-quela classe às fre-qüências de todas asclasses abaixo dela.

Classes (mm)

69,2 | – 94,8

94,8 | – 120,4

120,4 | – 146,0

146,0 | – 171,6

171,6 | – 197,2

197,2 | – 222,8

Total

fa (consumidores)

3

8

16

7

4

2

40

fr (proporção de consumidores)

0,075

0,200

0,400

0,175

0,100

0,050

1,000

Page 9: estatisca

18

pessoas que temos abaixo do limite superior desta classe, ou seja, as

oito pessoas da segunda classe mais as três pessoas da primeira classe,

totalizando 11 pessoas abaixo de 120,4 minutos. Para as outras clas-

ses, o raciocínio é semelhante.

Um bom exemplo de aplicação das distribuições de freqüências

acumuladas corresponde à identificação de uma determinada freqüên-

cia abaixo ou acima de um determinado valor que não corresponde ao

limite superior ou inferior de uma classe qualquer.

Podemos, então, querer verificar qual a porcentagem de pessoas

que utilizam o celular por um tempo inferior a 146 minutos, e para

isto, basta consultar diretamente a Tabela 4 e verificar a freqüência

acumulada abaixo deste valor (6,75%), pois o valor 146 minutos

corresponde a um dos limites de classe apresentados nesta tabela.

E se você quiser saber a proporção de pessoas que utilizamo celular por menos de 150 minutos?

Para podermos obter esta freqüência, é necessário que venha-

mos a pressupor que os tempos de utilização estejam uniformemente

Tabela 5: Distribuição de freqüência acumulada do tempo em minutos

de uso de telefone celular por consumidores de uma determinada

operadora

Tempo (mim)

69,2 | – 94,8

94,8 | – 120,4

120,4 | – 146,0

146,0 | – 171,6

171,6 | – 197,2

197,2 | – 222,8

Total

Freq. acumulada

0

3

11

27

34

38

40

Freq. acumulada (relativa)

0,000

0,075

0,275

0,675

0,850

0,950

1,000

Page 10: estatisca

19

distribuídos dentro das classes. O cálculo é baseado nos dados da Ta-

bela 4 e são apresentados a seguir.

Freq. acumulada relativa abaixo da classe imediatamenteinferior a 150 (abaixo de 146) = 0,675; e

Freq. acumulada relativa abaixo da classe imediatamentesuperior a 150 (abaixo de 171,6) = 0,850;

Proporção de consumidores com tempo de uso abaixo de146,0 min = 0,675

Proporção de consumidores com tempo de uso abaixo de171,6 min = 0,850

Freq. entre 146,0 e 171,6 min = 0,175

de 146,0 a 171,6 min são 25,6 min

de 146,0 a 150,0 min são 4,0 min

assim,

(diferença) no tempo variação (diferença) na proporção

25,6 min -------------------------------------------- 0,175

4,0 min ------------------------------------------------- x

Portanto, fazendo o cálculo da regra de três apresentada anteri-

ormente, teremos o valor de x.

Portanto, como abaixo de 140,0 min existe uma proporçãode 0,675 e entre 140,0 e 150 min existe uma proporção de0,0273, conclui-se, então, que abaixo de 150 min existe umaproporção de 0,7023 (0,675 + 0,0273). Em termosporcentuais, isto corresponde a 70,23% dos consumidores.

Page 11: estatisca

20

É importante ressaltar que este resultado é aproximado, devido à

perda de informação pelo fato de a tabela ser intervalar, ou seja, as

classes estão em intervalos.

Quando você trabalha com variáveis qualitativas, os atributos

são as variações nominativas da variável. A construção da tabela con-

siste em contar as ocorrências de cada atributo. O resultado da conta-

gem define a freqüência absoluta do atributo. Para podermos entender

isto, tomemos como exemplo uma pesquisa na qual se procurou avali-

ar o número de pessoas de diferentes sexos em uma determinada em-

presa. Estes resultados são apresentados na Tabela 6.

Tomando, por exemplo, o caso de uma variável aleatória dis-

creta (conceito visto em Metodologia de Pesquisa), realizou-se no

SAC (Serviço de Atendimento ao Consumidor) de uma empresa um

estudo referente ao número de reclamações (N.R.) atendidas diaria-

mente, durante um certo mês, obtendo os seguintes resultados:

Tabela 6: Distribuição de freqüências do número de

funcionários em relação ao seu sexo em 2006

Sexo

Masculino

Feminino

Total

fa

20

30

50

fr

0,40

0,60

1,00

N.R.

0

2

1

5

3

2

Dia

7

8

9

10

11

12

N.R.

1

2

2

3

0

3

Dia

13

14

15

16

17

18

N.R.

0

0

1

2

3

5

Dia

19

20

21

22

23

24

N.R.

1

0

0

2

0

4

Dia

25

26

27

28

29

30

N.R.

0

3

4

0

2

1

Page 12: estatisca

21

Dispondo estes dados em um rol (crescente), tem-se:

0 0 0 0 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 4 4 5 5

Podemos, então, apresentar a seguir estes dados em uma distri-

buição de freqüências. Neste caso, não é necessário definir intervalos

de classes, porque a variação dos valores é pequena.

Verificamos que os valores da variável discreta correspondem a

cada uma das classes.

Surge, então, uma pergunta:

As tabelas de distribuição de freqüências são a única formaque você tem de apresentar um conjunto de dados?

Para responder a esta pergunta, vamos falar um pouco sobre al-

gumas formas de representação gráfica de tabelas de freqüência.

Logicamente, dependendo do tipo de variável, temos um gráfico mais

adequado. Os diferentes tipos de gráfico, (histogramas, polígonos de

freqüência, ogivas, gráficos de setores, pictogramas e outros) permi-

tem uma melhor visualização de resultados. Estes gráficos podem ser

obtidos utilizando planilhas eletrônicas, como por exemplo, o Excel.

Tabela 7: Número de reclamações atendidas diariamente,

durante certo mês

Numero de reclamações por dia

0

1

2

3

4

5

Total

Número de dias (fa)

9

5

7

5

2

2

30

Freq. Relativa

0.3

0.17

0.23

0.17

0.07

0.07

1

Page 13: estatisca

22

Os histogramas* são gráficos utilizados para representar tabe-

las intervalares.GLOSSÁRIO

* h i s t o g r a m a –Histogramas: sãoconstituídos por umconjunto de retân-gulos, com as basesassentadas sobre umeixo horizontal, ten-do o centro da mes-ma no ponto médioda classe que repre-senta, e cuja altura éproporcional à fre-qüência da classe.

*Polígono de fre-qüências – é um grá-fico de análise noqual as freqüênciasdas classes são loca-lizadas sobre per-pendiculares levan-tadas nos pontosmédios das classes.

Já o polígono de freqüência*, você pode obter pela simples

união dos pontos médios dos topos dos retângulos de um histograma.

Completa-se o polígono unindo as extremidades da linha que ligam os

pontos representativos das freqüências de classe aos pontos médios

das classes, imediatamente, anterior e posterior às classes extremas,

que têm freqüência nula.

Figura 1: Histograma representativo da distribuição de

freqüências do tempo em minutos de uso de telefone celular

por consumidores de uma determinada operadora

Figura 2: Polígono de Freqüências do tempo em minutos de uso de telefone celular

por consumidores de uma determinada operadora

Page 14: estatisca

23

Quando temos uma tabela de variável qualitativa, um tipo de

gráfico adequado para apresentar os resultados corresponde ao gráfi-

co de setores, também popularmente conhecido como gráfico tipo

pizza. Sua construção é simples: sabe-se que o ângulo de 360º equiva-

le a 100% da área da circunferência; assim, para obter-se o ângulo do

setor cuja área representa uma determinada freqüência, basta resolver

uma regra de três simples, como a apresentada a seguir:

360º ---------------- 100%

xº ------------------- Freq. Relativa (Porcentual)

Os gráficos chamados de ogivas correspondem a um polígono

de freqüências acumuladas, nas quais estas freqüências são localiza-

das sobre perpendiculares levantadas nos limites inferiores ou superi-

ores das classes, dependendo se a ogiva representar as freqüências

acumuladas.

Figura 3: Gráfico do sexo de pessoas que trabalham em

uma determinada empresa

Page 15: estatisca

24

Após o estudo da construção de distribuições de freqüências e

gráficos que as representam, você deve ser capaz de organizar um

conjunto de dados, por meio de uma distribuição de freqüências (ab-

soluta, relativa, e acumuladas) e representá-lo graficamente.

Saiba mais...

Visite o site de como usar a planilha Calç, do pacoteOpenOffice, nas estatísticas descritivas, em: http://www2.ufpa.br/

dicas/open/oo-ind.htm

Vamos, então, fazer um exercício para fixar os conhecimentos

adquiridos. (As respostas estão no final do livro.)

-

Figura 4: Ogiva "abaixo de" do tempo em minutos que consumidores

de uma determinada operadora de telefonia celular utilizariam em um

mês se houvesse uma redução na tarifa de 20%

Page 16: estatisca

25

-

Exercício 1: tem-se a seguir o tempo em minutos de reuniões

em um setor de uma empresa.

GLOSSÁRIO*A média aritméti-ca, ou simplesmen-te média de um con-junto de n observa-ções, x1, x2,...,xn édefinida como:

O somatório (ä)corresponde à somade todos os valoresobtidos.

a) Construa a distribuição de freqüências absoluta, relativa eacumulada; e

b) Determine o número de reuniões em que o tempo foi me-nor do que 50, a partir da distribuição de freqüências.

Medidas de posição

As medidas de posição ou de tendência central constituem uma

forma mais sintética de apresentar os resultados contidos nos dados

observados, pois representam um valor central, em torno do qual os

dados se concentram. As medidas de tendência central mais emprega-

das são a média, a mediana e a moda.

A média aritmética* é a mais usada das três medidas de posi-

ção mencionadas, por ser a mais comum e compreensível delas, bem

como pela relativa simplicidade do seu cálculo, além de prestar-se bem

ao tratamento algébrico.

Considerando o caso do número de reclamações em um SAC

(ver em distribuições de freqüência), se você somar todos os valores

do número de reclamações e dividir pelo número de dias, você terá

então a média aritmética ( ) do número de reclamações.

Então, o valor obtido será: = 1,73 reclamações por dia.

45

50

42

41

52

51

44

41

50

46

50

46

60

54

52

58

57

58

60

51

Page 17: estatisca

26

Você pode interpretar este resultado da média como sendo onúmero de reclamações médio por dia, que é de 1,73, po-dendo ocorrer dias em que o número de reclamações podeser maior ou menor que o valor médio encontrado.

Portanto, de uma forma mais geral, podemos interpretar a média

como sendo um valor típico do conjunto de dados. Pode ser um valor

que não pertence ao conjunto de dados.

Se os dados estiverem agrupados na forma de uma distribuição

de freqüência em classes, lança-se mão da Hipótese Tabular Básica*

para o cálculo da média.

Então, você vai calcular a média por meio da seguinte expressão:

sendo xi: ponto médio da classe i; fai: freqüência absoluta da classe i;

fri : freqüência relativa da classe i.

Considerando o caso do tempo de uso em minutos do celular

(ver no item distribuições de freqüências), a média será dada por:

O valor de 82 apresentado na expressão corresponde ao ponto

médio da primeira classe, o qual foi obtido pela soma dos limites supe-

rior e inferior, dividido por dois, ou seja, a média aritmética. Os pon-

tos médios das outras classes são obtidos de forma similar.

GLOSSÁRIO*Hipótese TabularBásica– todas asobservações conti-das numa classe sãoconsideradas iguaisao ponto médio daclasse.

Page 18: estatisca

27

Existem outros tipos de média que podem ser utilizados, como

por exemplo, média ponderada (utilizada quando existe algum fator

de ponderação), média geométrica (quando os dados apresentam uma

distribuição que não é simétrica) e outras.

Às vezes, associam-se às observações x1,x

2,...,x

n determinadas

ponderações ou pesos w1,w

2,...,w

n, que dependem da importância atri-

buída a cada uma das observações; neste caso, a média ponderada é

dada por:

Como exemplo, você pode considerar um processo de avaliação

de um funcionário em três etapas. Um funcionário apresentou as se-

guintes notas durante a avaliação: 1ª etapa = 90; 2ª etapa = 70; 3ª etapa

= 85, e os pesos de cada etapa são 1, 1 e 3, respectivamente. Qual o

score médio final do funcionário?

Outro tipo de média corresponde à geométrica (Mg). Ela é cal-

culada pela raiz n-ésima do produto de um conjunto de n observações,

x1,x2,...,xn, associadas às freqüências absolutas f1,f2,..., fn, e, respecti-

vamente, é dada por:

Este tipo de média, você vai trabalhar na disciplina de Ma-

temática Financeira.

Em algumas situações, você verá que é necessária a informação

do número de observações que mais ocorre em um conjunto de dados.

Page 19: estatisca

28

No caso do número de reclamações no SAC, verifica-se que o que

mais ocorre é zero, ou seja, em vários dias não ocorre nenhuma recla-

mação. Assim, podemos, então, definir a moda (Mo) como sendo o

valor em um conjunto de dados que ocorre com maior freqüên-

cia. Um conjunto de dados pode ser unimodal (uma moda) ou amodal

(não possuir moda, pois não existe nenhum valor que ocorre com mai-

or freqüência) ou multimodal (possui mais de uma moda).

Quando os dados não estão em intervalos de classes, basta olhar

o valor que ocorre com maior freqüência.

Para dados agrupados em intervalos de classes, você pode cal-

cular a moda por meio do método de Czuber, que se baseia na influên-

cia das classes adjacente na moda, deslocando-se no sentido da classe

de maior freqüência. A expressão que você utilizará é:

onde:L

i: limite inferior da classe modal;

d1: diferença entre a freqüência da classe modal e a imediata-mente anterior;

d2: diferença entre a freqüência da classe modal e a imediata-

mente posterior; e

c: amplitude da classe modal.

No caso do tempo de uso de aparelhos celulares (ver a tabela no

item distribuição de freqüências), teremos que a classe modal é a ter-

ceira, pois apresenta maior freqüência. Utilizando a expressão mostra-

da anteriormente, teremos:

Uma característica importante da moda é que ela não é afetada

pelos valores extremos da distribuição, desde que estes valores não

constituam a classe modal.

Page 20: estatisca

29

Desta forma, a moda deve ser utilizada quando desejamos obter

uma medida rápida e aproximada de posição ou quando a medida deva

ser o valor mais freqüente da distribuição.

Outra medida de posição que você pode utilizar é a mediana (Md).

Em um conjunto de valores dispostos segundo uma ordem(crescente ou decrescente), é o valor situado de tal forma noconjunto que o separa em dois subconjuntos de mesmo nú-mero de elementos, ou seja, 50% dos dados são superiores àmediana, e 50% são inferiores.

O símbolo da mediana é dado por Md ou . A posição da medi-

ana é dada por meio da expressão: E (elemento central) = (n+1) / 2.

Considerando um conjunto de dados com número ímpar de ele-

mentos como (1, 2, 5, 9, 10, 12, 13), a posição da mediana será dada

por (7 + 1)/2 = 4ª posição. Portanto, a partir dos dados ordenados, o

número que se encontra na 4ª posição é o 9, e assim a mediana será

igual a 9. (Temos três valores abaixo e três valores acima ou 50%

acima da mediana, e 50% abaixo)

Caso o número de elementos do conjunto de dados for par, como

por exemplo, (1, 2, 6, 8, 9, 12, 11, 13), encontra-se a posição da medi-

ana (( 8 + 1)/2 = 4,5ª posição). Como a posição 4,5 está entre a 4ª e a

5ª posição, calcula-se a média entre os valores que ocupam estas posi-

ções. O valor encontrado de 8,5 corresponde à mediana.

Quando os dados estão agrupados na mediana devemos encon-

trar a classe mediana.

Se os dados estão agrupados em intervalos de classe, como no

caso do tempo de utilização do telefone, utilizaremos a seguinte ex-

pressão:

Page 21: estatisca

30

onde: li: limite inferior da classe mediana; n: número total de elemen-

tos; fantac

: freqüência acumulada anterior à classe mediana; fmed

: fre-

qüência absoluta da classe mediana e a amplitude da classe mediana.

Portanto, resolvendo o caso do tempo de utilização dos celula-

res, teremos que a posição da mediana será dada por E = 40/2 = 20ª

elemento, o qual está na terceira classe (120,4 | – 146), que corresponde

à classe mediana.

Em um conjunto de dados, a mediana, a moda e a média não

necessariamente devem apresentar o mesmo valor. Uma informação

importante é de que a mediana não é influenciada pelos valores extre-

mos. Comparando os resultados encontrados para uma amostra em

relação às medidas de posição estudadas e verificando a inter-relação

entre elas, você pode concluir que seus valores podem nos dar um

indicativo da natureza da distribuição dos dados, em função das re-

gras definidas a seguir:

Outras medidas de posição denominadas separatrizes serão de-

finidas a seguir.

A principal característica das medidas separatrizes consiste na

separação da série em partes iguais que apresentam o mesmo número

de valores.

As principais são os quartis, decis e percentis.

Os quartis são valores de um conjunto de dados ordenados, que

os dividem em quatro partes iguais. É necessário, portanto, três quartis

Page 22: estatisca

31

(Q1, Q

2 e Q

3) para dividir um conjunto de dados ordenados em quatro

partes iguais.Q1 : deixa 25% dos elementos abaixo dele.

Q2 : deixa 50% dos elementos abaixo dele e coincide com amediana.

Q3 : deixa 75% dos elementos abaixo dele.

A figura abaixo mostra bem o quartis:

Se considerarmos o exemplo do número de reclamações por dia

em um SAC, teremos de forma semelhante a figura anterior:

Para valores não tabelados, pode ser dito que o primeiro quartil

pode ser obtido como a mediana da primeira metade dos dados, e para o

terceiro quartil, como a mediana da segunda metade. Para dados tabela-

dos, a fórmula da mediana pode ser adaptada para os demais quartis.

Medidas de dispersão

Como foi visto anteriormente, podemos sintetizar um conjunto

de observações em alguns valores representativos como média, medi-

ana, moda e quartis. Em várias situações, torna-se necessário visualizar

como os dados estão dispersos. Tomando como exemplo várias em-

presas que apresentem salários médios iguais, podemos concluir, en-

tão, que a contribuição social (% do salário) será a mesma? Somente

Page 23: estatisca

32

O termo amplitude

total foi visto anterior-

mente na construção

de uma distribuição de

freqüência em classes.

Relembrando, é a

diferença entre o

maior e o menor valor

observados.

com base no salário médio, sim, mas estaríamos chegando a uma con-

clusão errada. A variação em termos de faixas salariais pode ser dife-

rente, apesar de apresentarem a mesma média. Pensando no que foi

dito anteriormente, considere o valor (em reais) ganho por dia de três

grupos de empregados (A: 70, 70, 70, 70, 70; B: 50, 60, 70, 80, 90; C:

5, 15, 50, 120, 160).

Podemos verificar que, apesar de apresentarem a mesma média

(70), os três grupos apresentam comportamento diferenciado, pois o

grupo A é o mais homogêneo, e o grupo C é o que apresenta maior

variação de ganho por dia. Portanto, devemos sempre inserir junto a

uma medida de posição uma medida que avalie esta distribuição, ou

seja, a variabilidade de um conjunto de dados. Portanto, quanto maior

a variabilidade, maior será a dispersão das observações.

Uma primeira medida de dispersão que vamos comentar é a

amplitude total. No caso dos ganhos diários, podemos obter os se-

guintes resultados:

AA = 70 – 70 = 0 A

B = 90 – 50 = 40 A

C = 160 – 5 = 155

Verificamos, então, que o grupo C é o que apresenta maior vari-

abilidade, e que o grupo A corresponde ao de menor variabilidade.

Deste modo, o grupo C corresponde àquele que teve maior vari-

abilidade em torno da média.

No caso de dados agrupados, a amplitude total é calculada por

meio da diferença entre o ponto médio da última classe e o ponto mé-

dio da primeira classe.

A amplitude total tem a desvantagem de só levar em conta os

dois valores extremos, por isso é apenas uma indicação aproximada

da dispersão. Outra desvantagem é que a amplitude total apresenta

muita variação de uma amostra para outra, mesmo que ambas sejam

extraídas da mesma população.

Portanto, você deve trabalhar com uma medida que leve em con-

sideração todas as observações. Desta forma, podemos querer verifi-

car o quanto um conjunto de observações está mais próximo ou mais

distante de uma medida, que no caso será a média. Então, você pode

Page 24: estatisca

33

calcular o desvio de cada valor em relação à média ( ), e se

fizermos o somatório destes desvios, o resultado será igual a zero. Se

você elevar este desvio ao quadrado e somar, teremos o que chama-

mos de soma de quadrado dos desvios. Dividindo este somatório pelo

total de observações, teremos uma idéia da dispersão das observações

em relação à média. Esta medida que acabamos de visualizar de forma

intuitiva corresponde à variância. Portanto, você pode concluir que a

variância sempre assumirá valores positivos.

Quando o nosso interesse é o de tirar inferências válidas paratoda a população a partir de uma amostra (porção repre-sentativa da população), deve-se trocar na fórmula davariância N por n – 1, onde:

N corresponde ao tamanho da população; e

n corresponde ao tamanho da amostra utilizada.

As expressões para cálculo das variâncias populacional e amostral

são apresentadas a seguir.

Quando temos os dados agrupados em intervalos de classes, o xi

corresponde ao ponto médio da classe, e fi à freqüência da classe.

Como a variância é calculada a partir dos quadrados dos desvi-

os, ela é um número que apresenta a unidade elevada ao quadrado em

relação à variável que não está elevada ao quadrado; isto se torna um

inconveniente em termos de interpretação do resultado. Por isso, defi-

niu-se uma nova medida, o desvio-padrão, que é a raiz quadrada da

variância, com mais utilidade e interpretação práticas, representada por

Page 25: estatisca

34

s ou s. A variância é uma medida que tem pouca utilidade na Estatís-

tica Descritiva, mas será extremamente importante na Inferência Esta-

tística e em combinações de amostras. Também é importante frisar

que, na grande maioria das situações, trabalhamos com amostras, en-

tão devemos utilizar o desvio-padrão amostral.

No caso dos ganhos diários, calculando a variância de cada um

dos grupos que correspondem a uma amostra, encontramos os seguin-

tes resultados:

sA = 0 reais; s

B = 15,81 reais; s

C=67,54 reais.

O desvio-padrão, quando analisado isoladamente, não dá mar-

gem a muitas conclusões. Por exemplo, para uma distribuição cuja

média é 300, um desvio-padrão de 2 unidades é pequeno, mas para

uma distribuição cuja média é 20, ele já não é tão pequeno.

Importante!

Condições para se usar o desvio-padrão ou variância para com-

parar a variabilidade entre grupos:

mesmo número de observações;

mesma unidade; e

mesma média.

Além disso, se quisermos comparar duas ou mais amostras de

valores expressas em unidades diferentes, não poderá ser possível fa-

zer a comparação por meio do desvio-padrão, pois ele é expresso na

mesma unidade dos dados. Também é necessário que os conjuntos de

observações tenham o mesmo tamanho. Podemos, então, considerar a

situação na qual se avaliou o custo indireto de fabricação (CIF) de um

produto em reais e o tempo gasto em uma máquina para fabricação

deste produto em segundos.

CIF

Tempo

x

175 reais

68 segundos

S

5 reais

2 segundos

Page 26: estatisca

35

A princípio, você poderia concluir que o CIF apresenta maior

variabilidade. Entretanto, as condições citadas anteriormente deveriam

ser satisfeitas para que se pudesse utilizar o desvio-padrão para compa-

rar a variabilidade. Como as condições não são satisfeitas, devemos ten-

tar expressar a dispersão dos dados em torno da média, em termos

porcentuais. Então, utilizaremos uma medida estatística chamada de

coeficiente de variação (CV). O coeficiente será dado por meio da ex-

pressão:

, onde s e foram definidos anteriormente

Para a situação do CIF e tempo, teremos:

Portanto, nesse grupo de indivíduos, o tempo de horas, máquina

apresenta maior dispersão do que o custo indireto de fabricação (CIF),

mudando, assim, a conclusão anterior.

Ao final desta parte de medidas de posição e dispersão, você

deve ser capaz de calcular as medidas de posição e dispersão, e

interpretá-las.

Caso não consiga, você deve voltar ao texto e fixar melhor os

conceitos.

Seguem abaixo exercícios para fixação dos conhecimentos ad-

quiridos nos assuntos de medida de posição e de dispersão. Você deve

resolver todos eles.

Exercício 2: a tabela abaixo apresenta uma distribuição de fre-

qüências das áreas de 400 lotes:

A partir da tabela acima, calcule:

Page 27: estatisca

36

a) média, mediana e moda;

b) desvio padrão e coeficiente de variação;

c) o ponto médio da sétima classe;

d) a amplitude do intervalo da segunda classe;

e) a freqüência relativa da sexta classe;

f) a freqüência acumulada da quinta classe;

g) o nº de lotes cuja área não atinge 700 m2;

h) o nº de lotes cuja área atinge e ultrapassa 800 m2; e

i) a classe do 72º lote.

Exercício 3: os dez funcionários de uma pequena empresa rece-

beram os seguintes salários, em reais:

230, 210, 100, 140, 160, 120, 390, 450, 100 e 200

Calcule as medidas de posição e dispersão em relação aos salários

Áreas (m2)

300 |– 400

400 |– 500

500 |– 600

600 |– 700

700 |– 800

800 |– 900

900 |– 1000

1000 |– 1100

1100 |– 1200

Nº de lotes

14

46

58

76

68

62

48

22

6

Page 28: estatisca

37

Exercício 4: uma loja vende cinco produtos básicos A, B, C, D

e E. O lucro por unidade comercializada destes produtos vale, res-

pectivamente $ 200,00; $ 300,00; $ 500,00; $ 1.000,00; $ 5.000,00. A

loja vendeu em determinado mês 20; 30; 20; 10; 5 unidades, respectiva-

mente. Qual foi o lucro médio por unidade comercializada por esta loja?

Exercício 5: uma empresa tem duas filiais praticamente idênticas

quanto às suas características funcionais. Um levantamento sobre os

salários dos empregados dessas filiais resultou nos seguintes valores:

Filial A: xA = 400 e S

A = 20

Filial B: xB = 500 e S

B = 25

Podemos afirmar que as duas filiais apresentam a mesma dispersão?

Saiba mais...

Sobre cálculo de médias e funções em planilhas, visite o site:http://www.juliobattisti.com.br/tutoriais/celsonunes/openoffice007.asp

Mais exercícios referentes ao assunto estão no site:

http://www.famat.ufu.br/prof/marcelo/exercicios.htm

Page 29: estatisca

Introdução a probabilidades

Quando estamos falando de probabilidade, queremos identificar

a chance de ocorrência de um determinado resultado de interesse, em

situações nas quais não é possível calcular com exatidão o valor real

do evento. Desta forma, trabalhamos com chances ou probabilidades.

Uma situação, para exemplificarmos este fato, está associada à

seguinte pergunta: meu vendedor poderá cumprir sua meta de venda

na semana que vem? O espaço amostral* simbolizado por S ou Wnesta situação será atinge a meta e não atinge a meta. Para calcular a

probabilidade de cumprir a meta, você pode usar a intuição (subjeti-

vo) ou usar a freqüência relativa das últimas dez semanas em que o

vendedor esteve trabalhando (objetivo).

Portanto, para calcularmos uma probabilidade, é necessário que

tenhamos um experimento aleatório*, que apresenta as seguintes ca-

racterísticas: a) cada experimento pode ser repetido indefinidamente

sob as mesmas condições (n); b) não se conhece a priori o resultado

do experimento, mas podem-se descrever todos os possíveis resulta-

dos; e c) quando o experimento for repetido um grande número de

vezes, surgirá uma regularidade do resultado, isto é, haverá uma esta-

bilidade da fração (freqüência relativa) da ocorrência de um par-

ticular resultado, onde r corresponde ao número de vezes que um de-

terminado resultado aconteceu.

Nos experimentos ou situações mencionadas, você pode notar

que a incerteza sempre está presente, o que quer dizer que, se estes

experimentos forem repetidos em idênticas condições, não se pode

determinar qual o resultado ocorrerá.

A incerteza está associada à chance de ocorrência que atribuí-

mos ao resultado de interesse.

Consideremos, como exemplo, os funcionários que trabalham

no setor de marketing de uma determinada empresa. Sabe-se que nes-

GLOSSÁRIO*Espaço amostral–conjunto de possibi-lidades, ou seja, ospossíveis resultadosassociados a um ex-perimento aleatório.

*Experimento alea-tório – qualquer pro-cesso que venha agerar um resultadoincerto ou casual.

Page 30: estatisca

42

te setor trabalham seis funcionários. Um experimento ao acaso seria a

escolha aleatória de um dos funcionários. Podemos considerar como

evento de interesse o sexo do funcionário escolhido. Você, então, vai

aplicar os conceitos vistos acima e novos conceitos associados a pro-

babilidades.

Conjunto de possibilidades (Espaço amostral): S = {Carlos,Jackeline, Giulyana, Girlene, Cláudio, Larissa}.

Conjunto de possibilidades favoráveis (Funcionários dosexo masculino que correspondem a um evento*): {Carlos,Cláudio}.

Qual a probabilidade de escolher um funcionário ao acaso eele ser do sexo masculino? (Sugestão: verificar o número defuncionários do sexo masculino).

Dados três eventos, A (funcionário ser do sexo feminino) e B

(seu nome começa com a letra G) e C (seu nome começa com a letra

C) dos funcionários do setor de marketing apresentado anteriormente:

A Æ B é o evento em que A e B ocorrem simultaneamente:{Giulyana, Girlene}.

A Ç C é o evento em que A ocorre ou C ocorre (ou ambos):{Carlos, Jackeline, Giulyana, Girlene, Cláudio, Larissa}.

A é o evento em que A não ocorre (complementar de A):{Carlos, Claudio}.

Dois eventos são considerados mutuamente exclusivos, se a

ocorrência de um exclui a ocorrência do outro.

Você pode, então, definir a probabilidade como uma função que

atribui um número real aos eventos de W (se A é um evento de W,

P(A) é a probabilidade de A), que satisfaz:

1. P(Å) = 0, P(W) = 1

GLOSSÁRIO*Evento – qualquersubconjunto de umespaço amostral.

Page 31: estatisca

43

2. 0 ¢ P(A) ¢ 1

3. Regra da soma: dados dois eventos mutuamente exclusi-vos A e C de W,

P(AÇC) = P(A) + P(C)

O símbolo Å corresponde à ocorrência de um evento impos-sível, ou seja, que não pode ocorrer no espaço amostral con-siderado.

OBS: Caso os eventos não sejam mutuamente exclusivos, na

regra da soma, devemos considerar que a intersecção será contada duas

vezes. Então, devemos retirar na regra da soma a intersecção.

P(AÇB) = P(A) + P(B) – P(AÆB)

Considerando os eventos A, B e C definidos anteriormente, cal-

cule as probabilidades mencionadas na página anterior para fixação

dos conceitos.

Para inserirmos outros conceitos de probabilidade, você deve

considerar os dados a seguir referentes ao acesso e cadastro em dois

sites, por pessoas em uma determinada região. O site 1 segue o padrão

normal, enquanto o site 2 corresponde a uma nova proposta de apre-

sentação de informações.

Site 1

Site 2

Total

Acessa e cadastra

no site

39.577

46.304

85.881

Total

48.249

53.601

101.850

Acessa e não

cadastra no site

8.672

7.297

15.969

Um acesso a um dos sites é escolhido ao acaso. Podemos consi-

derar, então, que o nosso espaço amostral (W) corresponderá ao con-

junto de 101.850 acessos.

Há os seguintes eventos de interesse:

S1 = número de acessos feitos no site 1.

Page 32: estatisca

44

S2 = número de acessos feitos no site 2.

AC = o site é acessado, e o cadastro é feito pelo internauta.

S1 Æ AC = o internauta acessa o site 1 e faz o cadastro no site.

S1Ç AC = o internauta acessa o site 1 ou faz o cadastro no site.

Você pode obter, então, algumas probabilidades como:

S2 = 1S Ý P(S2) = 527,0473,01)1P(1)1P( =-=-= SS

P(S1 Ç AC) = P(S1) + P(AC) – P(S1 Æ AC)

= 0,473 + 0,843 – 0,388

= 0,928

Se você relembrar a interpretação da probabilidade, consideran-

do A um evento de um espaço amostral associado a um experimento

aleatório, você pode ter duas formas de atribuir probabilidades aos

eventos de um espaço amostral:

P{A} é uma intuição (subjetiva) que se deposita na ocorrên-cia de A.

Interpretação freqüêntista (objetiva).

Quando n cresce: fn(A) se aproxima da P(A), por isso foram rea-

lizadas n repetições independentes do experimento.

No exemplo anterior, se você souber que um acesso sorteado é do

site 1, qual é a probabilidade de que ocorra a efetuação do cadastro?

Page 33: estatisca

45

Temos uma informação parcial: o acesso é do site 1.

Vamos designar a probabilidade de AC, quando se sabe que o

acesso ocorreu no site 1, que chamaremos de P(AC /S1) e denominá-

la probabilidade (condicional) de AC dado S1 (lembre-se que o

símbolo / não corresponde a uma divisão).

É natural atribuirmos:

Note que:

Portanto, você pode generalizar para dois eventos A e B quais-

quer de um experimento aleatório. Desta forma, podemos dizer que a

probabilidade condicional de A dado B (nota-se por P (A / B)) é defi-

nida como:

Podemos, então, definir a regra do produto, ou seja, a partir da

probabilidade condicionada definida anteriormente, obteremos a cha-

mada regra do produto para a probabilidade da interseção de dois even-

tos A e B de um espaço amostral:

Passe a probabilidade de ocorrência de B na probabilidadecondicionada e multiplique pela probabilidade de ocorrên-cia de A sabendo que B já aconteceu.

Page 34: estatisca

46

P (A Æ B) = P (A / B) . P (B)

Se dois eventos A e B são independentes, então P{A / B} = P{A}

ou P{B / A} = P(B).

Deste modo, se A e B forem independentes, você pode verificar que:

Veja esta outra situação, utilizando os conceitos de probabilida-

de condicionada e independência de eventos. Considere a tabela a se-

guir, representativa da distribuição da renda anual de produtores ru-

rais e duas cooperativas em uma determinada região.

Observando-se os dados acima, se verifica que a probabilidade

de um cooperado aleatoriamente escolhido ser:

a) da cooperativa A: P(A) = 115/200 = 0,575

b) da cooperativa B: P(B) = 85/200 = 0,425

c) de ter renda entre R$ 15.000,00 e R$ 20.000,00:P(R1) = 110/200 = 0,550

d) da cooperativa B e ter renda entre R$ 15.000,00 eR$ 20.000,00: P(B Æ R1) = 40/200 = 0,20

e) ter renda entre R$ 15.000,00 e R$ 20.000,00 dado que éda cooperativa B: P(R1/B) = 40/85 = 0,4706 ou

Faixa de renda anual (em R$1.000)

15 a 20 (R1)

20 a 25 (R2)

25 a 30 (R3)

30 a 35 (R4)

Total

A

70

15

10

20

115

B

40

15

20

10

85

Total

110

30

30

30

200

Cooperativas

Page 35: estatisca

47

Para que sejam consi-

derados independen-

tes, a relação de

independência deve

ser válida para todas

as intersecções presen-

tes na Tabela 11.

Como P(R1) ¸ P(R1/B), conclui-se que os eventos cooperativa

e renda são dependentes.

Um exemplo de aplicação dos conceitos de independência de

eventos pode ser visualizado por meio do lançamento de uma moeda

não viciada (não existe preferência para cara ou coroa) três vezes.

Considere os seguintes eventos:

A = no primeiro lançamento da moeda, sai cara, e

B = no segundo lançamento da moeda, sai cara.

Obs: considere C = cara e R = coroa

Verifique se é verdadeira a hipótese de que os eventos A e B são

independentes. O espaço amostral e os eventos são apresentados a

seguir:

W = {CCC, CCR, CRC, CRR, RCC, RCR, RRC, RRR}

(A) = {CCC, CCR, CRC, CRR}

(B) = {CCC, CCR, RCC, RCR}

Os resultados que estão em negrito ocorrem no espaçoamostral (8) somente duas vezes.

P(A Æ B) = 2/8 = 1/4

P (A) = 4/8 = 1/2

P (B) = 4/8 = 1/2

Portanto,

P(A Æ B) = P (A) . P(B) => 1/4 = 1/2 . 1/2 ou

P (A / B) = P (A) => 1/2 = 1/2

Page 36: estatisca

48

Então, provamos que os eventos são independentes.

Vamos resolver alguns exercícios relacionados aos concei-

tos de probabilidade vistos anteriormente. (Os resultados

estão no final do livro.)

Exercício 1: as probabilidades de três vendedores, A, B e C,

que trabalham independentemente, efetivarem uma venda quando abor-

dam um cliente são 2/3, 4/5 e 7/10, respectivamente. Se cada um abor-

dar um cliente, qual a probabilidade de que pelo menos um efetive a

venda?

Exercício 2: A e B são dois mestres que já estão suficientemen-

te treinados em partidas de xadrez e jogam 120 partidas, das quais A

ganha 60, B ganha 40, e 20 terminam empatadas. A e B concordam

em jogar três partidas. Determinar a probabilidade de:

a) A ganhar todas as três partidas;

b) duas partidas terminarem empatadas; e

c) A e B ganharem alternadamente.

Exercício 3: num período de um mês, cem funcionários de uma

empresa que trabalha com resíduos nucleares, sofrendo de determina-

da doença, foram tratados. Informações sobre o método de tratamento

aplicado a cada funcionário e o resultado final obtido estão na tabela

abaixo:

A

24

24

12

B

16

16

8

Resultado

Tratamento

Cura total

Cura parcial

Morte

a) Sorteando-se aleatoriamente um desses funcionários, de-termine a probabilidade de que o funcionário escolhido:

Page 37: estatisca

49

a1) tenha sido submetido ao tratamento A;

a2) tenha sido totalmente curado;

a3) tenha sido submetido ao tratamento A e tenha sidoparcialmente curado; e

a4) tenha sido submetido ao tratamento A ou tenha sidoparcialmente curado.

Exercício 4: para selecionar seus funcionários, uma empresa ofe-

rece aos candidatos um curso de treinamento durante uma semana.

Ao final, eles são submetidos a uma prova, e 25% são classificados

como bons (B), 50%, como médios (M), e os demais 25%, como fra-

cos (F). Como medida de economia, o departamento de seleção pre-

tende substituir o treinamento por um teste contendo perguntas de co-

nhecimentos gerais e específicos. Mas, para isso, gostaria de conhecer

qual a probabilidade de um indivíduo aprovado no teste ser considera-

do fraco caso fizesse o teste. De acordo com os resultados, receberam

os conceitos: aprovado (A) ou reprovado (R). Sabendo que

P(A B) = 0,20; P(A M) = 0,25 e P(A F) = 0,05; encontrar P(A/F).

Variáveis aleatórias

Você pode definir uma variável aleatória como sendo uma fun-

ção que associa valores reais aos eventos de um espaço amostral, e

que pode ser discreta ou contínua.

Um exemplo de uma variável aleatória discreta (v.a) consiste

em verificar o número de ações que tiveram queda em um determina-

do dia, em uma carteira composta por cinco ações diferentes. A fun-

ção será dada por:

X= “número de ações que tiveram queda em um determinado

dia”. Define uma variável aleatória discreta, que pode assumir os va-

lores 0, 1, 2, 3, 4, 5.

Page 38: estatisca

50

Vamos considerar agora uma situação na qual se verificou o tem-

po gasto por um vendedor para convencer um cliente a adquirir um

determinado produto. A função será:

Y= “tempo gasto por um vendedor para convencer um cliente a

adquirir um determinado produto”. Define uma variável aleatória con-

tínua, que pode assumir infinitos valores.

Se uma variável aleatória X pode assumir os valores x1, x

2,..., x

n

com probabilidades respectivamente iguais a p1, p2,..., pn, e ,

tem-se definida uma distribuição de probabilidade.

É importante ressaltar que a variável aleatória tem notaçãode letra maiúscula, e seus possíveis valores, minúsculos, comoapresentado no parágrafo anterior.

Se a variável X em questão for discreta, sua distribuição é carac-

terizada por uma função de probabilidade (P(X=x)), que associa pro-

babilidades não nulas aos possíveis valores da variável aleatória.

Para o exemplo do número ações da carteira, as probabilidades

obtidas são mostradas na função de probabilidade que corresponde à

tabela abaixo.

X

P(X=x)

0

1/10

1

1/10

2

2/10

3

3/10

4

4/10

5

5/10 ä =1,00

Se a variável X for contínua, somente haverá interesse na proba-

bilidade de que a variável assuma valores dentro de determinados in-

tervalos, sendo sua distribuição de probabilidades caracterizada por

uma função densidade de probabilidade (f.d.p.), f(x), a qual deverá

possuir as seguintes propriedades:

f(x) ² 0;

Page 39: estatisca

51

A área compreendida entre os pontos a e b, da função f(x) eo eixo das abscissas, corresponde à probabilidade da variá-vel X assumir valores entre a e b.

Para o caso do tempo gasto para convencer um cliente a adquirir

um produto, podemos, por exemplo, ter a função abaixo, que corresponde

a uma distribuição normal que será vista posteriormente:

, que é a distribuição normal.

A função repartição ou distribuição acumulada, representada por

F(x), corresponde à probabilidade de a variável aleatória ser menor ou

igual a um determinado valor de x.

Se a variável for discreta, a distribuição acumulada será dada

por F(x) = P(X ¢ x), ou seja, você deve somar todas as probabilidades

que se tem abaixo de um determinado valor, inclusive este.

Já no caso de uma variável contínua, o F(x) será dado pela área

que vai de -¤ até o ponto x a ser considerado. Portanto, teremos:

Integral de -¤ até o ponto x (visto no módulo de Matemática).

Agora, você vai ver um exemplo de utilização destes conceitos.

Seja a seguinte variável aleatória contínua, definida pela função

densidade de probabilidade (f.d.p):

Page 40: estatisca

52

a) Obtenha o valor de k.

Como f(x) é uma fdp:

O resultado encontrado corresponde à inclinação da reta,ou seja, o quanto que a função aumenta, quando a variável xé acrescida de uma unidade.

b) calcular F(1).

F(1) = P(X 1) =

Para o estudo de variáveis aleatórias, até este ponto, considerou-

se que o resultado do experimento em questão seria registrado como

um único valor x. Todavia, existem casos em que há interesse por dois

resultados simultâneos, como por exemplo, observar o peso e altura

graficamente, tem-se:

Page 41: estatisca

53

de uma pessoa, o sexo e desempenho no trabalho, etc. Para tanto, faz-

se necessária a seguinte definição:

Sejam E um experimento aleatório, e S o espaço amostralassociado a E.

Sejam X e Y duas variáveis aleatórias. Então, (X,Y) defineuma variável aleatória bidimensional, que pode ser discre-ta, contínua ou mista.

O principal objetivo da análise de variáveis aleatórias

bidimensionais é avaliar simultaneamente dois resultados de uma situ-

ação associando as probabilidades individuais e conjuntas.

Vamos, então, definir probabilidades ou distribuições conjuntas

e marginais.

A distribuição conjunta é a distribuição simultânea das duas va-

riáveis, ou seja, a intersecção das variáveis e as distribuições margi-

nais são as distribuições isoladas de cada variável. Estas distribuições

são assim chamadas por ocuparem, em uma tabela, a parte central e as

margens das tabelas, respectivamente. Você pode visualizar este fato

na tabela apresentada na página seguinte.

Se (X,Y) é uma variável aleatória bidimensional discreta, sua

função de probabilidade, representada por P(X = xi ;Y = y

i) que asso-

cia um valor p(xi, y

i) a cada valor do par (X,Y), deve satisfazer as

seguintes condições:

P(xi, yi) = 0

Veja a seguinte situação: uma pesquisa foi realizada para verifi-

car a existência de relação entre a utilização de um produto (baixa,

média ou alta) e o grau de instrução das pessoas (Fundamental, Médio

e Superior). Como os resultados associam duas variáveis, então temos

uma distribuição de probabilidade de variáveis aleatórias

bidimensionais. No resultado encontrado (mostrado a seguir), temos

um quadro chamada de contingência.

Page 42: estatisca

54

Vamos, então, calcular o quadro das probabilidades (dividindo

cada valor por 1.000 que é o tamanho da amostra utilizada.

Resolva agora estes dois exercícios e, caso tenha dúvida, releia o

texto relativo a variáveis aleatórias (os resultados estão no final do livro).

Exercício 5: uma empresa tem quatro caminhões de aluguel.

Sabendo-se que o aluguel é feito por dia e que a distribuição diária do

número de caminhões alugado é a seguinte, determine:

Alta

Média

Baixa

Total

Superior

65

20

15

100

Total

285

470

245

1000

Médio

120

100

80

300

Fundamental

100

350

150

600

InstruçãoUtilização

Alta

Média

Baixa

Total

Superior

0.065

0.020

0.015

0.100

Total

0.285

0.470

0.245

1.000

Médio

0.120

0.100

0.080

0.300

Fundamental

0.100

0.350

0.150

0.600

InstruçãoUtilização

Distribuição Marginaldo Grau de Instrução.

Distribuição Conjun-ta do Grau de Ins-trução e Utilização.

DistribuiçãoMarginal daUtilização.

a) Qual é a probabilidade de alugar num dia mais de doiscaminhões?

b) Qual é a probabilidade de alugar no mínimo um cami-nhão?

Nº de caminhões alugados / dia

Probabilidade de alugar

0

0,1

1

0,2

2

0,3

3

0,3

4

0,1

Page 43: estatisca

55

c) Qual a probabilidade de alugar no máximo dois caminhões?

d) Determine a função de distribuição acumulada.

e) Qual o valor de F(3)? O que significa este resultado?

Exercício 6: a proporção de álcool em um certo composto pode

ser considerada uma variável aleatória com a seguinte função de den-

sidade:

Calcule a probabilidade da proporção de álcool neste composto

entre 0,20 e 0,25.

Distribuições de variáveis aleatórias discretas

Distribuição Uniforme Discreta

Enquadram-se aqui as distribuições em que os possíveis valores

da variável aleatória tenham todos a mesma probabilidade de ocorrên-

cia. Logo, se existem n valores possíveis, cada um terá probabilidade

igual a 1/n.

Ex. Seja o lançamento de um dado e a variável aleatória X =

“face superior do dado”,

tem-se que:

ou P(X=x) = 1/6

Desta forma, você pode verificar que esta variável segue uma

distribuição uniforme discreta, pois a variável é discreta, e todos os pos-

síveis resultados da variável aleatória têm a mesma probabilidade (1/6).

X

P(X=x)

1

1/6

2

1/6

3

1/6

4

1/6

5

1/6

6

1/6 ä = 1

Page 44: estatisca

56

Está relacionado com

o objetivo do trabalho

a ser realizado.

Distribuição de Bernoulli

Imagine uma situação na qual só podem ocorrer dois possíveis

resultados, “sucesso” e “fracasso”. Veja alguns exemplos:

uma venda é efetuada ou não em uma ligação de call center;

um cliente pode ser adimplente ou inadimplente;

uma peça produzida por uma cia. pode ser perfeita ou defei-tuosa; e

um consumidor que entra numa loja pode comprar ou nãocomprar um produto.

Associando-se uma variável aleatória X aos possíveis resulta-

dos do experimento, de forma que:

X= 1 se o resultado for “sucesso”,

X= 0 se o resultado for “fracasso”.

Então, a variável aleatória X, assim definida, tem distribuição

Bernoulli, com p sendo a probabilidade de ocorrer “sucesso”, e

q = (1-p) a probabilidade de ocorrer “fracasso”.

A função de probabilidade da Distribuição de Bernoulli é dada

por:

A média e a variância serão obtidas por:

Média = p

Variância = pq

Contextualizando a distribuição de Bernoulli, temos a seguinte

situação: a experiência tem mostrado que, durante as vendas de Natal,

um cliente que entra em uma determinada loja tem 60% de chance de

comprar um produto qualquer. Temos, portanto, uma probabilidade

de sucesso (o cliente adquirir um produto qualquer) de 0,6 e uma

Page 45: estatisca

57

Pense, como exemplo

de forma didática no

lançamento de uma

moeda 50 vezes, e

veja se esta situação se

enquadra nas condi-

ções da distribuição

binomial.

probabilidade de não adquirir um produto de 0,4 (vem da diferença

q = 1-0,6).

Distribuição binomial

Para que uma situação possa se enquadrar em uma distribuição

binomial, deve atender às seguintes condições:

são realizadas n repetições (tentativas) independentes;

cada tentativa é uma prova de Bernoulli (só podem ocorrerdois possíveis resultados); e

a probabilidade p de sucesso em cada prova é constante.

Se uma situação atende a todas as condições acima, então a va-

riável aleatória X = número de sucessos obtidos nas n tentativas terá

uma distribuição binomial, com n tentativas e p (probabilidade de su-

cesso).

Simbolicamente, temos: X ~ B(n,p) com a interpretação dada a

seguir:

A variável aleatória x tem distribuição binomial com n en-saios e uma probabilidade p de sucesso. (em cada ensaio).

A função de probabilidade utilizada para cálculo de probabili-

dades, quando a situação se enquadra na distribuição binomial, será

dada por meio da seguinte expressão:

, onde n! corresponde ao fatorial de n.

p = probabilidade de “sucesso” em cada ensaio

q = 1-p = probabilidade de “fracasso” em cada ensaio

Page 46: estatisca

58

Como na binomial são

n ensaios de Bernoulli

e a distribuição tem

média p, a média da

binomial será np.

Raciocínio semelhante

é feito para a

variância.

Para exemplificar a utilização da distribuição binomial, você deve

considerar que pessoas entram em uma loja no período próximo ao

Dia das Mães. Sabe-se que a probabilidade de uma pessoa do sexo

masculino comprar um presente é de 1/3. Se entrarem quatro pessoas

do sexo masculino nesta loja, qual a probabilidade de que duas ve-

nham a comprar presentes?

Se as quatro pessoas entram na loja e duas delas compram, po-

demos colocar as possibilidades da seguinte forma (C compra e não-

C não compra). O espaço amostral associado ao experimento é:

C, C, não-C, não-C ou C, não-C, não-C, C ou C, não-C, C,não-C ou

não-C, não-C, C, C ou não-C, C, não-C, C ou não-C, C, C,não-C

Logo, calculando as probabilidades usando as regras do “e”

(multiplicação, pois são independentes) e do “ou” (soma), a probabi-

lidade de dois clientes do sexo masculino comprarem presentes é:

z

Agora, você deve calcular utilizando a função de probabilidade

apresentada anteriormente e verificar que o resultado será o mesmo.

Os valores da média e da variância da distribuição binomial são:

Média = np

Variância = npq

Um outro exemplo de utilização da distribuição binomial é o

seguinte. Em um determinado processo de fabricação, 10% das peças

Page 47: estatisca

59

produzidas são consideradas defeituosas. As peças são acondiciona-

das em caixas com cinco unidades cada uma. Considere que cada peça

tem a mesma probabilidade de ser defeituosa (como se houvesse repe-

tição no experimento de retirar uma peça).

a) Qual a probabilidade de haver exatamente três peças de-feituosas numa caixa?

P = 0,1 n = 5

b) Qual a probabilidade de haver duas ou mais peças defei-tuosas em uma caixa?

c) Qual a probabilidade de uma caixa não apresentar nenhu-ma peça defeituosa?

d) Supondo que a empresa pague uma multa de R$ 10,00por caixa que apresente peças defeituosas, qual o valor espe-rado desta multa em um lote de 1.000 caixas?

P(uma caixa ter peça defeituosa) = 1- P(X=0) = 0,4095

Temos, então, uma nova variável aleatória (número de caixas

com peças defeituosas), a qual chamaremos de Y em um lote de 1.000

caixas, que segue uma distribuição binomial com n=1.000 e p=0,4095.

E(Y) = np = 1000.0,4095 = 409,5 caixas.

Multa Esperada = 409,5 . R$ 10,00 = R$ 4.095,00

Distribuição de Poisson

Você pode empregar a distribuição de Poisson em situações nas

quais não está interessado no número de sucessos obtidos em n tenta-

tivas, como ocorre no caso da distribuição binomial, entretanto este

número de sucessos deve estar dentro de um intervalo contínuo, ou

seja, o número de sucessos ocorridos durante um intervalo contí-

nuo, que pode ser um intervalo de tempo, espaço, etc. Imagine que

você queira estudar o número de suicídios ocorridos em uma cidade

durante um ano ou o número de acidentes automobilísticos ocorridos

numa rodovia em um mês, ou o número de defeitos encontrados em

Page 48: estatisca

60

Como o intervalo em

que se deseja calcular

a probabilidade é um

dia, então, o l será

igual a 3.

um rolo de arame ovalado de 500 m. Estas situações são exemplos

que se enquadram na distribuição de Poisson.

Note que, nos exemplos acima, não há como você determinar a

probabilidade de ocorrência de um sucesso, mas sim a freqüência média

de sua ocorrência, como por exemplo, dois suicídios por ano, que de-

nominaremos l.

Em uma situação com estas características, a variável aleatória

X = número de sucessos em um intervalo contínuo terá uma distribui-

ção Poisson, com (freqüência média de sucesso). Simbolicamente,

podemos utilizar a notação X ~ P(l).

A variável aleatória x tem uma distribuição de Poisson comuma freqüência média de sucesso l.

A função de probabilidade da distribuição de Poisson será dada

por meio da seguinte expressão:

Onde e =2,7182 (base dos logaritmos neperianos) e l corresponde

à freqüência média de sucesso no intervalo contínuo em que se deseja

calcular a probabilidade.

Vamos considerar que o Corpo de Bombeiros de uma determi-

nada cidade recebe, em média, três chamadas por dia. Queremos sa-

ber, então, qual a probabilidade de do Corpo de Bombeiros receber:

a) quatro chamadas num dia:

X~P(3)

b) nenhuma chamada em um dia:

Page 49: estatisca

61

Como o intervalo

desejado é uma sema-

na, ou seja, sete dias,

então, em uma semana

a freqüência média de

chamadas será de sete

dias vezes 3 chama-

das/dia.

c) 20 chamadas em uma semana:

l = 21 chamadas por semana

Uma característica da distribuição de Poisson é que as estatísti-

cas da distribuição (média e variância) apresentam o mesmo valor, ou

seja, são iguais a l. Então, teremos:

Média = Variância = l

Vamos fazer alguns exercícios relativos à distribuição

binomial e de Poisson.

Exercício 7: no Brasil, a proporção de microempresas que fe-

cham em até um ano é de 10%. Em uma amostra aleatória de 20

microempresas, qual a probabilidade de cinco terem fechado em até

um ano de criação?

R: P(X = 5) = = 0,03192

Exercício 8: entre 2.000 famílias de baixa renda, com quatro

crianças e considerando que a chance de nascer uma criança do sexo

masculino é igual à do sexo feminino, em quantas famílias se espera-

ria que tivessem:

n = 4 e p = ½

a) dois meninos? R: P(x=2) . 2.000 = 0,3750 . 2.000 = 750famílias.

b) Um ou dois meninos? R: [P(1) + P(2)] . 2.000 = (0,25 +0,375) . 2.000 = 1.250 famílias.

c) Nenhum menino? R: P(0) . 2.000 = 0,0625 . 2.000 = 125famílias.

Page 50: estatisca

62

Exercício 9: a probabilidade de compra de um aparelho de celu-

lar é igual a 30%. Observando oito compradores, qual a probabilidade

de quatro deles comprarem este aparelho?

R: P(X = 4) = = 0,13614

Exercício 10: chegam caminhões a um depósito à razão de 2,8

caminhões/hora, segundo uma distribuição de Poisson. Determine a

probabilidade de chegarem dois ou mais caminhões:

a) num período de 30 minutos;

b) num período de 1 hora; e

c) num período de 2 horas.

R: 1- [P(0) + P(1)]

a) l = 1,4 R= 0,40817

b) l = 2,8 R=0,76892

c) l = 5,6 R=0,97559