apostila

66
FUNDAÇÃO UNIVERSIDADE FEDERAL DO RIO GRANDE DEPARTAMENTO DE MATEMÁTICA ESPECIALIZAÇÃO EM AGENTES INFECTO-PARASITÁRIOS BIOESTATÍSTICA Profa. Ana Maria V. Azambuja da Silva

Upload: gislene-gomes

Post on 12-Jan-2016

285 views

Category:

Documents


54 download

DESCRIPTION

Apostila

TRANSCRIPT

Page 1: Apostila

FUNDAÇÃO UNIVERSIDADE FEDERAL DO RIO GRANDE

DEPARTAMENTO DE MATEMÁTICA

ESPECIALIZAÇÃO EM AGENTES INFECTO-PARASITÁRIOS

BIOESTATÍSTICA

Profa. Ana Maria V. Azambuja da Silva

2009

1. CONCEITOS BÁSICOS DE ESTATÍSTICA

Page 2: Apostila

Estatística: é uma parte da Matemática Aplicada que fornece métodos para a coleta, organização, descrição, análise e interpretação de dados e para utilização dos mesmos na tomada de decisões (CRESPO, 1993).

A Estatística divide-se em:

Estatística Descritiva: Coleta, organização e descrição dos dados; Estatística Indutiva (ou Inferência Estatística): Análise e Interpretação dos dados.

Fases do Método Estatístico

a) Definição do Problema: saber o que se quer pesquisar;b) Planejamento: procedimento necessário para desenvolver a pesquisa; c) Coleta de Dados: refere-se à obtenção, reunião e registro sistemático de dados,

com um objetivo determinado. A coleta de dados estatísticos pode ser direta (obtida diretamente da fonte) ou indireta (os dados obtidos de outras fontes de informação);

d) Apuração dos Dados: resumo dos dados, através de sua contagem ou agrupamento;

e) Apresentação dos Dados: pode ser através de tabelas ou gráficos;f) Análise e Interpretação dos Dados: tira-se conclusões que auxiliem na resolução

do problema.

População: Conjunto de elementos que têm, em comum, pelo menos uma característica. As populações podem ser finitas (ex.: n° de camarões dentro de um tanque, n° de uma espécie de animais dentro de uma reserva, n° de habitantes em um município) ou infinitas (exs.: n° de pesagens que podem ser feitas em um animal, n° de exames que podem ser feitos em um paciente).

Amostra: Todo subconjunto não vazio e com menor número de elementos do que o conjunto definido como população.

Variável: Variável é, convencionalmente, o conjunto de resultados possíveis de um fenômeno. Exs.: sexo, idade, altura. Uma variável pode ser classificada em:

Variável Qualitativa: apresenta como possível resultado uma qualidade ou atributo do ente pesquisado. Exs.: espécies de uma determinada planta, classificar indivíduos como: magros, dentro do peso, gordos.

Variável Quantitativa: quando é mensurável, isto é, quando é expressa numericamente. As variáveis quantitativas ainda podem ser classificadas como:

- Contínuas: pode assumir, teoricamente, qualquer valor num certo intervalo de medida, podendo ser associadas ao conjunto dos números reais. Exs.: medidas de tempo, comprimento, espessura, área, volume, peso e velocidade.

- Discretas: quando uma variável só pode assumir valores pertencentes a um conjunto enumerável. Em geral, representam inteiros resultantes do processo de contagem. Exs.:

2

Page 3: Apostila

n° de plantas dentro de uma estufa, número de animais de determinada espécie em uma área, n° de pacientes atendidos em um posto de saúde, n° de exames realizados por um laboratório.

De modo geral, as medições dão origem a variáveis contínuas e as contagens ou enumerações, às variáveis discretas.

As variáveis ainda podem se apresentar nas seguintes escalas:

- Nominal: é caracterizado por dados que consistem apenas em nomes, rótulos ou categorias. Exs.: espécies de formigas que habitam determinado ambiente, tipos sanguíneos, presença ou ausência de fatores de risco, portador ou não de determinada enfermidade, fumante ou não, etnia, naturalidade, sexo, faixa etária, etc.

Operações admissíveis: contagens de freqüência, moda, teste do 2, distribuição binomial. “Esses dados não podem ser utilizados em cálculos como média”.

- Ordinal (por Postos): os dados podem ser dispostos em alguma ordem, mas as diferenças entre os valores dos dados não podem ser determinadas ou não têm sentido. Exs.: avaliação clínica: ótima, boa, regular, ruim, níveis de infestação por protozoários: alto, médio ou baixo, grau de instrução, fumante: não fuma, fuma pouco, fuma moderadamente, fuma muito; classe social: A, B, C, D e E, carcinoma cervical: 0 – in situ (melhor) a 4 – além dos limites da pelve ou envolve a mucosa vesical e o reto (pior), artrite reumatóide: classe 1 – normal a classe 4 – restrição à cadeira de rodas, índice de Apgar: 0 – 10 (as diferenças entre os índices 8 e 9 não tem a mesma importância que a diferença entre os índices 0 e 1, índices múltiplos que determinam um índice total (risco de complicações cardíacas em procedimentos cirúrgicos – índice de Goldman)

Operações admissíveis: mediana. “Esses dados não podem ser utilizados em cálculos como média e desvio padrão”.

- Intervalar: é análogo ao nível ordinal, todavia se podem determinar diferenças significativas entre os dados. Contudo o zero não significa que não há quantidade presente. Por exemplo, podem-se determinar diferenças entre as temperaturas (distância entre os dois valores); contudo, o valor zero não representa ausência de temperatura. Exs.: temperaturas, anos (zero é arbitrário).

Operações admissíveis: média, desvio-padrão, correlações, teste “t”, teste “F”, etc.

- Razão: é o nível de intervalo modificado de modo a incluir o ponto de partida zero inerente (onde zero significa nenhuma quantidade presente). Para valores nesse nível, tanto as diferenças como as razões têm significado. Exs.: peso de um animal, idade, altura de uma planta, área de uma lesão, tempo de sobrevida, glicemia, ácido úrico, etc.

Operações admissíveis: qualquer prova estatística. Além daquelas já mencionadas em escalas intervalares, pode-se calcular média geométrica e coeficiente de variação (estatísticas que exigem o conhecimento do ponto zero verdadeiro).

3

Page 4: Apostila

2. TABELAS

Tabela é um quadro que resume um conjunto de observações. Uma tabela compõe-se de:

Ex.: Número de Aves que migraram de uma região para outra, nos meses de outubro, novembro e dezembro em 2003

Meses N° de Aves que migraram de uma região para outra

OutubroNovembroDezembro

235347509

FONTE: Fictícia

A Tabela pode ser composta por variáveis qualitativas ou quantitativas.

Tabelas com Variáveis Qualitativas

Exs.: Nº de recém-nascidos por sexo em uma amostra de 1.000 prontuários de uma Maternidade

Sexo Nº de Recém-nascidosFemininoMasculino

497503

Total 1000 FONTE: Maternidade do Hospital X

4

CORPO

RODAPÉ

COLUNA NUMÉRICA

LINHAS

TÍTULO

CABEÇALHO

Corpo

Page 5: Apostila

Site: http://www.abep.nepo.unicamp.br

FONTE: http://www.imes.edu.br/revistasacademicas/caderno/caderno_sau02.pdf

Tabelas com Variáveis Quantitativas

Um conjunto de dados referentes a uma variável quantitativa pode se apresentar na forma bruta, em rol ou em tabelas de freqüências.

a) Dados Brutos: quando os dados originais (coletados) ainda não se encontram prontos para análise, por não estarem numericamente organizados.

Ex.: Peso (em kg) de recém-nascidos

1,8 3,6 1,8 2,7 3,6 2,7 3,2 3,2 3,2 3,6 4,5 4,1 3,22,7 4,5 3,6 2,3 4,1 2,7 1,5 3,2 2,7 1,8 3,2 2,7 4,13,2 1,8 3,2 2,7 3,6 3,6 4,1 5,0 3,6 3,2 4,5 3,6 2,33,2 3,2 2,7 2,3 4,5 3,6 4,1 3,2 2,3 2,7 2,3

FONTE: Díaz e López (2007) – Bioestatística

b) Rol: é uma lista em que os valores estão dispostos em uma determinada ordem, crescente ou decrescente,

Ex.:Peso (em kg) de recém-nascidos

1,5 1,8 1,8 1,8 1,8 2,3 2,3 2,3 2,3 2,3 2,7 2,72,7 2,7 2,7 2,7 2,7 2,7 2,7 3,2 3,2 3,2 3,2 3,23,2 3,2 3,2 3,2 3,2 3,2 3,2 3,6 3,6 3,6 3,6 3,63,6 3,6 3,6 3,6 4,1 4,1 4,1 4,1 4,1 4,5 4,5 4,5

4,5 5,0

FONTE: Díaz e López (2007) – Bioestatística

5

Page 6: Apostila

c) Tabelas de Freqüências: são representações nas quais os valores se apresentam em correspondência com suas repetições, evitando-se, assim, que eles apareçam mais de uma vez na tabela, como ocorre com o rol. Pode-se ter tabelas para:

- Dados Não-agrupados ou Não-tabulados em Classes: este tipo de tabela não é aconselhável quando estamos trabalhando com amostragens grandes, pois pode ficar muito extensa, dificultando, além de sua elaboração, as análises e conclusões dos dados pesquisados. Contudo, neste de tipo de tabela não há perda de informação.

Exs.: Peso (em kg) de recém-nascidos

Peso (kg) Freqüência1,51,82,32,73,23,64,14,55,0

1459

129541

50

FONTE: Díaz e López (2007) – Bioestatística

Distribuição do Número de Filhos por Mãe entrevistada no ambulatório de Pediatria de julho 2002 a abril de 2004

Nº de Filhos Freqüência012345

221011221

Total 48FONTE: Trabalho de Conclusão no Curso de Medicina de Bárbara Falcone Universidade Federal de Santa Catarina – 2005

Número de Nascimentos por dia na Pediatria de um Hospital no mês de janeiro de 2007Nº de Nascimentos/dia Freqüência

012345

3108541

Total 31

6

Page 7: Apostila

FONTE: Fictícia

- Dados Agrupados ou Tabulados em Classes: ao se agrupar os valores das variáveis em classes, se ganha em simplicidade, mas se perde em detalhes. Neste tipo de tabela é realçado o que há de essencial nos dados.

Exs.:Peso (em kg) de recém-nascidos

Peso (kg) Freqüência1,5 2,02,0 2,52,5 3,03,0 3,53,5 4,04,0 4,54,5 5,0

559

12955

50

FONTE: Díaz e López (2007) – Bioestatística

Nascidos Vivos segundo o peso ao nascer (em Kg)Classe Freqüência

1,5 2,02,0 2,52,5 3,03,0 3,53,5 4,04,0 4,54,5 5,0

31631341141

Total 100 FONTE: Introdução à Bioestatística – Sônia Vieira

Mulheres com 30 anos segundo a pressão sanguínea sistólicaClasse Freqüência

85 100100 105105 110110 115115 120120 125125 130130 135135 140140 145145 150

6111217181196442

Total 100

7

Page 8: Apostila

FONTE: Introdução à Bioestatística – Sônia VieiraExercícios:

1. De acordo com o IBGE (1988), a distribuição de suicídios ocorridos no Brasil em 1986, segundo a causa atribuída, foi a seguinte: 263 por alcoolismo, 198 por dificuldade financeira, 700 por doença mental, 189 por outro tipo de doença, 416 por desilusão amorosa e 217 por outras causas. Apresente essa distribuição em uma tabela.

2. Construa uma tabela de Distribuição de Freqüências para apresentar os dados da tabela abaixo, usando intervalos de classe iguais.

Tempo de Internação, em dias, de pacientes acidentados no trabalho em um dado hospital

7124

1021

81215876

1329

144

717148

127

13435

107

62538

11

3. REPRESENTAÇÃO GRÁFICA

O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as tabelas.

Os principais tipos de gráficos são os diagramas, os cartogramas e os pictogramas.

3.1.DIAGRAMAS

3.1.1. Gráficos em Barras

Os gráficos em barras têm por finalidade comparar grandezas, por meio de retângulos de igual largura e alturas proporcionais às respectivas grandezas.

Ex.:Incidência de doenças infecto-contagiosas no Estado de São Paulo, 1998

Doenças N° de casosTétano

PneumoniaTuberculose

HepatiteLeptospirose

29.00022.00019.00012.00010.000

FONTE: Secretaria de Saúde – SP (Bioestatística – Pedro C. 8

Page 9: Apostila

Rodrigues)

Incidência de doenças infecto-contagiosas no Estado de São Paulo, 1998

0 5000 10000 15000 20000 25000 30000 35000

Tétano

Pneumonia

Tuberculose

Hepatite

Leptospirose

Do

ença

s

Nº de casos

FONTE: Secretaria de Saúde – SP (Bioestatística – Pedro C. Rodrigues)

“Num gráfico é indispensável o título e a fonte”

3.1.2. Gráficos em Colunas

Os gráficos em colunas ou gráficos em barras verticais prestam-se à mesma finalidade que os gráficos em barras horizontais, sendo, entretanto, preferíveis a esses últimos quando as legendas a se inscreverem sob os retângulos forem breves.

Sempre que os dizeres a serem inscritos são extensos, devemos dar preferência ao gráfico de barras. Porém, se ainda assim preferirmos o gráfico em colunas, os dizeres deverão ser dispostos de baixo para cima.

Os gráficos em colunas prestam-se em especial a dados relacionados com séries temporais. Sendo assim, as colunas deverão estar dispostas em ordem cronológica.

Ex.:

Produção leiteira (milhares de litros) do município de Cordeiro – RJ, no segundo semestre de 1996

Meses Litros (milhares)Julho

AgostoSetembroOutubro

NovembroDezembro

125135145160170150

9

Page 10: Apostila

FONTE: Disciplina de Bioestatística – F.V. – UFF

Produção leiteira (milhares de litros) do município de Cordeiro – RJ, no segundo semestre de 1996

0

20

40

60

80

100

120

140

160

180

Julho Agosto Setembro Outubro Novembro Dezembro

Meses

Lit

ros

(milh

ares

)

FONTE: Disciplina de Bioestatística – F.V. – UFF

FONTE: http://www.imes.edu.br/revistasacademicas/caderno/caderno_sau02.pdf

10

Page 11: Apostila

3.FONTE: http://www.publicacoesacademicas.uniceub.br/index.php/cienciasaude/article/viewFile/9/38

3.1.3. Gráfico em Linha ou em Curva

Gráfico usado principalmente quando um dos fatores é o tempo. Marcam-se os pontos correspondentes e unem-se os mesmos por meio de um traço contínuo.

As linhas são particularmente mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico.

Ex.:

11

Page 12: Apostila

FONTE: http://www.campinas.sp.gov.br/saude/vigilancia/series_hist/doenca_meningo/grafico_doen_meningo.htm

3.1.4. Gráficos em Setores

Os gráficos em setores são usados para representar valores absolutos ou porcentagens complementares. Também é conhecido como gráfico circular. Tem por finalidade comparar a parte com o todo. O total é representado pelo círculo que fica dividido em tantos setores quantas são as partes.

Para construí-lo, parte-se do fato de que o número total de graus de um arco de circunferência é 360°. Assim, o número total de valores analisados corresponderá a 360°. Cada uma das parcelas componentes do total dos valores será, então, expressa em graus, e a correspondência é feita através de uma regra de três simples.

Com o auxílio do transferidor, faz-se a marcação dos ângulos correspondentes às quantidades, partindo de um ponto qualquer da circunferência e seguindo o sentido horário.

12

Page 13: Apostila

Ex.:

Fonte: Anuário Estatístico do Brasil, IBGE, 1995

A legenda poderia ser evitada inscrevendo-se no interior de cada setor a porcentagem ou a quantidade correspondente de cada um.

O gráfico em setores só deve ser empregado quando há, no máximo, sete dados.

3.2. Cartograma

O cartograma é a representação sobre uma carta geográfica.Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos

diretamente relacionados com áreas geográficas ou políticas.

População residente no Brasil segundo a situação do domicílio

urbanorural

22%

78%

13

Page 14: Apostila

Ex.:

FONTE: http://164.41.105.58/farmacologiaclinica/bioestatisticafarmacoleila.pdf

3.3. Pictogramas

Ex.:

Pictograma:É a apresentação de uma série estatística por meio de símbolos representativos do f enômeno. O pictograma constitui um dos processos gráficos que melhor f ala ao público, pela sua forma ao mesmo tempo atraente e sugestiva. A representação gráfica consta de figuras.

Pictograma das frutas preferidas pelas pessoas

FONTE: www.cp.utfpr.edu.br/armando

14

Page 15: Apostila

3.4. Gráficos Representativos de Distribuição de Freqüências

A representação da distribuição de freqüências simples é feita através do histograma, da Poligonal Característica ou do Polígono de Freqüências.

3.4.1. Histogramas

O histograma é um gráfico formado por um conjunto de retângulos justapostos, representados em um sistema de coordenadas cartesianas, cujas bases são os intervalos de classe e cujas alturas são valores proporcionais às freqüências simples correspondentes.Ex.: Peso (em kg) de Recém-Nascidos

3.4.2. Poligonal Característica

É a representação do contorno do histograma.

Polígono de Freqüências

Constrói-se este gráfico unindo-se os pontos médios das bases superiores dos retângulos do histograma.

OBSERVAÇÕES

Os gráficos transmitem informações rápidas, mas imprecisas; as tabelas, valores precisos, mas de difícil compreensão. Assim, dependendo do que se quer retratar, às vezes é interessante se utilizar uma combinação entre tabelas e gráficos.

Um cuidado importante na confecção de um gráfico é a escala de medida. Dependendo da escala pode-se ter uma visão distorcida do problema que se quer representar.

4. MEDIDAS DE TENDÊNCIA CENTRAL

A Medida de Tendência Central representa ou resume todos os valores obtidos pelo grupo por um único valor, descrevendo o grupo como um todo. É um valor no centro ou no meio de um conjunto de dados. As principais medidas de tendência central são:

a) Média b) Modac) Mediana

15

Page 16: Apostila

4.1. Média Aritmética ( x )

x

x

n

ii

n

1 x - média aritmética simples;

xi - valores da variável;n - número de observações.

Propriedades da Média Aritmética:

1. Definido o conjunto de dados, a média aritmética é única;2. É uma medida sensível a todos os valores do conjunto dos dados; qualquer

mudança num deles modifica a média;3. A soma dos desvios dos valores individuais do conjunto em relação à média é

igual a zero, isto é: ;4. É uma medida que tende a se aproximar dos pontos de grande acúmulo de

valores. Porém é afetada por valores extremos.

4.2 Moda (Mo)

É o valor mais freqüente de um conjunto de dados. Esse conjunto pode ser:

- amodal: não apresenta uma moda, isto é, todos os valores da variável em estudo ocorreram com a mesma freqüência.

- plurimodal ou multimodal: quando houver mais de um valor predominante.

4.3 Mediana (Me)

Mediana é o valor central de um rol (valores colocados em ordem crescente ou decrescente), ou seja, é uma medida que divide este conjunto em duas partes iguais. É muito utilizada na análise de dados estatísticos, especialmente quando se atribui pouca importância aos valores extremos da variável.

Ordenam-se os valores de uma série. Se:

- o número de valores é ímpar, a mediana é o valor localizado exatamente no meio da lista. - o número de valores é par, a mediana é a média dos dois valores centrais.Usos da Mediana:

a) Quando se quer exatamente o valor que divide a metade da distribuição;b) Quando a distribuição tem resultados discrepantes e pairam dúvidas sobre sua

validade e correção.

Obs.1: a mediana depende da “posição” e não dos valores dos elementos na série ordenada. Em geral, dado um conjunto de valores, a média é a medida de posição central mais adequada, quando se supõe que estes valores tenham uma distribuição

16

Page 17: Apostila

razoavelmente simétrica, enquanto que a mediana surge como uma alternativa para representar a posição central em distribuições muito assimétricas. Muitas vezes se calculam ambas as medidas para avaliar a posição central sob dois enfoques diferentes, como também para se ter uma primeira avaliação sobre a assimetria da distribuição.

Obs.2: Das diferentes medidas de tendência central, a moda é a única que pode ser usada com dados em nível nominal de mensuração.

Exercícios:

1. Os valores abaixo se referem ao peso (gramas) de ratos, calcule o peso médio e a mediana.

76,2 81,5 50,0 47,5 63,5 65,1 63,2 64,5

2. Calcular a média aritmética, a mediana e a moda para os dados relativos à dosagem de hemoglobina verificada em 12 animais bovinos (mg):

15 14 13 11 13 14 13,5 12 16 14,5 12 9

3. Para uma amostra de 13 animais com cirrose hepática, foram constatados os seguintes valores de colinesterase sérica (mg). Determine a média aritmética, a mediana e a moda.

1,17 0,78 0,83 0,51 1,06 0,88 0,69 0,58 0,48 0,82 0,63 0,41 0,68

5. MEDIDAS DE DISPERSÃO

Quando a variabilidade em um conjunto de dados é muito grande, a média desse conjunto de dados terá um grau de confiabilidade tão pequeno que se torna insuficiente para descrevê-lo.

As medidas de dispersão permitem um conhecimento mais completo do fenômeno a ser analisado, mostrando o quanto estes valores estão afastados da média. Isso significa que elas informam sobre o grau de heterogeneidade do grupo. As medidas de dispersão podem ser:

- Medidas de Dispersão Absoluta- Medidas de Dispersão Relativa

17

Page 18: Apostila

5.1. Medidas de Dispersão Absoluta

5.1.1. Amplitude Total

É a diferença entre o maior e o menor dos valores de uma distribuição.

AT = Vmáx. - Vmín.

onde: Vmáx – maior valor de uma distribuição; Vmín – menor valor de uma distribuição.

É um índice bastante simples, porém, bastante grosseiro, porque se baseia nos dois valores extremos da escala que, geralmente, são menos freqüentes, ignorando totalmente a distribuição entre esses dois pontos. Ainda, não indica (nem permite verificar) se há concentração de dados em torno de algum ponto.

Utilizada: - Temperaturas diárias: mínima de 18°C e máxima de 28ºC- Tempo: verão - de 21/12 a 20/3- Dia: nascente: 5:58h; poente: 18:41h.

5.1.2. Variância

A Variância calcula o quadrado dos desvios em relação à média. Desvio em relação à média é a diferença entre cada dado e a média do conjunto.

População

Amostra

5.1.3. Desvio Padrão

É a raiz quadrada da Variância de um conjunto de dados.

- População ou – Amostra

5.2. Medidas de Dispersão Relativa

A dispersão relativa permite ainda comparar duas ou mais distribuições, mesmo que essas se refiram à diferentes fenômenos e sejam expressas em unidades de medidas distintas. As medidas de dispersão relativas resultam, em geral, de comparação

18

Page 19: Apostila

entre uma medida de dispersão absoluta e um promédio (média, mediana e outros) sendo seu resultado expresso em termos percentuais. Uma dessas medidas é o coeficiente de variação.

5.2.1. Coeficiente de Variação (CV)

É uma medida de dispersão relativa que indica a relação percentual entre o desvio padrão e a média dos dados. Serve de termo de comparação entre duas ou mais situações diferentes.

- População - Amostra

onde: CV – Coeficiente de Variação; - desvio padrão da população; - média da população;s- desvio padrão da amostra; - média da amostra.

Para:

CV < 15% baixa dispersão15% CV 30% média dispersãoCV > 30% alta dispersão

Exercícios

1. Calcule a média aritmética, o desvio padrão e o coeficiente de variação para os dados relativos à dosagem de hemoglobina verificada em 12 animais bovinos (mg):

15 14 13 11 13 14 13,5 12 16 14,5 12 9

2. Calcule a média, o desvio padrão e o coeficiente de variação para o peso (kg) e o comprimento (cm) de cães:

Peso (Kg) e Comprimento (cm) de 10 cãesPeso 23,0 22,7 21,2 21,5 17,0 28,4 19,0 14,5 19,0 19,5Comprimento 104 107 103 105 100 104 108 91 102 99

19

Page 20: Apostila

6. TEORIA DA PROBABILIDADE

O cálculo das probabilidades é de importância fundamental para o estudo da Estatística Indutiva ou Inferencial. Os fenômenos estudados pela estatística são fenômenos cujo resultado, mesmo em condições normais de experimentação varia de uma observação para outra, dificultando dessa maneira a previsão de um resultado futuro.

Como um estudo geralmente é baseado em uma amostra, deseja-se generalizar os resultados encontrados nessa amostra para toda a população. Por se tratar de uma amostra, não se pode afirmar que os resultados encontrados nessa amostra também serão encontrados na população, mas pode-se descobrir a probabilidade de ocorrência de cada resultado.

A teoria das probabilidades objetiva mensurar as chances de ocorrência dos diversos resultados que um experimento aleatório pode apresentar. Ex.: probabilidade de resposta positiva a determinado tratamento, probabilidade de determinado indivíduo ser Rh-, probabilidade de sobrevida.

Para tanto os métodos mais utilizados são o clássico e o das freqüências relativas.No método clássico, as probabilidades são teóricas e determinadas a priori,

independentemente de se realizar o experimento. Nesse caso, a probabilidade de ocorrer determinado resultado na realização de um experimento é igual ao quociente entre o número de casos favoráveis ao sucesso e o número de casos possíveis. Isto é:

onde:

N(A) é o número de elementos de A; N(S) é o número de elementos de S.

No método das freqüências relativas, as probabilidades são obtidas após a realização dos experimentos e a ocorrência dos eventos. Nesse caso, a probabilidade de um evento ocorrer no futuro tende às freqüências anotadas nos experimentos ou observações passadas. Isso é:

P(A) = fr (A)

Ex.: Peso (em kg) de recém-nascidosPeso (kg) Fi Fr1,5 2,02,0 2,52,5 3,03,0 3,53,5 4,04,0 4,54,5 5,0

559

12955

0,100,100,180,240,180,100,10

50 1,00

FONTE: Díaz e López (2007) – Bioestatística

20

Page 21: Apostila

Lei dos Grandes Números

Quando se repete um experimento um grande número de vezes a probabilidade calculada através da freqüência relativa se aproxima da probabilidade clássica.

Por exemplo, se fazemos uma pesquisa entrevistando apenas algumas pessoas, os resultados podem acusar grande erro, mas se entrevistamos milhares de pessoas selecionadas aleatoriamente, os resultados amostrais estarão muito mais próximos dos verdadeiros valores populacionais.

Ex.:

Proporção de Meninas

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 200 400 600 800 1000 1200

N° de Nascimentos

Pro

porç

ão d

e M

enin

as

6.3. Probabilidade Condicional

Dados dois eventos A e B, denota-se P(B/A) a probabilidade do evento B ocorrer, uma vez que A tenha ocorrido.

P(A e B) = P(A) P(B/A)

Ex.1: Jogar um dado:

a) Probabilidade de sair o número 5?b) Probabilidade de sair o número 5 sabendo que saiu um número ímpar?

Ex.2: Uma urna contém duas bolas brancas e uma vermelha. Retiram-se duas bolas da urna ao acaso, uma em seguida da outra e sem que a primeira tenha sido recolocada. Qual é a probabilidade de as duas serem brancas?

21

Page 22: Apostila

6.4. Probabilidade para Eventos Independentes

Dois eventos A e B são ditos independentes, quando a probabilidade da ocorrência de B não é afetada pela ocorrência de A, sendo a recíproca verdadeira.

P(A e B) = P(A) P(B)

Ex.1: Um casal tem dois filhos. Qual é a probabilidade de:

a) o primogênito ser homem?b) Os dois filhos serem homens?c) Pelo menos um dos filhos ser homem?

Ex.2: Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é 40%, ser A é 30% e ser B é 20%. Suponha ainda que a probabilidade de Rh+ é de 90% e que o fator Rh independe do tipo sanguíneo. Nestas condições, qual é a probabilidade de uma pessoa tomada ao acaso da população ser:

a) O, Rh+?b) AB, Rh-?

Ex.3: A probabilidade de determinado teste para a AIDS dar resultado negativo em portadores de anticorpos contra o vírus (falso negativo) é 10%. Supondo que falsos negativos ocorrem independentemente, qual é a probabilidade de um portador de anticorpos contra o vírus da AIDS que se apresentou três vezes para o teste, ter tido, nas três vezes, resultado negativo?

6.5. Teorema da Soma

Se os eventos A e B não podem ocorrer ao mesmo tempo:

P(A ou B) = P(A) + P(B)

Ex.: Suponha que uma urna contém duas bolas brancas, uma azul e uma vermelha. Retira-se uma bola da urna ao acaso. Qual é a probabilidade de ter saído bola colorida, isto é, azul ou vermelha?

22

Page 23: Apostila

Se a e B podem ocorrer ao mesmo tempo:

P(A ou B) = P(A) + P(B) – P(A e B)

Ex.: Uma carta é retirada de ao acaso de um baralho. Qual é a probabilidade de sair uma carta de espadas ou um ás?

7. DISTRIBUIÇÕES DE PROBABILIDADES

Há uma variedade de tipos de distribuições de probabilidades na estatística. Cada qual tem o seu próprio conjunto de hipóteses que definem as condições sob as quais o tipo de distribuição pode ser utilizado validamente. A essência da análise estatística é confrontar as hipóteses de uma distribuição de probabilidades com as especificações de determinado problema.

Para que se possa definir a distribuição a ser empregada é importante verificar o tipo de variável aleatória, que pode ser discreta ou contínua.

Quando a variável aleatória envolvida é discreta (enumerável ou contável) como, por exemplo, número de nascimentos por ano, número de peças defeituosas por lote, número de funcionários em uma empresa, etc, trabalha-se com Distribuições de Probabilidades Discretas. A soma das probabilidades associadas a todos os valores possíveis de uma variável aleatória é sempre igual a 1.

Para variáveis aleatórias contínuas, não existe interesse em atribuir probabilidades a cada particular valor, mas sim, para eventos formados por intervalos de valores. Por exemplo, ao observar a altura de um indivíduo, tomado ao acaso, não importa a probabilidade de ele medir 1,682333... metros, mas sim a probabilidade de ele ter altura no intervalo de 1,60 a 1,80m; ou acima de 1,90m, e assim por diante.

Assim, a análise das variáveis contínuas tende a focalizar a probabilidade de uma variável aleatória tomar um valor num determinado intervalo.

Como a probabilidade de uma variável aleatória contínua assumir exatamente um valor é aproximadamente igual a zero, não é preciso fazer distinção entre os sinais < e ou > e ≥, como se faz com as variáveis discretas.

A distribuição discreta que estudaremos é a Distribuição Binomial. A distribuição contínua mais utilizada é a Distribuição Normal.

7.1. Distribuição Binomial

Usa-se o termo “binomial” para designar situações em que os resultados de uma variável aleatória podem ser agrupados em duas classes ou categorias. As categorias devem ser mutuamente exclusivas, de modo a deixar perfeitamente claro a qual

23

Page 24: Apostila

categoria pertence determinada observação; e as classes devem ser coletivamente exaustivas, de forma que nenhum outro resultado fora delas seja possível. Exs.: testes do tipo V ou F; respostas do tipo SIM ou NÃO a um questionário, exames do tipo "positivo ou negativo", sexo masculino ou feminino, funcionários ausentes ou presentes, etc.

Além disso, variáveis com resultados múltiplos podem, freqüentemente, serem tratadas como binomiais, quando apenas um dos resultados é de interesse.

Exs.: - respostas a um teste de múltipla escolha podem ser do tipo correta ou errada;- cinco candidatos a um emprego podem ter como resultado final contratado ou não-contratado;- chamadas telefônicas: locais ou interurbanas;- determinada espécie de animal habitando a região A ou outra região.

Mesmo os resultados de uma variável contínua podem reduzir-se a duas classes excludentes.

Exs.: - velocidade de um automóvel: dentro do limite legal ou excedendo o referido limite;

- altura de uma pessoa: mais que 1,60m ou não.

7.1.1. Fórmula Binomial

onde:

P(X = x) - probabilidade binomial de a variável X assumir o valor "x";Cxn - é o número de combinações de "n" elementos tomados "x" a "x", ou seja:

Cn

x n xxn

!

!( )!

p - probabilidade de sucesso; q - probabilidade de fracassos;x - número de sucessos; n - número de observações.

p + q = 1

7.1.2. Média para a Distribuição Binomial

= n . p

onde: - média; n - número de observações;p - probabilidade de sucesso.

7.1.3. Variância da Distribuição Binomial

2 = n . p . q

24

Page 25: Apostila

onde: 2 - variância; n - número de observações;p - probabilidade de sucesso; q - probabilidade de falha.

Ex.: A probabilidade de um menino ser daltônico é 8%. Qual é a probabilidade de serem daltônicos todos os 4 meninos que se apresentaram, em determinado dia, para um exame oftalmológico?

7.2. Distribuição Normal

A Distribuição Normal é uma distribuição teórica, podendo ser aplicada em grande número de fenômenos. É caracterizada por uma função, cujo gráfico descreve uma curva em forma de sino. Esta distribuição depende de dois parâmetros, a saber: e .

Assim, suas principais características são:

1. A curva normal tem forma de sino;2. É simétrica em relação à média;3. Prolonga-se de - a +;4. Cada distribuição normal fica completamente especificada por sua média e seu

desvio-padrão; há uma distribuição normal distinta para cada combinação de média e desvio-padrão;

5. A área total sob a curva normal é considerada como 100%;6. A área sob a curva entre dois pontos é a probabilidade de uma variável

normalmente distribuída tomar um valor entre esses dois pontos;7. Como há um número ilimitado de valores no intervalo de - a +, a probabilidade

de uma variável aleatória normalmente distribuída tomar exatamente determinado valor é aproximadamente zero. Assim, as probabilidades se referem sempre a intervalos de valores;

8. A área sob a curva entre a média e um ponto arbitrário é função do número de desvios padrões entre a média e aquele ponto.

7.2.1. Distribuição Normal Padronizada

Se uma variável tem distribuição normal, cerca de 68% de seus valores estarão no intervalo de um desvio padrão a contar de cada lado da média; cerca de 95,5% no intervalo de dois desvios padrões a contar da média e cerca de 99,7% dentro de três desvios padrões a contar da média. Isto é válido para todas as distribuições normais.

Assim, podemos converter os valores reais, para valores relativos. Isto equivale a tomar a média como ponto de referência (origem) e o desvio padrão como medida de afastamento a contar daquele ponto (unidade de medida). Esta nova escala é comumente conhecida como escala z.

Convertendo-se a diferença efetiva entre a média e algum outro valor da

distribuição para uma diferença relativa e expressando em termos do número de desvios padrões a contar da média, tem-se:

25

Page 26: Apostila

onde:

z – número de desvios padrões a contar da média; x – valor arbitrário;– média da distribuição normal; - desvio padrão.

Ex.: Suponha que a quantidade de colesterol em 100ml de plasma sanguíneo humano tem distribuição normal com média 200mg e desvio padrão 200mg. Calcule a probabilidade de uma pessoa apresentar colesterol por 100ml de plasma:

a) entre 200 e 225mg;b) entre 180 e 220mg.c) menor do que 190mg;d) maior do que 230mg.

Exercícios:

1. Suponha que determinado medicamento usado para diagnóstico precoce da gravidez é capaz de confirmar casos positivos em apenas 90% das gestantes muito jovens. Isto porque, em 10% das gestantes muito jovens, ocorre uma escamação do epitélio do útero, que é confundida com a mestruação. Nestas condições, qual é a probabilidade de 2, de 3 gestantes muito jovens que fizeram uso desse medicamento, não terem confirmado precocemente a gravidez?

2. Em homens, a quantidade de hemoglobina por 100ml de sangue é uma variável aleatória com distribuição normal de média = 16g e desvio padrão = 1g. Calcule a probabilidade de um homem apresentar:

a) de 16 a 18g de hemoglobina por 100ml de sangue;b) mais de 18g de hemoglobina por 100ml de sangue.

3. A probabilidade de um casal heterozigoto para o gene da fenilcetonúria (Aa x Aa) ter um filho afetado (aa) é 1/4. Se o casal tem 3 filhos, qual é a possibilidade de apenas um dos filhos ter a doença?

4. Suponha que a taxa de glicose no sangue humano é uma variável aleatória com distribuição normal de média = 100mg por 100ml de sangue e desvio padrão = 6mg por 100ml de sangue. Calcule a probabilidade de um indivíduo apresentar taxa:

a) superior a 110mg por 100ml de sangue;b) entre 90 e 100mg por 100ml de sangue.

26

Page 27: Apostila

5. Se a probabilidade de um indivíduo ter sangue Rh - é 10%, qual é a possibilidade de 5 indivíduos que se apresentaram para exame de sangue serem todos Rh-?

6. Suponha que a estatura de recém-nascidos do sexo masculino é uma variável aleatória com distribuição aproximadamente normal de média = 50 cm e desvio padrão = 2,50cm. Calcule a probabilidade de um recém-nascido do sexo masculino ter estatura:

a) inferior a 48cm;b) superior a 52cm.

8. TEORIA ELEMENTAR DA AMOSTRAGEM

Amostragem é o processo de seleção de uma amostra, que possibilita o estudo das características da população. A amostra difere da população somente quanto ao número de elementos. Exs.: amostra de sangue, biópsia, nº de portadores do vírus HIV.

A amostragem pode ser:

- Amostragem com Reposição: quando extraímos um objeto de uma urna, e o repomos antes da próxima extração; este objeto pode aparecer repetidas vezes.

- Amostragem sem Reposição: quando extraímos um objeto de uma urna, e não o repomos antes da próxima extração; o objeto só pode aparecer uma vez.

8.1. Alguns Conceitos

Parâmetro: é uma medida populacional (, , )

Estimador (Estatística): é uma característica numérica determinada na amostra ( , s, p), utilizada para obter uma aproximação de um parâmetro populacional.

Estimativa: valor específico, ou um intervalo de valores, usado para aproximar um parâmetro populacional.

8.2. Tipos de Amostragem

8.2.1. Amostragem Aleatória

A amostragem aleatória exige que cada “elemento” da população tenha a mesma probabilidade de ser incluído na amostra. Assim, se N for o tamanho da população, a probabilidade de cada elemento será 1/N. Trata-se do método que garante cientificamente a aplicação das técnicas estatísticas de inferências. Somente com base em amostragens probabilísticas é que se podem realizar inferências ou induções sobre a

27

Page 28: Apostila

população a partir do conhecimento da amostra. A seguir são apresentados formas de obtenção de uma amostra aleatória.

8.2.1. Amostragem Aleatória Simples

É o processo mais elementar e freqüentemente utilizado. Atribui-se a cada elemento da população um número distinto. Se a população for numerada, utilizam-se esses “rótulos”. Efetuam-se sucessivos sorteios até se completar o tamanho da amostra: n.

8.2.2. Amostragem Sistemática

Trata-se de uma variação da amostragem aleatória simples, conveniente quando a população está ordenada segundo algum critério, como fichas em um fichário, listas telefônicas...

Calcula-se o intervalo de amostragem N/n aproximando-o para o inteiro mais próximo: “a”. Sorteia-se um número x entre 1 e a, formando-se a amostra dos elementos correspondentes aos números x; x+a; x+2a ... .

8.2.3. Amostra Estratificada

No caso de população heterogênea, em que se podem distinguir subpopulações mais ou menos homogêneas denominadas estratos, é possível utilizar o processo de amostragem estratificada.

Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação (estrato). Se os tamanhos das subamostras forem proporcionais aos respectivos números de elementos dos estratos, obtém-se uma estratificação ótima.

As variáveis de estratificação mais comuns são: classe social, idade, sexo, profissão... ou qualquer outro atributo que revele os estratos dentro da população.

8.2.4. Amostragem por Conglomerados (ou Agrupamentos)

Pressupõe a disposição dos itens de uma população em subgrupos heterogêneos representativos da população global (minipopulações). Algumas populações não permitem, ou tornam extremamente difícil que se identifiquem seus elementos. Porém, pode ser relativamente fácil identificar alguns subgrupos da população. Em tais casos, uma amostra aleatória simples desses subgrupos (conglomerados) pode ser colhida, e uma contagem completa deve ser feita para os conglomerados sorteados. Exs: quarteirões, organizações, agências, edifícios, fazendas, etc.

8.3. Amostragem Não probabilística

São aquelas amostras que representam especificamente certos segmentos da população. Não é possível generalizar os resultados das pesquisas para a população, pois as amostras não probabilísticas não garantem a representatividade da população. Ex.: quando num conjunto indagamos quais indivíduos são voluntários para realizar tal

28

Page 29: Apostila

tarefa. Com este procedimento, identificamos um estrato de voluntários e outro de não-voluntários.

8.3.1. Amostragem Acidental Trata-se de uma amostragem formada por aqueles elementos que vão aparecendo,

que são possíveis de se obter até completar o número de elementos da amostra. Geralmente utilizada em pesquisas de opinião, em que os entrevistados são acidentalmente escolhidos.

7.3.1. Amostragem por Julgamento

De acordo com determinado critério, é escolhido intencionalmente um grupo de elementos que irão compor a amostra. Ex.: seleção de portadores de determinada enfermidade.

O pesquisador deve ter muito cuidado com amostras não-probabilísticas, pois os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratação não se deve recorrer aos dados de um hospital. Como só são internados os casos graves, é possível que a mortalidade entre pacientes internados seja muito maior do que pacientes não internados. Essa amostra seria tendenciosa.

8.4. Distribuições Amostrais

8.4.1. Distribuição Amostral de Médias

Amostras Cálculo

Distribuição . Amostral

. das Médias .

O Teorema do Limite Central diz que:

“Dado que uma variável aleatória possui uma distribuição normal ou não, com média e desvio padrão e amostras de tamanho “n” são extraídas aleatoriamente dessa população.

29

n1

n2

n3

População

Page 30: Apostila

Teorema 1: A média da distribuição amostral de médias ( ) é igual a média populacional .

Teorema 2: Se a população é infinita, ou se a amostragem é com reposição, então o desvio padrão da distribuição amostral de médias ( ) é dado por:

onde: – desvio padrão da população; n – tamanho da amostra.

Teorema 3: Se a população tem tamanho N (finita) ou se a amostragem é sem reposição, então o desvio padrão da distribuição amostral das médias ( ) é:

onde: N – tamanho da população.

Teorema 4: À medida que o tamanho da amostra aumenta (n 30), a distribuição das médias amostrais tende a uma distribuição normal.

Obs: o fator de correção pode ser omitido sempre que n < 5% de N.

Assim, para amostras de tamanho n > 30, a distribuição das médias amostrais pode ser aproximada satisfatoriamente por uma distribuição normal. A aproximação melhora na medida em que aumenta o tamanho da amostra n.

8.4.2. Distribuição Amostral de Proporções

Se de uma população do tipo binomial com parâmetros e 1 - , retiramos todas as amostras possíveis de tamanho “n” e calculamos a estatística “p”, o conjunto dessas proporções será dito Distribuição Amostral das Proporções e serão válidos os seguintes teoremas:

Teorema 1:

p =

30

Page 31: Apostila

Teorema 2:

Amostragens com Reposição ou Populações Infinitas

Amostragens sem Reposição ou Populações Finitas

Teorema 3: A distribuição padronizada será (n 30):

9. TEORIA ESTATÍSTICA DA ESTIMAÇÃO

A estimação é o processo que consiste em utilizar dados amostrais para estimar os valores de parâmetros populacionais desconhecidos. Exs: estimação da percentagem de casos positivos para determinada doença; peso médio de recém nascidos; tempo médio para resposta de um medicamento, etc.

9.1. Estimativa Pontual

A estimativa de um parâmetro populacional dada por um único número é chamada estimativa pontual de parâmetro.

9.2. Estimativa Intervalar

Dá um intervalo de valores possíveis, no qual se admite esteja o parâmetro populacional. Exs: o tempo médio de resposta é 30min 5 min, isto é, o tempo de resposta deve estar compreendido entre 25 e 35 min.

9.3. Intervalo de Confiança

31

Page 32: Apostila

Um intervalo de confiança dá um intervalo de valores, centrado na estatística amostral, no qual julgamos, com um risco conhecido de erro, estar o parâmetro da população.

9.3.1. Intervalos de Confiança para a Média Populacional

A questão de quão próxima determinada média amostral pode estar da média da distribuição amostral, em unidades efetivas, depende da variabilidade na distribuição amostral (isto é, do desvio padrão da distribuição amostral). À medida que aumenta o tamanho amostral, o desvio padrão da distribuição amostral diminui. Logo, grandes amostras tenderão a produzir médias amostrais que estão mais próximas da média população do que pequenas amostras. Além disso, quanto maior a variabilidade na população, maior a variabilidade na distribuição amostral.

Utilizando a Distribuição Normal:

a) n 30 (Grandes Amostras), conhecidob) n < 30 (Pequenas Amostras), conhecido

, sendo:

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem sem Reposição

c) n 30, desconhecido

, sendo:

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem sem Reposição

onde:

- média da população;- média da amostra;

z – número de desvios padrões utilizando a distribuição normal;, - desvio padrão da distribuição amostral de médias;

- desvio padrão da população;n – tamanho da amostra;N – tamanho da população; s – desvio padrão da amostra.

32

Page 33: Apostila

Ex.1: Determinam-se os níveis de creatinina do sangue periférico de 35 estudantes universitários, escolhidos de modo randômico e cujas idades variam de 18 a 23 anos, obtendo-se, como média amostral, 1,41mg/dl. O desvio padrão da população é conhecido, cujo valor é igual a 0,2729mg/dl. Efetuar as estimativas de ponto e de intervalos de confiança de 95% e 99%.

Ex.2: Um departamento de saúde coletou dados amostrais referentes a 1525 mulheres com idades de 18 a 24 anos. Esse grupo amostral tem nível médio de colesterol sérico (medido em mg/100ml) de 191,7 com desvio padrão de 41,0. Com esses dados amostrais, determine o intervalo de 95% de confiança para o nível médio de colesterol sérico de todas as mulheres nessa faixa etária. Se um médico afirma que o nível médio de colesterol sérico para as mulheres naquela faixa etária é 200, tal afirmação se afigura compatível com o intervalo de confiança?

Ex.3: O índice de soro-proteção de uma amostra de cem vacinados com hidróxido de alumínio apresenta um valor médio igual a 3,50 e a variância 0,36. Determinar os limites de confiança no nível de 5% de significância.

Pequenas Amostras (Distribuição de Student (“t”))

A forma da distribuição t é bastante parecida com a normal. A principal diferença entre as duas distribuições é que a distribuição t tem maior área nas caudas. Isto significa que, para um dado nível de confiança, o valor t será um pouco maior que o correspondente valor z.

Propriedades da Distribuição t de Student

1. A distribuição t aproxima-se da distribuição normal à medida que “n” aumenta. Para n > 30 as diferenças são tão pequenas que podemos utilizar os valores críticos z;

2. A distribuição t tem a mesma forma geral simétrica (forma de sino) que a distribuição normal, mas reflete a maior variabilidade (com distribuições mais amplas) que é esperada em pequenas amostras.

Condições para utilização da Distribuição t de Student

1. O tamanho da amostra é pequeno (n < 30)2. é desconhecido

33

Page 34: Apostila

3. A população original tem distribuição essencialmente normal (Como a distribuição da população original em geral é desconhecida, estimamo-la construindo um histograma de dados amostrais).

Assim:

, sendo:

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem sem Reposição

onde:

t – número de desvio padrões utilizando a distribuição de Student (“t”).

Para usar uma tabela t devemos conhecer o nível de confiança desejado e o número de graus de liberdade ().

= n – 1

Ex.1: Em um estudo de utilização da hipnose para aliviar a dor, obtiveram-se as taxas sensoriais para 16 indivíduos. Com os dados amostrais abaixo, construa o intervalo de confiança de 95% para a taxa sensorial média da população da qual se extraiu a amostra.

8,8 6,6 8,4 6,5 8,4 7,0 9,0 10,38,7 11,3 8,1 5,2 6,3 8,7 6,2 7,9

Ex.2: Uma amostra aleatória de 19 mulheres acusou altura média de 162cm. E desvio padrão de 6,4cm. Construa o intervalo de confiança de 98% para a altura média de todas as mulheres.

9.3.2. Intervalos de Confiança para Proporções

Seja a estatística a proporção de “sucessos” em uma amostra de tamanho n 30 extraída de uma população binomial. Se:

34

Page 35: Apostila

- n 30 e n . p 5 então:

,

sendo:

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem sem Reposição

onde:

p – proporção de sucessos na amostra; – proporção de sucessos na população.

Ex.1: Um levantamento efetuado em hospital especializado em doenças neoplásicas revelou que em uma amostra de 12000 mulheres, cujas idades variavam entre 40 e 50 anos, o número de pacientes com câncer mamário foi igual a 420. Efetuar estimativas de ponto e de intervalos de confiança de 95% e 99%.

Ex.2 (Triola, pág. 160): Um estudo de saúde envolve 1000 mortes selecionadas aleatoriamente, dentre as quais 331 causadas por doenças cardíacas. Com os dados amostrais, construa um intervalo de confiança de 99% para a proporção de todas as mortes causadas por doenças cardíacas.

9.4. Dimensionamento do Tamanho da Amostra

A determinação do tamanho de uma amostra é um problema de grande importância, porque amostras desnecessariamente grandes acarretam desperdício de tempo e dinheiro; e amostras demasiadamente pequenas podem levar a resultados não confiáveis.

“Em dimensionamento de amostras arredonde o resultado sempre para o número inteiro imediatamente superior”.

35

Page 36: Apostila

9.4.1. Para Média

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem sem Reposição

onde:

n – tamanho da amostra;z – escala da distribuição normal padronizada; - desvio padrão da população;e – erro amostral (máxima diferença admitida entre e ).N – tamanho da população.

Ex.1: Qual o tamanho de amostra necessário para estudar o nível médio de colesterol em mulheres com idades entre 40 e 50 anos. Deseja-se ter um nível de confiança de 98% com um erro máximo de 15 mg/100ml. O desvio padrão é igual a 41,0 mg/100ml.

Ex.2 (Freund & Simon, pág.224): O fabricante de um novo tranqüilizante afirma que o remédio reduz em ,ao menos, 1,5 batidas por minuto a taxa de batimentos cardíacos de uma pessoa. Qual deve ser o tamanho da amostra necessário para investigar essa afirmação, considerando um erro de, no máximo, 0,2 batidas/minuto com um nível de 90% de confiança? Considere σ = 0,38 batidas por minuto.

9.4.2. Para a Proporção

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem com Reposição

onde:

p – proporção populacional (estimada);q = 1 – p;N – tamanho da população.

36

Page 37: Apostila

Ex.1: Um estudo de saúde envolve 1000 mortes selecionadas aleatoriamente, dentre as quais 331 causadas por doenças cardíacas. Utilizando os dados amostrais como estudo piloto, determine o tamanho da amostra necessário para estimar a proporção de todas as mortes causadas por doenças cardíacas. Admita um nível de confiança de 98%, em que o erro da estimativa não supere 0,01.

Ex.2 (Freund & Simon, pág. 253, ex. 31): Um médico afirma que apenas 10% de todas as pessoas expostas a certa dosagem de radiação sofrem efeitos negativos. Qual o tamanho de amostra necessário para confirmarmos essa afirmação se quisermos ter 95% de confiança com um erro máximo de 1%?

10. TEORIA DA DECISÃO ESTATÍSTICA

O teste de significância e a estimação são dois ramos principais da inferência estatística. Enquanto que o objetivo da estimação é estimar algum parâmetro populacional, o objetivo dos testes de significância é decidir se determinada afirmação sobre um parâmetro populacional é verdadeira.

Quando quisermos avaliar um parâmetro populacional, sobre o qual não possuímos nenhuma informação com respeito a seu valor, não resta outra alternativa a não ser estimá-lo através do intervalo de confiança. No entanto, se tivermos alguma informação com respeito ao valor do parâmetro que desejamos avaliar, podemos testar esta informação no sentido de aceitá-la como verdadeira ou rejeitá-la.

Nesta teoria estuda-se a tomada de decisões a respeito de populações, com base em amostras.

Em estatística, uma hipótese é uma alegação, ou afirmação, sobre uma propriedade de uma população. Ex.:

- Pesquisadores médicos afirmam que a temperatura média do corpo humano não é igual a 36,5°C;

- A percentagem de motoristas hospitalizados em conseqüência de acidentes é menor no caso de carros equipados com airbag do que no caso de carros sem esse equipamento

- Quantidade de determinada droga em uma medicação- Percentagem de pessoas curadas após o uso de determinada medicação- Peso médio de crianças recém nascidas- Efeitos colaterais de uma medicação

37

Page 38: Apostila

10.1. Componentes de um Teste de Hipótese

Para tomar-se uma decisão, formulam-se as hipóteses.

H0 – hipótese nula – é a afirmação sobre um valor do parâmetro populacional. Deve conter o sinal de igualdade. É a hipótese conservadora, abrangendo a maior probabilidade em torno do parâmetro da população que se está testando.

Ha – hipótese alternativa – é a hipótese que contraria a hipótese H0 de alguma maneira que interesse ao pesquisador e tem uma probabilidade pequena de ser provada (>, < ou ).

Ao se tomar uma decisão estatística podemos estar cometendo dois tipos básicos de erros:

Erro do Tipo I (erro primário): consiste em rejeitar a hipótese nula quando ela é verdadeira. O erro tipo I não é um cálculo malfeito ou uma fase de processo mal desempenhada; é um erro que pode ocorrer como conseqüência casual de um evento raro. A probabilidade de rejeitar a hipótese nula quando ela é verdadeira é chamada nível de significância e se denota por .

Erro do Tipo II (erro secundário): consiste em não rejeitar a hipótese nula quando ela é falsa. Usa-se o símbolo para representar a probabilidade de um erro tipo II.

Poder de um teste (1 – β): é a probabilidade de rejeitar uma hipótese nula falsa ou, de modo equivalente, a conclusão de que a hipótese alternativa é verdadeira quando o é de fato.

Um alto poder é um valioso atributo para um estudo, porque todos os pesquisadores querem detectar um resultado significativo caso ele realmente exista. O Poder do teste está intimamente relacionado com o tamanho da amostra utilizado no estudo.

Ex.: - Decisão de um Médico sobre uma Cirurgia:

Estado da NaturezaDecisão Precisa Operar Não precisa operar

Opera DECISÃO CORRETAERRO TIPO II(Não rejeição de uma hipótese nula falsa)

Não operaERRO TIPO I(rejeição de uma hipótese nula verdadeira)

DECISÃO CORRETA

Ex.2: Erro Tipo I: condenar uma pessoa inocenteErro Tipo II: absolver uma pessoa culpada

38

Page 39: Apostila

Ex.3: Erro Tipo I: Falso PositivoErro Tipo II: Falso Negativo

O modo de reduzir simultaneamente os erros Tipo I e Tipo II é aumentando o tamanho da amostra.

Obs.: Se aceitamos ou não rejeitamos H0, não estamos provando a hipótese nula; estamos apenas dizendo que a evidência amostral não é suficientemente forte para recomendar a rejeição da hipótese nula.

Tipos de Testes:

Tipos de TestesHipóteses

Bilateral H0: =Ha:

Unilateral Superior (Direito) H0: =Ha: >

Unilateral Inferior (Esquerdo) H0: =Ha: <

Uma verificação bilateral (ou bicaudal) é adequada quando os pesquisadores não tem uma expectativa a priori do valor da amostra; eles querem saber se a estatística da amostra difere do parâmetro da população em qualquer direção.

A verificação unicaudal (ou direcional) pode ser utilizada quando os pesquisadores tem uma expectativa sobre o valor da amostra e querem testar apenas se ele é maior ou menor do que o parâmetro na população.

Um teste de hipóteses unicaudal é mais sensível à diferenças significativas do que um teste bicaudal.

10.2. Etapas Básicas em um Teste de Hipótese

O procedimento para realização dos testes de significância é resumido nos seguintes passos:

1. enunciar as hipóteses H0 e Ha;2. fixar o limite do erro () e identificar a variável do teste;3. com o auxílio das tabelas estatísticas, considerando e a variável do teste,

determinar as regiões crítica (RC) e de aceitação (RA) para H0;4. com os elementos amostrais, calcular o valor da variável do teste;5. concluir pela aceitação ou rejeição de H0 pela comparação do valor obtido no 4º passo

com RA e RC.

39

Page 40: Apostila

9.3. Teste de uma Média utilizando a Distribuição Normal

A distribuição normal de probabilidade pode ser utilizada para testar um valor hipotético da média da população quando n 30 ou n < 30 (no caso de a população ser normalmente distribuída e ser conhecido).

População Infinita ou Amostragem com Reposição

População Finita ou Amostragem sem Reposição

onde:

z - número de desvios padrões ou valor da variável na curva padrão; - média da amostra;

- valor suposto da média da população (na hipótese nula);- desvio padrão da distribuição amostral de médias;

- desvio padrão da população;n – tamanho da amostra;N - tamanho da população.

Ex.: (Fonseca e Martins, pág. 219, ex.: 4): As estaturas de 20 recém-nascidos foram tomadas no Departamento de Pediatria da FMRP, cujos resultados (em cm) são:

41 50 52 49 49 54 50 47 52 49

50 52 50 47 49 51 46 50 49 50

Suponha que a população das estaturas é normal com variância 1,41 cm. Teste a hipótese de que a estatura média dos recém-nascidos é de 50 cm. Use α = 0,05.

10.4. Teste de uma Média utilizando a Distribuição “t” de Student

Quando n < 30, a população é normalmente distribuída e é desconhecido, utiliza-se a distribuição “t” de Student.

População Infinita ou Amostragem com Reposição

= n – 1 População Finita ou Amostragem sem

Reposição

onde:40

Page 41: Apostila

t = valor da variável na distribuição t.

Ex.: Relacionam-se, a seguir, os pesos, ao nascer (em kg) de meninos nascidos de mães que ingeriram um suplemento especial de vitaminas. Ao nível de 0,05 de significância, teste a afirmação de que o peso médio, ao nascer, de todos os meninos de mães que tomaram o suplemento de vitaminas é igual a 3,39kg, que é a média da população de todos os recém-nascidos. Com base no resultado, o suplemento de vitaminas parece ter algum efeito sobre o peso da criança ao nascer?

3,73 4,37 3,73 4,33 3,39 3,68 4,68 3,52

3,02 4,09 2,47 4,13 4,47 3,22 3,43 2,54

10.5. Teste de Significância da Diferença entre duas Médias, utilizando a Distribuição Normal

População Infinita ou Amostragem com

Reposição

População Finita ou

Amostragem sem Reposição

Ex.: Um laboratório deseja testar o Dozenol, um remédio novo contra resfriado para uso noturno. No “grupo de tratamento”, 50 pessoas tomam o remédio; o “grupo controle” é composto por 100 pessoas. Mede-se a pressão sistólica de cada pessoa obtendo-se as estatísticas amostrais mostradas. O chefe da pesquisa afirma que o Dozenol não afeta a pressão sanguínea, ou seja, a média populacional do grupo tratado e a média populacional do grupo controle são iguais. Teste a afirmação, no nível de significância de 0,01. Com base no resultado, recomendaria anunciar que o Dozenol não afeta a pressão sanguínea?

Grupo de Tratamento

Grupo controle

n1 = 50

=203,4

s1 = 39,4

n2 = 100

=189,4

s2 = 39,0

10.7. Teste da Diferença entre Duas Médias, usando a Distribuição t de Student

41

Page 42: Apostila

Neste caso, a população deve ser normalmente distribuída, n < 30 e desconhecido.

População Infinita ou Amostragem com

Reposição

População Finita ou

Amostragem sem Reposição

= o menor dos dois n1 – 1 e n2 - 1

Ex.: Para os dados abaixo, ao nível de 5% de significância, teste a afirmação de que a quantidade média de alcatrão em cigarros com filtro é menor do que a quantidade média de alcatrão em cigarros sem filtro.

Alcatrão (mg)Com filtro Sem filtro

n1 = 21= 13,3

s1 = 3,7

n2 = 8=24,0

s2 = 1,7

10.8. Teste de Significância para a Diferença entre duas Médias, usando a Distribuição “t” de Student para Amostras Dependentes

Ao trabalharmos com duas amostras dependentes, baseamos nossos cálculos na diferença (d) entre os pares de dados. A simples comparação entre as médias das amostras acarretaria perda de informações importantes sobre os dados emparelhados. Assim:

= n – 1

onde:

d – média das diferenças “d” para a população de dados emparelhados;42

Page 43: Apostila

- valor médio das diferenças “d” para os dados amostrais emparelhados;sd – desvio padrão das diferenças “d” para os dados amostrais emparelhados;n – número de pares de dados.

Ex.: Em um grupo de 10 pacientes infectados pelo P. vivax, contou-se o número de plaquetas por ml do sangue periférico em duas ocasiões: no momento do diagnóstico e após o tratamento. Os dados são mostrados a seguir. Ao nível de 0,05 de significância, teste se a infecção malárica altera o número de plaquetas no sangue periférico do homem.

Plaquetas (antes): 80300 217000 102000 101000 115000132000 149600 158400 125000 122000

Plaquetas (depois): 109000 312000 138000 175000 179400164220 207900 187500 178000 146900

10.9. Teste de uma Proporção usando a Distribuição Normal

A distribuição normal pode ser utilizada como uma aproximação da distribuição binomial quando n 30 e tanto n . p 5. Dessa forma:

População Infinita ou Amostragem com

Reposição

População Finita ou Amostragem sem

Reposiçãoonde:

p – proporção de sucesso na amostra de tamanho “n”; - proporção de sucesso na população;P – desvio padrão da distribuição amostral de proporções.

Ex.: Um médico afirma que apenas 10% de todas as pessoas expostas a certa dosagem de radiação sofrem efeitos negativos. Se, em uma amostra aleatória, 5 dentre 30 pessoas expostas a radiação sentem algum efeito negativo, teste, ao nível de 0,05 de significância, a hipótese nula.

10.10. Teste da Diferença entre duas Proporções Populacionais

43

Page 44: Apostila

Quando desejamos testar a hipótese de que as proporções em duas populações não são diferentes, as duas proporções amostrais são combinadas para determinar o erro padrão da diferença entre proporções. A estimativa da proporção populacional, baseada nas proporções obtidas em duas amostras independentes, é:

onde:

p1 – proporção de sucesso da amostra retirada da população 1;p2 – proporção de sucesso da amostra retirada da população 2.

- desvio padrão da distribuição amostral de diferença de proporções; – proporção de sucesso populacional estimada;n1 – tamanho da amostra retirada da população 1;n2 – tamanho da amostra retirada da população 2.

O teste da diferença entre proporções pode ser desenvolvido tanto como um teste unilateral quanto como um teste bilateral.

Ex. Através de uma pesquisa feita em uma empresa constatou-se que de 30 funcionárias que lidavam com éter-glicol, 10 tiveram aborto espontâneo. De 750 que não estavam expostas ao éter-glicol, 120 abortaram. No nível de 0,01 de significância, teste a afirmação de que as mulheres expostas ao éter-glicol apresentam maior taxa de aborto.

11. TESTES DE ADERÊNCIA E TABELAS DE CONTINGÊNCIA

11.1. Testes de Aderência

Os procedimentos de testes de hipóteses até aqui discutidos são projetados para problemas em que a população ou distribuição de probabilidades seja conhecida e as hipóteses envolvam os parâmetros da distribuição. Outra situação é quando não conhecemos a distribuição da população considerada e desejamos testar a hipótese de que uma distribuição particular será satisfatória como um modelo para a população. Assim, utiliza-se um teste de aderência para testar a hipótese de que uma distribuição de freqüências observadas se ajuste (ou adere) a determinada distribuição teórica.

O procedimento requer uma amostra aleatória de tamanho “n”, proveniente da população cuja distribuição de probabilidades é desconhecida. Essas “n” observações são arranjadas em um histograma de freqüência, tendo “k” intervalos de classe.

A estatística de teste é:

44

Page 45: Apostila

onde:

Oi - freqüência observada no i-ésimo intervalo de classe;Ei - freqüência esperada no i-ésimo intervalo de classe;

O 2 calculado é comparado com o 2 tabelado. Se 2 = 0, as freqüências observada e esperada são iguais, enquanto que, se 2 > 0 elas não coincidem. Quanto maior o valor de 2, maior é a discrepância entre as freqüências observada e esperada.

Pode-se aproximar essas diferenças pela distribuição qui-quadrado se as freqüências esperadas são pelo menos iguais a 5, melhorando para valores maiores. Quando as freqüências esperadas são menores do que 5, combinam-se as freqüências esperadas de dois intervalos de classes. As freqüências observadas correspondentes também devem ser combinadas.

O número de graus de liberdade é definido como:

= k – p – 1

onde:

= graus de liberdade;k – número de intervalos de classe;p – número de parâmetros da distribuição utilizada na hipótese.

Ex. 1: Há um acasalamento entre indivíduos cujos pares de gens Aa e Bb determinam, na segunda geração, os seguintes fenótipos e suas freqüências. Testar, ao nível de significância de 5%, se as observações de aderem a uma distribuição uniforme.

Fenótipos Freqüência Observada

ABAbaBab

8730358

Ex.2: Em casais com grupos sanguíneos AB x AB, testou-se o fenótipo de 80 descendentes no que diz respeito a esse sistema, observando-se que 18 pertenciam ao grupo A, 36 ao AB e 26 ao B. Pela teoria genética as proporções esperadas seriam: 1:2:1

45

Page 46: Apostila

(25%:50%:25%), dos grupos A, AB e B, respectivamente. Testar se as proporções fenotípicas observadas concordam com as esperadas pela teoria genética. = 0,05.

11.2. Tabelas de Contingência

É uma tabela em que as freqüências correspondem a duas variáveis: uma variável categoriza as linhas e a outra categoriza as colunas.

Aqui, testa-se a hipótese nula de que a variável linha e a variável coluna não estão relacionadas, isto é, são independentes. Para realizar esse teste não é necessário supor que a população original tenha distribuição normal nem qualquer outro tipo de distribuição. A estatística é a mesma utilizada no teste de aderência, onde os graus de liberdade e a freqüência esperada são calculados da seguinte forma:

= (r - 1) (c - 1)

onde: r - número de linhas; c - número de colunas;Eij - freqüência esperada na linha “i” e coluna “j”;Oij – freqüência observada na linha “i” e coluna “j”.

Obs.1: Os testes de independência com tabelas de contingência envolvem, apenas, regiões críticas unilaterais à direita.

Obs.2: Para cada célula na tabela de contingência, a freqüência esperada "E" deve ser, no mínimo, igual a 5. Não há tal exigência para as freqüências observadas.

Pequenos valores da estatística de teste 2 indicam acentuada concordância entre as freqüências observadas e as freqüências esperadas, com variáveis: linha e coluna independentes. Grandes valores de 2 encontram-se à direita da distribuição qui-quadrado e refletem diferenças significativas entre freqüências observadas e esperadas.

Ex.1: Os porcos em certa fazenda experimental podem contrair gripe suína durante o inverno. Como parte de um experimento, alguns porcos (selecionados aleatoriamente) foram vacinados contra a gripe, enquanto outros foram deixados sem vacina. Registrou-

46

Page 47: Apostila

se, então, quais deles contraíram a doença durante o inverno, conforme tabela abaixo. Determine se a vacina tem efeito significativo. Tome o nível de 0,05 de significância.

Contraiu gripe suína? TotalVacinados Sim NãoNão 46 56 102Sim 28 77 105

Ex.2: Certa cirurgia pode ser feita com anestesia local ou geral. Aplicar o teste do 2 para verificar se existe associação entre o tipo de anestesia e o número de óbitos ocorridos. Determinar o coeficiente de Contingência.

Anestesia Vivos MortosLocal 501 27Geral 175 23

12. CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

A regressão e a correlação são duas técnicas estreitamente relacionadas que envolvem uma forma de estimação. A diferença entre essas técnicas e o tipo de estimação discutido anteriormente é que aquelas técnicas anteriores foram utilizadas para estimar um único parâmetro populacional, enquanto que estas técnicas se referem à estimação de uma relação que possa existir na população. Mais especificamente, a análise de correlação e regressão compreende a análise de dados amostrais para saber “se” e “como” duas ou mais variáveis estão relacionadas uma com a outra numa população.

12.1. Correlação Linear Simples

O objetivo do estudo correlacional é a determinação da força do relacionamento entre duas variáveis. Há muitos casos em que pode existir um relacionamento entre duas variáveis. Exs.:

- A idade e a resistência física estão correlacionados?- O peso está correlacionado com a altura de uma pessoa?

Esses problemas se prestam a análise de correlação. Essa técnica só é válida se pudermos levantar as seguintes hipóteses:

47

Page 48: Apostila

1. Tanto x como y são variáveis aleatórias, isto é, tanto “y” como “x” devem variar livremente;

2. A distribuição de freqüências conjunta (isto é, a distribuição de valores dos pares x, y) é normal.

12.1.1. Características da Correlação

1. -1,00 Coeficiente de Correlação +1,00;

2. Uma correlação pode ser:

linear positiva linear negativa

não-linear sem correlação

3. O sinal do Coeficiente de Correlação Linear é sempre o mesmo sinal do Coeficiente Angular

12.1.2. Coeficiente de Correlação Linear de Pearson (r)

onde:

n - número de pares de dados;x - valores da variável "x";y - valores da variável "y";r - coeficiente de correlação linear para uma amostra.

0,00 < | r | < 0,25 - correlação muito fraca;0,25 < | r | < 0,50 – correlação fraca;0,50 < | r | < 0,75 – correlação boa;0,75 < | r | < 1,00 – correlação muito boa.

48

Page 49: Apostila

Ex: Deseja-se determinar se há alguma relação entre o comprimento (em cm) e o peso (em kg) de cães. Os dados amostrais de uma amostra aleatória de 20 cães são apresentados na tabela abaixo:

Dados de uma amostra de 20 cães Cão “i” Compr.(cm) Peso (Kg) Cão “i” Compr.(cm) Peso (Kg) 12345678910

1041071031051001041089110299

23,522,721,121,517,028,519,014,519,019,5

11121314151617181920

98959210494999898104100

15,014,915,122,213,616,118,016,020,018,3

Os dados da tabela acima estão grafados na figura abaixo a fim de se decidir se uma reta descreve adequadamente os dados.

Comprimento (cm) e Peso (Kg) de Cães

0

5

10

15

20

25

30

90 92 94 96 98 100 102 104 106 108 110

Comprimento

Pes

o

12.1.3. Inferências sobre o Coeficiente de Correlação Linear

O coeficiente de correlação linear (r) é apenas uma estimativa do parâmetro correspondente . O que “r” mede em amostra “” mede em população. Assim, pode-se verificar se a correlação linear entre as duas variáveis é significativa. As hipóteses são:

H0: = 0 (Não há correlação linear significativa)

49

Page 50: Apostila

H1: 0 (Correlação linear significativa)

Para a estatística de teste, pode-se utilizar a distribuição "t" de Student da forma:

= n - 2

12.2. Regressão Simples

Sempre que possível, pode-se expressar, em termos de equação matemática, as relações entre duas variáveis aleatórias. A finalidade de uma equação de regressão é estimar valores de uma variável (dependente), com base em valores conhecidos da outra variável (independente). A regressão ainda pode predizer valores futuros de uma variável.

Para se chegar a uma equação matemática que descreva a relação entre duas variáveis – processo conhecido como ajustamento de curvas, deve-se:

- Decidir que tipo de curva (reta, parábola, ...) descreve melhor o padrão geral dos dados e, daí, que tipo de equação de predição deve ser utilizada. Em geral, analisa-se o Diagrama de Dispersão (gráfico no qual cada ponto plotado representa um par observado de valores para as variáveis: dependente e independente).

- Estimar a melhor equação.

12.2.1. Regressão Linear Simples

A Regressão Linear Simples constitui uma tentativa de estabelecer uma equação matemática linear (linha reta) que descreva o relacionamento entre duas variáveis. Uma equação linear tem a forma:

y = a + bx

onde:

a – ponto de intersecção da linha de regressão linear com o eixo y (ponto no qual x = 0);b – declividade da linha de regressão (coeficiente angular);y – valor estimado da variável dependente, dado um valor específico da variável independente x;x – valor específico da variável independente.

A equação é importante por proporcionar um grau de precisão muito mais elevado do que o gráfico. Não obstante, os gráficos são importantes porque criam uma imagem mental do relacionamento. Além disso, na fase inicial da análise, podem auxiliar a decidir se determinada relação linear é apropriada.

50

Page 51: Apostila

As equações lineares são úteis e importantes não só porque muitas relações têm efetivamente esta forma, mas também porque, em geral, constituem boas aproximações de relações que, de outro modo, seriam difíceis de descrever em termos matemáticos.12.2.1.1. Estimação dos Coeficientes utilizando o Método dos Mínimos Quadrados

onde:

n – n° de pares de observações.

Obs.: - A equação de regressão se trata de uma relação média; assim, um cão

com determinado comprimento não obterá necessariamente o peso exato indicado pela equação.

- É muito arriscado extrapolar essa equação para comprimentos e pesos fora do âmbito dos dados.

Os coeficientes “a” e “b” são apenas estimativas baseadas em dados amostrais e isso implica a existência dos correspondentes valores reais, denotados, em geral, por e e chamados coeficientes de regressão. Conseqüentemente, há também uma reta real de regressão:

Y = + x1

Onde Y é a verdadeira média de y para um dado valor de x.

A dispersão existe pelo fato de não existir um relacionamento perfeito entre as duas variáveis na população. Há outras variáveis que influenciam os valores da variável dependente, talvez mesmo um número surpreendentemente grande de outras variáveis que não entram na análise de regressão. Mas a influência dessas outras variáveis provavelmente é pequena, e o custo de inclusão de tais fatores no estudo supera o benefício que poderia incorrer de tal inclusão. Além disso, um ou dois fatores geralmente respondem por quase toda a variação da variável dependente. Por isso é que sempre haverá uma dispersão. E tal dispersão significa que as estatísticas amostrais tendem a diferir dos parâmetros efetivos da população.

51