introdução à estatística · 2014-09-24 · bovinos causas agrupadas de aborto variável nominal...

Post on 30-Jan-2020

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Estatística Descritiva CURSO DE EPIDEMIOLOGIA VETERINÁRIA, ACT

Prof. Luís Gustavo Corbellini

EPILAB /FAVET - UFRGS

24/09/2014 1

Roteiro da aula

Estatística descritiva;

◦ Sumarizando os dados;

Distribuição de frequências empíricas

Tabelas e gráficos

Principais medidas-resumo numéricas

24/09/2014 2

24/09/2014 3

Quando a quantidade de dados aumenta, fica difícil obter uma “visão geral” do que está ocorrendo;

O primeiro passo para se obter esta visão geral é organizar os dados para avaliar o quão freqüente os diferentes valores ocorrem;

Será útil condensar as informações reduzindo-as a um tamanho manejável para obter um resumo que auxilie na compreensão e interpretação dos resultados

24/09/2014 4

Estatística descritiva

É um meio de se organizar, resumir e apresentar as observações;

Fornece um resumo das características gerais de um conjunto de dados

1. Tabelas;

2. Gráficos;

3. Medidas-resumo numéricas

Etapa conhecida como Análise Exploratória dos dados

24/09/2014 5

Objetivo da aula

Utilizar as ferramentas (Excel) para análise exploratória dos dados

Discutir métodos básicos de se exibir um conjunto de dados

24/09/2014 6

Distribuição de frequências empírica

1. Distribuição de frequência (frequência absoluta);

2. Distribuição de frequência relativa;

3. Distribuição de frequência acumulada;

A distribuição dos dados observados é chamada de distribuição de frequência empírica

24/09/2014 7

Importante

Antes de realizar a distribuição de frequência, precisamos conhecer o tipo de variável que estamos trabalhando

◦ O tipo de variável é que determinará a forma de resumo mais apropriada;

24/09/2014 8

Variável

Qualitativa (categórica)

Quantitativa (Numérica)

Nominal Positivo, negativo Macho, fêmea

Ordinal Sinais clínicos: Leve, moderado, severo

Discreto No. de animais; No. partos; No. doentes;

Contínuo Peso; Altura; Prod. Leite;

24/09/2014 9

1. Distribuição de frequência

Distribuição de frequência mostra a frequência absoluta de ocorrência das observações em um banco de dados;

24/09/2014 10

Variáveis categóricas

Dermatite No. de cães

Sim 117

Não 180

Total 297

Frequência absoluta de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.

Sim Não

24/09/2014 11

Variáveis numéricas

Idade (meses) No. de Cães <12 21 12-23 17 24-35 23 36-47 37 48-59 21 60-71 25 72-83 36 84-95 21 96-107 18 108-119 11 120-131 26 132-143 12 144-155 14 156-167 4 168-180 11 Total 297

0

5

10

15

20

25

30

35

40

<12

12

-23

24

-35

36

-47

48

-59

60

-71

72

-83

84

-95

96

-10

7

10

8-1

19

12

0-1

31

13

2-1

43

14

4-1

55

15

6-1

67

16

8-1

80

mer

o d

e C

ães

Idade (meses)

Frequência absoluta de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.

24/09/2014 12

EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 1 DISTRIBUIÇÃO DE FREQUÊNCIA

Exercício prático 1 – 30 minutos

24/09/2014 13

Tabela dinâmica – dados categóricos Abra a planilha Febre_Aftosa_RS

1. Marque a primeira linha até a última variável (Latitude); depois, marque todos os dados até a última observação (linha 31);

Dica: após marcar a primeira linha, utilize as teclas Ctrl + Shift + seta para baixo para marcar tudo.

2. Clique na aba inserir e depois tabela dinâmica; na caixa que abrir clique em ok; à direita você verá a lista de campos da tabela (variáveis). Nomeie esta planilha como “dinamica”

3. Nesta lista de campos clique na variável fonte, o que ocorreu?

4. Arraste a variável foco para o campo valores. O que você observa? Se o campo valores estiver marcando soma, clique na aba e depois marque “ContNúm”. Veja que você tem a distribuição de freqüência da fonte de notificação ocorrida no surto de aftosa.

5. Desmarque os campos e repita a operação com a variável diagnóstico.

Crie uma planilha (nomeie de análises) e copie todas as tabelas feitas para esta planilha – demonstração professor

24/09/2014 14

Tabela dinâmica – dados numéricos Na planilha Febre_Aftosa_RS

1. Desmarque todos os campos novamente

2. Marque a variável data e arraste-a para o rótulo de linhas; a tabela posicionará todas as datas;

3. Para observar a frequência de ocorrência de focos pela data, arraste a variável Foco para o campo valores; lembre-se de configurar o campo para “ContNúm”; agora, a frequência absoluta de ocorrência de focos irá aparecer;

4. Clique na aba de ferramentas de tabela dinâmica e depois numa célula dentro da tabela à esquerda (na coluna rótulo de linha); clique com o botão direito e depois clique em agrupar seleção e em dias; o número de dias = 7. O que ocorreu?

24/09/2014 15

2. Frequência relativa

São úteis para comparar conjunto de dados com números desiguais de observações;

A frequência relativa é obtida dividindo-se a frequência de cada categoria (ou classe) pelo número total de observações;

A soma deve ser 1 (ou 100%);

24/09/2014 16

Dermatite Frequência Frequência Relativa (%)

Sim 117 39,4

Não 180 60,6

Total 297 100

Frequência relativa de cães com dermatite examinados em uma amostra do HCV – UFRGS em 2007 e 2008.

24/09/2014 17

Idade (meses) Frequência Frequência Relativa (%) <12 21 7,1 12-23 17 5,7 24-35 23 7,7 36-47 37 12,5 48-59 21 7,1 60-71 25 8,4 72-83 36 12,1 84-95 21 7,1 96-107 18 6,1 108-119 11 3,7 120-131 26 8,8 132-143 12 4,0 144-155 14 4,7 156-167 4 1,3 168-180 11 3,7 Total 297 100,0

Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.

24/09/2014 18

3. Frequência acumulada

É a porcentagem (ou em termos absolutos) do número total de observações que tem um valor menor ou igual ao limite superior do intervalo;

É calculada pela soma das frequências relativas (ou absoluta) para o intervalo especificado e todas as outras anteriores;

O valor da última classe deve ser 1 (ou 100%);

24/09/2014 19

Idade (meses) Frequência

Frequência Relativa (%)

Frequência Acumulada (%)

<12 21 7,1 7,1 12-23 17 5,7 12,8 24-35 23 7,7 20,5 36-47 37 12,5 33,0 48-59 21 7,1 40,1 60-71 25 8,4 48,5 72-83 36 12,1 60,6 84-95 21 7,1 67,7 96-107 18 6,1 73,7 108-119 11 3,7 77,4 120-131 26 8,8 86,2 132-143 12 4,0 90,2 144-155 14 4,7 94,9 156-167 4 1,3 96,3 168-180 11 3,7 100,0 Total 297 100,0

Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 e 2008.

Interpretação: 60,6 % dos cães amostrados têm idade menor ou igual a 83 meses (7 anos).

24/09/2014 20

EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 2 DISTRIBUIÇÃO DE FREQUÊNCIA RELATIVA E ACUMULADA

Exercício prático 2 – 15 minutos

24/09/2014 21

Freqüência relativa e acumulada de dados numéricos

Abra a planilha LagoaPeixe_Censo ◦ Insira uma planilha dinâmica (repita o passo do

exercício anterior)

◦ Vamos trabalhar com a distribuição de freqüência (absoluta, relativa e acumulada) da variável total (que representa o número de aves de cada proprietário situado num raio de 10km da Lagoa do Peixe – RS);

◦ Arraste a variável total para o rótulo de linhas e variável proprietário para o campo valores (certifique-se que esteja em contar valores); agrupe o dados de 10 em 10 aves.

◦ Copie a tabela para uma nova planilha (nomeie esta planilha análise) – demonstração professor

24/09/2014 22

Tabelas, gráficos e medidas resumo

Ferramentas de resumo dos dados;

24/09/2014 23

Tabelas

Meio mais simples de se resumir um conjunto de observações;

O intuito é mostrar uma série de resultados para uma fácil compreensão; ◦ Mais informativas se não excessivamente complexas;

Alguns princípios: 1. Título conciso e auto-explicativo;

2. Claramente rotuladas;

3. Incluir unidades de medida (%, Kg, DO);

4. Ao demonstrar uma medida resumo como média, incluir medidas de precisão (como intervalo de confiança);

5. Não colocar muita informação;

24/09/2014 24

Gráficos

Devem ser concebidos de modo a transmitirem os padrões gerais de um conjunto de observações em uma simples visualização;

Perdem em detalhes mas ganham em entendimento dos dados em relação às tabelas;

Existem vários tipos de gráficos aplicáveis para os diferentes variáveis;

Alguns princípios: ◦ Título conciso e auto-explicativo;

◦ Claramente rotulados (eixos y e x) e unidades de medidas indicadas;

24/09/2014 25

Gráficos para varáveis categóricas (qualitativas)

Cada observação pertence a uma categoria;

Podem ser representadas por números absolutos ou porcentagem de indivíduos em cada categoria;

Tipos:

1. Barras;

2. Composição em setores (pizza);

24/09/2014 26

Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS.

0

10

20

30

40

50

60

Bacteriano Micótico Não Det. Neospora Outras Viral

me

ro d

e f

eto

s b

ovi

no

s

Causas agrupadas de aborto

Variável nominal 24/09/2014 27

Resultado de uma investigação de causas de aborto para 136 fetos bovinos abortados analisados entre 2001 e 2003 no Laboratório de Patologia Veterinária da UFRGS.

19.9%

2.9%

35.3%

30.9%

8.8% 2.2%

Bacteriano

Micótico

Não Det.

Neospora

Outras

Viral

Variável nominal 24/09/2014 28

Gráficos para varáveis numéricas (quantitativas)

Principais gráficos utilizados são:

◦ Histograma;

Representa a distribuição de frequência de uma variável numérica;

Similar a um gráfico de barras, porém, as barras são contíguas porque variáveis quantitativas são contínuas;

◦ Gráfico de dispersão;

24/09/2014 29

Histograma

O eixo horizontal (x) exibe os limites verdadeiros dos vários intervalos;

O eixo vertical (y) mostra a frequência ou frequência relativa das observações dentro de cada intervalo; ◦ A frequência de cada intervalo é representada pela

área do da barra;

◦ A área do histograma inteiro é igual 1 (ou 100%);

24/09/2014 30

Distribuição de frequências de idade para os 297 cães amostrados no HCV-UFRGS em 2007 – 2008.

0

5

10

15

20

25

30

35

40

<12

12

-23

24

-35

36

-47

48

-59

60

-71

72

-83

84

-95

96

-10

7

10

8-1

19

12

0-1

31

13

2-1

43

14

4-1

55

15

6-1

67

16

8-1

80

mer

o d

e C

ães

Idade (meses)

Eixo x

Eixo

y

24/09/2014 31

Gráficos de dispersão

Úteis para examinar a relação entre duas variáveis numéricas ou ordinais;

Cada ponto do gráfico representa um par de valores (cada valor no eixo x tem uma única medida correspondente no eixo y); ◦ Pontos adjacentes podem ser conectados por linhas;

◦ Se a escala ao longo do eixo horizontal representar o tempo, podemos traçar a mudança cronológica na quantidade do eixo vertical em um período de tempo;

24/09/2014 32

Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07

Fre

qu

ên

cia

Período de tempo em meses (1996 - 2006)

24/09/2014 33

Frequência mensal de anticorpos anti-Leptospira spp. em bovinos ao longo de 132 meses de estudos entre 1996 – 2006 no Estado do Rio Grande do Sul.

R² = 0.1738

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

A-95 F-96 D-96 S-97 J-98 M-99 M-00 J-01 N-01 S-02 J-03 A-04 F-05 D-05 O-06 A-07

Fre

qu

ên

cia

Período de tempo em meses (1996 - 2006)

24/09/2014 34

Correlação dos resultado de testes sorológicos da Fluorescência Polarizada (em milipolarização – mP) para brucelose bovina realizada em dois laboratórios (A e B) para avaliação da reprodutibilidade.

0

50

100

150

200

250

300

350

0 50 100 150 200 250 300 350

Resu

lta

do

s L

ab

ora

tório

B

(m

P)

Resultado Laboratório A (mP)

24/09/2014 35

EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 3 GRÁFICOS

Exercício prático 3 – 30 minutos

24/09/2014 36

Na planilha Febre_Aftosa_RS_2001

Agora vocês vão construir os gráficos pra visualização de variáveis categóricas;

Para a variável fonte (de notificação), vocês farão o gráfico de pizza. No Excel, clique na aba inserir e depois pizza. O layout do gráfico aparecerá sem nada. Agora, clique em selecionar dados. Na caixa aparecerá, a esquerda, entradas de legenda. Clique em adicionar e no valores da série (na caixa que abre, clique no símbolo quadrado que aparece à direita) e marque os valores das observações (não esqueça que para marcar tem de clicar no botão esquerdo) e ok. No rótulo do eixo horizontal, clique em adicionar e, depois editar. Marque o nome das categorias (i.e. proprietário e vigilância) e ok. Clique em ok. Pronto. Se quiseres posicionar a legenda em outro lugar, clique sobre ela com o botão direito e depois, formatar legenda. Nesta caixa você pode formatar a legenda, trocando de posição, mudando estilo, etc. Para colocar os valores da frequência, clique sobre o gráfico e depois clique com o botão direito. Na caixa que abrir, clique em adicionar rótulos de dados.

Faça um gráfico de barras para a variável diagnóstico. O procedimento é o mesmo do anterior, só muda a escolha do tipo de gráfico (obs. Gráfico de barras no Excel corresponde ao gráfico de colunas). Vocês verão que a legenda série aparecerá. Como vocês têm apenas uma série, retire ela. Clique sobre a legenda e depois delete. Agora você deve rotular os eixos e dar nome ao gráfico. Clique sobre o gráfico e na aba layout. Clique na caixa título dos eixos, horizontal principal e título abaixo do eixo. Nomeie apropriadamente. Faça a mesma coisa para o eixo vertical, clicando em título girado. Faça o mesmo procedimento para o título do gráfico.

24/09/2014 37

Agora você vai construir um gráfico de distribuição da variável quantitativa data.

Trata-se de uma variável contínua. Para visualizar a distribuição de frequência você construirá um histograma, plotando no eixo horizontal (x) a data e no eixo vertical (y) o número de focos.

Repita o mesmo procedimento anterior para inserção dos gráficos e dos rótulos e valores da série. Escolha a opção gráfico de colunas.

Como é um histograma, as barras devem ser contíguas. Clique sobre uma barra e depois clique com o botão direito. Agora clique em formatar série de dados. Na opção de série, você vera que tem umas setas. Na segunda de cima para baixo, largura de espaçamento, clique sobre a seta e arraste-a para esquerda. Feche a caixa. Você verá que as barras estão sem espaçamento. As barras estão sem contorno. Clique novamente sobre as barras e depois na aba formatar. No menu, selecione contorno da forma e selecione a cor desejada.

Rotule os eixos e nomeie o gráfico apropriadamente.

24/09/2014 38

Medidas-resumo numéricas

Medidas utilizadas para complementar os resumo dos dados:

1. Medidas de posição

2. Medidas de dispersão

24/09/2014 39

Medidas de posição (medidas de tendência central)

1. Média

2. Mediana

3. Moda

24/09/2014 40

Média

Medida de posição mais usada é a média aritmética;

Soma de todas as observações dividida pelo número total de medidas;

i n

xix

24/09/2014 41

Valores da média são influenciados pelos “outliers”:

◦ “Outliers” excessivamente grandes empurram a média para cima e vice-versa.

A média aritmética é mais apropriada para resumir os dados que tenham distribuição simétrica

◦ A média se desloca para direita (aumenta) se a distribuição tem assimetria positiva e se desloca para esquerda (diminui) se a distribuição tem assimetria negativa.

24/09/2014 42

Mediana

É o valor central de uma série de n observações ordenadas do menor para o maior;

Pode ser usada como medida-resumo para observações ordinais ou numéricas (que não tem distribuição simétrica);

É definida como 50° percentil

◦ Metade dos valores são maiores ou iguais e a outra metade menores ou iguais a mediana;

Não é sensível aos valores extremos;

24/09/2014 43

Para um conjunto de n observações ímpares a mediana é o valor do meio dada por: [(n +1)/2] – ésima medida.

n = 13 observações

◦ 4, 6, 9, 10, 11, 13, 14, 14, 15, 18, 19, 21, 23.

◦ (13 + 1)/2 = 7ª observação.

Se n for par, a mediana é tomada como a média dos dois valores centrais do intervalo.

24/09/2014 44

Moda

É a observação que ocorre mais frequentemente e em um conjunto de dados;

Média, moda e mediana terão valores similares quando a distribuição for simétrica

24/09/2014 45

Medidas de dispersão

1. Amplitude

2. Intervalo interquartil

3. Variância e desvio-padrão

24/09/2014 46

Amplitude

Diferença entre a maior e a menor observação;

Fácil de calcular;

Sensível a valores extremos;

24/09/2014 47

Intervalo interquartil

Usado quando a média e DP não são medidas adequadas

para representar um conjunto de dados (Valores extremos);

Três valores que divide o conjunto ordenado de dados em

quatro partes iguais:

Primeiro quartil (designado por Q1/4) - quartil inferior = é o

valor aos 25% da amostra ordenada = 25º percentil

Segundo quartil (designado por Q2/4) - mediana = é o valor

até ao qual se encontra 50% da amostra ordenada = 50º

percentil

Terceiro quartil (designado por Q3/4) - quartil superior = valor

a partir do qual se encontram 25% dos valores mais elevados =

valor aos 75% da amostra ordenada = 75º percentil

24/09/2014 48

Variância

Quantifica a variabilidade ou o espalhamento ao redor da média das observações;

1

)( 2

2

n

xxs i i

24/09/2014 49

Desvio-Padrão (DP)

Raiz quadrada da variância;

Tem a mesma unidade de medida que a média, em vez da unidade elevada ao quadrado e por isso

◦ Usado mais frequentemente do que a variância.

◦ Em uma comparação entre 02 grupos de dados, o grupo com menor DP tem observações mais homogêneas e o com maior tem mais variabilidade;

2ss 24/09/2014 50

EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 4 RESUMO ESTATÍSTICO – PACOTE DE DADOS

Exercício prático 4 – 15 minutos

24/09/2014 51

Agora você vai aprender a usar a função resumo estatístico do pacote de análise de dados do Excel:

Antes de iniciar, certifique-se que o pacote análise de dados está instalado: ◦ Clique em dados e verifique na barra bem a direita se o ícone análise de

dados está ativo;

Na planilha Lagoa Peixe_Censo vamos trabalhar com a variável total (número total de aves por proprietário): ◦ Clique em dados e depois análise de dados;

◦ Na caixa que abrir, clique em estatística descritiva e depois ok;

◦ No intervalo de entrada, clique no ícone a direita da caixa e marque toda coluna total incluindo o rótulo (nome da coluna); deixe marcado agrupado por colunas e rótulos na primeira linha.

◦ No intervalo de saída clique no ícone a direita e depois em alguma célula da planilha análises.

◦ Marque resumo estatístico e ok;

◦ Observe os resultados;

◦ A variável total tem muita variabilidade? Porque?

24/09/2014 52

EXCEL PARA AS ANÁLISES EXPLORATÓRIAS 5 MEDIDAS DE DISPERSÃO DE UMA SÉRIE DE DADOS

Exercício prático 5 – 15 minutos

24/09/2014 53

Você vai calcular as medidas de dispersão da variável total (Lagoa Peixe_Censo):

◦ Utilize as funções Mínimo(valores), Máximo(valores), calcule a amplitude (= valor máximo – valor mínimo);

◦ Agora utilize as funções VAR (variância) e DESVPAD (desvio padrão);

◦ Para finalizar, vamos calcular Primeiro Quartil: função PERCENTIL (valores; 0,25)

Segundo Quartil: função PERCENTIL (valores; 0,5)

Terceiro Quartil: função PERCENTIL (valores; 0,75)

◦ Agora você tem as principais medidas de dispersão da variável total;

24/09/2014 54

top related