fundamentos da bioestatística
Post on 14-Apr-2017
196 Views
Preview:
TRANSCRIPT
Fundamentos da Bioestatística
Prof. Dr. Juliano van Melis
Objetivos• Aprender que a estatística ajuda a responder as
suas perguntas;• Entender o que são parâmetros a serem
utilizados nos testes estatísticos;• Ser apresentado às distribuições de
probabilidade e suas inferências;• Conhecer as 3 formas de trabalhos estatísticos:
– Exploração– Teste de Hipóteses– Predição
Experimentação científica
http:
//w
ww
.spa
ceel
evat
orbl
og.c
om/m
edia
/Gal
ileos
Balls
.jpg
Ciência no Séc. XVI
↓ Ciência a partir do Séc. XX
Amostragem?Repetições?Modelo nulo?Significância?
Conceitos básicosEstatística- Em Deus nós confiamos. Para o todo resto são necessários
dados. W. E. Deming
- Todos os modelos são errados, mas alguns são úteis. George Box
- Existem três tipos de mentiras: as boas mentiras, as más mentiras e as estatísticas. Benjamin Disraeli
- Estatísticas são como bikinis. O que eles relevam é sugestivo, mas o que eles escondem é vital. Aaron Levenstein
- Estatística é usada da mesma maneira que um poste por um bêbado: para suporte, não como iluminação. Vin Scully
https://virtualschooling.files.wordpress.com/2010/02/statistics-education-research-day1.jpg
Objetivos da Estatística
TESTE DE HIPÓTESESEXPLORAÇÃO
PREDIÇÃO
PROBABILID
ADE
S
PAR
ÂM
ETRO
S
Distribuições de ProbabilidadesUm aspecto constante no estudo da Natureza é a inconstância das formas existentes.
(John Smith)
Distribuições de Probabilidades
•A representação da variabilidade e diversidade é um aspecto fundamental nas ciências da vida
x
8 10 12 14 16 18 20
0.00
0.05
0.10
0.15
0.20
8 10 12 14 16 18 20
x s
78 %
x
-2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
0.5
-2 -1 0 1 2 3
x s
66 %
x
0 2 4 6 8 10 12 14
0.00
0.05
0.10
0.15
0.20
0 2 4 6 8 10 12 14
x s
78 %
Imagens:Bioestadística. U. Málaga.
Distribuições de Probabilidadeshttps://ecomaths.files.wordpress.com/2011/12/pcture2.png
Distribuições de Probabilidades mais utilizadas
Variáveis discretas (contagens/finito)•Poisson (λ)•Binomial (p, n)Variáveis contínuas (infinito)•Normal (μ,σ)Distribuições dependentes de graus de liberdade•t de Student•Qui-quadrado
ProbabilidadesTransformações
Poisson
ProbabilidadesTransformações
Poisson
ProbabilidadesTransformaçõesQui-Quadrado
ProbabilidadesTransformações
Parâmetros
• Média/Esperança• Desvio padrão e Variância
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
dens
idad
-3 -2 -1 0 1 2 3
xs
66 %
x 2s
95 %
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
dens
idad
-3 -2 -1 0 1 2 3
xs71 %
x2s94 %
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
dens
idad
-3 -2 -1 0 1 2 3
xs68 %
x 2s94 %
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
dens
idad
-3 -2 -1 0 1 2 3
xs
70 %
x2s
94 %
Bioestadística. U. Málaga.
Bioestadística. U. Málaga.
Aplanada
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.5
1.0
1.5
2.0
0.0 0.2 0.4 0.6 0.8 1.0
xs
57 % Apuntada como la normal
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
-3 -2 -1 0 1 2 3
xs
68 %
Apuntada
-2 -1 0 1 2
0.0
0.2
0.4
0.6
0.8
-2 -1 0 1 2
xs
82 %
Conceitos básicos
POPULAÇÃO: conjunto absoluto do seu objeto de estudo, que apresenta ao menos uma característica em comum. Dela se obterá um PARÂMETRO.
PARÂMETRO:Quantidade numérica que caracteriza uma população.
PARÂMETRO ESTATÍSTICO:É referente à AMOSTRA
Conceitos básicos
AMOSTRA:Subconjunto de sua população.
Obs: ArredondamentoA última casa refere-se a um valor não “certo”
Testes
ParamétricosUtilizam parâmetros das distribuições de probabilidade. Por exemplo: Distribuição normal (μ,σ)
Não-ParamétricosNão utilizam parâmetros, então são testes que não precisam seguir a normalidade dos dados.
ORGANIZAÇÃO
CONCLUSÕES
Como são os seus dados?
Qualitativos?•Ordinais•Nominais
Quantitativos?•Discretas•Contínuas
QUAL É O SEU OBJETIVO?
Conceitos básicosMétodo Científico
DEFINIÇÃO DO TEMA - OBJETIVO
PLANEJAMENTO DA PESQUISA
EXECUÇÃO DA PESQUISA – Coleta dos dados
ANÁLISE e INTERPRETAÇÃO DOS DADOS
CONCLUSÃO
RESULTADOSApresentação dos dados e
testes
Métodos de Amostragem
Estatística Descritiva e
Analítica
Background teórico
Exploração de dados
• Construção de tabelas– Dados Brutos– Parâmetros
• Construção de gráficos– Observação– Explicação
TABELASAspectos básicos
- Toda tabela deve ser simples, clara e objetiva ;
- Toda tabela deve ser autoexplicativa;
- Nenhuma célula deve ficar em branco;
- Deve ser mantida a uniformidade de casas decimais.
• Qualquer tipo de variável (qualitativa/quantitativa)
• Conceitos: Linhas e Colunas• Fundamental para se criar os gráficos
TABELASAspectos básicos
Tabulação dos dadosOrganização dos dados
OpenOfficeMS OfficeGoogle Sheets
Exemplo
Tabela Dinâmica
Tabela Dinâmica
Tabela Dinâmica
Tabela Dinâmica
Tabela Dinâmica
Tabela Dinâmica
Tabela Dinâmica
Medidas de Tendência Central - Resumo
• Média: Valores razoavelmente homogêneos
• Mediana: Valores heterogêneos
• Moda: Quando ocorrem muitas repetições
Análise e Interpretação dos dados
Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10
VariânciaB = (3-6,5)+(9-6,5)+(4-6,5)+(10-6,5) = 0
Medidas de Dispersão
VariânciaA = (6-6,5)+(7-6,5)+(6-6,5)+(7-6,5) = 0
Análise e Interpretação dos dados
Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10
VariânciaB = (3-6,5)²+(9-6,5)²+(4-6,5)²+(10-6,5)²
Medidas de Dispersão
VariânciaA = (6-6,5)²+(7-6,5)²+(6-6,5)²+(7-6,5)²
Análise e Interpretação dos dados
Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10
VariânciaB = 37
Medidas de Dispersão
VariânciaA = 1
Análise e Interpretação dos dados
Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10
VariânciaB = 37
Medidas de Dispersão
VariânciaA = 1 /4
/4
Análise e Interpretação dos dados
Aluno A: 6; 7; 6; 7Aluno B: 3; 9; 4; 10
Análise e Interpretação dos dados
Medidas de Dispersão
Análise e Interpretação dos dados
Medidas de Dispersão
Variância (S² ou σ2) e Desvio Padrão (S ou σ)
Populacional:
Amostral:
σ2
Regras– Estética
• Eixos semelhantes.– Ordem
• Abscissas (Horizontal): valores aumentam da esquerda pra direita
• Ordenadas (Vertical): valores aumentam de baixo para cima
– Informação• Nomes dos eixos e variáveis (com escala)
– Autoria• Fonte dos dados
Gráficos
Representações Gráficas – Sugestões
O que você gostaria mostrar?Composição
Representações Gráficas – Sugestões
O que você gostaria mostrar?Comparação
Comparações múltiplas no R, entre as variáveis x, y e z
> plot(data.frame(x,y,z))
Representações Gráficas – Sugestões
O que você gostaria mostrar?Distribuição
Fonte: Rodrigo A.S. Pereira (USP-Ribeirão Preto)
Fonte: Rodrigo A.S. Pereira (USP-Ribeirão Preto)
> qqnorm(x)Meus dados são normais?
Teste de Hipóteses
• Baseada no método hipotético-dedutivo• “Hipóteses falseáveis”• Erro tipo-I e tipo-II
Teste de Hipóteses
Hipótese: afirmação ou asserção sobre uma propriedade da população.
Teste de Hipóteses (ou teste de significância): testar uma afirmação sobre uma propriedade da população
Teste de Hipóteses
“Todos os cisnes são brancos”
Método hipotético-dedutivo
Evidência de presença contrária HIPÓTESE FALSEADA
Teste de HipótesesMétodo hipotético-dedutivo
• Hipótese Nula (H0): valor do parâmetro que se assume como verdadeiro para a população.
Tem que ser uma afirmação escrita na forma de uma igualdade (=)
Conclusão: Rejeita-se ou não H0
Teste de Hipóteses
“É penalty para o SCCP”
Herrar é umano
Teste de Hipóteses
H0 é verdadeira
H0 é falsa
Rejeita-se H0
Erro Tipo I(α)
DECISÃO CORRETA
Aceita-se H0
DECISÃO CORRETA
Erro Tipo II(β)
falso negativo
falso positivo
Teste de Hipóteses
Fonte: Alexandre A. Oliveira (IB-USP)
Teste de Hipóteses
Fonte: Alexandre A. Oliveira (IB-USP)
Distribuição t de Student
Curva de densidade de Probabilidade
• Simétrica em relação à média;
• Depende do grau de liberdade, gl;
• Quanto mais gl aumenta, mais a distribuição t tende à Normal padrão.
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
-4.00 -3.00 -2.00 -1.00 0.00 1.00 2.00 3.00 4.00
NormalT1glT5glT30gl
SimDist. Normal
(População)Não
“Amostra Grande”
Sim Não
Teste z Teste t
Sim Não
Testes não- paramétricos
conhecido?
COMPARAÇÃO DE DOIS GRUPOS
Teste de Hipóteses
Fonte: Alexandre A. Oliveira (IB-USP)
Amostra é de um Macho ou de uma Fêmea?
??
Fonte: Alexandre A. Oliveira (IB-USP)
H0: Mandíbulas de Chacais machos e fêmeas são iguais (mesmo tamanho)
Região crítica (ou região de rejeição ou zona de rejeição): Conjunto de valores da estatística de teste que nos levam a rejeitar a hipótese nula.
P-value (ou p-value ou valor da probabilidade):Probabilidade de obter um valor da estatística de teste que seja pelo menos tão extremo quanto o representado pelos dados, admitindo que a hipótese nula é verdadeira.
A hipótese nula é rejeitada se o P-value for muito pequeno, digamos 0.05 (5%) ou inferior.
Análise de Variância(ANOVA)
Fonte: Alexandre A. Oliveira (IB-USP)
Análise de Variância(ANOVA)
Fonte: Alexandre A. Oliveira (IB-USP)
Análise de Variância(ANOVA)
Fonte: Alexandre A. Oliveira (IB-USP)
Variação Total
Variação Entre GruposVariação Intra Grupos
Análise de Variância(ANOVA)
Fonte: Alexandre A. Oliveira (IB-USP)
Análise de Variância(ANOVA)
Fonte: Alexandre A. Oliveira (IB-USP)
Análise de Variância(ANOVA)
Fonte: Alexandre A. Oliveira (IB-USP)
Análise de Variância(ANOVA)
Conclusão: Como a probabilidade de erro Tipo I é considerada baixa (2,5%), assumimos que há diferença entre os grupos de solo quanto a variável estudada.
H0 da ANOVA
Não rejeitada(α>0,05)
Rejeitada(α<0,05)
Teste HSD (Tukey)encontrar médias diferentes
entre os grupos
ANOVA e Tukey’s HSD
Exemplo: http://www.scielo.br/img/revistas/aseb/v28n2/2a03f1.jpg
ANOVA e Tukey’s HSD
Análise de Variância(ANOVA)
OBSERVAÇÕES:- Cada observação é independente das demais;
- Cada tratamento tem distribuição normal;
- Todas as distribuições têm a mesma variância; e
- ANOVA com 2 tratamentos (r = 2) é similar a um
teste t bilateral (homocedástico).
Teste t
1) Identificar H0 e H1.2) Decidir o nível de significância, 3) Escolher uma estatística de teste
apropriada.4) Identificar a região de rejeição.5) Efectuar os cálculos para determinar o valor
da estatística de teste.6) Concluir pela rejeição ou não de H0.
Teste de HipótesesEtapas
PrediçãoGráfico de Dispersão
Gráfico de Dispersão
Gráfico de Dispersão
Gráfico de Dispersão
Fonte: João L.F. Batista (ESALQ-USP)
A variável resposta é uma variável normal (Gaussiana) sendo que: Sua média é uma função linear das variáveis preditoras; Seu desvio-padrão é constante; LOGO: resíduos com média zero e variância
y = a.x + b + ε
GLM: pode utilizar outras distribuições de Probabilidade
Predição x ExplicaçãoModelo estatístico ou algoritmo de seleção de dados com o objetivo de predizer novas e futuras observações
•“Aplicada”
Modelo estatístico para testar hipóteses causais•“Básica”
É diferente de Exploração (correlação dos dados)
http://arxiv.org/pdf/1101.0891.pdf
Shmueli, G. 2010.To Explain or to Predict? Statistical Science 25(3): 289-310
Predição http://cantareira.github.io/
Artigo: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0138278
Explicação
Artigo: http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0138278
Cantareira sofreu transição catastrófica, diz revista científica
Predição
• Seleção de variáveis• Seleção de Métodos• Avaliação do Modelo
Etapas
Explicação
• Seleção de variáveis• Avaliação do Modelo• Validação dos Modelos• Seleção do Modelo• Uso do Modelo e Relatório
Etapas
CONCLUSÕES
Análise dos dados Muito fácil de usar (e em pt-br):Bioestat
http://www.mamiraua.org.br/pt-br/downloads/programas/bioestat-versao-53/
Restrições:-Análises mais avançadas;-Lembrar quais “botões apertar”
Análise dos dados TODA e QUALQUER ANÁLISE ESTATÍSTICA
(de graça, código aberto)
Rhttps://cran.r-project.org
Análise dos dados Facilidades do R
Use R!http://www.springer.com/series/6991?detailsPage=titles
Análise dos dados Facilidades do R
Novas formas analíticas, ou correções, são feitas na linguagem R
Livros tem tutoriais para aprender a programar E melhor entender as análises
Se não encontrar um livro, procure na internet
Sites interessantes (mas tem muitos outros):http://www.statmethods.net/index.htmlhttp://zoonek2.free.fr/UNIX/48_R/all.htmlhttp://ecologia.ib.usp.br/bie5782/doku.php?id=starthttp://www.estatisticanor.xpg.com.br/
Objetivos foram cumpridos?
• Consegue diferenciar entre testes paramétricos e não-paramétricos?
• Entendeu o que é o p-valor e o que significa 5%?• Entendeu que não há fórmulas prontas para
construção de gráficos, mas existem as melhores sugestões?
Cursos disponíveis na internethttps://www.coursera.org/course/introstatshttps://www.coursera.org/course/exdata
http://cmq.esalq.usp.br/BIE5781/doku.php?id=00-modelagem:00-modelagem
http://cmq.esalq.usp.br/wiki/doku.php?id=publico:tutoriais:r-relampago:start
top related