Download - Bioestatística
O que é estatística?
• Estatística é a ciência que se ocupa de coletar, organizar, analisar e
interpretar dados para que se tomem decisões.
Média
• Valor que “representa” vários outros.
Ex: Qual foi sua média em fisiologia no segundo semestre?
Suas notas: 9,3; 6,2; 8,5; 5,2.
• “S” = Soma das notas
• “n” = número de notas que você teve
• “M” = Média.
M = S/n = 9,3 + 6,2 + 8,5 + 5,2/4 = 7,3
Medidas de dispersão
• Muitas vezes a média não é suficiente para avaliar um conjunto de
dados. Por exemplo:
• Grupos de mulheres com idade média de 18 anos. Esse dado,
sozinho, não significa muito.No grupo, podem ter muitas mulheres
de 24 anos, outras com 38 anos, e outras tantas com 3 anos de
idade.
• Dispersão – diferença existente entre a média e os valores do conjunto.
• Vamos calcular o desvio (diferença de cada nota em relação à média):
Notas Média Desvio
9,3 7,3 2
6,2 7,3 -1,1
8,5 7,3 1,2
5,2 7,3 -2,1
• Outro dado importante em estatística: Soma dos desvios ao quadrado.
• Cada desvio é elevado ao quadrado e, em seguida, somados.
Variância
• Soma dos quadrados dos desvios dividida pelo número de ocorrências
• V = 11,06/4 = 2,765
Notas Média Desvio Quadrado dos
desvios
9,3 7,3 2 4
6,2 7,3 -1,1 1,21
8,5 7,3 1,2 1,44
5,2 7,3 -2,1 4,41
Soma dos quadrados dos desvios 11,06
Desvio padrão
• Valor obtido a partir da média e da variância
• Desvios foram elevados ao quadrado, portanto, deve-se tirar a raiz
quadrada da variância para achar o desvio padrão:
• Dp = Raiz quadrada (2,765) = 1,663
• O desvio é o quanto varia para mais ou para menos o valor das notas
• Desempenho: “M+Dp” e “M-Dp”
• D = 7,3 + 1,7 = 9
• D = 7,3 - 1,7 = 5,6
Notas Desvio Padrão (+) (-)
9,3 1,7 11 7,6
6,2 1,7 7,9 4,5
8,5 1,7 10,2 6,8
5,2 1,7 6,9 3,5
Erro Padrão de Estimativa
• Amostra qualquer de tamanho “n” – Média aritmética populacional
• Outra amostra aleatória – Média aritmética difere da primeira amostra
• Variabilidade das médias – Erro padrão
(precisão do cálculo da média populacional)
• Sx = s/raiz quadrada (n)
• Sx = erro padrão
• s = desvio padrão
• n = tamanho da amostra
• Observação: quanto melhor a precisão no cálculo da média
populacional, menor será o erro padrão.
• Exemplo 1: Numa população obteve-se o desvio padrão de 3,52 com
uma amostra aleatória de 76 elementos. Qual o provável erro padrão?
• Sx = n/raiz quadrada (n)
• Sx = 3,52/raiz quadrada (76)
• Sx = 3,52/8,717797887081347
• Sx = 0,404 (a média pode variar para mais ou para menos nesse valor)
• Exemplo 2: Numa população obteve-se desvio padrão de 1,43 com uma
amostra aleatória de 134 elementos. Sabendo que para essa mesma
amostra obteve-se uma média de 7,75, determine o valor mais provável
para a média dos dados.
•Sx = n/raiz quadrada (n)
•Sx = 1,43/raiz quadrada (134)
•Sx = 0,123
• Média = 7,75 +/- 0,12 (a média pode ser 7,87 ou 7,63)
Média x Mediana
• Média – Soma das observações divididas pelos nos de observações.
• Média de: 3, 3, 4, 5, 5, 5, 6, 8, 9 = (3+3+4+5+5+5+6+8+9)/9 = 5,33
• Mediana = Número que ocupa a posição central da série de
observações.
• Determine a mediana das duas séries de dados:
(a) 8, 4, 9, 5, 5.
(b) 7, 5, 2, 4, 5, 9.
Respostas:
(a) Para séries pares
4, 5, 5, 8, 9 (o valor em negrito é a mediana)
(b) Para séries ímpares
2, 4, 5, 5, 7, 9 = (2+4+5+5+7+9)/2 = 16
*** Média + Desvio padrão.
*** Mediana + Erro padrão.
Diferença entre Mediana e Moda
• Mediana = Número que ocupa a posição central da série de
observações.
• Moda = Valor que detém o maior número de observações; o valor que
ocorre com maior frequência num conjunto de dados (valor mais comum).
É especialemnte útil quando os valores ou observações não são
numéricos, uma vez que mediana e média podem não ser bem definidas.
• Amodal – não possui moda
{1,5,9,2,6,3,4,8,7}
• Multimodal – possui mais do que dois valores modais.
{1,1,2,5,5,3,4,7,7,8,9}
• Bimodal – possui dois valores modais
{1,4,7,7,9,9}
{pêra, uva, laranja, pessego, pessego, pessego, abacaxi}
Teste t-Student
• Teste de hipóteses – Conceitos estatísticos para rejeitar ou não uma hipótese
nula, ou seja, quando a estatística do teste, na verdade, segue uma distribuição
normal, mas a variância da população é desconhecida.
Hipótese nula – Apresentada sobre determinados fatos estatísticos, e cuja
falsidade de um determinado teste de hipóteses tenta-se provar. Geralmente a
hipótese nula afirma que não existe relação entre dois fenômenos medidos.
Ex: (1) Um aumento de 5% no preço de um determinado produto não afetará
adversamente as vendas dele. (2) O aumento da diferença de potencial não afeta
a corrente em um condutor.
• Hipótese que pretende-se confrontar com os dados.
• Quando não é possível ou viável observar toda a população – observação de
uma amostra aleatória da população (parâmetro mais frequente – média +
desvio padrão).
• Muitas vezes a hipótese nula consiste em afirmar que os parâmetros ou
características matemáticas de duas ou mais populações são idênticos, ou seja,
uma igualdade (hipóteses simples).
Hipótese Nula (H0)
• Duas amostras aleatórias de caranguejos. Uma amostra oriunda do Manguezal do
Portinho da Praia Grande e a outra amostra oriunda do Manguezal Guaratuba de Bertioga.
Queremos ver se existe diferença no tamanho dos indivíduos dessas duas populações. A
hipótese nula seria - "que a média do tamanho dos indivíduos amostrados da população de
Praia Grande é a mesma dos indivíduos amostrados em Bertioga.“
H0: u1 = u2
• u1 = a média do tamanho dos indivíduos da população 1
• u2 = a média do tamanho dos indivíduos da população 2
H0: u1-u2 = 0 (α = 0,05)
* α - nível de significância mais comumente aceito.
• Duas decisões podem ser tomadas:
(1) Rejeitar a hipótese nula
(2) Não rejeitar a hipótese nula – Salienta-se que não rejeitar a hipótese nula significa
apenas que não se conseguiu, através dos dados disponíveis, demonstrar a sua
falsidade, o que difere completamente de provar a sua veracidade.
Analogia: Nos processos judiciais, a hiótese nula seria que o réu é inocente. Durante o julgamento
tenta-se provar a falsidade desta hipótese, ou seja, que o réu é culpado. Entretanto no caso de não
conseguir provar a culpa, isso não significa que o réu seja inocente; significa apenas que não foram
encontradas provas suficientes. O fato de não se poder “aceitar” a hipótese nula, porém apenas
“não a rejeitar”, tem a ver com os erros que podem ser cometidos ao rejeitar ou não rejeitar a
hipótese.
Hipótese Alternativa (H1)
• Hipótese contraditória a hipótese nula.
• A escolha do par hipótese nula/hipótese alternativa depende do
contexto do problema, do parâmtero que se deseja testar e das
conclusões a que se pretende chegar. Deve-se sempre levar em conta
que a hipótese nula é sempre formulada sob a forma de igualdade.
• Hipótese nula (H0: u = 0)
• Hipótese alternativa (H1: u # 0; H1: u < 1; H1: u > 1)
• Cada par de hipótese nula/hipótese alternativa conduz a um teste de
hipóteses diferente. Uma diferente hipótese alternativa pode conduzir a
uma decisão diferente em comparação a hipótese nula.
Diferença entre nível de significância (α) e o “Valor-p”
• Não confundir nível de significância com probabilidade de significância
• Ex: Ao fazer um teste com uma média, se fosse possível repetir um
número muito grande de amostras para calcular a média, em
aproximadamente 5% dessas amostras, seria rejeitada a hipótese nula
quando esta é verdadeira.
Experimento real:
1 amostra qualquer 5% onde a hipótese nula é realmente verdadeira.
95% onde a hipótese nula é realmente falsa.
* Estabelece-se o intervalo de confiança
• Intervalo de confiança de 95% - equivalente a um Erro do Tipo 1 (5%).
• Tem-se a confiança que o intervalo contêm o parâmetro estimado.
• Uma vez que reporta-se um intervalo numérico, o parâmetro populacional
desconhecido ou está dentro do intervalo ou fora; não existe uma
probabilidade desse intervalo conter o parâmetro. *Necessidade testes!
Diferença entre nível de significância (α) e o “Valor-p”
• Probabilidade de se obter uma estatística de teste igual ou mais extrema
que aquela observada em uma amostra, sob a hipótese nula.
Teste t-Student (Teste de hipóteses) – Conceitos estatísticos para
rejeitar ou não uma hipótese nula, ou seja, quando a estatística do teste,
na verdade, segue uma distribuição normal, mas a variância da
população é desconhecida.
Distribuição normal (normalidade) – Conhecida também como
Distribuição de Gauss ou Gaussiana. A lei da distribuição normal de
erros, apresenta uma curva em formato de sino, utilizada por todos que
trabalham com estatística.
A área em azul escuro está a menos de um desvio padrão(σ) da média. Em uma distribuição normal, isto
representa cerca de 68% do conjunto. Dois desvios padrões desde a média (azul médio e escuro)
representam cerca de 95% do conjunto. Já os três desvios padrões (azul claro, médio e escuro) cobrem
cerca de 99,7% do conjunto.
Variância
• A variância de uma variável aleatória é uma medida da sua dispersão estatística,
indicando quão longe em geral os seus valores se encontram do valor esperado.
Variável aleatória – pode ser entendida como uma variável quantitativa, cujo
resultado (valor) depende de fatores aleatórios.
• A variância não é medida ponto a ponto (é a "distância média") entre a média das
amostras e seus pontos...
Ex: Temos dois pontos 1 e 3, a média é 2 e a variância é 1, pois cada um dos
pontos está distante em uma unidade da média.
Homo e heterocedasticidade (medida de dispersão da variância, não tem nada a
ver com o valor do “p”. O “p” valida se uma hipótese é nula ou alternativa)
HETEROCEDASTICIDADE - Forte dispersão dos dados em torno de uma reta.
* Uma distribuição de frequências em que todas as distribuições condicionadas têm
desvios padrão diferentes.
HOMOCEDASTICIDADE - Os dados regredidos encontram-se mais
homogeneamente e menos dispersos (concentrados) em torno da reta de
regressão do modelo.
Nível de significância de 5% α = 0,05
Nível de significância de 5% α = 0,05
“variâncias desiguais"
(p ≤ 0,05)
Necessidade de utilizar um
teste não paramétrico.
Testes paramétrico e não paramétrico
PARAMÉTRICO: Refere-se a média e ao desvio-padrão, que são parâmetros que
definem as populações que apresentam distribuição normal.
NÃO PARAMÉTRICO: Refere-se a mediana e erro padrão.
Razão para a transformação dos dados
• Quando algum dos requisitos para o emprego da estatística paramétrica
(normalidade da distribuição dos erros, homogeneidade das variâncias e
aditividade dos efeitos dos fatores de variação) não puder ser preenchido
pelos dados da sua amostra experimental, o pesquisador ainda pode tentar o
recurso da transformação dos dados, antes de optar pela aplicação da estatística
não-paramétrica. É um recurso que sempre vale a pena tentar, porque a
estatística paramétrica é evidentemente mais poderosa que a não-paramétrica.
• A estatística não-paramétrica foi desenvolvida como um recurso complementar,
destinado a suprir a necessidade de testes estatísticos nos casos em que alguma
restrição desaconselhava o uso da estatística paramétrica, ou quando a própria
natureza dos dados, muitas vezes não exatamente numéricos, vedava a
aplicação desta.
• Executando o teste t-Student (paramétrico)
• “p” bicaudal (ou bilateral): utilizado quando interessam os
resultados de ambos os lados da curva.
• “p” monocaudal (ou unilateral): usado quando são
importantes os resultados de apenas um lado da curva.
Resposta: Em ambas as latitudes os animais apresentaram
LC com tamanhos semelhantes.
(t = 1,5429; p = 0,1254; gl = 1185)
Outros (n)
valores
.
.
Amostragem de dados não paramétricos
• Teste t-Student (independência).
• Programa mostra: “variâncias desiguais" (p ≤ 0,05)
• Aplicação da estatística não-paramétrica.
Teste Mann Whitney (Teste U) - Os valores de “U” calculados pelo teste
avaliam o grau de entrelaçamento dos dados dos dois grupos após a
ordenação.
• Determinada população tende a ter valores “extremos”.
• Distribuições não normais (mistura de distribuições normais).
Resposta: Existe diferença na densidade populacional das duas latitudes. A diferença mediana de Uca leptodactylus é maior em Aracaju do que em Bertioga. ( Mann-Whitney: U = 582; p<0,0001).
Outros (n)
valores
.
.
ANOVA (Análise de Variância) – Teste F
• Visa fundamentalmente verificar se existe uma diferença significativa entre as
médias e se os fatores exercem influência em alguma variável dependente. Dessa
forma, permite que vários grupos sejam comparados a um só tempo (fatores
podem ser de origem qualitativa ou quantitativa), porém a variável dependente
deverá necessariamente ser contínua*.
*Qualquer valor numérico em um determinado intervalo ou coleção de intervalos.
Ex: Lançamento de um disco – distância classificatória máxima de 50m e
distância classificatória mínima de 20m. Tem-se que 20 ≥ X ≤ 50. Esse intervalo
permite infinitas interpretações. O disco poderia cair, por exemplo em 49 metros,
52 centímetros e 20 milímetros.
• Teste paramétrico (variável de interesse deve ter distribuição normal) e os
grupos devem ser independentes.
.
.
ANOVA (Análise de Variância)
• Compara várias médias ao mesmo tempo - variável contínua x variável categórica.
• Nos diz se existe diferença entre pelo menos um par de médias das categorias de
exposição (diferentes tratamentos).
Diferença entre Teste t-Student x Análise de Variância (ANOVA)
• Se H0 não for rejeitada, não é preciso fazer mais nada.
• Se H0 for rejeitada, testamos dentro dos subgrupos de médias se há alguma que
seja diferente das demais.
Pressupostos para a realização da ANOVA
• Distribuição aproximadamente normal
• Variância dos dados é semelhante para todos os grupos comparados
• Observações são independentes
(Infinitas interpretações) (Salinidade e temperatura)
One-way ANOVA (1 entrada)
Ex 1: Quantificação de plasmídeos internalizados por espermatozóides bovinos
sexados e não sexados utilizando DNA circular e linear.
*Unsorted – Indiferenciados; *X-Clasificados; Y-Classificados.
Two-way ANOVA (2 entradas)
Ex: Avaliação da expressão do gene KRAS de células tumorais tratadas com
diferentes concentrações (1, 10, 100) dos compostos X,Y,Z.
Factorial ANOVA (2 ou mais entradas)
• Comparação de médias com dois fatores ou mais.
Ex: Avaliação da expressão gênica de células tumorais A549 tratadas com diferentes
compostos antitumorais, com diferentes concentrações em tempos diferentes.
Testes post-hoc (“a posteriori”) [ANOVA]
• São realizados apenas se houver diferenças significativas entre as médias
(p < 0,05)
• Identificam onde está a diferença e quais são os grupos que diferem.
• Existem diversos testes post-hoc. Ex:
• Tukey [mais usado e mais exigente]
• SNK (Student-Newman-Keuls)
•Distribuição aproximadamente normal
(SIMÉTRICA)
• Variância dos dados é semelhante
para todos os grupos comparados
• Observações são independentes
Teste deTukey (Teste de comparação de médias)
(1) É um dos testes de comparação de média mais utilizados, por ser bastante rigoroso e de
fácil aplicação;
(2) Não permite comparar grupos de tratamentos (“grupos de médias”) entre si;
(3) É utilizado para testar toda e qualquer diferença entre duas médias de tratamento;
(4) É aplicado quando o teste “F” para tratamentos de análise de variância for significativo.
(5) Base – A Diferença Mínima Significativa (D.M.S.)
Teste deTukey
One-way ANOVA (1 entrada)
Ex 2: Em seu TCC, Murilo resolveu avaliar o impacto de um determinado detergente sobre a abundância de
Nematodas em praias. Para isso ele escolheu duas praias que não recebiam resíduos do detergente (praias 1
e 2) e outras duas praias que sim (praias 3 e 4). As quatro praias tinham características muito parecidas e a
contaminação era o principal fator variável. Qual a conclusão que o pesquisador chegou com os dados
coletados? Descreva, em um pequeno texto, o resultado encontrado e o teste utilizado. Represente
graficamente.
Resposta: Foi realizado primeiramente a ANOVA (1 critério) (ANOVA (F): 6,0696; p = 0,0015), pois tratam-se
de 4 amostras independentes, e a posteriori o teste Tukey. Este demonstrou que as médias das praias 1 e 2
não apresentaram diferenças significativas, dessa forma receberam a letra (a), e a média das praias 3 e 4
também não tiveram diferenças significativas, recebendo a letra (b). Já as médias entre as praias 1 e 3; 1 e 4;
2 e 3, 2 e 4 foram diferentes (p< 0,05). Através da análise da Figura 1, infere-se que a abundância de
nematodas nas praias é inversamente proporcional quanto ao despejo dos resíduos de detergente, sendo
assim conclui-se que o impacto nas praias 3 e 4 é considerável.
Teste SNK (Student-Newman-Keuls)
• Procura contornar os inconvenientes do teste t-Student, quando mais de dois
tratamentos estão envolvidos no experimento.
• O teste procura ajustar o valor de “t” de acordo com as distâncias entre as
médias ordenadas dos tratamentos.
Definição: Uma relação decrescente de “t” médias (n médias), duas delas
(y1 e y2) possuem significância se o valor calculado em módulo para tsnk for
maior ou igual ao valor tabelado para o nível de significância α (costuma ser
α = 0,05) com graus de liberdade* para resíduo e uma distância i entre as
médias (i = p + 2). [p = número de médias existentes entre as duas médias [+2]
comparadas na relação decrescente.
Definições para grau de liberdade:
* Graus de liberdade (gl): Número de classes de resultados menos o número de
informações da amostra que é necessário para o cálculo dos valores esperados
em cada classe (número de classes – 1).
Ex : Qual o grau de liberdade de uma herança genética onde existem duas
características (uma recessiva e outra dominante)?
[Resposta: gl = n-1, portanto gl = 2-1 = 1]
** No caso de dados tabelados, deve-se considerar apenas a área dos dados,
dessa forma gl = (número de linhas -1 x número de colunas -1)
*** Em estatística usa-se gl = n-2 (dois refere-se a linha + coluna)
Ex: Qual o grau de liberdade de um n = 272?
[Resposta: gl = 272-2 = 270]
• Observação: Usa-se o valor de “gl” para encontrar o valor do “t” tabelado em
análises estatísticas de regressão múltipla. Com o valor do “t” calculado + o valor
do “t” tabelado vemos quais hipóteses (nula ou alternativa) validar.
NÃO CONFUNDIR ‘Teste t-Student ‘ de ‘Teste t’ usado em análise de regressão.
Amostragem de dados não paramétricos
• ANOVA
• Programa mostra que a distribuição não é normal (assimétrica).
• Aplicação da estatística não-paramétrica.
Teste Kruskal Wallis (One-Way ANOVA) [Teste H] – Usado para testar a
hipótese nula de que todas as populações possuem funções de distribuição iguais
contra a hipótese alternativa de que ao menos duas populações possuem funções
de distribuição diferentes.
• Usado quando não há distribuição normal.
• Não coloca nenhuma restrição (ex: amostras independentes e normalmente
distribuídas) sobre a comparação.
• Quando o teste conduz a resultados significativos, pelo menos uma das
amostras é diferente das restantes.
• O teste não identifica onde ocorrem e quantas são as diferenças.
Teste Kruskal Wallis (One-Way ANOVA) [Teste H]
O teste não identifica onde ocorrem e quantas são as diferenças.
Ex:
• Validou a hipótese alternativa (H1)
•Ao menos duas populações possuem funções de distribuição diferentes.
EXTRA: ‘Teste t’ usado em análise de regressão.
* LC – Largura cefalotorácica
* CC – Comprimento cefalot.
• Constantes alométricas: *b = Constante alométrica
• Isometria – A variável dependente e a variável independente crescem na mesma proporção, mas
não com um mesmo valor. (b = 1)
• Alometria positiva – A variável dependente cresce mais que a variável independente. (b > 1)
• Alometria negativa – A variável dependente cresce menos que variável independente. (b < 1)
Variável Independente (eixo X)
Variável Dependente (eixo Y)
Testando o valor da constante alométrica
Hipóteses estatísticas:
• Hipótese nula (H0) – Isometria [b=1]
• Hipótese alternativa (H1) – Alometria [b#1]
o Alometria positiva [b>1]
o Alometria negativa [b<1]
EXTRA: ‘Teste t’ usado em análise de regressão.
Outros (n) valores
EXTRA: ‘Teste t’ usado em análise de regressão.
Ex: Programa Statistica - Plotar dados (logaritimizados) - Clicar em "Statistics" -
"Multiple Regression" - Definir variáveis independentes e dependentes -
"Regression results“.
Dados fornecidos pelo programa:
• b = 1,12553421203224
• Sb (Erro padrão do b) = 0,122114039797593
Realização do ‘Teste t’
• – constante alométrica ( = 1)
• b – valor calculado para constante alométrica
• Sb – erro padrão da constante alométrica
• Grau de liberdade (gl = n-2)
EXTRA: ‘Teste t’ usado em análise de regressão.
Realização do ‘Teste t’
‘t’calculado > ‘t’ tabelado
Valida hipótese alternativa – H1 [crescimento alométrico]
‘t’ calculado < ‘t’ tabelado
Valida a hipótese nula – H0 [crescimento isométrico]
EXTRA: ‘Teste t’ usado em análise de regressão.
Realização do ‘Teste t’
= 1
b = 1,12553421203224
Sb = 0,122114039797593
‘t‘ calculado = -1,02801
• n amostral – 26
• gl (n-2) – gl = 26 – 2 = 24
• Nível de significância adotado (α = 0,05)
• ‘t’ tabelado = 2,064
Resposta: Validamos H0 - Isometria
2,064 -2,064
-1,02801