uerj – março 2008 © oscar luiz monteiro de farias1 monitoramento e controle ambiental programa...
TRANSCRIPT
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 1
Monitoramento e Controle Ambiental
Programa de Pós-Graduação em Meio Ambiente (PPG-MA) - UERJ
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 2
Estatística e Geoestatística no
Monitoramento Ambiental
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 3
Métodos Estatísticos...• Métodos Estatísticos são necessários em MA porque em
geral não é possível caracterizar-se uma situação pela observação direta.
• Amostragem – método para obtenção de informações sobre parâmetros de interesse em localizações ou instantes de tempo específicos.
• Alternativa à obtenção de informações sobre os parâmetros em todo o universo.
• O uso de métodos estatísticos permite, a partir de informações parciais, inferir informações sobre o todo.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 4
Métodos Estatísticos...• Conjunto de dados univariável (univariate data set)• Conjunto de dados multivariável (multivariate data set)
Ex.: quando se deseja analisar a concentração de vários contaminantes diferentes em uma dada área.
• O conjunto de dados denomina-se amostra. Ele pode ser visto como um subconjunto dos valores possíveis que poderiam ser gerados caso coletássemos informações em todo o universo (área total, no caso).
• Referimo-nos ao conjunto de todos os valores possíveis como população.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 5
Métodos Estatísticos...• Estatística Descritiva ou Exploratória – é usada
para descrever as características básicas dos dados em estudo.
• consiste em computar uma ou mais estatísticas resumo para uma amostra.
• A estatística resumo é um número único que caracteriza um conjunto de dados de algum modo.
• Freqüentemente inclui um ou mais gráficos.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 6
Métodos Estatísticos...• Estatística Inferencial – neste casos usa-se o conjunto de
dados (sample data set) para se inferir algo sobre a população.
• É uma boa prática se considerar a estatística descritiva ou exploratória, antes de se considerar a estatística inferencial.
• Métodos estatísticos espaciais – incluem informações relacionadas à localização física da amostra.
• Em problemas ambientais pode ser necessário o uso de métodos estatísticos espaço-temporais, em que, além das coordenadas espaciais é essencial o registro das coordenadas temporais.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 7
Métodos Estatísticos...• Em avaliação e MA o objetivo não se limita em
caracterizar um local, mas em usar a informação para a tomada de decisões.
• Tomar decisões sempre incorpora algum grau de risco (p. ex. o risco de se tomar a decisão errada).
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 8
Amostras e população...• Uma amostra é um conjunto de observações
individuais obtidas no processo de amostragem.• Cada observação pode representar múltiplos aspectos
de informação, como, p.ex., a concentração de um ou mais contaminantes.
• Este conjunto de números é chamado de dados (data).• Antes da coleta dos dados é necessário considerar a
sua quantidade e o local de onde serão extraídos, bem como o método de monitoramento utilizado.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 9
Amostras e população...• Facilidade de acesso, tecnologia disponível, custos
associados à coleta física das amostras e à posterior análise de laboratório podem limitar ou restringir a quantidade e a qualidade da informação obtida no processo de amostragem.
• Isto pode afetar a confiabilidade das conclusões fundamentadas na análise estatística dos dados.
• É sempre importante saber-se de antemão como os dados serão utilizados (quais as questões que serão respondidas e quão confiáveis as respostas deverão ser), antes da coleta de qualquer dado.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 10
Amostras e população...• A validade das conclusões fundamentadas no
uso de métodos estatísticos depende da criteriosa observação de algumas premissas. P.ex. Amostra Randômica (Random Sampling) – significa que a seleção de uma amostra é conduzida de tal forma que qualquer subconjunto (com tamanho fixo de amostra = n) da população tem igual probabilidade de ser selecionado.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 11
Suporte da Amostra...• Os valores dos dados freqüentemente
representam propriedades associadas a um dado volume de matéria ou a uma determinada área. Este volume ou área é denominado suporte da amostra.
• P.ex. a porosidade de um solo é determinada pela relação poros/volume. Poros grandes e fraturas de solo em rochas não podem ser detectados em núcleos de solo com suporte de pequeno volume.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 12
Suporte da Amostra...• A condutividade hidráulica e concentrações
químicas são valores médios em um dado volume. Este volume monitorado é o suporte da amostra.
• Em sensoriamento remoto o suporte da amostra é o tamanho da área real que é representado em um pixel.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 13
Variáveis Randômicas...• Considere todos os valores possíveis para a
concentração de um dado contaminante nas diversas localizações de uma região.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 14
Variáveis Randômicas...• Se não existe informação sobre estes valores
para a região em questão, pode-se somente especificar um domínio de valores possíveis.
• Até que uma localização específica na região seja escolhida não temos um número único, mas uma população de valores. O conceito de variável randômica ajuda a lidar com a incerteza.
• Ex. dado de 6 faces não viciado.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 15
Variáveis Randômicas...• Uma variável randômica é caracterizada por
duas coisas:i) o conjunto de valores possíveis de serem assumidos pela variável;ii) o conjunto de probabilidades de ocorrência de cada um desses valores (distribuição de probabilidade).
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 16
Variáveis Randômicas...• Uma variável randômica é discreta quando, ao
se plotar os seus possíveis valores ao longo da reta real, sempre existe um espaço entre dois pontos consecutivos.
• Uma variável randômica é contínua quando o conjunto de possíveis valores é um intervalo ou a união de vários intervalos.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 17
Variáveis Randômicas...• Em algumas aplicações os atributos são
mensurados sem considerar a localização. Uma população alvo é identificada e amostras sistemáticas ou randômicas são coletadas.
• Em outras aplicações é útil se considerar a localização. Por exemplo, se adicionalmente aos parâmetros (e.g. renda) relativos a uma população de famílias, um dos objetivos é estudar o padrão espacial da distribuição da renda.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 18
Distribuição de freqüência• Freqüência é o número de vezes que um valor
especificado ocorre em uma amostra de população finita.
• Freqüência relativa é a freqüência dividida pelo tamanho da amostra.
• A freqüência relativa é uma estimativa da probabilidade de ocorrência de um evento dado.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 19
Distribuição de freqüência• Considere um estacionamento com 100 carros
(população). Destes, 30 são vermelhos, 40 brancos e 30 de outras cores. A probabilidade de que uma amostra contenha carros vermelhos será de 0.3; brancos, 0.4 e de outras cores, 0.3.
• Em ciências ambientais conhece-se os valores de parâmetros para uma amostra, mas não para a população.
• Pode-se, todavia, representar a população através de uma variável randômica que pode seguir aproximadamente um modelo de distribuição de probabilidade discreto conhecido.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 20
Distribuição de probabilidade...• Dada uma amostra, se computarmos as
freqüências relativas para cada valor possível assumido pela variável randômica, teremos uma estimativa da distribuição de probabilidade da variável randômica.
• Para variáveis randômicas discretas pode-se construir um gráfico de barras, com a abcissa mostrando os valores da variável e a coordenada, as freqüências relativas.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 21
Distribuição de probabilidade...• O conjunto de pares ordenados (x, f(x)) é uma
função probabilidade ou distribuição de probabilidade da variável randômica discreta X, se para cada possível valor X=x,
0)() xfi
x
xfii 1)()
)()() xfxXPiii
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 22
Distribuição Cumulativa• A distribuição cumulativa F(x) de uma variável
randômica discreta X com distribuição de probabilidade f(x) é dada por:
xparatfxXPxFxt
),()()(
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 23
Distribuição de probabilidade...• Para variáveis randômicas contínuas grupa-se
os membros da população dentro de classes ou intervalos de valores para o atributo em estudo. Para se obter a freqüência relativa, o número de vezes em que o valor do atributo cai dentro de um intervalo é dividido pelo tamanho da amostra. Cada freqüência relativa é dividida pelo tamanho do intervalo, fornecendo um valor f(y). O gráfico “valor do atributo x f(y)” fornece um histograma.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 24
Distribuição de probabilidade...• Histogramas podem ser construídos para
amostras e populações de tamanho finito, mas não para populações de tamanho infinito.
• Em particular, não é possível se construir histogramas para variáveis randômicas contínuas ou para variáveis randômicas discretas que podem assumir um número infinito de valores possíveis.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 25
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 26
A) Histograma da freqüência medida; B) distribuição cumulativa da freqüência – para os dados de argila da tabela anterior. A linha contínua é a curva teórica baseada em uma distribuição normal com a mesma média e variância estimada a partir dos dados.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 27
Função densidade de probabilidade (fdp)...
• Pode ser pensada como a versão contínua de um histograma.
• A função f(x) é uma fdp (probability density function - pdf) para a variável randômica contínua X, definida sobre o conjunto dos números reais R, se
b
a
dxxfbxaPiii )()()
1)()
,0)()
dxxfii
xxfi
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 28
Função densidade de probabilidade...• A maioria das variáveis randômicas possuem duas
características numéricas importantes: i) a média (); ii) a variância (2). é o desvio padrão.• A média () é também chamada de valor
esperado (expected value) - E(X) - da variável randômica X. Pode ser pensada como o ponto de equilíbrio do gráfico de uma fdp.
• A variância indica o quanto os valores possíveis estão dispersos relativamente à média.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 29
Média ou Valor Esperado... • Seja X uma variável randômica com
distribuição de probabilidade f(x). A média ou valor esperado de X é:
x
xxfXE )()( se X é discreta, e
dxxxfXE )()( se X é contínua.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 30
Média ou Valor Esperado...• Exemplo: Considere um lote contendo 7 componentes, dos
quais 4 estão em bom estado e três apresentam defeitos. Uma amostra de três componentes é selecionada por um inspetor. Encontre o valor esperado do número de componentes em bom estado encontrados na amostra.
• Solução: Seja X o número de componentes em bom estado na amostra. A distribuição de probabilidade de X é dada por
.3,2,1,0,
37
334
)(
xxxxf
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 31
Média ou Valor Esperado...
daí, segue-se que: f(0)=1/35; f(1)=12/35; f(2)=18/35; f(3)=4/35; Portanto,
µ=E(X)=(0).(1/35)+(1).(12/35)+(2).(18/35)+(3).(4/35)=12/7=1.7
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 32
• Seja X uma variável randômica com distribuição de probabilidade f(x). A média ou valor esperado da variável randômica g(X) é:
Média ou Valor Esperado...
x
Xg xfxgXgE )()()]([)( se X é discreta, e
dxxfxgXgEXg )()()]([)( se X é contínua.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 33
Fdp – curva normal (de Gauss)
N(y,0,1)• Onde é a média da população e é o desvio
padrão da população.• Variações na média deslocam a curva para a esquerda
ou para a direita.• Variações no desvio padrão achatam ou espicham a
curva.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 34
Fdp – curva normal (curva de Gauss) Fonte: http://www.comfsm.fm/~dleeling/statistics/normal_curve.gif
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 35
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 36
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 37
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 38
Cumulative density function (cdf)
x
dyyfxF )()(
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 39
Cumulative density function (cdf)
c
dyyfcFcxP )()()(
)()()( 1221 xFxFxxxP
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 40
Cumulative density function (cdf)• A distribuição cumulativa ou função de
densidade cumulativa F(x) de uma variável randômica contínua X com função de densidade de probabilidade f(x) é dada por:
x
xparadttfxXPxF ,)()()(
)()()( aFbFbxaP
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 41
Curva normal...• A distribuição de amostragem da média da amostra é
aproximadamente normal, ainda que a distribuição da população da qual a amostra é coletada não seja normal.
• A distribuição normal maximiza a entropia da informação entre todas as distribuições com média e variância conhecida, o que a torna a escolha natural para a distribuição de dados sumarizados em termos da média e variância da amostra.
• Na teoria da probabilidade a distribuição normal aparece como a distribuição limite de várias famílias de distribuição (discretas e contínuas).
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 42
Distribuição Normal...
• Fazendo a seguinte transformação de coordenadas: , teremos:
2
1
2
1
2]/))[(2/1(21 2
1),,()(x
x
xx
x
dxedxxnxXxP
XZ
2
1
2]/))[(2/1(21 2
1)(x
x
x dxexXxP
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 43
Distribuição Normal
2
1
)1,0;()( 21
z
z
dzznzZzP
2
1
2)2/1(21 2
1)(z
z
z dzezZzP
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 44
Exemplo 1 • Dada uma distribuição normal com µ=50 e =10, encontre a probabilidade de que X assuma valores entre 45 e 62.
• Solução: Z=(X-µ)/ . Assim, os valores z correspondentes a 45 e 62 são:z1=(45-50)/10=-0.5 e z2=(62-50)/10=1.2
P(45<X<62) = P(-0.5<z<1.2) = P(z<1.2)- P(z<-0.5) = 0.8849-0.3085=0.5764.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 45
Exemplo 2• Dada uma distribuição normal com µ=40 e =6,
encontre o valor de x tal que: a) 45% da área esteja à esquerda; b) 14% da área esteja à direita.
• Solução: P(z<z*)=0.45. Da tabela normal segue-se que z*=-0.13. Daí X = *z +µ = 6 *(-0.13)+40X=39.22
P(z>z´)=0.14 e P(z<z´)=0.86 e z´=1.08 X = *z +µ = 6 *(1.08)+40 = 46.48
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 46
Exemplo• Um certo tipo de bateria dura em média 3.0 anos, com
um desvio padrão de 0.5 anos. Assumindo que o tempo de vida das baterias tenha uma distribuição normal, encontre a probabilidade de que uma dada bateria dure menos que 2.3 anos.
• Solução: Devemos encontrar P(X<2.3); Isto se consegue através da transformada Z=(X-µ)/Z=(2.3-3)/0.5=-1.4P(X<2.3)=P(Z<-1.4)=0.0808.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 47
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 48
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 49
Distribuição log-normal...• Em alguns casos os histogramas exibem forte
assimetria. Tal fato é comum no estudo de concentrações químicas e em outros atributos.
• Contudo a distribuição pode tornar-se próxima da normal quando se aplica a transformação Ln (natural log) à variável randômica não-normal X, i.e., Y = Ln X.
• Diz-se que a variável X tem uma distribuição log-normal.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 50
Distribuição log-normal...
• A exponencial da média aritmética do dado log transformado Ln z é a média geométrica:
]1))[exp(2exp(
)5.0exp(222
2
yyy
yy
]ln1exp[11
n
iin
n
ii x
nxG
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 51
ExemploA tabela a seguir fornece 60 valores de concentração de chumbo no solo (z). Os valores são plotados na fig.A e estendem-se por um amplo domínio. Um histograma (fig.B), construído usando-se intervalos de classe de 20 (mg/Kg) mostra uma preponderância de pequenos valores nas classes 0-20, 20-40 e 40-60. Contudo existem valores maior que 100 e pelo menos dois deles superiores a 250. Fazendo-se y = ln z (fig. C) os valores mostram-se mais uniformemente distribuídos, como se nota pelo histograma da transformada (fig. D). Isto não significa necessariamente que a distribuição é log-normal. Mas testes seriam necessários para comprovar isto.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 52
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 53
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 54
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 55
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 56
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 57
Variância x suporte da amostra
• Quanto menor o suporte da amostra observa-se que a variância assume valores maiores.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 58
Curva normal...• A importância da distribuição normal como um
modelo de fenômenos quantitativos nas ciências naturais e comportamentais deve-se ao teorema do limite central:
• Se é a média de uma amostra randômica de tamanho n coletada de uma população com média e variância finita 2, então a forma limite da distribuição de quando n
é uma distribuição normal padrão n(z,0,1).
X
nXZ
/
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 59
Tamanhos de amostra e intervalos de confidência
• Uma variável randômica normal é completamente caracterizada quando são conhecidas as suas média (µ ) e variância ().
• Uma questão comum em MA e amostragem é: qual o tamanho da amostra para se estimar adequadamente estes dois parâmetros?
• O tamanho da amostra ou número de localizações (n) necessários para estimar a média depende da tolerância ou erro d que estejamos dispostos a admitir na estimativa e também no grau de confidência de que o erro seja realmente menor do que d.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 60
Distribuição de amostragem• A distribuição de probabilidade de uma estatística é denominada
uma distribuição de amostragem (sampling distribution).• A distribuição de probabilidade de é chamada distribuição de
amostragem da média.• A distribuição de amostragem de com tamanho de amostra n é
a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de resultam .
• Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ.
X
X
X
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 61
A Propriedade reprodutiva• Teorema: Se X1, X2, ......, Xn são variáveis randômicas
independentes tendo distribuição normal com médias μ1, μ2, ......, μn e variâncias σ1, σ2, ...... σn , respectivamente, então a variável randômica
tem uma distribuição normal com média
e variância
nn XaXaXaY ...2211
nnY aaa .....2211
2222
22
21
21
2 ..... nnaaaY
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 62
Distribuição de amostragem das médias
• Supor que uma amostra randômica com n observações é selecionada de uma população normal com média μ e variância σ2. Cada observação Xi, i=1,2,...,n, da amostra randômica terá a mesma distribuição normal da população que está sendo amostrada. Pelo teorema anterior...
n
masn
XXXX Xn ...,...21
nnX
22222 ...
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 63
i) Variância da pop. é conhecida• Deseja-se estimar a média (µ) de uma variável
randômica normal assumindo-se que o desvio padrão () é conhecido.
• Pode-se mostrar que a média da amostra é também normalmente distribuída ( =µ) e a variância da amostra
nx
22
X
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 64
Distribuição de amostragem• A distribuição de probabilidade de uma estatística é denominada
uma distribuição de amostragem (sampling distribution).• A distribuição de probabilidade de é chamada distribuição de
amostragem da média.• A distribuição de amostragem de com tamanho de amostra n é
a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de resultam .
• Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ.
X
X
X
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 65
Usando o teorema do limite central, onde n
XZ/
teremos:
1)
/( 2/2/ z
nXzP
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 66
1)//( 2/2/ nzXnzP
1)//( 2/2/ nzXnzXP
Onde 2/1)( 2/ zzP
(I)
Mas, pode-se reescrever (I) como:
O que representa um intervalo de confiança (1-)*100% para .
(II)
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 67
Agora seja o erro tolerável n
zd 2/
Ou ainda, 22/ ][d
zn
Assim, para um dado nível de confiança e uma dada tolerância d, pode-se prever o tamanho da amostra.
Note que os cálculos para computar o intervalo de confiança e o tamanho da amostra dependem de duas premissas importantes: i) a variável randômica seja normal; ii) o desvio padrão seja conhecido.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 68
• Na equação (II) nem sempre a média e o desvio padrão são conhecidos.
• Após a coleta de dados, então um intervalo similar ao da equação (II) pode ser calculado:
1)( 1,2/1,2/
n
stX
n
stXP nn
Onde t/2,n-1 é obtido a partir de uma t-table ou função
spreadsheet. t/2,n-1 se aproxima de z/2, à medida que
n cresce. [t/2,n-1 > z/2].
(III)
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 69
Exemplo 3.3• Suponha que uma amostra randômica de tamanho 16
foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja igual a 22.4. Assuma que o desvio padrão da população - - é 3.2. Deseja-se obter intervalos de confidência de 95% e de 99% para a média (desconhecida) µ.
• Solução: Neste caso pode-se usar a eq. (II), pois o desvio padrão é conhecido. 1-=0.95. Logo =0.05 e /2=0.025. A partir de uma tabela normal encontra-se z0.025=1.96.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 70
Exemplo 3.3
Assim o intervalo de confidência de 95% corresponde a:22.4 – (1.96*3.2)/4<µ< 22.4 + (1.96*3.2)/4 ou22.4 -1.568 <µ< 22.4 + 1.568
• Para o intervalo de confidência de 99%:1-=0.99, logo =0.01 e /2=0.005.A partir de uma tabela normal tem-se:
22.4 – (2.576*3.2)/4<µ< 22.4 + (2.576*3.2)/4
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 71
Exemplo 3.4• Suponha que se deseje obter intervalos de confidência
de 95% e 99% para a média de uma população uniformemente distribuída, em que o desvio padrão da população é 3.2. Desejando-se o máxima tolerância d=0.75, qual deverá ser o tamanho da amostra?
22/ ][
dzn 93.69
75.02.3*96.1 2
n Logo n=70
80.12075.0
2.3*576.2 2
n Logo n=120
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 72
Algumas conclusões• I) Se o tamanho da amostra é fixo (e o desvio padrão
da população - - é conhecido), então quanto maior o nível de confidência, maior será o intervalo de confidência.
• II) Dada a informação (média da amostra, tamanho da amostra e desvio padrão da população), existe um intervalo de confidência para cada escolha do nível de confidência.
• III) Um maior nível de confidência corresponde a uma amostra de tamanho maior, permanecendo constantes as demais condições.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 73
Exemplo 3.5• Suponha que uma amostra randômica de tamanho 16
foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja 22.4 e o desvio padrão da amostra 3.2. Deseja-se obter intervalos de confidência de 95% e 99% para a média da população.
• Solução: Neste caso usa-se a t-table ao invés da tabela normal, pois o desvio padrão da população não é conhecido. 1-=0.95, logo =0.05 e /2=0.025. t0.025,15= 2.131
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 74
Exemplo 3.522.4 – (2.131*3.2)/4<µ< 22.4 + (2.131*3.2)/4Para 1-=0.99, logo =0.01 e /2=0.005t0.005,15= 2.947, resultando em:22.4 – (2.947*3.2)/4<µ< 22.4 + (2.947*3.2)/4• Nota-se que o intervalo de confidência 99% é maior que o
intervalo de confidência 95%, mas cada um destes dois é maior do que as suas contrapartes, quando o desvio padrão da população é conhecido.
• Quando o tamanho da amostra é maior ou igual a 30, os valores da t-table aproximam-se dos valores na tabela normal.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 75
Exemplo 3.6• Em aplicações reais, o desvio padrão da população
pode não ser conhecido e, mesmo assim, deseja-se prever o tamanho da amostra para um dado nível de confidência para a média da população, i.e., deseja-se fixar o nível de confidência e a tolerância.
• O problema deve ser resolvido em vários passos. define-se um tamanho de amostra baseado em outras
considerações, tais como custo da amostragem, facilidade da amostragem, etc.)
Seleciona-se a amostra e computa-se o seu desvio padrão - s -.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 76
Exemplo 3.6Usa-se s como se fosse o desvio padrão da população e
computa-se o tamanho da amostra.Se o valor projetado para o novo tamanho da amostra é
maior que o tamanho da amostra anterior, deve-se coletar uma nova amostra (cuidado! em geral não se pode adicionar novas observações à amostra anterior; tal procedimento não resultaria em uma amostra randômica).
Continua-se o processo descrito em até que o novo tamanho projetado da amostra seja próximo ao tamanho da amostra anterior.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 77
Exemplo 3.6Usa-se, então, a média da última amostra
coletada e o desvio padrão desta última amostra, juntamente com valor (n-1) da t-table, para gerar-se o desejado intervalo de confidência. Não há garantia alguma de que este processo
páre rapidamente. Conclusão: estimar o desvio padrão é mais
complexo que estimar-se a média µ.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 78
Exemplo 3.7• A partir dos dados da tabela 3.1 (percentuais de argila),
encontramos a média da amostra = 35.3 e o desvio padrão da amostra = 6.38. O tamanho da amostra é n=36. Os níveis de confidência são especificados em 95% e 99%. Para 1-=0.95, logo =0.05 e /2=0.025.t0.025, 35=2.030 e assim o intervalo de confidência é:
35.3 – (2.030*6.38)/6<µ< 35.3 + (2.030* 6.38)/6Para 1-=0.99, logo =0.01 e /2=0.005t0.005,35= 2.738, resultando em: 35.3 – (2.738*6.38)/6<µ< 35.3 + (2.738* 6.38)/6
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 79
Exemplo 3.7• Pode-se pensar que estes intervalos de confidência são
muito largos (elevada tolerância) e deseja-se obter mais amostras. Qual deveria ser o tamanho da amostra para se obter uma tolerância de 0.8, com um nível de confidência de 95%?
• Para 1-=0.95, logo =0.05 e /2=0.025, t0.025, 35=2.030
09.2628.0
38.6*030.2 2
n
4778.0
38.6*738.2 2
n
Usar n=263
intervalo de confidência=0.99%
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 80
Testes adicionais• Existem meios de se testar se uma distribuição
é normal
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 81
Covariância...• Covariância é a medida do quanto duas variáveis
randômicas mudam conjuntamente. • Se duas variáveis randômicas X e Y tendem a variar
juntas (i.e., quando uma delas está acima do valor esperado, então a outra tende a estar também acima do seu valor esperado) então a covariância entre as duas variáveis será positiva.
• Por outro lado, se uma delas tende a estar acima do seu valor esperado e, outra, abaixo do seu valor esperado, a covariância entre as duas variáveis será negativa.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 82
Covariância...• Definição: A covariância entre duas variáveis
randômicas X e Y, assumindo valores reais, com valores esperados E(X)=µ e E(Y)= é definida por:COV(X,Y)=E((X-µ)(Y- )), onde E é o operador valor esperado. COV(X,Y)=E(X.Y-X.-µ.Y+µ.) COV(X,Y)=E(X.Y)-E(X). -µ.E(Y) +µ. COV(X,Y)= E(X.Y)-µ. = E(X.Y)- E(X). E(Y)
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 83
Coeficiente de correlação de Person
• A covariância pode ser estimada pela covariância da amostra:
• O coeficiente de correlação da amostra é uma forma normalizada da covariância da amostra:
11,.
),(
yx
YXCov Se ||=1, então X e Y sãolinearmente dependentes.
n
iiixy yyxx
ns
1
))((1
1
yx
xy
sss
r
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 84
Coeficiente de correlação
• O coeficiente de correlação indica a intensidade e a direção de uma relação linear entre duas variáveis randômicas.
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 85
Distribuição normal multivariada• A distribuição normal é completamente determinada
pela sua média µ e pela sua variância .• Uma distribuição normal multivariada é
completamente determinada pelo vetor das médias e pela matriz de variâncias e covariâncias. Ex. para 3 variáveis randômicas:
233231
232221
131221
sssssssss
S
UERJ – Março 2008
© Oscar Luiz Monteiro de Farias 86
Regressão Linear