uerj – março 2008 © oscar luiz monteiro de farias1 monitoramento e controle ambiental programa...

UERJ – Março 2008

© Oscar Luiz Monteiro de Farias 1

Monitoramento e Controle Ambiental

Programa de Pós-Graduação em Meio Ambiente (PPG-MA) - UERJ



Estatística e Geoestatística no

Monitoramento Ambiental



Métodos Estatísticos...• Métodos Estatísticos são necessários em MA porque em

geral não é possível caracterizar-se uma situação pela observação direta.

• Amostragem – método para obtenção de informações sobre parâmetros de interesse em localizações ou instantes de tempo específicos.

• Alternativa à obtenção de informações sobre os parâmetros em todo o universo.

• O uso de métodos estatísticos permite, a partir de informações parciais, inferir informações sobre o todo.



Métodos Estatísticos...• Conjunto de dados univariável (univariate data set)• Conjunto de dados multivariável (multivariate data set)

Ex.: quando se deseja analisar a concentração de vários contaminantes diferentes em uma dada área.

• O conjunto de dados denomina-se amostra. Ele pode ser visto como um subconjunto dos valores possíveis que poderiam ser gerados caso coletássemos informações em todo o universo (área total, no caso).

• Referimo-nos ao conjunto de todos os valores possíveis como população.



Métodos Estatísticos...• Estatística Descritiva ou Exploratória – é usada

para descrever as características básicas dos dados em estudo.

• consiste em computar uma ou mais estatísticas resumo para uma amostra.

• A estatística resumo é um número único que caracteriza um conjunto de dados de algum modo.

• Freqüentemente inclui um ou mais gráficos.



Métodos Estatísticos...• Estatística Inferencial – neste casos usa-se o conjunto de

dados (sample data set) para se inferir algo sobre a população.

• É uma boa prática se considerar a estatística descritiva ou exploratória, antes de se considerar a estatística inferencial.

• Métodos estatísticos espaciais – incluem informações relacionadas à localização física da amostra.

• Em problemas ambientais pode ser necessário o uso de métodos estatísticos espaço-temporais, em que, além das coordenadas espaciais é essencial o registro das coordenadas temporais.



Métodos Estatísticos...• Em avaliação e MA o objetivo não se limita em

caracterizar um local, mas em usar a informação para a tomada de decisões.

• Tomar decisões sempre incorpora algum grau de risco (p. ex. o risco de se tomar a decisão errada).



Amostras e população...• Uma amostra é um conjunto de observações

individuais obtidas no processo de amostragem.• Cada observação pode representar múltiplos aspectos

de informação, como, p.ex., a concentração de um ou mais contaminantes.

• Este conjunto de números é chamado de dados (data).• Antes da coleta dos dados é necessário considerar a

sua quantidade e o local de onde serão extraídos, bem como o método de monitoramento utilizado.



Amostras e população...• Facilidade de acesso, tecnologia disponível, custos

associados à coleta física das amostras e à posterior análise de laboratório podem limitar ou restringir a quantidade e a qualidade da informação obtida no processo de amostragem.

• Isto pode afetar a confiabilidade das conclusões fundamentadas na análise estatística dos dados.

• É sempre importante saber-se de antemão como os dados serão utilizados (quais as questões que serão respondidas e quão confiáveis as respostas deverão ser), antes da coleta de qualquer dado.



Amostras e população...• A validade das conclusões fundamentadas no

uso de métodos estatísticos depende da criteriosa observação de algumas premissas. P.ex. Amostra Randômica (Random Sampling) – significa que a seleção de uma amostra é conduzida de tal forma que qualquer subconjunto (com tamanho fixo de amostra = n) da população tem igual probabilidade de ser selecionado.



Suporte da Amostra...• Os valores dos dados freqüentemente

representam propriedades associadas a um dado volume de matéria ou a uma determinada área. Este volume ou área é denominado suporte da amostra.

• P.ex. a porosidade de um solo é determinada pela relação poros/volume. Poros grandes e fraturas de solo em rochas não podem ser detectados em núcleos de solo com suporte de pequeno volume.



Suporte da Amostra...• A condutividade hidráulica e concentrações

químicas são valores médios em um dado volume. Este volume monitorado é o suporte da amostra.

• Em sensoriamento remoto o suporte da amostra é o tamanho da área real que é representado em um pixel.



Variáveis Randômicas...• Considere todos os valores possíveis para a

concentração de um dado contaminante nas diversas localizações de uma região.



Variáveis Randômicas...• Se não existe informação sobre estes valores

para a região em questão, pode-se somente especificar um domínio de valores possíveis.

• Até que uma localização específica na região seja escolhida não temos um número único, mas uma população de valores. O conceito de variável randômica ajuda a lidar com a incerteza.

• Ex. dado de 6 faces não viciado.



Variáveis Randômicas...• Uma variável randômica é caracterizada por

duas coisas:i) o conjunto de valores possíveis de serem assumidos pela variável;ii) o conjunto de probabilidades de ocorrência de cada um desses valores (distribuição de probabilidade).



Variáveis Randômicas...• Uma variável randômica é discreta quando, ao

se plotar os seus possíveis valores ao longo da reta real, sempre existe um espaço entre dois pontos consecutivos.

• Uma variável randômica é contínua quando o conjunto de possíveis valores é um intervalo ou a união de vários intervalos.



Variáveis Randômicas...• Em algumas aplicações os atributos são

mensurados sem considerar a localização. Uma população alvo é identificada e amostras sistemáticas ou randômicas são coletadas.

• Em outras aplicações é útil se considerar a localização. Por exemplo, se adicionalmente aos parâmetros (e.g. renda) relativos a uma população de famílias, um dos objetivos é estudar o padrão espacial da distribuição da renda.



Distribuição de freqüência• Freqüência é o número de vezes que um valor

especificado ocorre em uma amostra de população finita.

• Freqüência relativa é a freqüência dividida pelo tamanho da amostra.

• A freqüência relativa é uma estimativa da probabilidade de ocorrência de um evento dado.



Distribuição de freqüência• Considere um estacionamento com 100 carros

(população). Destes, 30 são vermelhos, 40 brancos e 30 de outras cores. A probabilidade de que uma amostra contenha carros vermelhos será de 0.3; brancos, 0.4 e de outras cores, 0.3.

• Em ciências ambientais conhece-se os valores de parâmetros para uma amostra, mas não para a população.

• Pode-se, todavia, representar a população através de uma variável randômica que pode seguir aproximadamente um modelo de distribuição de probabilidade discreto conhecido.



Distribuição de probabilidade...• Dada uma amostra, se computarmos as

freqüências relativas para cada valor possível assumido pela variável randômica, teremos uma estimativa da distribuição de probabilidade da variável randômica.

• Para variáveis randômicas discretas pode-se construir um gráfico de barras, com a abcissa mostrando os valores da variável e a coordenada, as freqüências relativas.



Distribuição de probabilidade...• O conjunto de pares ordenados (x, f(x)) é uma

função probabilidade ou distribuição de probabilidade da variável randômica discreta X, se para cada possível valor X=x,

0)() xfi

x

xfii 1)()

)()() xfxXPiii



Distribuição Cumulativa• A distribuição cumulativa F(x) de uma variável

randômica discreta X com distribuição de probabilidade f(x) é dada por:

xparatfxXPxFxt

),()()(



Distribuição de probabilidade...• Para variáveis randômicas contínuas grupa-se

os membros da população dentro de classes ou intervalos de valores para o atributo em estudo. Para se obter a freqüência relativa, o número de vezes em que o valor do atributo cai dentro de um intervalo é dividido pelo tamanho da amostra. Cada freqüência relativa é dividida pelo tamanho do intervalo, fornecendo um valor f(y). O gráfico “valor do atributo x f(y)” fornece um histograma.



Distribuição de probabilidade...• Histogramas podem ser construídos para

amostras e populações de tamanho finito, mas não para populações de tamanho infinito.

• Em particular, não é possível se construir histogramas para variáveis randômicas contínuas ou para variáveis randômicas discretas que podem assumir um número infinito de valores possíveis.



A) Histograma da freqüência medida; B) distribuição cumulativa da freqüência – para os dados de argila da tabela anterior. A linha contínua é a curva teórica baseada em uma distribuição normal com a mesma média e variância estimada a partir dos dados.



Função densidade de probabilidade (fdp)...

• Pode ser pensada como a versão contínua de um histograma.

• A função f(x) é uma fdp (probability density function - pdf) para a variável randômica contínua X, definida sobre o conjunto dos números reais R, se

b

a

dxxfbxaPiii )()()

1)()

,0)()

dxxfii

xxfi



Função densidade de probabilidade...• A maioria das variáveis randômicas possuem duas

características numéricas importantes: i) a média (); ii) a variância (2). é o desvio padrão.• A média () é também chamada de valor

esperado (expected value) - E(X) - da variável randômica X. Pode ser pensada como o ponto de equilíbrio do gráfico de uma fdp.

• A variância indica o quanto os valores possíveis estão dispersos relativamente à média.



Média ou Valor Esperado... • Seja X uma variável randômica com

distribuição de probabilidade f(x). A média ou valor esperado de X é:

x

xxfXE )()( se X é discreta, e

dxxxfXE )()( se X é contínua.



Média ou Valor Esperado...• Exemplo: Considere um lote contendo 7 componentes, dos

quais 4 estão em bom estado e três apresentam defeitos. Uma amostra de três componentes é selecionada por um inspetor. Encontre o valor esperado do número de componentes em bom estado encontrados na amostra.

• Solução: Seja X o número de componentes em bom estado na amostra. A distribuição de probabilidade de X é dada por

.3,2,1,0,

37

334

)(

xxxxf



Média ou Valor Esperado...

daí, segue-se que: f(0)=1/35; f(1)=12/35; f(2)=18/35; f(3)=4/35; Portanto,

µ=E(X)=(0).(1/35)+(1).(12/35)+(2).(18/35)+(3).(4/35)=12/7=1.7



• Seja X uma variável randômica com distribuição de probabilidade f(x). A média ou valor esperado da variável randômica g(X) é:

Média ou Valor Esperado...

x

Xg xfxgXgE )()()]([)( se X é discreta, e

dxxfxgXgEXg )()()]([)( se X é contínua.



Fdp – curva normal (de Gauss)

N(y,0,1)• Onde é a média da população e é o desvio

padrão da população.• Variações na média deslocam a curva para a esquerda

ou para a direita.• Variações no desvio padrão achatam ou espicham a

curva.



Fdp – curva normal (curva de Gauss) Fonte: http://www.comfsm.fm/~dleeling/statistics/normal_curve.gif



Cumulative density function (cdf)

x

dyyfxF )()(



Cumulative density function (cdf)

c

dyyfcFcxP )()()(

)()()( 1221 xFxFxxxP



Cumulative density function (cdf)• A distribuição cumulativa ou função de

densidade cumulativa F(x) de uma variável randômica contínua X com função de densidade de probabilidade f(x) é dada por:

x

xparadttfxXPxF ,)()()(

)()()( aFbFbxaP



Curva normal...• A distribuição de amostragem da média da amostra é

aproximadamente normal, ainda que a distribuição da população da qual a amostra é coletada não seja normal.

• A distribuição normal maximiza a entropia da informação entre todas as distribuições com média e variância conhecida, o que a torna a escolha natural para a distribuição de dados sumarizados em termos da média e variância da amostra.

• Na teoria da probabilidade a distribuição normal aparece como a distribuição limite de várias famílias de distribuição (discretas e contínuas).



Distribuição Normal...

• Fazendo a seguinte transformação de coordenadas: , teremos:

2

1

2

1

2]/))[(2/1(21 2

1),,()(x

x

xx

x

dxedxxnxXxP

XZ

2

1

2]/))[(2/1(21 2

1)(x

x

x dxexXxP



Distribuição Normal

2

1

)1,0;()( 21

z

z

dzznzZzP

2

1

2)2/1(21 2

1)(z

z

z dzezZzP



Exemplo 1 • Dada uma distribuição normal com µ=50 e =10, encontre a probabilidade de que X assuma valores entre 45 e 62.

• Solução: Z=(X-µ)/ . Assim, os valores z correspondentes a 45 e 62 são:z1=(45-50)/10=-0.5 e z2=(62-50)/10=1.2

P(45<X<62) = P(-0.5<z<1.2) = P(z<1.2)- P(z<-0.5) = 0.8849-0.3085=0.5764.



Exemplo 2• Dada uma distribuição normal com µ=40 e =6,

encontre o valor de x tal que: a) 45% da área esteja à esquerda; b) 14% da área esteja à direita.

• Solução: P(z<z*)=0.45. Da tabela normal segue-se que z*=-0.13. Daí X = *z +µ = 6 *(-0.13)+40X=39.22

P(z>z´)=0.14 e P(z<z´)=0.86 e z´=1.08 X = *z +µ = 6 *(1.08)+40 = 46.48



Exemplo• Um certo tipo de bateria dura em média 3.0 anos, com

um desvio padrão de 0.5 anos. Assumindo que o tempo de vida das baterias tenha uma distribuição normal, encontre a probabilidade de que uma dada bateria dure menos que 2.3 anos.

• Solução: Devemos encontrar P(X<2.3); Isto se consegue através da transformada Z=(X-µ)/Z=(2.3-3)/0.5=-1.4P(X<2.3)=P(Z<-1.4)=0.0808.



Distribuição log-normal...• Em alguns casos os histogramas exibem forte

assimetria. Tal fato é comum no estudo de concentrações químicas e em outros atributos.

• Contudo a distribuição pode tornar-se próxima da normal quando se aplica a transformação Ln (natural log) à variável randômica não-normal X, i.e., Y = Ln X.

• Diz-se que a variável X tem uma distribuição log-normal.



Distribuição log-normal...

• A exponencial da média aritmética do dado log transformado Ln z é a média geométrica:

]1))[exp(2exp(

)5.0exp(222

2

yyy

yy

]ln1exp[11

n

iin

n

ii x

nxG



ExemploA tabela a seguir fornece 60 valores de concentração de chumbo no solo (z). Os valores são plotados na fig.A e estendem-se por um amplo domínio. Um histograma (fig.B), construído usando-se intervalos de classe de 20 (mg/Kg) mostra uma preponderância de pequenos valores nas classes 0-20, 20-40 e 40-60. Contudo existem valores maior que 100 e pelo menos dois deles superiores a 250. Fazendo-se y = ln z (fig. C) os valores mostram-se mais uniformemente distribuídos, como se nota pelo histograma da transformada (fig. D). Isto não significa necessariamente que a distribuição é log-normal. Mas testes seriam necessários para comprovar isto.



Variância x suporte da amostra

• Quanto menor o suporte da amostra observa-se que a variância assume valores maiores.



Curva normal...• A importância da distribuição normal como um

modelo de fenômenos quantitativos nas ciências naturais e comportamentais deve-se ao teorema do limite central:

• Se é a média de uma amostra randômica de tamanho n coletada de uma população com média e variância finita 2, então a forma limite da distribuição de quando n

é uma distribuição normal padrão n(z,0,1).

X

nXZ

/



Tamanhos de amostra e intervalos de confidência

• Uma variável randômica normal é completamente caracterizada quando são conhecidas as suas média (µ ) e variância ().

• Uma questão comum em MA e amostragem é: qual o tamanho da amostra para se estimar adequadamente estes dois parâmetros?

• O tamanho da amostra ou número de localizações (n) necessários para estimar a média depende da tolerância ou erro d que estejamos dispostos a admitir na estimativa e também no grau de confidência de que o erro seja realmente menor do que d.



Distribuição de amostragem• A distribuição de probabilidade de uma estatística é denominada

uma distribuição de amostragem (sampling distribution).• A distribuição de probabilidade de é chamada distribuição de

amostragem da média.• A distribuição de amostragem de com tamanho de amostra n é

a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de resultam .

• Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ.

X

X

X



A Propriedade reprodutiva• Teorema: Se X1, X2, ......, Xn são variáveis randômicas

independentes tendo distribuição normal com médias μ1, μ2, ......, μn e variâncias σ1, σ2, ...... σn , respectivamente, então a variável randômica

tem uma distribuição normal com média

e variância

nn XaXaXaY ...2211

nnY aaa .....2211

2222

22

21

21

2 ..... nnaaaY



Distribuição de amostragem das médias

• Supor que uma amostra randômica com n observações é selecionada de uma população normal com média μ e variância σ2. Cada observação Xi, i=1,2,...,n, da amostra randômica terá a mesma distribuição normal da população que está sendo amostrada. Pelo teorema anterior...

n

masn

XXXX Xn ...,...21

nnX

22222 ...



i) Variância da pop. é conhecida• Deseja-se estimar a média (µ) de uma variável

randômica normal assumindo-se que o desvio padrão () é conhecido.

• Pode-se mostrar que a média da amostra é também normalmente distribuída ( =µ) e a variância da amostra

nx

22

X



Distribuição de amostragem• A distribuição de probabilidade de uma estatística é denominada

uma distribuição de amostragem (sampling distribution).• A distribuição de probabilidade de é chamada distribuição de

amostragem da média.• A distribuição de amostragem de com tamanho de amostra n é

a distribuição que resulta quando um experimento é conduzido inúmeras vezes (sempre com tamanho de amostra n) e os diversos valores de resultam .

• Esta distribuição de amostragem descreve a variabilidade das médias das amostras em torno da média da população μ.

X

X

X



Usando o teorema do limite central, onde n

XZ/

teremos:

1)

/( 2/2/ z

nXzP



1)//( 2/2/ nzXnzP

1)//( 2/2/ nzXnzXP

Onde 2/1)( 2/ zzP

(I)

Mas, pode-se reescrever (I) como:

O que representa um intervalo de confiança (1-)*100% para .

(II)



Agora seja o erro tolerável n

zd 2/

Ou ainda, 22/ ][d

zn

Assim, para um dado nível de confiança e uma dada tolerância d, pode-se prever o tamanho da amostra.

Note que os cálculos para computar o intervalo de confiança e o tamanho da amostra dependem de duas premissas importantes: i) a variável randômica seja normal; ii) o desvio padrão seja conhecido.



• Na equação (II) nem sempre a média e o desvio padrão são conhecidos.

• Após a coleta de dados, então um intervalo similar ao da equação (II) pode ser calculado:

1)( 1,2/1,2/

n

stX

n

stXP nn

Onde t/2,n-1 é obtido a partir de uma t-table ou função

spreadsheet. t/2,n-1 se aproxima de z/2, à medida que

n cresce. [t/2,n-1 > z/2].

(III)



Exemplo 3.3• Suponha que uma amostra randômica de tamanho 16

foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja igual a 22.4. Assuma que o desvio padrão da população - - é 3.2. Deseja-se obter intervalos de confidência de 95% e de 99% para a média (desconhecida) µ.

• Solução: Neste caso pode-se usar a eq. (II), pois o desvio padrão é conhecido. 1-=0.95. Logo =0.05 e /2=0.025. A partir de uma tabela normal encontra-se z0.025=1.96.



Exemplo 3.3

Assim o intervalo de confidência de 95% corresponde a:22.4 – (1.96*3.2)/4<µ< 22.4 + (1.96*3.2)/4 ou22.4 -1.568 <µ< 22.4 + 1.568

• Para o intervalo de confidência de 99%:1-=0.99, logo =0.01 e /2=0.005.A partir de uma tabela normal tem-se:

22.4 – (2.576*3.2)/4<µ< 22.4 + (2.576*3.2)/4



Exemplo 3.4• Suponha que se deseje obter intervalos de confidência

de 95% e 99% para a média de uma população uniformemente distribuída, em que o desvio padrão da população é 3.2. Desejando-se o máxima tolerância d=0.75, qual deverá ser o tamanho da amostra?

22/ ][

dzn 93.69

75.02.3*96.1 2

n Logo n=70

80.12075.0

2.3*576.2 2

n Logo n=120



Algumas conclusões• I) Se o tamanho da amostra é fixo (e o desvio padrão

da população - - é conhecido), então quanto maior o nível de confidência, maior será o intervalo de confidência.

• II) Dada a informação (média da amostra, tamanho da amostra e desvio padrão da população), existe um intervalo de confidência para cada escolha do nível de confidência.

• III) Um maior nível de confidência corresponde a uma amostra de tamanho maior, permanecendo constantes as demais condições.



Exemplo 3.5• Suponha que uma amostra randômica de tamanho 16

foi selecionada a partir de uma população com distribuição normal e que a média da amostra seja 22.4 e o desvio padrão da amostra 3.2. Deseja-se obter intervalos de confidência de 95% e 99% para a média da população.

• Solução: Neste caso usa-se a t-table ao invés da tabela normal, pois o desvio padrão da população não é conhecido. 1-=0.95, logo =0.05 e /2=0.025. t0.025,15= 2.131



Exemplo 3.522.4 – (2.131*3.2)/4<µ< 22.4 + (2.131*3.2)/4Para 1-=0.99, logo =0.01 e /2=0.005t0.005,15= 2.947, resultando em:22.4 – (2.947*3.2)/4<µ< 22.4 + (2.947*3.2)/4• Nota-se que o intervalo de confidência 99% é maior que o

intervalo de confidência 95%, mas cada um destes dois é maior do que as suas contrapartes, quando o desvio padrão da população é conhecido.

• Quando o tamanho da amostra é maior ou igual a 30, os valores da t-table aproximam-se dos valores na tabela normal.



Exemplo 3.6• Em aplicações reais, o desvio padrão da população

pode não ser conhecido e, mesmo assim, deseja-se prever o tamanho da amostra para um dado nível de confidência para a média da população, i.e., deseja-se fixar o nível de confidência e a tolerância.

• O problema deve ser resolvido em vários passos. define-se um tamanho de amostra baseado em outras

considerações, tais como custo da amostragem, facilidade da amostragem, etc.)

Seleciona-se a amostra e computa-se o seu desvio padrão - s -.



Exemplo 3.6Usa-se s como se fosse o desvio padrão da população e

computa-se o tamanho da amostra.Se o valor projetado para o novo tamanho da amostra é

maior que o tamanho da amostra anterior, deve-se coletar uma nova amostra (cuidado! em geral não se pode adicionar novas observações à amostra anterior; tal procedimento não resultaria em uma amostra randômica).

Continua-se o processo descrito em até que o novo tamanho projetado da amostra seja próximo ao tamanho da amostra anterior.



Exemplo 3.6Usa-se, então, a média da última amostra

coletada e o desvio padrão desta última amostra, juntamente com valor (n-1) da t-table, para gerar-se o desejado intervalo de confidência. Não há garantia alguma de que este processo

páre rapidamente. Conclusão: estimar o desvio padrão é mais

complexo que estimar-se a média µ.



Exemplo 3.7• A partir dos dados da tabela 3.1 (percentuais de argila),

encontramos a média da amostra = 35.3 e o desvio padrão da amostra = 6.38. O tamanho da amostra é n=36. Os níveis de confidência são especificados em 95% e 99%. Para 1-=0.95, logo =0.05 e /2=0.025.t0.025, 35=2.030 e assim o intervalo de confidência é:

35.3 – (2.030*6.38)/6<µ< 35.3 + (2.030* 6.38)/6Para 1-=0.99, logo =0.01 e /2=0.005t0.005,35= 2.738, resultando em: 35.3 – (2.738*6.38)/6<µ< 35.3 + (2.738* 6.38)/6



Exemplo 3.7• Pode-se pensar que estes intervalos de confidência são

muito largos (elevada tolerância) e deseja-se obter mais amostras. Qual deveria ser o tamanho da amostra para se obter uma tolerância de 0.8, com um nível de confidência de 95%?

• Para 1-=0.95, logo =0.05 e /2=0.025, t0.025, 35=2.030

09.2628.0

38.6*030.2 2

n

4778.0

38.6*738.2 2

n

Usar n=263

intervalo de confidência=0.99%



Testes adicionais• Existem meios de se testar se uma distribuição

é normal



Covariância...• Covariância é a medida do quanto duas variáveis

randômicas mudam conjuntamente. • Se duas variáveis randômicas X e Y tendem a variar

juntas (i.e., quando uma delas está acima do valor esperado, então a outra tende a estar também acima do seu valor esperado) então a covariância entre as duas variáveis será positiva.

• Por outro lado, se uma delas tende a estar acima do seu valor esperado e, outra, abaixo do seu valor esperado, a covariância entre as duas variáveis será negativa.



Covariância...• Definição: A covariância entre duas variáveis

randômicas X e Y, assumindo valores reais, com valores esperados E(X)=µ e E(Y)= é definida por:COV(X,Y)=E((X-µ)(Y- )), onde E é o operador valor esperado. COV(X,Y)=E(X.Y-X.-µ.Y+µ.) COV(X,Y)=E(X.Y)-E(X). -µ.E(Y) +µ. COV(X,Y)= E(X.Y)-µ. = E(X.Y)- E(X). E(Y)



Coeficiente de correlação de Person

• A covariância pode ser estimada pela covariância da amostra:

• O coeficiente de correlação da amostra é uma forma normalizada da covariância da amostra:

11,.

),(

yx

YXCov Se ||=1, então X e Y sãolinearmente dependentes.

n

iiixy yyxx

ns

1

))((1

1

yx

xy

sss

r



Coeficiente de correlação

• O coeficiente de correlação indica a intensidade e a direção de uma relação linear entre duas variáveis randômicas.



Distribuição normal multivariada• A distribuição normal é completamente determinada

pela sua média µ e pela sua variância .• Uma distribuição normal multivariada é

completamente determinada pelo vetor das médias e pela matriz de variâncias e covariâncias. Ex. para 3 variáveis randômicas:

233231

232221

131221

sssssssss

S



Regressão Linear

uerj – março 2008 © oscar luiz monteiro de farias1 monitoramento e controle ambiental programa...

Documents