1304 -análise de dados e probabilidade 1 e 2 1º semestre...
TRANSCRIPT
Licenciatura
1304 -Análise de Dados e Probabilidade1 e 2
Clara Costa Duarte1º Semestre 2006/2007
1304- Análise de Dados e Probabilidade
1.1 – IntroduçãoEstatística:é um conjunto de instrumentos que servem para:
RecolherDescrever e explorarInterpretar
Dados numéricos
Estatística Descritiva: Procura sintetizar e representar de forma compreensível a informação contida num conjunto de dados
Inferência Estatística: Pretende a partir de um conjunto restrito de dados caracterizar um conjunto mais amplo
1304- Análise de Dados e Probabilidade
1.2 – Conceitos Básicos
População: Conjunto de elementos com característica(s) comum (s) que pretendemos estudar. (ou o conjunto dos dados que medem essa (s) característica (s)).
Amostra: Subconjunto representativo da população.
Unidade estatística : Elemento pertencente à populaçãoAtributo ou Característica (Variável Estatística): Factor que permite classificar a unidade estatística:
. Qualitativa (várias modalidades)
. Quantitativa (diferentes valores) : pode ser Discreta ou Contínua
Dado Estatístico ou Observação: o registo da característica de uma unidade estatística
1304- Análise de Dados e Probabilidade
1.2 – Conceitos BásicosTerminologia :
• Variável Estatística X
• Colecção de dados com N elementos : Os dados estatísticos resultantes são n valores designados por: x1, x2, ...xi,.... xn,
• Frequência Absoluta (ni) : nº de vezes que a modalidade ou a classe i é observada na base de dados.
• Frequência Relativa (fi) : o mesmo em %
• Frequência Absoluta Acumulada (Si) : nº de vezes que a Variável tem valores ≤ à modalidade ou classe i
• Frequência Relativa Acumulada (Fi) : o mesmo em %
1304- Análise de Dados e Probabilidade
2 – Classificação e Representação dos Dados
. Variáveis Discretas (Exemplo)
Quadro de Frequências
Representação Gráfica
. Distribuição de Frequências (Diagrama de Barras)
. Distribuição de Frequências Acumuladas
Representação Matemática
. Função Cumulativa da Frequência
F(x) = F(li-1) = Fi-1 , li-1≤ x< li
1304- Análise de Dados e Probabilidade
2 – Classificação e Representação dos Dados. Variáveis Contínuas (Exemplo)
Quadro de Frequências
. l0 ≤ Min {xi} e lj ≥ Max {xi}
. Escolha do número de Classes- várias formulas
. Estimar a amplitude e decidir
. Determinar os limites das classes
1304- Análise de Dados e Probabilidade
2 – Classificação e Representação dos Dados. Variáveis Contínuas (Exemplo)
Representação Gráfica
. Distribuição de Frequências (Histograma; Polígono de Frequências)
. Distribuição de Frequências Acum. (Polígono Integral)
Representação Matemática
. Função Cumulativa da Frequência F(x)
li-1≤ x ≤ li
Em que F(li)=Fi
,1
11)( i
ii
ii f
lllxFxF−
−− −
−+=
1304- Análise de Dados e Probabilidade
2 – Classificação e Representação dos Dados. Variáveis Contínuas (Exemplo)
Histograma (Diagrama de áreas)- Sucessão de rectângulos tendo por base o intervalo da classe e por altura a respectiva frequência dividida pela amplitude da classe.
. Área de cada rectângulo = ni ou fi
. Área total do Histograma = N ou 1
Caso particular: Todas as classes de igual amplitude é usual tomar-se para altura dos rectângulos - ni ou fi
Polígono de Frequências- Obtêm-se unido os pontos médios dos lados superiores dos rectângulos do Histograma. (+ 2 classes nos extremos com frequência 0)
Área total do Histograma = Área total do Polígono de Frequências
1304- Análise de Dados e Probabilidade
Variável Contínua e População infinitaSe N ∞ e h 0
Histograma de área 1 Curva de Frequência
A área compreendida entre dois pontos x=a e x=b
Frequência relativa Probabilidade
Se N ∞ e h 0
Polígono Integral Função de distribuição
Licenciatura
1304 -Análise de Dados e Probabilidade3
Clara Costa Duarte1º Semestre 2006/2007
1304- Análise de Dados e Probabilidade
3 – Variáveis Estatísticas UnidimensionaisPrincipais aspectos a considerar no estudo de uma uma colecção de dados são:
. Localização
. Dispersão
. Assimetria
. Achatamento
das correspondentes distribuições de frequência.
Como medir estes aspectos?
1304- Análise de Dados e Probabilidade
3.1– Medidas de Localização Central (Média)
Definição:
Ou para dados classificados
Vantagens: Usa a totalidade das observações, fácil interpretação e cálculo, definição rigorosa
Desvantagens: Muito sensível a valores extremos; pode não ser um valor observado
N
x
Nxxxx
N
ii
N∑==
+++= 121 ...
∑∑
=
= ′=′
=′++′
=j
iii
j
iii
jj xfN
xn
Nxnxn
x1
111 ...
1304- Análise de Dados e Probabilidade
Propriedades da Média:1. A soma dos valores observados é o produto da média pelo número
de observações
2. A soma dos desvios dos valores observados relativamente à média é zero.
3. A soma é mínima quando
4. Se adicionarmos c a todos os valores observados então a média fica adicionada de c
5. Se multiplicarmos por c todos os valores observados então a média fica multiplicada por c
6. Se adicionarmos todos os valores observados de duas colecções dedados então a média da variável soma é igual à soma das médias
7. Quando um conjunto de observações é dividido em j sub-colecções, a média principal é igual à media ponderada das médias dos subconjuntos.
2
1)(∑
=
−n
ii cx xc =
1304- Análise de Dados e Probabilidade
Média Geométrica
Definição:
Ou para dados classificados:
_________________________________________________________
Média Harmónica
Definição:
Ou para dados classificados:
∏=
==N
i
Ni
NNg xxxxx
1
11
21 )()...(
Nj
i
ni
Nnj
ng
ij xxxx1
1
1
1 )()...( 1 ∏=
′=′′=
∑=
= N
i i
h
x
Nx
1
1
∑= ′
= j
i i
ih
xn
Nx
1
1304- Análise de Dados e Probabilidade
3.1– Medidas de Localização Central (Mediana)Valores ordenados : x(1) ≤ x(2) ≤ ...≤ x(N)
Definição: para N impar
para N par
Ou para dados classificados:
em que e é a classe da mediana
)2
1(
~+= Nxx
)(5.0~1
11 −
−− −
−+= ee
e
ee ll
fFlx
2~ )
21()
2( ++
=NN xx
x
1304- Análise de Dados e Probabilidade
Propriedade da Mediana:
A soma é mínima quando
Vantagens: Pouco sensível a valores extremos.
Desvantagens:Cálculo mais complexo; pouco significativo em amostras pequenas; maior variabilidade
∑ −=
n
ii cx
1xc ~=
1304- Análise de Dados e Probabilidade
3.1– Medidas de Localização Central (Moda)
Definição: Valor que ocorre com maior frequência no conjunto das observações.
Para dados classificados, quantitativos contínuos, define-se a classe modal, como a classe com maior frequência (apenas se todas as classes forem de igual amplitude).
em que m é a classe modal
Vantagens: Pouco sensível a valores extremos.
Desvantagens: Pouco significativo em amostras pequenas; para variáveis contínuas cálculo mais complexo e de difícil interpretação .
)( 111
11 −
+−
+− −
++= mm
mm
mm ll
ffflModa
1304- Análise de Dados e Probabilidade
3.1– Medidas de Localização Não Central (Quantil)
Para dados discretos ou contínuos não classificados:
Definição: Quantil de ordem α (0< α <1) é
em que k é o maior inteiro menor que (Nα)+1
Para dados classificados, quantitativos e contínuos:
Definição: Quantil de ordem α (0< α <1) é
x tal que
)(kxZ =α
α=)(xF
1304- Análise de Dados e Probabilidade
3.1– Medidas de Localização Não Central (Quantil)Casos Particulares:
Quartil (qk) : Dividir os dados em 4 partes iguais, definem-se 3 quartis.
Quartil de ordem k (k =1,2,3) = Quantil de ordem α=k/4
Decil (dk) : Dividir os dados em 10 partes iguais, definem-se 9 decis.
Decil de ordem k (k =1,2,...,9) = Quantil de ordem α=k/10
Percentil (pk) : Dividir os dados em 100 partes iguais, definem-se 99 percentis.
Percentil de ordem k (k =1,2,...,99) = Quantil de ordem α=k/100
= p50 = d5 = q2
p10 =d1, p20 =d2 ,......
p25 =q1 , p50 =q2 , p75 =q3
x~
1304- Análise de Dados e Probabilidade
3.2– Medidas de Dispersão
Existem 2 tipos de medidas de dispersão:
i) Definidas a partir da relação com um ponto fixo da amostra (Média)
Variância (s2) e desvio padrão (s) ; Desvio absoluto médio (δx)
Coeficiente de dispersão ou de variação (cv)
ii) Definidas a partir das estatísticas ordinais
Amplitude total ( r) ; Amplitude Inter quartil ( rq)
Desvio quartil reduzido
1304- Análise de Dados e Probabilidade
3.2– Medidas de dispersão (Variância e Desvio Padrão)
Definição: Média Aritmética do quadrado dos desvios para a média
Para dados classificados:
Para amostras pequenas é mais correcto dividir por N-1
O Desvio Padrão é a raiz quadrada positiva da VariânciaTem a vantagem de se exprimir nas mesmas unidades que a amostra.
N
xx
Nxxxxxxs
N
ii
N∑ −
=−++−+−
= =1
2222
212
)()(...)()(
N
xxns
j
iii∑ −′
= =1
2
2)(
1304- Análise de Dados e Probabilidade
Propriedades da Variância e do Desvio Padrão:1. A variância e o desvio padrão são sempre valores não negativos.
2. Decomposição da Variância: A variância é igual à média dos quadrados das observações menos o quadrado da média.
3. Seja para todo i, A variável Y tem média de 0 e variância de 1
4. Se adicionarmos c a todos os valores observados a variância e o desvio padrão não se alteram.
5. Se multiplicarmos por c todos os valores observados então a variância fica multiplicada por c2 e o desvio padrão por |c |.
6. Quando um conjunto de observações é dividido em j sub-colecções, a variância principal relaciona-se com as variâncias das sub-colecções pela expressão:
xii sxxy /)( −=
N
xxN
N
sNs
j
kkk
j
kkk ∑∑
==
−+= 1
2
1
2
2)(
1304- Análise de Dados e Probabilidade
3.2– Medidas de dispersão (Desvio Médio)
Definição: Média dos módulos dos desvios para a média
Para dados classificados:
Esta medida pode ser definida em relação a outro valor central
Propriedades1. O desvio médio é mínimo quando tomado em relação à mediana
2. O desvio padrão é maior que o desvio médio
Desvantagem: O cálculo do módulo é mais difícil de tratar em termos informáticos
N
xx
Nxxxxxx
N
ii
Nx
∑ −=
−++−+−= =121 ..
δ
N
xxnj
iii
x
∑ −′= =1δ
1304- Análise de Dados e Probabilidade
3.2– Medidas de dispersão (Coeficiente de variação)
Definição:
Esta é uma medida de dispersão relativa, como não depende das unidades da amostra permite comparar distribuições de variáveis com unidades ou médias diferentes.
Não é definido quando a média é 0, pelo que só deve ser utilizado quando as observações tem todos o mesmo sinal.
xscv =
1304- Análise de Dados e Probabilidade
3.2– Medidas de dispersãoMedidas de dispersão absoluta
Amplitude Total: Diferença entre o maior e o menor valor da amostra
r = x(N) - x(1)
Amplitude Interquartil: rq = q3 – q1
Medida de dispersão relativa
Desvio quartil reduzido: x
qq~
13 −
1304- Análise de Dados e Probabilidade
3.3– Medidas de Assimetria Grau de Assimetria de PearsonParte da noção de que nas distribuições simétricas a Média a Moda e a Mediana
são iguais, e que quanto maior a assimetria da distribuição maior a distância entre elas. Fórmula de Pearson : Média – Moda = 3 (Média – Mediana)
Grau de assimetria de Pearson :
(-3<g<3)
Grau de Assimetria de BowleyParte da noção de que nas distribuições simétricas
e que quanto maior a assimetria da distribuição maior a diferença.
Grau de Assimetria de Bowley :
(-1<g’<1)
sModaxg −
=
13~~ qxxq −=−
qrqxxq
qxxqqxxqg )~()~(
)~()~()~()~(' 13
13
13 −−−=
−+−−−−
=
1304- Análise de Dados e Probabilidade
3.3– Medidas de AssimetriaDefinição de Momento: Momento de ordem r em relação a um valor fixo V é
Se V=0 , Momento simples de ordem r é
Se V= Média, Momento centrado de ordem r é
NVxmN
i
riVr ∑ −=
=1, )(
NxmN
i
rir ∑=
=1'
NxxmN
i
rir ∑ −=
=1)(
1304- Análise de Dados e Probabilidade
3.3– Medidas de Assimetria Partindo da noção de que nas distribuições simétricas todos os momentos de
ordem impar em relação á media são nulos.
Coeficiente de Pearson: b1>0 sempre, não informa sobre o sinal
Coeficiente Assimetria de Fisher: g1 já informa sobre o sinal
32
23
1 )()(
mmb =
33
1 smg =
1304- Análise de Dados e Probabilidade
3.4– Medidas de Achatamento ou Curtose Procura medir o peso das caudas da distribuição. No 4º Momento, os grandes
desvios em relação á média tem mais peso que os pequenos, e divide-se pelo desvio padrão para anular o efeito da dispersão.
Coeficiente de Achatamento:
Sabendo que para a distribuição normal, b2=3, define-se
Excesso ou Kurtosis: g2 = b2 – 3
O sinal de g2 compara o achatamento da distribuição com a distribuição normal.
g2 > 0 diz-se que a distribuição é “leptocúrtica” lepto = estreito, delgado
g2 < 0 diz-se que a distribuição é “platicúrtica” plati exprime a ideia de plano
44
22
42 )( s
mmmb ==
1304- Análise de Dados e Probabilidade
3.5– Medidas de Concentração As medidas de concentração destinam-se a medir a forma como determinado
atributo se distribui pelos elementos de uma dada população. Só faz sentidopara atributos quantitativos com carácter aditivo.
Dada a distribuição de frequências de X, agrupadas em i classes seja
ou
o valor do atributo acumulado na classe i
Defina-se e
Demonstra-se que pi ≥ qi
∑=∈ik
ki xtiii xnt '=
ii Fp =∑
∑=
∑
∑=
=
=
=
=N
ii
i
kk
j
kk
i
kk
ix
t
t
tq
1
1
1
1
1304- Análise de Dados e Probabilidade
3.5– Medidas de Concentração
Índice de Gini :0 ≤ G ≤ 1
G = 0 a concentração é mínima
G = 1 a concentração é máxima
Curva de Lorenz : Representação gráfica dos pontos (pi , qi ) e da recta de igual distribuição (pi = qi )
∑
∑−=
∑
∑ −= −
=
−
=−
=
−
=1
1
1
11
1
1
1 1)(
j
ii
j
ii
j
ii
j
iii
p
q
p
qpG
Licenciatura
1304 -Análise de Dados e Probabilidade4
Clara Costa Duarte1º Semestre 2006/2007
1304- Análise de Dados e Probabilidade
4. 1- Números ÍndicesDefinição: Um índice é uma relação entre dois estados ou situações de uma grandeza. Representa o nível em relação ao nível tomado para base.
Permitem uma rápida avaliação da variação relativa do fenómeno em análise.
Índice Simples: Quando traduz a evolução de um só fenómeno (x)
Índice Sintético: Quando traduz a evolução de um conjunto de k fenómenos. (x x’ x’’..)
100.0
0/ xxi t
t =
1304- Análise de Dados e Probabilidade
4.2- Números ÍndicesFormas alternativas de construir índices sintéticos
1- Média dos índices simples
2- Índice das médias (agregativo)
ki
kiiiI tttt
t∑=+′′+′+
= 0/0/0/0/0/
...
∑∑=
+′′+′++′′+′+
=0000
0/ ......
xx
xxxxxxI tttt
t
1304- Análise de Dados e Probabilidade
4.2 - Números Índices ( Índices Ponderados)1- Índice Sintético Ponderado
2- Índice Agregativo Ponderado
∑∑=
+′′+′++′′′′+′′+
=ωω
ωωωωωω 0/0/0/0/
0/ ..... tttt
tiiiiI
∑∑=
+′′′′+′′++′′′′+′′+
=00000000
0/ ......
xx
xxxxxxI tttttttt
t ωω
ωωωωωω
1304- Análise de Dados e Probabilidade
4.2 - Números Índices –Índice de Laspeyres
Consideram-se como ponderadores preços ou quantidades do ano base.
Índice de Preços:
Índice de Quantidades:
∑∑=
00
0t/0L
qpqptP
∑∑=
00
00/ qp
qpL tQ
t
1304- Análise de Dados e Probabilidade
4.2 - Números Índices –Índice de Paasche
Consideram-se como ponderadores preços ou quantidades do ano t.
Índice de Preços:
Índice de Quantidades:
∑∑=Ρ
t
ttP
qpqp
0t/0
∑∑=Ρ
00/ qp
qp
t
ttQt
1304- Análise de Dados e Probabilidade
4.2 - Números Índices –Índices de Laspeyres e de Paasche
1- O Índice de Preços de Laspeyres pode ser escrito como uma média ponderada de índices de preços simples.
2- O Índice de Preços de Paasche pode ser escrito como uma média ponderada de índices de preços simples, ou alternativamente como a média harmónica de índices de preços simples.
3- O Índice de Quantidades de Laspeyres pode ser escrito como uma média ponderada de índices de quantidades simples.
4- O Índice de Quantidades de Paasche pode ser escrito como uma média ponderada de índices de quantidades simples, ou alternativamente como a média harmónica de índices de quantidades simples.
5- Demonstra-se que, em certas condições, o índice de Laspeyres é superior ao de Paasche tanto para preços como para quantidades.
1304- Análise de Dados e Probabilidade
4.2 - Números Índices –Índice de Fisher
Média geométrica dos índices de Laspeyres e Paasche
Índice de Preços:
Índice de Quantidades:
∑∑
∑∑=
t
tttp
qpqp
qpqp
F000
0t/0
∑∑
∑∑=
000
0t/0 qp
qpqpqp
Ft
tttq
1304- Análise de Dados e Probabilidade
4.2 - Números Índices –Índices de valor
Índice Simples:
Índice Sintético:
qpttv iiqpqpi t/0t/0
00t/0 ==
pqqpttv PLPLqpqpI t/0t/0t/0t/0
00t/0 .. ===
∑∑
1304- Análise de Dados e Probabilidade
4.2 - Números Índices –Propriedades de um “bom”indíce1- Boa determinação
2- Identidade
3- Homogeneidade
4- Proporcionalidade
5-Reversão dos factores
6- Reversão no tempo
7- Circularidade
1304- Análise de Dados e Probabilidade
4.3 – Índices de Base Móvel. Índices em cadeia.De entre os índices de base móvel tem particular importância:
1) Índices elos, em que a base é sempre constituída pelo período anterior
2) Índices homólogos (mensais ou trimestrais), tomam para base o valor do mês (ou trimestre) homólogo do ano anterior.
“Encadeando” os índices de elos obtêm-se um novo tipo de índice de base fixa chamados índices em cadeia:
1/2/31/20/10/ ...... −= ttct IIIII
1304- Análise de Dados e Probabilidade
4.3 – Mudança de base. Conciliação de ÍndicesSe o índice em causa satisfizer a propriedade da circularidade a
mudança de base é simples:
Na prática, usa-se esta regra para todo o tipo de índices.
0/
0/
0
0/
b
t
b
tbt i
ixxxxi ==
Licenciatura
1304 -Análise de Dados e Probabilidade5
Clara Costa Duarte1º Semestre 2006/2007
1304- Análise de Dados e Probabilidade
5.1 – Noções Preliminares • Tipos de fenómenos: Determinísticos e Probabilísticos
•Conceitos de Base:
•Experiência Aleatória; Observação; Espaço Amostral (S); Evento Simples; Evento Composto; Conjunto finito; Conjunto Infinito; Conjunto Contável.
•Definições:
•Complemento de um evento A (em S)
•Intersecção de dois eventos A e B•Eventos mutuamente exclusivos
•Diferença entre dois eventos
•Reunião de dois eventos A e B
•Cardinal de um conjunto Finito - #A
•Partição do Espaço Amostral B1, B2, ,Br
{ }AxSxA ∉∈= :{ }BxAxSxBA ∈∈∈=∩ e :
∅=∩BA{ }BxAxSxBA ∉∈∈=− e :
{ }BxAxSxBA ∈∈∈=∪ ou :
Ur
1i e ji , =
=≠∅=∩ SBBB iji
1304- Análise de Dados e Probabilidade
5.1 – Noções Preliminares ( cont.)
• Diagramas de Venn
•Propriedades das Operações no Espaço AmostralLeis Comutativas
Leis Associativas
Elemento Neutro Elemento Absorvente
Leis Distributivas
Leis de Morgan
SAAAA=∪
∅=∩ABBAABBA
∪=∪∩=∩
)()()()(
CBACBACBACBACBACBA
∪∪=∪∪=∪∪∩∩=∩∩=∩∩
ASAAA
=∩=∅∪
∅=∅∩=∪
ASSA
)()()()()()(
CBCACBACBCACBA
∪∩∪=∪∩∩∪∩=∩∪
BABA
BABA
∩=∪
∪=∩
1304- Análise de Dados e Probabilidade
5.1 – Noções Preliminares
• Métodos de Contagem
•Definições:•Permutação; Factorial; Combinação
•Teoremas•Princípio Fundamental da Contagem
•O número de Permutações de n objectos diferentes é:h
•O número de Permutações de n objectos diferentes escolhendo r objectos de cada vez é:
•O número de Permutações de n objectos diferentes arranjados em círculo é:
)!(!rn
nPnr −=
!nPn =
)!1( −= nPn
1304- Análise de Dados e Probabilidade
5.1 – Noções Preliminares
•Teoremas•O número de Permutações de n objectos de r tipos diferentes em que, n1+ n2 +...+ nr = n , é:
•O número de maneiras diferentes de dividir n objectos em r grupos com ni elementos em cada grupo é:
Caso particular: Combinação
•O número de Combinações de r objectos escolhidos de n objectos é:
!!..!!
,..,, 2121 rr nnnn
nnnn
=⎟⎟⎠
⎞⎜⎜⎝
⎛
)!(!!
, rnrn
rn
rnrn
C nr −
=⎟⎟⎠
⎞⎜⎜⎝
⎛=⎟⎟
⎠
⎞⎜⎜⎝
⎛−
=
1304- Análise de Dados e Probabilidade
5.2 – Conceito de Probabilidade
•Axiomas da Probabilidade•Seja A um evento do espaço amostral S. Chama-se Probabilidade de A P(A) o número real que mede a verosimilhança com que A ocorre e que satisfaz os seguintes axiomas:
•Frequência relativa Probabilidade
)()()( então j,i para 0 se
S, de evento um Seja iii)1)( ii)
1)(0 i)
i
jiji
ji
APAPAAPAAA
SPAP
+=∪
≠=∩
=≤≤
1304- Análise de Dados e Probabilidade
5.3 – Teoremas Elementares do Cálculo das Probabilidades
•Teoremas•Sejam A e B dois eventos de S em que
Então:
•Sejam A e B dois eventos quaisquer de S
Então:
•Sejam A , B e C eventos quaisquer de S
Então:
AB ⊆)()()( BPAPBAP −=−
)()()()( BAPBPAPBAP ∩−+=∪
)()()()()()()()(
CBAPCBPCAPBAPCPBPAPCBAP
∩∩+∩−∩−∩−++=∪∪
1304- Análise de Dados e Probabilidade
5.3 – Teoremas Elementares do Cálculo das Probabilidades
•Teoremas•Seja A um evento de S
Então:
•Se
Então:
•Sejam A1 , A2 , ...., An eventos mutuamente exclusivos
Então:
1)()( =+ APAP
AB ⊆
)()( APBP ≤
∑===
n
ii
n
ii APAP
11)()(U
1304- Análise de Dados e Probabilidade
5.4 – Probabilidade Condicional. Independência de Eventos
•Definição: Probabilidade de A dado B:
•Definição: A e B são eventos independentes se e só se:
Teorema: Se A e B são eventos independentes, com probabilidades positivas, então:
0)( se ,)(
)()|( ≠∩
= BPBP
BAPBAP
)( )()( BPAPBAP =∩
)()|(e)()|( BPABPAPBAP ==
1304- Análise de Dados e Probabilidade
5.4 – Probabilidade Condicional. Teoremas
•Teorema: A Probabilidade Conjunta dos eventos A e B é:
A Probabilidade Conjunta dos eventos A1, A2 ,... Ar é:
•Teorema da Probabilidade Total: Se B1, B2 ,... Br forem uma partição de S, então para qualquer evento A :
)|()()|()()( ABPAPBAPBPBAP ==∩
)...|(. )...|( )()...(
121
12121
−∩∩∩=∩∩∩
rr
r
AAAAPAAPAPAAAP
∑==
r
1i)()|()( ii BPBAPAP
1304- Análise de Dados e Probabilidade
5.4 – Probabilidade Condicional. Teorema de Bayes
•Teorema de Bayes:
Se B1, B2 ,... Br forem uma partição de S, então para qualquer evento Aentão :
para k=1,2,...,r
Permite calcular a probabilidade de Bk (uma causa) ocorrer dado que ocorreu o evento A.
∑=
∩=
=
r
1i)()|(
)()|()(
)()|(ii
kkkk
BPBAP
BPBAPAP
ABPABP
1º Semestre 2006/2007
1304 -Análise de Dados e Probabilidade6
Licenciatura
Clara Costa Duarte
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias : Def: Variável Aleatória X(s): é uma função que associa um número real x a cada resultado s do espaço amostral S
•Variável Aleatória Discreta X(s): o conjunto de valores possíveis de X é finito (ou infinito numerável)
•Função de Probabilidade :
Propriedades:
•Função de Distribuição Acumulada:
Propriedades:
)()( xXPxf ==
∑=≤=≤xu
ufxXPxF )()()(
∑ =≥x
xfxf 1)( ii) 0)( i)
1)(lim)( iv)
0)(lim)( iii))()( então , Se ii)
escada em e idadesdescontinu com função uma É i)
==+∞
==−∞≤≤
+∞→
−∞→
xFF
xFFyFxFyx
x
x
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias •Variável Aleatória Continua X(s): toma valores de um intervalo ou de um conjunto de intervalos
•Função de Densidade de Probabilidade (f.d.p.) : f(x) tal que
Propriedades:
babadxxfbXaP ba ≤∫ ∈∀=<< :IR, ,)()(
1)( ii)
IR ,0)( i)
=∫
∈∀≥∞+∞- dxxf
xxf
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias •Variável Aleatória Continua X(s):
•Função de Distribuição Acumulada :
Propriedades:
∫=≤= ∞−x duufxXxF )()()(
)()()vi)P(a
derivávelfor F se ,)()(v)
1)(lim)( iv)
0)(lim)( iii))()( então , Se ii)
contínua função uma É i)
aFbFbxdx
xdFxf
xFF
xFFyFxFyx
x
x
−=≤≤
=
==+∞
==−∞≤≤
+∞→
−∞→
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias - Duas ( ou n) dimensões; x =X(s) e y=Y(s))
•Seja (X,Y) um vector Aleatório Discreto
•Função de Probabilidade Conjunta: fXY (x,y)= P(X = x,Y=y)•Propriedades
•Função de Distribuição Acumulada Conjunta:
∑ ∑=≤≤=≤ ≤xu yv
XYXY vufyYxXPF ),(),(
∑ =∑≥x
XYXY yxfyxf 1),( ii) 0),( i)y
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias- Duas ( ou n) dimensões; x =X(s) e y=Y(s))
•Seja (X,Y) um vector Aleatório Contínuo
•Função de Densidade de Probabilidade Conjunta:
Propriedades:
•Função de Distribuição Acumulada Conjunta:
e
∫ ∫∞− ∞−=≤≤=
x y
XYXY dvduvufyYxXPF ),(),(
∫ ∫=∈A
XYXY dxdyyxfAYXPf ),(),( que tal
1),( ii)
IR ,0),( i)
- =∫ ∫
∈∀≥∞+∞
∞+∞ dydxyxf
xyxf
- XY
XY
yxyxFyxf XY
XY ∂∂∂
=),(),(
2
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias
•Distribuições Marginais de V.A. Discretas•Funções de Probabilidade Marginal de X e Y:
•Função de Distribuição Acumulada Marginal:
E
∑=∑=x
XYYy
XYX yxfyfyxfxf ),()( e ),()(
∑∑=≤yv x
XYY vxfyF ),()(
∑∑=≤xu y
XYX yufxF ),()(
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias (cont)
Distribuições Marginais de V.A. Continuas•Funções de Probabilidade Marginal de X e Y:
•Função de Distribuição Acumulada Marginal de X e Y:
),()( e ),()( ∫∫+∞
∞−
+∞
∞−== dxyxfyfdyyxfxf XYYXYX
dudyyufxFx
XYX ∫ ∫∞−+∞
∞−= ),()(
),()( ∫ ∫∞−+∞
∞−=
y
XYY dxdvvxfyF
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias (cont)•Distribuições Condicionais
•Funções de Probabilidade Condicional de X dado Y:
•e de Y dado X:
)(),(
)(),()()(
yfyxf
yYPyYxXPyYxXPxf
Y
XYyYX =
===
====
)(),(
)(),()()(
xfyxf
xXPyYxXPxXyYPyf
X
XYxXY =
===
====
1304- Análise de Dados e Probabilidade
6.1 – Variáveis Aleatórias (cont)•Definição de independência de variáveis aleatórias
•Funções de Variáveis Aleatórias Y=g(X)
•Como determinar fY a partir de fX?
•e FY a partir de FX?
IRyxyfxfyxf YXXY ∈∀= , )()(),(
[ ] ∑=
=====yxgx
XY xfyXgPyYPyf)(:
)()()()(
[ ] ∑≤
=≤=≤=yxgx
XY xfyXgPyYPyF)(:
)()()()(
1304- Análise de Dados e Probabilidade
6.2 –Valor Esperado de uma V.A.(Média)•Definição
•V.A.Discreta
•V.A. Continua
•Teoremas para cálculo de Valores Esperados
•E[g(X)]
•E[g(X,Y)]
•E[ ∑ ai gi (X)]•Se X e Y são V.A. Independentes E(X,Y)=E(X)*E(Y)
∑===x
x xxf )( E(X)μμ
∫+∞
∞===
-)( E(X) dxxxfxμμ
1304- Análise de Dados e Probabilidade
6.2 –Variância, Desvio Padrão,Coeficiente de Variação de uma V.A.•Definições
•Variância :
•V.A.Discreta
•V.A. Continua
•Var(X) = E(X2)- μ2
•Desvio Padrão:
•Coeficiente de Variação:
∑ −=x
xfx )()( 22 μσ
222 )(Var μσσ −=== XE(X)x
∫+∞
∞−−= dxxfx )()( 22 μσ
2)(Var μσσ −=== XE(X
μσω =
1304- Análise de Dados e Probabilidade
6.2 –Co-variância e Coeficiente de Correlação
•Relação entre 2 V.A.•Co-variância :
•V.A.Discreta
•V.A. Continua
•Cov(X,Y) = E(XY)- μX μY
•Coeficiente de Correlação:
[ ]))((),( YXXY YXEYXCov μμσ −−==
∑∑ −−x
XYYX yxfYXy
),())(( μμ
∫ ∫ −−+∞∞−
+∞∞− dxdyyxfYX XYYX ),())(( μμ
[ ])()(
))(()()(
),(),(YVarXVar
YXEYVarXVar
YXCovYXCorr YXXY
μμρ −−===
1304- Análise de Dados e Probabilidade
6.2 –Variância e Co-variância
•Teoremas
•Var(X) = E(X2)- μ2
•Cov(X,Y) = E(XY)- μX μY
• ∑∑=⎥⎦⎤
⎢⎣⎡∑
= ==
n
i
n
jjiji
n
iii XXCovaaXaVar
1 11),(
1304- Análise de Dados e Probabilidade
6.2 – Momentos de uma V.A.
•Definições •Momento simples de ordem r:
•V.A.Discreta
•V.A. Continua
•Momento centrado de ordem r:
•V.A.Discreta
•V.A. Continua
∑==′x
rrr xfxX )( )E(μ
∫==′ +∞∞− dxxfxX rr
r )( )E(μ
∑ −=−=x
rrr xfxX )()( )E( μμμ
∫ −=−= +∞∞− dxxfxX rr
r )()( )E( μμμ
1304- Análise de Dados e Probabilidade
6.2 – Momentos de uma V.A.
•Definições •Função geradora de momentos da V.A. X:
•V.A.Discreta
•V.A. Continua
•A derivada de ordem r da f.g.m. é o momento de ordem r da V.A.
•Função geradora de momentos conjunta das V.A. X e Y:
∑==x
txtXX xfeetm )( )E()(
∫== +∞∞− dxxfeetm txtX
X )()E()(
Y)(E(),( YXYXXY tXtExpttm +=
1304- Análise de Dados e Probabilidade
6.2 – V.A. Estandardizadas•Definições
Forma estandardizada de X
• Uma variável estandardizada tem Valor esperado 0 e Variância 1
•Desigualdade de Chebyshev : Seja X uma V.A.. com média e variância finita
e k >0
X
XXσμ−
2
11)(k
kXkP −≥<−
<−σμ
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas
Embora exista uma diversidade infinita de possíveis distribuições estatísticas algumas tem um âmbito de aplicação mais generalizado:
•Distribuição Uniforme : X ~ DU(i,j)
Aplica-se à ocorrência aleatória de resultados igualmente prováveis
•Definições:
•Função de Probabilidade;
•Função de Distribuição Acumulada
{ }
{ }⎪⎩
⎪⎨⎧
−+∉
−+∈+−=
jjiix
jjiixijxf
,1,...1, 0
,1,...1, ,1
1)(
⎣ ⎦
⎪⎪⎩
⎪⎪⎨
⎧
>
≤≤+−+−
<
=
jx
jxiijix
ix
xF
1
11
0
)(
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas •Distribuição Uniforme : X ~ DU(i,j)
•Parâmetros: Parâmetro de localização i; Parâmetro de escala i-j;
•Gama de valores:
•Propriedades:
E(X) = (i+j)/2
VAR(X) =[ (j-i+1)2 –1]/12
{ }jjii ,1,...,1, −+
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas •Distribuição de Bernoulli : X ~ Bernoulli (p)
•Aplica-se a sequências de n tentativas repetidas independentes com 2 resultados possíveis: sucesso com probabilidade p; insucesso com probabilidade (1-p).
•Definições:
•Função de Probabilidade:
• Função de Distribuição Acumulada:
⎪⎩
⎪⎨
⎧==−=
=casos, outros 0
1 0 1
)( xpxpq
xf
⎪⎩
⎪⎨
⎧
≥<≤−=
<=
1 110 1
0 0)(
xxpq
xxF
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas
•Distribuição de Bernoulli : X ~ Bernoulli (p)
•Parâmetros: Parâmetro de localização p
•Gama de valores: {0,1}
•Propriedades:
E(X) = p
VAR(X) = p (1-p)
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas •Distribuição de Binomial: X ~ Bin (n,p)
•X corresponde ao número de sucessos em n tentativas de Bernoulli
•Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada:
{ }
{ }⎪⎩
⎪⎨
⎧
∉
∈−⎟⎟⎠
⎞⎜⎜⎝
⎛=
−
nx
nxppxn
xfxnx
,...,2,1,0 0
,...,2,1,0 )1()(
⎣ ⎦
⎪⎪⎩
⎪⎪⎨
⎧
>
≤≤∑ −
<
==
−
nx
nxpp
x
xFx
i
ini
1
0 )1(
0 0
)(0
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas
•Distribuição de Binomial: X ~ Bin (n,p)
•Parâmetros: n, p
•Gama de valores: {0,1,2,....,n}
•Propriedades:
E(X) =n p
VAR(X) = np (1-p)
Se (n+1) p não é inteiro Moda = Int [(n+1) p]
Se (n+1) p é inteiro Bi-Modal em (n+1) p e (n+1)p -1
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas •Distribuição de Poisson: X ~ Poisson (λ)
Um processo de Poisson refere-se ao nº de eventos que ocorrem num intervalo temporal ou numa região espacial, em que λ representa o nºmédio de eventos no referido intervalo.
•Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada:
{ }
{ }⎪⎩
⎪⎨⎧
∉
∈=
−
,...2,1,0 0
,...2,1,0 !)(
x
xx
exf
xλλ
⎣ ⎦
⎪⎩
⎪⎨⎧
≥∑
<=
=
− 0 !
0 0)(
0x
ie
xxF x
i
iλλ
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Discretas
•Distribuição de Poisson: X ~ Poisson (λ)
•Parâmetros: λ
•Gama de valores: {0,1,2,....}
•Propriedades:
E(X) = λ
VAR(X) = λ
Se λ não é inteiro Moda = Int [λ]
Se λ é inteiro Bi-Modal em λ -1 e λ
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas•Distribuição de Uniforme: X ~ U(a,b)
Aplica-se à ocorrência aleatória no intervalo [a,b] cuja probabilidade é proporcional ao comprimento do intervalo
•Definições:
• Função de Densidade de Probabilidade:
•Função de Distribuição Acumulada:
[ ]
[ ]⎪⎩
⎪⎨⎧
∉
∈−=
bax
baxabxf
, 0
, 1)(
[ ]
⎪⎪⎩
⎪⎪⎨
⎧
>
∈−−
<
=
bx
baxabax
ax
xF
1
,
0
)(
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição de Uniforme: X ~ U(a,b)
•Gama de Valores: [a,b]
•Propriedades:
E(X) = (a+b)/2
VAR(X) = (b-a)2/12
Função Geradora de Momentos
0 ,1)( ≠−
−= t
tee
abtm
atbt
x
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas•Distribuição Normal: X ~ N(µ, σ2)
•Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada:
⎥⎦
⎤⎢⎣
⎡⎟⎠⎞
⎜⎝⎛ −
−=2
2 21exp
21)(
σµ
πσxxf
dttxXPxF x∫ ⎥
⎦
⎤⎢⎣
⎡⎟⎠⎞
⎜⎝⎛ −
−=≤= ∞−
2
2 21exp
21)()(
σµ
πσ
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas•Distribuição Normal: X ~ N(µ, σ2)
•Parâmetros: µ,σ2
•Gama de Valores: [-∞, +∞,]
•Propriedades:
E(X) = µ
VAR(X) = σ2
Moda = µFunção Geradora de Momentos
⎟⎟⎠
⎞⎜⎜⎝
⎛+=
2exp)(
22tttmxσµ
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas•Distribuição Normal: X ~ N(µ, σ2)
1-
2- Se as variáveis Xi ~ N(µi , σi2) são independentes então:
3- Se as variáveis Xi ~ N(0 , 1) são independentes então:
997.0)33(95.0)22(
68.0)(
≈+<<−≈+<<−
≈+<<−
σµσµσµσµ
σµσµ
XPXP
XP
∑∑∑i
iii
iii
ii aaNXa ),(~ 22σµ
2)(
1
2 ~ n
n
iiX ℵ∑
=
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas•Distribuição Normal: X ~ N(µ, σ2)
•1-
•2-
•3-
Correcção de continuidade ( x-0.5<X<x+0.5)
)()(
)1,0(~ e ),(~ Se 2
σµ
σµ
σµσµ
−≤≤
−=≤≤
−=
bZaPbXaP
NXZNX
)1,0(~ para converge)1(
granden e),(~ Se
Npnp
npXZ
pnBinX
−−
=
)1,0(~ para converge
grande e)(~Se
NXZ
PoissonX
λλ
λλ−
=
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição Exponencial –Exp(β): X ~ Exp(β)Aplica-se à ocorrência de eventos a uma taxa constante, num intervalo de tempo ou numa região. X representa o intervalo de tempo entre eventos independentes
Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada:
0 10 0
)( /⎪⎩
⎪⎨⎧
≥
<= − xe
xxf x β
β
⎩⎨⎧
≥−
<=
− 0 10 0
)(/ xe
xxF
x β
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição Exponencial –Exp(β): X ~ Exp(β)
•Parâmetros: β•Gama de Valores: [0, +∞,]
•Propriedades:
E(X) = β
VAR(X) = β2
Moda = 0
Função Geradora de Momentos
⎟⎠
⎞⎜⎝
⎛−
=t
tmx β11)(
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição Gama –Gama(α,β): X ~ Gama(α,β)
X representa a soma de α V.A. exponenciais independentes.
Definições:
• Função de Probabilidade:
•Em que
•Função de Distribuição Acumulada:
( )
0 10 0
)( 1⎪⎩
⎪⎨⎧
>Γ
≤= −− xex
xxf x
βαα αβ
⎪⎩
⎪⎨
⎧
>⎟⎠
⎞⎜⎝
⎛−
≤
=∑−
=
− 1
00
!11
0 0)( α
ββ
i
i
xxi
e
xxF x
∫+∞ −− >=Γ
01 0 )( αα α dxex x
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas•Distribuição Gama –Gama(α,β): X ~ Gama(α,β)
•Parâmetros: α,β•Gama de Valores: [0, +∞,]
•Propriedades:
E(X) = α β
VAR(X) = α β2
Moda = (α –1) β
Função Geradora de Momentosα
β⎟⎠
⎞⎜⎝
⎛−
=t
tmx 11)(
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição Qui –Quadrado -X2: X ~ X2(v)
Representa V.A.s que sejam o quadrado de V.A.s com distribuição Normal Estandardizada. Permite fazer inferências sobre a variância de uma população.
Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada:*
*apenas se v for um nº par , se v for impar a função não é definida
( )( ) 0
2
10 0
)( 22
2
1
2⎪⎩
⎪⎨
⎧
>Γ
≤
= −− xex
xxf xν
νν
⎪⎩
⎪⎨
⎧
>⎟⎠⎞
⎜⎝⎛−
≤=
∑−
=
−1
0
22 0
2!11
0 0)( ν
i
i
xxi
e
xxF x
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição Qui –Quadrado -X2 : X ~ X2(v)
•Parâmetros: v ( graus de liberdade)
•Gama de Valores: [0, +∞,]
•Propriedades:
E(X) = v
VAR(X) = 2 v
Moda = v-2, se v≥2
Função Geradora de Momentos2
211)(
ν
⎟⎠⎞
⎜⎝⎛−
=t
tmx
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição t-Student - T(v) : X ~ T(v)
Seja : em que Z ~N(0,1) e Y~ X2(v)
Permite fazer inferências sobre a média de uma população a partir de uma amostra.
Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada: a função não é definida
( )( )
21
2
2
21 1)(
+−
+
⎟⎟⎠
⎞⎜⎜⎝
⎛ +Γ
Γ=
ν
ν
ν
νπνxxf
νYZX =
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição t-Student - T(v) : X ~ T(v)•Parâmetros: v
•Gama de Valores: [- ∞, + ∞,]
•Propriedades:
E(X) =0 se v>1
VAR(X) = v/(v-2), se v>2
Moda = 0
Função Geradora de Momentos: não existe
1304- Análise de Dados e Probabilidade
6.3 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição F : X ~ F(v1, v2)
•Parâmetros: v1 e v2
•Gama de Valores: [0, + ∞,]
•Propriedades:
E(X) = v2 / v2 -2 se v2 >2
VAR(X) = , se v2 >4
Moda =
Função Geradora de Momentos: não existe
( )( ) ( )42
22
22
21
2122
−−−+
νννννν
1304- Análise de Dados e Probabilidade
6.4 – Distribuições de Probabilidades de Variáveis Contínuas
•Distribuição F : X ~ F(v1, v2)
Seja : em que X1~ X2(v1) X2 Y~ X2(v2)
Permite comparar variâncias amostrais e fazer inferências sobre as variâncias das populações.
Definições:
• Função de Probabilidade:
•Função de Distribuição Acumulada: a função não é definida
( )( ) ( )
2
2
11
22
2
1
22
2
211
1
21
21
1)(
ννν
ν
νν
νν
νν
νν
+−
−+
⎟⎟⎠
⎞⎜⎜⎝
⎛+⎟⎟
⎠
⎞⎜⎜⎝
⎛ΓΓ
Γ= xxxf
2
2
1
1
ν
νX
XX =