teorÍa de decisiÓn bayesiana · 2018. 8. 29. · idea: estudiar probabilidades de tomar...
TRANSCRIPT
Estas transparencias contienen material adaptado del libro Duda
TEORÍA DE DECISIÓN BAYESIANA
DECISIÓN BAYESIANA
Enfoque estadístico fundamental en clasificación de patrones
Idea: Estudiar probabilidades de tomar decisiones incorrectas para cuantificar los costos y compromisos de esas decisiones y diseñar las estrategias de menor costo
METODOLOGÍA
1. Supuestas conocidas todas las probabilidades en juego estudiaremos como establecer las reglas de decisión.
2. Posteriormente analizaremos como proceder cuando no se conocen las probabilidades completamente.
Ejemplo: Clasificación de brotes y de hierbas parásitas
en cultivos, mediante la captura de imágenes multiespectrales (4 bandas), con el objetivo de realizar una fumigación específica.
EJEMPLO
Clasificación de brotes y de hierbas parásitas en cultivos, mediante la captura de imágenes multiespectrales (4 bandas), con el objetivo de realizar una fumigación específica.
Pre-procesamiento: discriminación suelo –vegetación Problema de clasificación de 2 clases: cada pixel de vegetación
pertenece a: w1 – brote
w2 – parásito
C= w1, w2 Ω Є C, V. A
PRIORS
P(w1), P(w2) probabilidades a priori, pixel brote o parásito. Reflejan conocimiento previo de cuan probable es que un pixel corresponda a brote o parásito antes de inspeccionar imagen.
Supondremos P(w1)+P(w2)=1, todo pixel detectado como vegetación es brote o parásito.
REGLA DE DECISIÓN
Supongamos que somos forzados a tomar una decisión y que todos los costos de decisiones incorrectas son iguales.
Si la única información a la que podemos acceder son las probabilidades a priori, la regla de decisión razonable es:
Decido: w1 si P(w1)> P(w2) , w2 en otro caso
Si P(w1)>> P(w2) al decidir w1 casi siempre estamos en lo cierto.
Si P(w1) ≈P(w2) nos equivocamos en promedio uno de cada dos.
P(error) = min [P(w1), P(w2)]
DENSIDAD DE PROBABILIDAD CONDICIONADA A LA CLASE
En general disponemos de más información para tomar decisiones.
Ejemplo: a cada pixel le asociamos un vector x=(x1,x2,x3,x4) donde xi : reflectancia en la banda espectral i-ésima.
Modelo: x vector aleatorio p(x/wi) densidad de probabilidad
)/()/( , iiR
d wRPdwpRR ∈=⊂∀ ∫ xxx
∑=
=
=⇒
==
2
1
)()/()( donde
)()()/(
)/(
)()/()()/(),( :Bayes usamos, ticascaracterís de vector de pixel del naturaleza lainferir Para
lescondiciona densidades lasy prioris las conocidas Supuesto
iii
iii
iiii
wPwPp
pwPwpwP
wPwppwPwp
xx
xx
x
xxxxx
BAYES
evidenciapriortudverosimili
posterior×
= :Bayes
BAYES
P(wi /x)- posterior: probabilidad de que la clase sea wi dado que se midió x .
P(wi ) – prior: conocimiento previo del problema
p(x/ wi)- verosimilitud : de la clase wi respecto a x, cuanto mayor más probable que la verdadera clase sea wi.
p(x)- evidencia: factor de escala, normaliza a 1.
REGLA DE DECISIÓN DE BAYES
( ) ( )
( )( )
( ) ( )[ ]xxx
xx
xx
x
xxxxx
xx
/,/min)/( :regla esta Bajo
mínima )/(mínima )(
decidimos si / decidimos si /
)/(
)()/(),()(
caso otroen ,// si Decido
21
12
21
2211
44
wPwPerrorP
errorPerrorP
wwPwwP
errorP
dperrorPderrorPerrorP
wwPwPw
RR
=
∀↔⎩⎨⎧
=
==
>
∫∫
w1
w2
x
P(w1/x)
P(w2/x)
P(w1 /x)+P(w2 /x)=1
En término de probabilidad a priori y verosimilitud la regla es:
Decido w1 si p(x/ w1) P(w1) > p(x/ w2) P(w2) , w2 en otro caso
Eliminando el factor de escala se obtiene una regla equivalente, el factor de normalización cambia la apariencia de las funciones discriminantes.
Si p(x/ w1)=p(x/ w2) entonces el medir las características x, no nos aporta información sobre la clase; la decisión se basa puramente en las priors.
Si P(w1) =P(w2) la decisión se basa en las verosimilitudes
La regla de decisión bayesiana combina ambos factores y toma la decisión que minimiza la probabilidad de error.
FORMALIZACIÓN Y GENERALIZACIÓN
c clases w1, w2 …. wc Espacios de características Rd : x = (x1, x2, …xd)T : vector de características
x Є Rd : espacio Euclideano dimensión d
Funciones de costos más generales que la probabilidad de error. Función de costo ó de pérdida: cuanto me cuesta cometer distinto tipos de errores o no decidir.
Ej: costo de extraer tejido si es benigno no es igual costo de no extraer tumor maligno.
. clase la de realidaden es muestra la
cuando ,acción tomar a asociado costo :
acciones posibles de conjunto
categorías de finito conjunto
21
21
wj)/ w(
a. , A
c. w , w wC
iji
a
c
ααλ
ααα …=
…=
FUNCIONES DE COSTO
[ ] ∑
∑
=Ω
=
=Ω=
==
∈Ω
∈
c
jjjiii
ji
j
c
ijj
jjj
d
wPwER
ww
wPwppp
wPwpwP
CR
1/
i
i
1
)/()/()/()/(
:lcondiciona riesgo el es acción la tomar de medio costo El
)/( costoun en incurrir avoy
, verdaderaclase si ,acción tomar contemplo , Observo
)()/()( )(
)()/()/(
aleatoria variable, :Modelo
xx
x
xxx
xx
x
x αλαλα
α
αλ
α
RIESGO CONDICIONAL
RIESGO TOTAL
Una regla de decisión es una función α(x) α: Rd →A que nos dice que acción tomar para cada x Ej: asigno a una de las clases (1...c) o a la clase de
rechazo. Riesgo total R: esperanza del riesgo condicional asociado
a una regla de decisión
xxxxxxx dpRRERdR
)()/)(())/)((( αα ∫==
RIESGO DE BAYES
Elegir Regla de Decisión que minimice Riesgo Total
cualquieratomar puede se reglas entre empate de casoEn ópitmo. Es
)()/*(
:BayesianaDecisión la a asociado riesgo El
)/(minarg)( : cada para
mínimo es )/)( cada para mínimo es
*
*
xxx
xxx
xxx
dpRR
αRαR(αR
d
i
R
iA
α
α
∫=
=↔
↔
∈
CLASIFICACIÓN CON 2 CLASES (SIN RECHAZO)
)/()/()/()/()/()/(
,,)/(
2221212
2121111
2121
xxxxxx
wPwPRwPwPR
AwwCwjiij
λλα
λλα
αααλλ
+=
+=
===
Regla Bayesiana:
caso otroen 2 , ) si 1 :Decido 21 w/ R() / R(w xx αα <
RAZÓN DE VEROSIMILITUD
. de nteindependie es que umbralun superaitud verosimilderazón la cuando Decido :ciónInterpreta
acertar. de almayorerrar de costo y generalEn
)()(
)/()/(
)/()()/()(
1
22121121
1
2
1121
2212
2
1
1112122212
2
1
x
xx
xx
w
wPwP
wpwp
wPwP
w
w
λλλλ
λλ
λλ
λλλλ
>>
⎥⎦
⎤⎢⎣
⎡
−
−
<
>↔
−<−↔
CLASIFICACIÓN DE MENOR TASA DE ERROR:
)/(1)/()/()/()/(
:mismo locuestan errores los todosque Asumo
errores 11...cji, aciertos 0
)/(
cero/uno Costo :simétrica costo deFunción
1
221
xxxx iij
jj
c
jjii
ji
wPwPwPwR
jij i
w
C),w (w
−===
⎩⎨⎧
≠
==
∈∀
∑∑≠=
αλα
αλ
CLASIFICACIÓN CON TASA DE ERROR MÍNIMA
La decisión bayesiana es aquella que minimiza el riesgo total y por ende el riesgo condicional para
R(αi/ x) para todo x ↔
P(wi /x) es la probabilidad condicional de que la acción αi es correcta. Para minimizar el riesgo tengo que elegir i que maximiza P(wi /x).
ij / x) P(w / x) P(ww jii ≠> todopara si Decido
REGLA DE DECISIÓN BAYESIANA
λ 12 = λ21 =1
λ11 = λ22 = 0
R1 R2 R1 R2R2
)()(
)/()/(
1
2
2
1
2
1
wPwP
wpwp
w
w
<>
xx
Ri: región donde se decide wi
No tiene porque ser conexa.
)/wp()/wp(2
1
xx
)P(w)P(w
1
2
EJERCICIO
La incidencia por cancer de próstata en el uruguay es de aproximadamente 50 nuevos casos por año cada 100.000 pobladores. Asumimos que, para una institución de salud, la relación entre el costo de no tratar al paciente enfermo y de tratar a una persona sana es de 10.000 a uno. En una campaña de diagnóstico masivo, se somete a un individuo a un test que indica, con incertidumbres gaussianas de varianza 1: cero si el paciente es sano, 8 si no lo es. Pepito se somete al examen y el resultado es 3.9.
Qué haría la institución?
REPRESENTACIÓN CLASIFICADOR BAYESIANO
)(ln)/(ln)(
)()/()(
error de mínima tasa)(
)()/()/()( :Ej
nalmente.computacio o analíticar simplifica para elegir es idea La ión.clasificac misma la
aconducen )(y creciente monótona :
)/()( :genérico Caso
1i
iii
iii
iiii
ic
i
ii
wPwpg
wPwpgp
wPwpwPg
fgfgRRf
Rg
+=
=
==
→∀
−=
=
xx
xxx
xxx
xx α
DISTRIBUCIÓN NORMAL
Clasificación basada en modelos estadísticos determinados por momentos de primer y segundo orden.
Problema práctico descripto por conjunto de entrenamiento x,w, no tenemos conocimiento de las propiedades estocásticas de la fuente de patrones.
Enfoque pragmático: Modelar p(x/w) usando distribución normal y evaluamos si hipótesis es sensible.
Encontrar clasificador óptimo para p(x/w) normal.
[ ]
sMahalanobi de cuadrática Distancia )()(
de covarianza de Matriz:
)())(())((
de medioValor )()(
)()(21
exp)(det)2(
1)(
12
12/12/
1
µxµx
xΣ
xxµxµxµxµxΣ
x xxxxµ
µxµxΣ
xx
−Σ−=
−−=−−=
==
⎥⎦
⎤⎢⎣
⎡ −Σ−−=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=
−
−
∫
∫
T
R
TT
R
Td
d
r
dpE
dpE
px
x
d
d
π
DENSIDAD NORMAL MULTIVARIADA
⎥⎦
⎤⎢⎣
⎡== 2
22
00σ
σσ IΣ ⎥
⎦
⎤⎢⎣
⎡= 2
22
211
00
σ
σΣ
⎥⎦
⎤⎢⎣
⎡=
2221
1211
σσ
σσΣ
ORIENTACIÓN Y TAMAÑO DEL ELIPSOIDE
.por semiejes los de
longitud lay lospor definidosestan elipsoide del ejes Los
propios valores:
. matríz lapor rotación y ) a scoordenada de(origen traslacióncompuestamación transfor, scoordenada de Cambio
de propios valoresde diagonal matriz : de propios vectoresde matriz :
i
i
1
2212
λ
λλ
b
zzDz
BµµxBz
BDBΣΣD
ΣB
i
d
i
iT
T
T
rr
)(
∑==→
−=
=
−
:Choleskyy usando Blanqueado :Ej
A
) (blanca esféricaón distribuci unaen arbitraria normalón distribuci una lleva que scoordenada deción Transforma
2/1
TTw
LLΣBDBΣBD
IΣ
==
=
=−
σ
TRANSFORMACIONES DE BLANQUEADO
FUNCIONES DISCRIMINANTES CUADRÁTICAS
)(ln)ln(det21
2ln2
)()(21
)(
:normalesson densidades las todasSi
)(ln)/(ln)( error de tasa
menorcon clasificar para ntesdiscrimina Funciones
1iiii
Tii
iii
wPdg
wPwPg
+Σ−−−−−=
+=
− πµxΣµxx
xx
) (igual ignorarlo podemos :
2)()(
:hacerpueden se pero linealesson no funciones Estas
)ln(21
)(ln2
)(
I) Caso
22
2
2i
iT
iTi
Ti
Ti
Ti
di
i
i
g
wPg
∀
+−=−−
−+−
−=
=
xx
µµxµxxµxµx
µxx
I Σ
σσ
σ
MATRICES DE COVARIANZA BLANCAS
apareado) (filtro prototipos vectoreslos a osuperpuest
)var()var( zacon varian clase la de nteindependienadocorrelacio no gaussiano blanco ruido adecuado Modelo
)(
2
1)(ln
1 )(
i
k
0
0
22
µ
µ
σ
σσ
∝
==
+=
→←→←
−+=
i
iTii
iTi
iTii
Tii
w
r
wg
wPg
x
xwx
ww
µµxµx
( ) ( ) ( )
0)(/
21
)()(
ln 1
0
:oReordenand
0)()/(
)()(/
0
0
22
2
00
=−=
→−←→←
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
+−−
−+−=
=−+−=
==
ijTijij
ijTij
jij
i
ji
jiTji
jiT
jiij
jiij
s
wPwP
wws
ggs
xxwx
xw
µµµµ
µµxµµ
xwwx
xxx
σσ
SUPERFICIES DE DECISIÓN
x0ij
( )
nes)observacio lasen más creemos breincertidum poca tienen datos (los
prioris los a sensibles menos Si
a acerca se Si21
Si
2
0
0
→
→−<<
→>
+=→=
ijji
jijji
jiijji
s
)P(w)P(w
)P(w)P(w
µµ
µx
µµx
σ
SUPERFICIES DE DECISIÓN
Duda
les.equiprobab priorisy identidad la aalesproporciony iguales covarianza de matricescon normal
ón distribucicon clases para óptimo es euclideoor clasificad El
minarg/ clase la a Asignar : Decido
),.....1 1
)((
0)()(
ln casi o lesequiprobabson prioris los Si - I
..1
**i
cii
i
j
i
iw
cic
wP
wPwP
µxx −=
=∀≈
≈=Σ
=
σ
CLASIFICADOR DE MÍNIMA DISTANCIA (EUCLIDEO)
).( a ortogonalser vano separación de hiperplano
el de propio vector sea )( que menosA
ji
ji
µµΣµµ
−
−
Duda
les.equiprobab prioris y iguales covarianza de matricescon normalón distribuci
con clases para óptimo es sMahalanobi deor clasificad El
)(minarg/ clase la a Asignar : Decido
)()()(g
),.....1 1
)()(
(
0)()(
ln casi o mesunifor son prioris los Si -
..1
**
2 i
xgiw
r
cicwP
wP
wPwP
ici
i
iT
i
j
i
j
ii
==
=−Σ−=
=∀≈
≈Σ=Σ
x
µxµxx
CLASIFICADOR DE MAHALANOBIS (MINIMA DISTANCIA)
NAIVE BAYES
Cuando no se conocen las relaciones de dependencia entre las características, se asume lo más simple, independencia. En la práctica puede funcionar bien a pesar de su simplicidad.
http://scikit-learn.org/stable/modules/naive_bayes.html
>>> from sklearn.naive_bayes import GaussianNB>>> gnb = GaussianNB()>>> y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)