teorÍa de decisiÓn bayesiana · 2018. 8. 29. · idea: estudiar probabilidades de tomar...

Post on 20-Aug-2021

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Estas transparencias contienen material adaptado del libro Duda

TEORÍA DE DECISIÓN BAYESIANA

DECISIÓN BAYESIANA

Enfoque estadístico fundamental en clasificación de patrones

Idea: Estudiar probabilidades de tomar decisiones incorrectas para cuantificar los costos y compromisos de esas decisiones y diseñar las estrategias de menor costo

METODOLOGÍA

1. Supuestas conocidas todas las probabilidades en juego estudiaremos como establecer las reglas de decisión.

2. Posteriormente analizaremos como proceder cuando no se conocen las probabilidades completamente.

Ejemplo: Clasificación de brotes y de hierbas parásitas

en cultivos, mediante la captura de imágenes multiespectrales (4 bandas), con el objetivo de realizar una fumigación específica.

EJEMPLO

Clasificación de brotes y de hierbas parásitas en cultivos, mediante la captura de imágenes multiespectrales (4 bandas), con el objetivo de realizar una fumigación específica.

Pre-procesamiento: discriminación suelo –vegetación Problema de clasificación de 2 clases: cada pixel de vegetación

pertenece a: w1 – brote

w2 – parásito

C= w1, w2 Ω Є C, V. A

PRIORS

P(w1), P(w2) probabilidades a priori, pixel brote o parásito. Reflejan conocimiento previo de cuan probable es que un pixel corresponda a brote o parásito antes de inspeccionar imagen.

Supondremos P(w1)+P(w2)=1, todo pixel detectado como vegetación es brote o parásito.

REGLA DE DECISIÓN

Supongamos que somos forzados a tomar una decisión y que todos los costos de decisiones incorrectas son iguales.

Si la única información a la que podemos acceder son las probabilidades a priori, la regla de decisión razonable es:

Decido: w1 si P(w1)> P(w2) , w2 en otro caso

Si P(w1)>> P(w2) al decidir w1 casi siempre estamos en lo cierto.

Si P(w1) ≈P(w2) nos equivocamos en promedio uno de cada dos.

P(error) = min [P(w1), P(w2)]

DENSIDAD DE PROBABILIDAD CONDICIONADA A LA CLASE

En general disponemos de más información para tomar decisiones.

Ejemplo: a cada pixel le asociamos un vector x=(x1,x2,x3,x4) donde xi : reflectancia en la banda espectral i-ésima.

Modelo: x vector aleatorio p(x/wi) densidad de probabilidad

)/()/( , iiR

d wRPdwpRR ∈=⊂∀ ∫ xxx

∑=

=

=⇒

==

2

1

)()/()( donde

)()()/(

)/(

)()/()()/(),( :Bayes usamos, ticascaracterís de vector de pixel del naturaleza lainferir Para

lescondiciona densidades lasy prioris las conocidas Supuesto

iii

iii

iiii

wPwPp

pwPwpwP

wPwppwPwp

xx

xx

x

xxxxx

BAYES

evidenciapriortudverosimili

posterior×

= :Bayes

BAYES

P(wi /x)- posterior: probabilidad de que la clase sea wi dado que se midió x .

P(wi ) – prior: conocimiento previo del problema

p(x/ wi)- verosimilitud : de la clase wi respecto a x, cuanto mayor más probable que la verdadera clase sea wi.

p(x)- evidencia: factor de escala, normaliza a 1.

REGLA DE DECISIÓN DE BAYES

( ) ( )

( )( )

( ) ( )[ ]xxx

xx

xx

x

xxxxx

xx

/,/min)/( :regla esta Bajo

mínima )/(mínima )(

decidimos si / decidimos si /

)/(

)()/(),()(

caso otroen ,// si Decido

21

12

21

2211

44

wPwPerrorP

errorPerrorP

wwPwwP

errorP

dperrorPderrorPerrorP

wwPwPw

RR

=

∀↔⎩⎨⎧

=

==

>

∫∫

w1

w2

x

P(w1/x)

P(w2/x)

P(w1 /x)+P(w2 /x)=1

En término de probabilidad a priori y verosimilitud la regla es:

Decido w1 si p(x/ w1) P(w1) > p(x/ w2) P(w2) , w2 en otro caso

Eliminando el factor de escala se obtiene una regla equivalente, el factor de normalización cambia la apariencia de las funciones discriminantes.

Si p(x/ w1)=p(x/ w2) entonces el medir las características x, no nos aporta información sobre la clase; la decisión se basa puramente en las priors.

Si P(w1) =P(w2) la decisión se basa en las verosimilitudes

La regla de decisión bayesiana combina ambos factores y toma la decisión que minimiza la probabilidad de error.

FORMALIZACIÓN Y GENERALIZACIÓN

c clases w1, w2 …. wc Espacios de características Rd : x = (x1, x2, …xd)T : vector de características

x Є Rd : espacio Euclideano dimensión d

Funciones de costos más generales que la probabilidad de error. Función de costo ó de pérdida: cuanto me cuesta cometer distinto tipos de errores o no decidir.

Ej: costo de extraer tejido si es benigno no es igual costo de no extraer tumor maligno.

. clase la de realidaden es muestra la

cuando ,acción tomar a asociado costo :

acciones posibles de conjunto

categorías de finito conjunto

21

21

wj)/ w(

a. , A

c. w , w wC

iji

a

c

ααλ

ααα …=

…=

FUNCIONES DE COSTO

[ ] ∑

=

=Ω=

==

∈Ω

c

jjjiii

ji

j

c

ijj

jjj

d

wPwER

ww

wPwppp

wPwpwP

CR

1/

i

i

1

)/()/()/()/(

:lcondiciona riesgo el es acción la tomar de medio costo El

)/( costoun en incurrir avoy

, verdaderaclase si ,acción tomar contemplo , Observo

)()/()( )(

)()/()/(

aleatoria variable, :Modelo

xx

x

xxx

xx

x

x αλαλα

α

αλ

α

RIESGO CONDICIONAL

RIESGO TOTAL

Una regla de decisión es una función α(x) α: Rd →A que nos dice que acción tomar para cada x Ej: asigno a una de las clases (1...c) o a la clase de

rechazo. Riesgo total R: esperanza del riesgo condicional asociado

a una regla de decisión

xxxxxxx dpRRERdR

)()/)(())/)((( αα ∫==

RIESGO DE BAYES

Elegir Regla de Decisión que minimice Riesgo Total

cualquieratomar puede se reglas entre empate de casoEn ópitmo. Es

)()/*(

:BayesianaDecisión la a asociado riesgo El

)/(minarg)( : cada para

mínimo es )/)( cada para mínimo es

*

*

xxx

xxx

xxx

dpRR

αRαR(αR

d

i

R

iA

α

α

∫=

=↔

CLASIFICACIÓN CON 2 CLASES (SIN RECHAZO)

)/()/()/()/()/()/(

,,)/(

2221212

2121111

2121

xxxxxx

wPwPRwPwPR

AwwCwjiij

λλα

λλα

αααλλ

+=

+=

===

Regla Bayesiana:

caso otroen 2 , ) si 1 :Decido 21 w/ R() / R(w xx αα <

RAZÓN DE VEROSIMILITUD

. de nteindependie es que umbralun superaitud verosimilderazón la cuando Decido :ciónInterpreta

acertar. de almayorerrar de costo y generalEn

)()(

)/()/(

)/()()/()(

1

22121121

1

2

1121

2212

2

1

1112122212

2

1

x

xx

xx

w

wPwP

wpwp

wPwP

w

w

λλλλ

λλ

λλ

λλλλ

>>

⎥⎦

⎤⎢⎣

<

>↔

−<−↔

CLASIFICACIÓN DE MENOR TASA DE ERROR:

)/(1)/()/()/()/(

:mismo locuestan errores los todosque Asumo

errores 11...cji, aciertos 0

)/(

cero/uno Costo :simétrica costo deFunción

1

221

xxxx iij

jj

c

jjii

ji

wPwPwPwR

jij i

w

C),w (w

−===

⎩⎨⎧

==

∈∀

∑∑≠=

αλα

αλ

CLASIFICACIÓN CON TASA DE ERROR MÍNIMA

La decisión bayesiana es aquella que minimiza el riesgo total y por ende el riesgo condicional para

R(αi/ x) para todo x ↔

P(wi /x) es la probabilidad condicional de que la acción αi es correcta. Para minimizar el riesgo tengo que elegir i que maximiza P(wi /x).

ij / x) P(w / x) P(ww jii ≠> todopara si Decido

REGLA DE DECISIÓN BAYESIANA

λ 12 = λ21 =1

λ11 = λ22 = 0

R1 R2 R1 R2R2

)()(

)/()/(

1

2

2

1

2

1

wPwP

wpwp

w

w

<>

xx

Ri: región donde se decide wi

No tiene porque ser conexa.

)/wp()/wp(2

1

xx

)P(w)P(w

1

2

EJERCICIO

La incidencia por cancer de próstata en el uruguay es de aproximadamente 50 nuevos casos por año cada 100.000 pobladores. Asumimos que, para una institución de salud, la relación entre el costo de no tratar al paciente enfermo y de tratar a una persona sana es de 10.000 a uno. En una campaña de diagnóstico masivo, se somete a un individuo a un test que indica, con incertidumbres gaussianas de varianza 1: cero si el paciente es sano, 8 si no lo es. Pepito se somete al examen y el resultado es 3.9.

Qué haría la institución?

REPRESENTACIÓN CLASIFICADOR BAYESIANO

)(ln)/(ln)(

)()/()(

error de mínima tasa)(

)()/()/()( :Ej

nalmente.computacio o analíticar simplifica para elegir es idea La ión.clasificac misma la

aconducen )(y creciente monótona :

)/()( :genérico Caso

1i

iii

iii

iiii

ic

i

ii

wPwpg

wPwpgp

wPwpwPg

fgfgRRf

Rg

+=

=

==

→∀

−=

=

xx

xxx

xxx

xx α

DISTRIBUCIÓN NORMAL

Clasificación basada en modelos estadísticos determinados por momentos de primer y segundo orden.

Problema práctico descripto por conjunto de entrenamiento x,w, no tenemos conocimiento de las propiedades estocásticas de la fuente de patrones.

Enfoque pragmático: Modelar p(x/w) usando distribución normal y evaluamos si hipótesis es sensible.

Encontrar clasificador óptimo para p(x/w) normal.

[ ]

sMahalanobi de cuadrática Distancia )()(

de covarianza de Matriz:

)())(())((

de medioValor )()(

)()(21

exp)(det)2(

1)(

12

12/12/

1

µxµx

xxµxµxµxµxΣ

x xxxxµ

µxµxΣ

xx

−Σ−=

−−=−−=

==

⎥⎦

⎤⎢⎣

⎡ −Σ−−=

⎥⎥⎥

⎢⎢⎢

=

T

R

TT

R

Td

d

r

dpE

dpE

px

x

d

d

π

DENSIDAD NORMAL MULTIVARIADA

⎥⎦

⎤⎢⎣

⎡== 2

22

00σ

σσ IΣ ⎥

⎤⎢⎣

⎡= 2

22

211

00

σ

σΣ

⎥⎦

⎤⎢⎣

⎡=

2221

1211

σσ

σσΣ

ORIENTACIÓN Y TAMAÑO DEL ELIPSOIDE

.por semiejes los de

longitud lay lospor definidosestan elipsoide del ejes Los

propios valores:

. matríz lapor rotación y ) a scoordenada de(origen traslacióncompuestamación transfor, scoordenada de Cambio

de propios valoresde diagonal matriz : de propios vectoresde matriz :

i

i

1

2212

λ

λλ

b

zzDz

BµµxBz

BDBΣΣD

ΣB

i

d

i

iT

T

T

rr

)(

∑==→

−=

=

:Choleskyy usando Blanqueado :Ej

A

) (blanca esféricaón distribuci unaen arbitraria normalón distribuci una lleva que scoordenada deción Transforma

2/1

TTw

LLΣBDBΣBD

==

=

=−

σ

TRANSFORMACIONES DE BLANQUEADO

FUNCIONES DISCRIMINANTES CUADRÁTICAS

)(ln)ln(det21

2ln2

)()(21

)(

:normalesson densidades las todasSi

)(ln)/(ln)( error de tasa

menorcon clasificar para ntesdiscrimina Funciones

1iiii

Tii

iii

wPdg

wPwPg

+Σ−−−−−=

+=

− πµxΣµxx

xx

) (igual ignorarlo podemos :

2)()(

:hacerpueden se pero linealesson no funciones Estas

)ln(21

)(ln2

)(

I) Caso

22

2

2i

iT

iTi

Ti

Ti

Ti

di

i

i

g

wPg

+−=−−

−+−

−=

=

xx

µµxµxxµxµx

µxx

I Σ

σσ

σ

MATRICES DE COVARIANZA BLANCAS

apareado) (filtro prototipos vectoreslos a osuperpuest

)var()var( zacon varian clase la de nteindependienadocorrelacio no gaussiano blanco ruido adecuado Modelo

)(

2

1)(ln

1 )(

i

k

0

0

22

µ

µ

σ

σσ

==

+=

→←→←

−+=

i

iTii

iTi

iTii

Tii

w

r

wg

wPg

x

xwx

ww

µµxµx

( ) ( ) ( )

0)(/

21

)()(

ln 1

0

:oReordenand

0)()/(

)()(/

0

0

22

2

00

=−=

→−←→←

⎥⎥⎥

⎢⎢⎢

+−−

−+−=

=−+−=

==

ijTijij

ijTij

jij

i

ji

jiTji

jiT

jiij

jiij

s

wPwP

wws

ggs

xxwx

xw

µµµµ

µµxµµ

xwwx

xxx

σσ

SUPERFICIES DE DECISIÓN

x0ij

( )

nes)observacio lasen más creemos breincertidum poca tienen datos (los

prioris los a sensibles menos Si

a acerca se Si21

Si

2

0

0

→−<<

→>

+=→=

ijji

jijji

jiijji

s

)P(w)P(w

)P(w)P(w

µµ

µx

µµx

σ

SUPERFICIES DE DECISIÓN

Duda

les.equiprobab priorisy identidad la aalesproporciony iguales covarianza de matricescon normal

ón distribucicon clases para óptimo es euclideoor clasificad El

minarg/ clase la a Asignar : Decido

),.....1 1

)((

0)()(

ln casi o lesequiprobabson prioris los Si - I

..1

**i

cii

i

j

i

iw

cic

wP

wPwP

µxx −=

=∀≈

≈=Σ

=

σ

CLASIFICADOR DE MÍNIMA DISTANCIA (EUCLIDEO)

).( a ortogonalser vano separación de hiperplano

el de propio vector sea )( que menosA

ji

ji

µµΣµµ

Duda

les.equiprobab prioris y iguales covarianza de matricescon normalón distribuci

con clases para óptimo es sMahalanobi deor clasificad El

)(minarg/ clase la a Asignar : Decido

)()()(g

),.....1 1

)()(

(

0)()(

ln casi o mesunifor son prioris los Si -

..1

**

2 i

xgiw

r

cicwP

wP

wPwP

ici

i

iT

i

j

i

j

ii

==

=−Σ−=

=∀≈

≈Σ=Σ

x

µxµxx

CLASIFICADOR DE MAHALANOBIS (MINIMA DISTANCIA)

NAIVE BAYES

Cuando no se conocen las relaciones de dependencia entre las características, se asume lo más simple, independencia. En la práctica puede funcionar bien a pesar de su simplicidad.

http://scikit-learn.org/stable/modules/naive_bayes.html

>>> from sklearn.naive_bayes import GaussianNB>>> gnb = GaussianNB()>>> y_pred = gnb.fit(iris.data, iris.target).predict(iris.data)

top related