aula 1: k-nearest neighbors -...

Aula 1: k -Nearest Neighbors

Paulo C. Marques F.

Aula ministrada no Insper

29 de Janeiro de 2016

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 1 / 14

O problema geral de classificacao



Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.




Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.





Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma

variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .







Sem perda de generalidade, vamos supor que temos apenas duasclasses: C = {0, 1} (salmao e robalo).







Sem perda de generalidade, vamos supor que temos apenas duasclasses: C = {0, 1} (salmao e robalo).

O caso em que existe um classificador ϕ que nunca erra e de poucointeresse pratico/cientıfico. Existem salmoes e robalos que temexatamente o mesmo peso e comprimento.


Aprendizagem supervisionada



Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R

d × C com funcao de distribuicao conjuntaFX ,Y .





Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).






A funcao de distribuicao conjunta fica determinada formalmentepor

FX ,Y (x , y) =

∫

(−∞,x ]

FY |X (y | t) dFX (t),

na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].







FX ,Y (x , y) =

∫

(−∞,x ]



Estamos fazendo inferencia: nao conhecemos FX ,Y .







FX ,Y (x , y) =

∫

(−∞,x ]



Estamos fazendo inferencia: nao conhecemos FX ,Y .

Nosso contexto e nao parametrico: a menos do suporte, naoimpomos quaisquer restricoes a FX ,Y .


Erro de classificacao



Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.




Defina o classificador de Bayes por

ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.





ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.

O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.





ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.


Apesar do nome, nao estamos fazendo inferencia bayesiana.





ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.



Quando temos dados simulados a partir de uma distribuicaoconhecida, podemos construir o classificador de Bayes ϕ∗.





ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.



Quando temos dados simulados a partir de uma distribuicaoconhecida, podemos construir o classificador de Bayes ϕ∗.

O classificador de Bayes e otimo: para qualquer classificador ϕ,temos que L[ϕ∗] ≤ L[ϕ].


O classificador de Bayes e otimo (1)

Demonstracao

Para qualquer classificador ϕ e todo x ∈ Rd , note que Pr{ϕ(X ) = Y |

X = x} = Pr{ϕ(x ) = Y | X = x} e igual a Pr{Y = 0 | X = x} =1 − η(x ), quando ϕ(x ) = 0, e e igual a Pr{Y = 1 | X = x} = η(x ),quando ϕ(x ) = 1. Assim,

Pr{ϕ(X ) 6= Y | X = x} = 1− Pr{ϕ(X ) = Y | X = x}

= 1−(I{ϕ(x)=0}(1− η(x )) + I{ϕ(x)=1}η(x )

)

= η(x )− (2η(x ) − 1)I{ϕ(x)=1},

uma vez que I{ϕ(x)=0} = 1− I{ϕ(x)=1}. Portanto,

Pr{ϕ(X ) 6= Y | X = x} − Pr{ϕ∗(X ) 6= Y | X = x}

= (2η(x ) − 1)(I{ϕ∗(x)=1} − I{ϕ(x)=1}

).


O classificador de Bayes e otimo (2)

Demonstracao (continuacao)

Temos dois casos: se ϕ∗(x ) = 0, entao, pela definicao do classificador deBayes, temos que 2η(x ) − 1 ≤ 0 e I{ϕ∗(x)=1} − I{ϕ(x)=1} ≤ 0. Quandoϕ∗(x ) = 1, temos que 2η(x ) − 1 ≥ 0 e I{ϕ∗(x)=1} − I{ϕ(x)=1} ≥ 0. Assim,em ambos os casos, temos que

Pr{ϕ(X ) 6= Y | X = x} − Pr{ϕ∗(X ) 6= Y | X = x} ≥ 0. (∗)

Pela definicao de probabilidade condicional, para todo classificador ϕ,temos que

Pr{ϕ(X ) 6= Y } =

∫

(−∞,x ]

Pr{ϕ(X ) 6= Y | X = x} dFX (x ).

Obtemos o resultado desejado integrando (∗) com respeito a dFX (x ).


Vapnik e Chervonenkis (1)



Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?




Dada uma amostra de pares

(X1,Y1), . . . , (Xn ,Yn)

independentes e identicamente distribuıdos com funcao dedistribuicao FX ,Y .




Dada uma amostra de pares

(X1,Y1), . . . , (Xn ,Yn)

independentes e identicamente distribuıdos com funcao dedistribuicao FX ,Y .

Defina o erro empırico de classificacao de um classificador ϕ ∈ C

por

Ln [ϕ] =1

n

n∑

i=1

I{ϕ(Xi )6=Yi}.



Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:

ϕ = argminϕ∈C

Ln [ϕ].




ϕ = argminϕ∈C

Ln [ϕ].

Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .




ϕ = argminϕ∈C

Ln [ϕ].


Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).




ϕ = argminϕ∈C

Ln [ϕ].



Vale lembrar: ϕ e simplesmente uma funcao de Rd em C . O

classificador ϕ nao e um objeto aleatorio.




ϕ = argminϕ∈C

Ln [ϕ].



Vale lembrar: ϕ e simplesmente uma funcao de Rd em C . O

classificador ϕ nao e um objeto aleatorio.

Menos importante: o estimador e nao viciado: E[Ln [ϕ]] = L[ϕ].



Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que

Pr{∣∣Un − E[Un ]

∣∣ ≥ ǫ

}≤ 2 exp

(

−2n2ǫ2

∑n

i=1(bi − ai )2

)

.





∣∣ ≥ ǫ

}≤ 2 exp

(

−2n2ǫ2

∑n

i=1(bi − ai )2

)

.

Usando a desigualdade de Hoeffding, temos que

Pr{∣∣∣Ln [ϕ]− L[ϕ]

∣∣∣ ≥ ǫ

}

≤ 2e−2nǫ2 .





∣∣ ≥ ǫ

}≤ 2 exp

(

−2n2ǫ2

∑n

i=1(bi − ai )2

)

.

Usando a desigualdade de Hoeffding, temos que

Pr{∣∣∣Ln [ϕ]− L[ϕ]

∣∣∣ ≥ ǫ

}

≤ 2e−2nǫ2 .

Portanto, para algum α = (0, 1], fazendo 2e−2nǫ2 = α, temos que

Ln [ϕ]±

√

1

2nlog

(2

α

)

.

e um intervalo de confianca para L[ϕ] com nıvel de confianca naomenor do que (1− α)%.


k -Nearest Neighbors (1)



Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).






Diversas distancias podem ser utilizadas.







Euclidiana: d(x , z ) =√

(x − z )⊤(x − z ).








(x − z )⊤(x − z ).

Mahalanobis: d(x , z ) =√

(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.








(x − z )⊤(x − z ).



E muitas outras. Especialmente quando algumas das preditorassao categoricas.








(x − z )⊤(x − z ).



E muitas outras. Especialmente quando algumas das preditorassao categoricas.

Quando temos muitas preditoras, o classificador k -NN sofre a“maldicao da dimensionalidade”, pois, grosso modo, em um espacoeuclidiano de dimensao muito alta todos os xi ’s estariamaproximadamente a mesma distancia da origem.



No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.



No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.

Cover e Hart provaram que, assintoticamente, o erro declassificacao da regra 1-NN nunca e maior do que o dobro do errode Bayes, de maneira universal, ou seja, para qualquer FX ,Y .


Como escolher k? (1)



A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.




Se, erroneamente, tentassemos minimizar o “erro empırico” doclassificador contruıdo com toda a amostra, escolherıamos semprek = 1, pois a regra 1-NN, aparentemente, teria “erro empırico”igual a zero. Conforme discutido em slides anteriores, estainterpretacao e incorreta.




Se, erroneamente, tentassemos minimizar o “erro empırico” doclassificador contruıdo com toda a amostra, escolherıamos semprek = 1, pois a regra 1-NN, aparentemente, teria “erro empırico”igual a zero. Conforme discutido em slides anteriores, estainterpretacao e incorreta.

O procedimento classico em Statistical Learning e dividir aamostra em m dados de treinamento e n −m dados de teste:

(X1,Y1), . . . , (Xm ,Ym)︸︷︷︸

dados de treinamento

, (Xm+1,Ym+1), . . . , (Xn ,Yn)︸︷︷︸

dados de teste

.



Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .




Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.





Nao ha criterios universais para n finito.






O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.







Matematicamente, o classificador obtido depende de como aamostra foi dividida.







Matematicamente, o classificador obtido depende de como aamostra foi dividida.

Uma variante da k -NN e utilizada para regressao nao parametrica:ao inves do voto da maioria, toma-se a media das respostas dos kvizinhos mais proximos.


Obrigado pela presenca!


aula 1: k-nearest neighbors -...

Documents