aula 1: k-nearest neighbors -...

59
Aula 1: k -Nearest Neighbors Paulo C. Marques F. Aula ministrada no Insper 29 de Janeiro de 2016 Insper Aula 1: k -Nearest Neighbors 29 de Janeiro de 2016 1 / 14

Upload: others

Post on 17-Aug-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aula 1: k -Nearest Neighbors

Paulo C. Marques F.

Aula ministrada no Insper

29 de Janeiro de 2016

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 1 / 14

Page 2: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O problema geral de classificacao

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14

Page 3: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O problema geral de classificacao

Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14

Page 4: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O problema geral de classificacao

Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.

Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14

Page 5: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O problema geral de classificacao

Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.

Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.

Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma

variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14

Page 6: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O problema geral de classificacao

Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.

Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.

Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma

variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .

Sem perda de generalidade, vamos supor que temos apenas duasclasses: C = {0, 1} (salmao e robalo).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14

Page 7: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O problema geral de classificacao

Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.

Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.

Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma

variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .

Sem perda de generalidade, vamos supor que temos apenas duasclasses: C = {0, 1} (salmao e robalo).

O caso em que existe um classificador ϕ que nunca erra e de poucointeresse pratico/cientıfico. Existem salmoes e robalos que temexatamente o mesmo peso e comprimento.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14

Page 8: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aprendizagem supervisionada

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14

Page 9: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aprendizagem supervisionada

Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R

d × C com funcao de distribuicao conjuntaFX ,Y .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14

Page 10: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aprendizagem supervisionada

Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R

d × C com funcao de distribuicao conjuntaFX ,Y .

Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14

Page 11: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aprendizagem supervisionada

Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R

d × C com funcao de distribuicao conjuntaFX ,Y .

Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).

A funcao de distribuicao conjunta fica determinada formalmentepor

FX ,Y (x , y) =

(−∞,x ]

FY |X (y | t) dFX (t),

na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14

Page 12: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aprendizagem supervisionada

Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R

d × C com funcao de distribuicao conjuntaFX ,Y .

Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).

A funcao de distribuicao conjunta fica determinada formalmentepor

FX ,Y (x , y) =

(−∞,x ]

FY |X (y | t) dFX (t),

na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].

Estamos fazendo inferencia: nao conhecemos FX ,Y .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14

Page 13: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Aprendizagem supervisionada

Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R

d × C com funcao de distribuicao conjuntaFX ,Y .

Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).

A funcao de distribuicao conjunta fica determinada formalmentepor

FX ,Y (x , y) =

(−∞,x ]

FY |X (y | t) dFX (t),

na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].

Estamos fazendo inferencia: nao conhecemos FX ,Y .

Nosso contexto e nao parametrico: a menos do suporte, naoimpomos quaisquer restricoes a FX ,Y .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14

Page 14: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 15: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 16: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.

Defina o classificador de Bayes por

ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 17: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.

Defina o classificador de Bayes por

ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.

O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 18: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.

Defina o classificador de Bayes por

ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.

O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.

Apesar do nome, nao estamos fazendo inferencia bayesiana.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 19: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.

Defina o classificador de Bayes por

ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.

O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.

Apesar do nome, nao estamos fazendo inferencia bayesiana.

Quando temos dados simulados a partir de uma distribuicaoconhecida, podemos construir o classificador de Bayes ϕ∗.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 20: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Erro de classificacao

Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.

Defina o classificador de Bayes por

ϕ∗(x ) =

{

1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;

0 caso contrario.

O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.

Apesar do nome, nao estamos fazendo inferencia bayesiana.

Quando temos dados simulados a partir de uma distribuicaoconhecida, podemos construir o classificador de Bayes ϕ∗.

O classificador de Bayes e otimo: para qualquer classificador ϕ,temos que L[ϕ∗] ≤ L[ϕ].

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14

Page 21: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O classificador de Bayes e otimo (1)

Demonstracao

Para qualquer classificador ϕ e todo x ∈ Rd , note que Pr{ϕ(X ) = Y |

X = x} = Pr{ϕ(x ) = Y | X = x} e igual a Pr{Y = 0 | X = x} =1 − η(x ), quando ϕ(x ) = 0, e e igual a Pr{Y = 1 | X = x} = η(x ),quando ϕ(x ) = 1. Assim,

Pr{ϕ(X ) 6= Y | X = x} = 1− Pr{ϕ(X ) = Y | X = x}

= 1−(I{ϕ(x)=0}(1− η(x )) + I{ϕ(x)=1}η(x )

)

= η(x )− (2η(x ) − 1)I{ϕ(x)=1},

uma vez que I{ϕ(x)=0} = 1− I{ϕ(x)=1}. Portanto,

Pr{ϕ(X ) 6= Y | X = x} − Pr{ϕ∗(X ) 6= Y | X = x}

= (2η(x ) − 1)(I{ϕ∗(x)=1} − I{ϕ(x)=1}

).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 5 / 14

Page 22: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

O classificador de Bayes e otimo (2)

Demonstracao (continuacao)

Temos dois casos: se ϕ∗(x ) = 0, entao, pela definicao do classificador deBayes, temos que 2η(x ) − 1 ≤ 0 e I{ϕ∗(x)=1} − I{ϕ(x)=1} ≤ 0. Quandoϕ∗(x ) = 1, temos que 2η(x ) − 1 ≥ 0 e I{ϕ∗(x)=1} − I{ϕ(x)=1} ≥ 0. Assim,em ambos os casos, temos que

Pr{ϕ(X ) 6= Y | X = x} − Pr{ϕ∗(X ) 6= Y | X = x} ≥ 0. (∗)

Pela definicao de probabilidade condicional, para todo classificador ϕ,temos que

Pr{ϕ(X ) 6= Y } =

(−∞,x ]

Pr{ϕ(X ) 6= Y | X = x} dFX (x ).

Obtemos o resultado desejado integrando (∗) com respeito a dFX (x ).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 6 / 14

Page 23: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (1)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14

Page 24: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (1)

Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14

Page 25: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (1)

Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?

Dada uma amostra de pares

(X1,Y1), . . . , (Xn ,Yn)

independentes e identicamente distribuıdos com funcao dedistribuicao FX ,Y .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14

Page 26: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (1)

Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?

Dada uma amostra de pares

(X1,Y1), . . . , (Xn ,Yn)

independentes e identicamente distribuıdos com funcao dedistribuicao FX ,Y .

Defina o erro empırico de classificacao de um classificador ϕ ∈ C

por

Ln [ϕ] =1

n

n∑

i=1

I{ϕ(Xi )6=Yi}.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14

Page 27: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (2)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14

Page 28: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (2)

Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:

ϕ = argminϕ∈C

Ln [ϕ].

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14

Page 29: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (2)

Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:

ϕ = argminϕ∈C

Ln [ϕ].

Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14

Page 30: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (2)

Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:

ϕ = argminϕ∈C

Ln [ϕ].

Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .

Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14

Page 31: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (2)

Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:

ϕ = argminϕ∈C

Ln [ϕ].

Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .

Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).

Vale lembrar: ϕ e simplesmente uma funcao de Rd em C . O

classificador ϕ nao e um objeto aleatorio.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14

Page 32: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (2)

Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:

ϕ = argminϕ∈C

Ln [ϕ].

Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .

Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).

Vale lembrar: ϕ e simplesmente uma funcao de Rd em C . O

classificador ϕ nao e um objeto aleatorio.

Menos importante: o estimador e nao viciado: E[Ln [ϕ]] = L[ϕ].

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14

Page 33: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (3)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14

Page 34: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (3)

Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que

Pr{∣∣Un − E[Un ]

∣∣ ≥ ǫ

}≤ 2 exp

(

−2n2ǫ2

∑n

i=1(bi − ai )2

)

.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14

Page 35: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (3)

Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que

Pr{∣∣Un − E[Un ]

∣∣ ≥ ǫ

}≤ 2 exp

(

−2n2ǫ2

∑n

i=1(bi − ai )2

)

.

Usando a desigualdade de Hoeffding, temos que

Pr{∣∣∣Ln [ϕ]− L[ϕ]

∣∣∣ ≥ ǫ

}

≤ 2e−2nǫ2 .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14

Page 36: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Vapnik e Chervonenkis (3)

Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que

Pr{∣∣Un − E[Un ]

∣∣ ≥ ǫ

}≤ 2 exp

(

−2n2ǫ2

∑n

i=1(bi − ai )2

)

.

Usando a desigualdade de Hoeffding, temos que

Pr{∣∣∣Ln [ϕ]− L[ϕ]

∣∣∣ ≥ ǫ

}

≤ 2e−2nǫ2 .

Portanto, para algum α = (0, 1], fazendo 2e−2nǫ2 = α, temos que

Ln [ϕ]±

1

2nlog

(2

α

)

.

e um intervalo de confianca para L[ϕ] com nıvel de confianca naomenor do que (1− α)%.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14

Page 37: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 38: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 39: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).

Diversas distancias podem ser utilizadas.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 40: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).

Diversas distancias podem ser utilizadas.

Euclidiana: d(x , z ) =√

(x − z )⊤(x − z ).

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 41: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).

Diversas distancias podem ser utilizadas.

Euclidiana: d(x , z ) =√

(x − z )⊤(x − z ).

Mahalanobis: d(x , z ) =√

(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 42: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).

Diversas distancias podem ser utilizadas.

Euclidiana: d(x , z ) =√

(x − z )⊤(x − z ).

Mahalanobis: d(x , z ) =√

(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.

E muitas outras. Especialmente quando algumas das preditorassao categoricas.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 43: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (1)

Para uma certa distancia definida em Rd , dados n pares

(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN

determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).

Diversas distancias podem ser utilizadas.

Euclidiana: d(x , z ) =√

(x − z )⊤(x − z ).

Mahalanobis: d(x , z ) =√

(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.

E muitas outras. Especialmente quando algumas das preditorassao categoricas.

Quando temos muitas preditoras, o classificador k -NN sofre a“maldicao da dimensionalidade”, pois, grosso modo, em um espacoeuclidiano de dimensao muito alta todos os xi ’s estariamaproximadamente a mesma distancia da origem.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14

Page 44: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (2)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14

Page 45: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (2)

No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14

Page 46: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (2)

No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14

Page 47: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

k -Nearest Neighbors (2)

No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.

Cover e Hart provaram que, assintoticamente, o erro declassificacao da regra 1-NN nunca e maior do que o dobro do errode Bayes, de maneira universal, ou seja, para qualquer FX ,Y .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14

Page 48: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (1)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14

Page 49: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (1)

A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14

Page 50: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (1)

A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.

Se, erroneamente, tentassemos minimizar o “erro empırico” doclassificador contruıdo com toda a amostra, escolherıamos semprek = 1, pois a regra 1-NN, aparentemente, teria “erro empırico”igual a zero. Conforme discutido em slides anteriores, estainterpretacao e incorreta.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14

Page 51: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (1)

A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.

Se, erroneamente, tentassemos minimizar o “erro empırico” doclassificador contruıdo com toda a amostra, escolherıamos semprek = 1, pois a regra 1-NN, aparentemente, teria “erro empırico”igual a zero. Conforme discutido em slides anteriores, estainterpretacao e incorreta.

O procedimento classico em Statistical Learning e dividir aamostra em m dados de treinamento e n −m dados de teste:

(X1,Y1), . . . , (Xm ,Ym)︸ ︷︷ ︸

dados de treinamento

, (Xm+1,Ym+1), . . . , (Xn ,Yn)︸ ︷︷ ︸

dados de teste

.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14

Page 52: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 53: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 54: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .

Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 55: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .

Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.

Nao ha criterios universais para n finito.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 56: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .

Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.

Nao ha criterios universais para n finito.

O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 57: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .

Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.

Nao ha criterios universais para n finito.

O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.

Matematicamente, o classificador obtido depende de como aamostra foi dividida.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 58: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Como escolher k? (2)

Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .

Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.

Nao ha criterios universais para n finito.

O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.

Matematicamente, o classificador obtido depende de como aamostra foi dividida.

Uma variante da k -NN e utilizada para regressao nao parametrica:ao inves do voto da maioria, toma-se a media das respostas dos kvizinhos mais proximos.

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14

Page 59: Aula 1: k-Nearest Neighbors - Hediberthedibert.org/wp-content/uploads/2016/02/lecture1-slides.pdf · Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14. Aprendizagem

Obrigado pela presenca!

Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 14 / 14