aula 1: k-nearest neighbors -...
TRANSCRIPT
Aula 1: k -Nearest Neighbors
Paulo C. Marques F.
Aula ministrada no Insper
29 de Janeiro de 2016
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 1 / 14
O problema geral de classificacao
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14
O problema geral de classificacao
Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14
O problema geral de classificacao
Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.
Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14
O problema geral de classificacao
Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.
Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.
Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma
variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14
O problema geral de classificacao
Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.
Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.
Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma
variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .
Sem perda de generalidade, vamos supor que temos apenas duasclasses: C = {0, 1} (salmao e robalo).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14
O problema geral de classificacao
Imagine uma fabrica na qual temos uma esteira pela qual descempeixes de duas especies: salmoes e robalos.
Nosso objetivo e construir uma maquina que, tomando o peso e omaior comprimento dos peixes, classifique cada um deles comosalmao ou robalo.
Formalmente, temos um vetor de variaveis preditoras x ∈ Rd , uma
variavel resposta y ∈ C = {0, . . . , c}, e queremos construir umclassificador ϕ : Rd → C .
Sem perda de generalidade, vamos supor que temos apenas duasclasses: C = {0, 1} (salmao e robalo).
O caso em que existe um classificador ϕ que nunca erra e de poucointeresse pratico/cientıfico. Existem salmoes e robalos que temexatamente o mesmo peso e comprimento.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 2 / 14
Aprendizagem supervisionada
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14
Aprendizagem supervisionada
Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R
d × C com funcao de distribuicao conjuntaFX ,Y .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14
Aprendizagem supervisionada
Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R
d × C com funcao de distribuicao conjuntaFX ,Y .
Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14
Aprendizagem supervisionada
Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R
d × C com funcao de distribuicao conjuntaFX ,Y .
Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).
A funcao de distribuicao conjunta fica determinada formalmentepor
FX ,Y (x , y) =
∫
(−∞,x ]
FY |X (y | t) dFX (t),
na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14
Aprendizagem supervisionada
Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R
d × C com funcao de distribuicao conjuntaFX ,Y .
Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).
A funcao de distribuicao conjunta fica determinada formalmentepor
FX ,Y (x , y) =
∫
(−∞,x ]
FY |X (y | t) dFX (t),
na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].
Estamos fazendo inferencia: nao conhecemos FX ,Y .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14
Aprendizagem supervisionada
Introduzimos incertezas em nossa descricao atraves de um vetoraleatorio (X ,Y ) ∈ R
d × C com funcao de distribuicao conjuntaFX ,Y .
Metafora: um oraculo gera um x a partir da funcao de distribuicaomarginal FX e depois disso gera um y a partir da funcao dedistribuicao condicional FX |Y ( · | x ) (conhecida como distribuicaodo supervisor).
A funcao de distribuicao conjunta fica determinada formalmentepor
FX ,Y (x , y) =
∫
(−∞,x ]
FY |X (y | t) dFX (t),
na qual usamos a notacao (−∞, x ] := (−∞, x1]× · · · × (−∞, xd ].
Estamos fazendo inferencia: nao conhecemos FX ,Y .
Nosso contexto e nao parametrico: a menos do suporte, naoimpomos quaisquer restricoes a FX ,Y .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 3 / 14
Erro de classificacao
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
Erro de classificacao
Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
Erro de classificacao
Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.
Defina o classificador de Bayes por
ϕ∗(x ) =
{
1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;
0 caso contrario.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
Erro de classificacao
Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.
Defina o classificador de Bayes por
ϕ∗(x ) =
{
1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;
0 caso contrario.
O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
Erro de classificacao
Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.
Defina o classificador de Bayes por
ϕ∗(x ) =
{
1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;
0 caso contrario.
O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.
Apesar do nome, nao estamos fazendo inferencia bayesiana.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
Erro de classificacao
Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.
Defina o classificador de Bayes por
ϕ∗(x ) =
{
1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;
0 caso contrario.
O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.
Apesar do nome, nao estamos fazendo inferencia bayesiana.
Quando temos dados simulados a partir de uma distribuicaoconhecida, podemos construir o classificador de Bayes ϕ∗.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
Erro de classificacao
Definimos o erro de classificacao de um classificador ϕ pelaprobabilidade do classificador errar: L[ϕ] = Pr{ϕ(X ) 6= Y }.
Defina o classificador de Bayes por
ϕ∗(x ) =
{
1 se Pr{Y = 1 | X = x} =: η(x ) > 1/2;
0 caso contrario.
O classificador de Bayes tem um papel formal: em um problemareal nao conhecemos FX ,Y . Portanto, tambem nao conhecemosη(x ) e nao conseguimos construir ϕ∗.
Apesar do nome, nao estamos fazendo inferencia bayesiana.
Quando temos dados simulados a partir de uma distribuicaoconhecida, podemos construir o classificador de Bayes ϕ∗.
O classificador de Bayes e otimo: para qualquer classificador ϕ,temos que L[ϕ∗] ≤ L[ϕ].
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 4 / 14
O classificador de Bayes e otimo (1)
Demonstracao
Para qualquer classificador ϕ e todo x ∈ Rd , note que Pr{ϕ(X ) = Y |
X = x} = Pr{ϕ(x ) = Y | X = x} e igual a Pr{Y = 0 | X = x} =1 − η(x ), quando ϕ(x ) = 0, e e igual a Pr{Y = 1 | X = x} = η(x ),quando ϕ(x ) = 1. Assim,
Pr{ϕ(X ) 6= Y | X = x} = 1− Pr{ϕ(X ) = Y | X = x}
= 1−(I{ϕ(x)=0}(1− η(x )) + I{ϕ(x)=1}η(x )
)
= η(x )− (2η(x ) − 1)I{ϕ(x)=1},
uma vez que I{ϕ(x)=0} = 1− I{ϕ(x)=1}. Portanto,
Pr{ϕ(X ) 6= Y | X = x} − Pr{ϕ∗(X ) 6= Y | X = x}
= (2η(x ) − 1)(I{ϕ∗(x)=1} − I{ϕ(x)=1}
).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 5 / 14
O classificador de Bayes e otimo (2)
Demonstracao (continuacao)
Temos dois casos: se ϕ∗(x ) = 0, entao, pela definicao do classificador deBayes, temos que 2η(x ) − 1 ≤ 0 e I{ϕ∗(x)=1} − I{ϕ(x)=1} ≤ 0. Quandoϕ∗(x ) = 1, temos que 2η(x ) − 1 ≥ 0 e I{ϕ∗(x)=1} − I{ϕ(x)=1} ≥ 0. Assim,em ambos os casos, temos que
Pr{ϕ(X ) 6= Y | X = x} − Pr{ϕ∗(X ) 6= Y | X = x} ≥ 0. (∗)
Pela definicao de probabilidade condicional, para todo classificador ϕ,temos que
Pr{ϕ(X ) 6= Y } =
∫
(−∞,x ]
Pr{ϕ(X ) 6= Y | X = x} dFX (x ).
Obtemos o resultado desejado integrando (∗) com respeito a dFX (x ).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 6 / 14
Vapnik e Chervonenkis (1)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14
Vapnik e Chervonenkis (1)
Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14
Vapnik e Chervonenkis (1)
Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?
Dada uma amostra de pares
(X1,Y1), . . . , (Xn ,Yn)
independentes e identicamente distribuıdos com funcao dedistribuicao FX ,Y .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14
Vapnik e Chervonenkis (1)
Ja que em geral o classificador de Bayes e inacessıvel, comoescolher um “bom” classificador dentro de uma classe declassificadores C = {ϕ1, . . . , ϕm}?
Dada uma amostra de pares
(X1,Y1), . . . , (Xn ,Yn)
independentes e identicamente distribuıdos com funcao dedistribuicao FX ,Y .
Defina o erro empırico de classificacao de um classificador ϕ ∈ C
por
Ln [ϕ] =1
n
n∑
i=1
I{ϕ(Xi )6=Yi}.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 7 / 14
Vapnik e Chervonenkis (2)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14
Vapnik e Chervonenkis (2)
Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:
ϕ = argminϕ∈C
Ln [ϕ].
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14
Vapnik e Chervonenkis (2)
Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:
ϕ = argminϕ∈C
Ln [ϕ].
Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14
Vapnik e Chervonenkis (2)
Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:
ϕ = argminϕ∈C
Ln [ϕ].
Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .
Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14
Vapnik e Chervonenkis (2)
Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:
ϕ = argminϕ∈C
Ln [ϕ].
Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .
Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).
Vale lembrar: ϕ e simplesmente uma funcao de Rd em C . O
classificador ϕ nao e um objeto aleatorio.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14
Vapnik e Chervonenkis (2)
Vapnik e Chernonenkis preconizam que devemos escolher oclassificador ϕ que minimiza o erro empırico:
ϕ = argminϕ∈C
Ln [ϕ].
Note-se que, pela lei forte dos grandes numeros, Ln [ϕ] e umestimador fortemente consistente de L[ϕ], ou seja, Ln [ϕ] → L[ϕ]com probabilidade 1, quando n → ∞, para toda FX ,Y .
Muito importante: isto nao ocorreria, em geral, se o classificador ϕfosse uma funcao de toda a amostra aleatoria(X1,Y1), . . . , (Xn ,Yn).
Vale lembrar: ϕ e simplesmente uma funcao de Rd em C . O
classificador ϕ nao e um objeto aleatorio.
Menos importante: o estimador e nao viciado: E[Ln [ϕ]] = L[ϕ].
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 8 / 14
Vapnik e Chervonenkis (3)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14
Vapnik e Chervonenkis (3)
Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que
Pr{∣∣Un − E[Un ]
∣∣ ≥ ǫ
}≤ 2 exp
(
−2n2ǫ2
∑n
i=1(bi − ai )2
)
.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14
Vapnik e Chervonenkis (3)
Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que
Pr{∣∣Un − E[Un ]
∣∣ ≥ ǫ
}≤ 2 exp
(
−2n2ǫ2
∑n
i=1(bi − ai )2
)
.
Usando a desigualdade de Hoeffding, temos que
Pr{∣∣∣Ln [ϕ]− L[ϕ]
∣∣∣ ≥ ǫ
}
≤ 2e−2nǫ2 .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14
Vapnik e Chervonenkis (3)
Desigualdade de Hoeffding: sejam U1, . . .Un variaveis aleatoriasindependentes tais que Pr{ai ≤ Ui ≤ bi ]} = 1. DefinindoUn = (U1 + · · ·+ Un)/n, temos que
Pr{∣∣Un − E[Un ]
∣∣ ≥ ǫ
}≤ 2 exp
(
−2n2ǫ2
∑n
i=1(bi − ai )2
)
.
Usando a desigualdade de Hoeffding, temos que
Pr{∣∣∣Ln [ϕ]− L[ϕ]
∣∣∣ ≥ ǫ
}
≤ 2e−2nǫ2 .
Portanto, para algum α = (0, 1], fazendo 2e−2nǫ2 = α, temos que
Ln [ϕ]±
√
1
2nlog
(2
α
)
.
e um intervalo de confianca para L[ϕ] com nıvel de confianca naomenor do que (1− α)%.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 9 / 14
k -Nearest Neighbors (1)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (1)
Para uma certa distancia definida em Rd , dados n pares
(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN
determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (1)
Para uma certa distancia definida em Rd , dados n pares
(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN
determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).
Diversas distancias podem ser utilizadas.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (1)
Para uma certa distancia definida em Rd , dados n pares
(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN
determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).
Diversas distancias podem ser utilizadas.
Euclidiana: d(x , z ) =√
(x − z )⊤(x − z ).
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (1)
Para uma certa distancia definida em Rd , dados n pares
(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN
determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).
Diversas distancias podem ser utilizadas.
Euclidiana: d(x , z ) =√
(x − z )⊤(x − z ).
Mahalanobis: d(x , z ) =√
(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (1)
Para uma certa distancia definida em Rd , dados n pares
(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN
determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).
Diversas distancias podem ser utilizadas.
Euclidiana: d(x , z ) =√
(x − z )⊤(x − z ).
Mahalanobis: d(x , z ) =√
(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.
E muitas outras. Especialmente quando algumas das preditorassao categoricas.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (1)
Para uma certa distancia definida em Rd , dados n pares
(x1, y1), . . . , (xn , yn) e um novo x ∈ Rd , o classificador k -NN
determina os k pontos em {x1, . . . , xn} mais proximos de x eclassifica x como pertencente a classe mais frequente entre os yi ’sdestes k vizinhos mais proximos (voto da maioria).
Diversas distancias podem ser utilizadas.
Euclidiana: d(x , z ) =√
(x − z )⊤(x − z ).
Mahalanobis: d(x , z ) =√
(x − z )⊤S−1(x − z ), em que S e amatriz de covariancias amostral.
E muitas outras. Especialmente quando algumas das preditorassao categoricas.
Quando temos muitas preditoras, o classificador k -NN sofre a“maldicao da dimensionalidade”, pois, grosso modo, em um espacoeuclidiano de dimensao muito alta todos os xi ’s estariamaproximadamente a mesma distancia da origem.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 10 / 14
k -Nearest Neighbors (2)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14
k -Nearest Neighbors (2)
No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14
k -Nearest Neighbors (2)
No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14
k -Nearest Neighbors (2)
No caso k = 1, os pontos x1, . . . , xn definem celulas de classificacaoque formam uma estrutura geometrica conhecida como tesselacao(mosaico) de Voronoi.
Cover e Hart provaram que, assintoticamente, o erro declassificacao da regra 1-NN nunca e maior do que o dobro do errode Bayes, de maneira universal, ou seja, para qualquer FX ,Y .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 11 / 14
Como escolher k? (1)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14
Como escolher k? (1)
A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14
Como escolher k? (1)
A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.
Se, erroneamente, tentassemos minimizar o “erro empırico” doclassificador contruıdo com toda a amostra, escolherıamos semprek = 1, pois a regra 1-NN, aparentemente, teria “erro empırico”igual a zero. Conforme discutido em slides anteriores, estainterpretacao e incorreta.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14
Como escolher k? (1)
A escolha de k e crıtica. As regioes de classificacao podem sersubstancialmente diferentes para k ’s distintos.
Se, erroneamente, tentassemos minimizar o “erro empırico” doclassificador contruıdo com toda a amostra, escolherıamos semprek = 1, pois a regra 1-NN, aparentemente, teria “erro empırico”igual a zero. Conforme discutido em slides anteriores, estainterpretacao e incorreta.
O procedimento classico em Statistical Learning e dividir aamostra em m dados de treinamento e n −m dados de teste:
(X1,Y1), . . . , (Xm ,Ym)︸ ︷︷ ︸
dados de treinamento
, (Xm+1,Ym+1), . . . , (Xn ,Yn)︸ ︷︷ ︸
dados de teste
.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 12 / 14
Como escolher k? (2)
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Como escolher k? (2)
Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Como escolher k? (2)
Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .
Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Como escolher k? (2)
Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .
Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.
Nao ha criterios universais para n finito.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Como escolher k? (2)
Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .
Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.
Nao ha criterios universais para n finito.
O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Como escolher k? (2)
Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .
Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.
Nao ha criterios universais para n finito.
O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.
Matematicamente, o classificador obtido depende de como aamostra foi dividida.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Como escolher k? (2)
Usa-se os dados de treinamento para construir classificadores comk = 1, . . . ,m e calcula-se o erro empırico de cada classificadorusando apenas os n −m dados de teste. O menor erro empıricodetermina o valor de k .
Ha criterios assintoticos (tipo Stone) para a divisao da amostra emdados de treinamento e dados de teste.
Nao ha criterios universais para n finito.
O que se ve entre os praticamentes sao criterios de divisao do tipo70-30.
Matematicamente, o classificador obtido depende de como aamostra foi dividida.
Uma variante da k -NN e utilizada para regressao nao parametrica:ao inves do voto da maioria, toma-se a media das respostas dos kvizinhos mais proximos.
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 13 / 14
Obrigado pela presenca!
Insper Aula 1: k-Nearest Neighbors 29 de Janeiro de 2016 14 / 14