minera˘c~ao de dados aula 1: introdu˘c~aomarcosop/est171-ml/slides/aula01.pdf · aula 1:...

84
Minera¸c˜ ao de Dados Aula 1: Introdu¸c˜ ao Rafael Izbicki 1 / 34

Upload: others

Post on 18-Jul-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Mineracao de Dados

Aula 1: Introducao

Rafael Izbicki

1 / 34

Page 2: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Por que voce esta aqui?

I Porque voce gosta do assunto

I Porque e um requerimento

I Porque Mineracao de Dados e A materia que vai te fazerganhar $$$

I . . .

2 / 34

Page 3: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Por que voce esta aqui?

I Porque voce gosta do assunto

I Porque e um requerimento

I Porque Mineracao de Dados e A materia que vai te fazerganhar $$$

I . . .

2 / 34

Page 4: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Por que voce esta aqui?

I Porque voce gosta do assunto

I Porque e um requerimento

I Porque Mineracao de Dados e A materia que vai te fazerganhar $$$

I . . .

2 / 34

Page 5: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Por que voce esta aqui?

I Porque voce gosta do assunto

I Porque e um requerimento

I Porque Mineracao de Dados e A materia que vai te fazerganhar $$$

I . . .

2 / 34

Page 6: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Por que voce esta aqui?

I Porque voce gosta do assunto

I Porque e um requerimento

I Porque Mineracao de Dados e A materia que vai te fazerganhar $$$

I . . .

2 / 34

Page 7: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Avaliacao do Conhecimento Previo

3 / 34

Page 8: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso

I Lembre-se de verificar o site da disciplina!

I 48 horas para responder os mensagens!

4 / 34

Page 9: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso

I Lembre-se de verificar o site da disciplina!

I 48 horas para responder os mensagens!

4 / 34

Page 10: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Material

I Slides em Aula

I Livro texto:

Hastie T., Tibshirani R. And Friedman J. The Elements ofStatistical Learning, Springer, 2009.

James, G., Witten, D., Hastie, T. e Tibshirani, R. AnIntroduction to Statistical Learning, with Applications in R,Springer 2013.

Disponıvel gratuitamente emhttp://statweb.stanford.edu/~tibs/ElemStatLearn/

http://www-bcf.usc.edu/~gareth/ISL/

5 / 34

Page 11: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Material

I Slides em Aula

I Livro texto:

Hastie T., Tibshirani R. And Friedman J. The Elements ofStatistical Learning, Springer, 2009.

James, G., Witten, D., Hastie, T. e Tibshirani, R. AnIntroduction to Statistical Learning, with Applications in R,Springer 2013.

Disponıvel gratuitamente emhttp://statweb.stanford.edu/~tibs/ElemStatLearn/

http://www-bcf.usc.edu/~gareth/ISL/

5 / 34

Page 12: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Listas de Exercıcio (15% da nota): nao deixe para a ultimahora! Nao copie!

Para cada dia de atraso, pontos serao descontados

Duplas sorteadas dentro e fora da sala

6 / 34

Page 13: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Listas de Exercıcio (15% da nota): nao deixe para a ultimahora! Nao copie!

Para cada dia de atraso, pontos serao descontados

Duplas sorteadas dentro e fora da sala

6 / 34

Page 14: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Prova 1 (25% da nota)

⇒ Prova 2 (25% da nota)

⇒ Seminario (15% da nota)

⇒ Trabalho Pratico (20% da nota)

Mais detalhes em breve

7 / 34

Page 15: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Prova 1 (25% da nota)

⇒ Prova 2 (25% da nota)

⇒ Seminario (15% da nota)

⇒ Trabalho Pratico (20% da nota)

Mais detalhes em breve

7 / 34

Page 16: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Prova 1 (25% da nota)

⇒ Prova 2 (25% da nota)

⇒ Seminario (15% da nota)

⇒ Trabalho Pratico (20% da nota)

Mais detalhes em breve

7 / 34

Page 17: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Prova 1 (25% da nota)

⇒ Prova 2 (25% da nota)

⇒ Seminario (15% da nota)

⇒ Trabalho Pratico (20% da nota)

Mais detalhes em breve

7 / 34

Page 18: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Estrutura do Curso: Notas

⇒ Prova 1 (25% da nota)

⇒ Prova 2 (25% da nota)

⇒ Seminario (15% da nota)

⇒ Trabalho Pratico (20% da nota)

Mais detalhes em breve

7 / 34

Page 19: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

O que e o Aprendizado de Maquina?

Tambem conhecida como:

I Data Mining (Mineracao de Dados)

I Big Data

I Inteligencia Artificial

Aprendizado de Maquina e a ciencia de descobrir estruturas e fazerpredicoes em conjuntos de dados (grandes).

I Aprendizado supervisionado: Dadas medicoes(X1,Y1), . . . , (Xn,Yn), aprender um modelo para prever Yi

baseado em Xi

I Aprendizado nao supervisionado: Dadas medicoes X1, . . . ,Xn,descobrir alguma estrutura baseado em similaridade

8 / 34

Page 20: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

O que e o Aprendizado de Maquina?

Tambem conhecida como:

I Data Mining (Mineracao de Dados)

I Big Data

I Inteligencia Artificial

Aprendizado de Maquina e a ciencia de descobrir estruturas e fazerpredicoes em conjuntos de dados (grandes).

I Aprendizado supervisionado: Dadas medicoes(X1,Y1), . . . , (Xn,Yn), aprender um modelo para prever Yi

baseado em Xi

I Aprendizado nao supervisionado: Dadas medicoes X1, . . . ,Xn,descobrir alguma estrutura baseado em similaridade

8 / 34

Page 21: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

O que e o Aprendizado de Maquina?

Tambem conhecida como:

I Data Mining (Mineracao de Dados)

I Big Data

I Inteligencia Artificial

Aprendizado de Maquina e a ciencia de descobrir estruturas e fazerpredicoes em conjuntos de dados (grandes).

I Aprendizado supervisionado: Dadas medicoes(X1,Y1), . . . , (Xn,Yn), aprender um modelo para prever Yi

baseado em Xi

I Aprendizado nao supervisionado: Dadas medicoes X1, . . . ,Xn,descobrir alguma estrutura baseado em similaridade

8 / 34

Page 22: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

O que e o Aprendizado de Maquina?

Tambem conhecida como:

I Data Mining (Mineracao de Dados)

I Big Data

I Inteligencia Artificial

Aprendizado de Maquina e a ciencia de descobrir estruturas e fazerpredicoes em conjuntos de dados (grandes).

I Aprendizado supervisionado: Dadas medicoes(X1,Y1), . . . , (Xn,Yn), aprender um modelo para prever Yi

baseado em Xi

I Aprendizado nao supervisionado: Dadas medicoes X1, . . . ,Xn,descobrir alguma estrutura baseado em similaridade

8 / 34

Page 23: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

O que e o Aprendizado de Maquina?

Tambem conhecida como:

I Data Mining (Mineracao de Dados)

I Big Data

I Inteligencia Artificial

Aprendizado de Maquina e a ciencia de descobrir estruturas e fazerpredicoes em conjuntos de dados (grandes).

I Aprendizado supervisionado: Dadas medicoes(X1,Y1), . . . , (Xn,Yn), aprender um modelo para prever Yi

baseado em Xi

I Aprendizado nao supervisionado: Dadas medicoes X1, . . . ,Xn,descobrir alguma estrutura baseado em similaridade

8 / 34

Page 24: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

O que e o Aprendizado de Maquina?

Tambem conhecida como:

I Data Mining (Mineracao de Dados)

I Big Data

I Inteligencia Artificial

Aprendizado de Maquina e a ciencia de descobrir estruturas e fazerpredicoes em conjuntos de dados (grandes).

I Aprendizado supervisionado: Dadas medicoes(X1,Y1), . . . , (Xn,Yn), aprender um modelo para prever Yi

baseado em Xi

I Aprendizado nao supervisionado: Dadas medicoes X1, . . . ,Xn,descobrir alguma estrutura baseado em similaridade

8 / 34

Page 25: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Deteccao de Spams

Xi −→ emailYi −→ spam/nao spam

Objetivo: prever Yi com base em Xi

Conjunto de dados grande!9 / 34

Page 26: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Deteccao de Spams

Xi −→ emailYi −→ spam/nao spam

Objetivo: prever Yi com base em Xi

Conjunto de dados grande!9 / 34

Page 27: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Predicao da Bolsa

10 / 34

Page 28: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Reconhecimento de Dıgitos

Xi −→ imagem de um dıgitoYi −→ dıgito correspondente

11 / 34

Page 29: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Predicao de Alzheimer

Xi −→ imagem da ressonancia magneticaYi −→ Paciente com/sem Alzheimer

12 / 34

Page 30: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Predicao de Alzheimer

Xi −→ imagem da ressonancia magneticaYi −→ Paciente com/sem Alzheimer

12 / 34

Page 31: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Leitura de Pensamentos

⇓⇓⇓

Xi −→ imagem da ressonancia magneticaYi −→ “Pensamento”

13 / 34

Page 32: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Leitura de Pensamentos

⇓⇓⇓

Xi −→ imagem da ressonancia magneticaYi −→ “Pensamento”

13 / 34

Page 33: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Busca por Imagens Semelhantes

Xi −→ imagens na internetBusca por estrutura

14 / 34

Page 34: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Busca por Imagens Semelhantes

Xi −→ imagens na internetBusca por estrutura

14 / 34

Page 35: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Recomendacao de Amizades

Xi −→ existe um link entre dois usuarios15 / 34

Page 36: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Recomendacao de Propagandas

16 / 34

Page 37: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Sistemas de Recomendacao

Imagine que temos um banco de dados em que cada linharepresenta a ida de uma pessoa a um supermercado, e cada colunarepresenta se ela comprou ou nao determinado produto.

Objetivo: descobrir regras do tipo

“Quem compra leite em geral tambem compra pao”,

“Quem compra cerveja e refrigerante em geral tambem compracarne”.

“Quem compra fralda em geral tambem compra cerveja”.

17 / 34

Page 38: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Sistemas de Recomendacao

Imagine que temos um banco de dados em que cada linharepresenta a ida de uma pessoa a um supermercado, e cada colunarepresenta se ela comprou ou nao determinado produto.

Objetivo: descobrir regras do tipo

“Quem compra leite em geral tambem compra pao”,

“Quem compra cerveja e refrigerante em geral tambem compracarne”.

“Quem compra fralda em geral tambem compra cerveja”.

17 / 34

Page 39: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Sistemas de Recomendacao

Imagine que temos um banco de dados em que cada linharepresenta a ida de uma pessoa a um supermercado, e cada colunarepresenta se ela comprou ou nao determinado produto.

Objetivo: descobrir regras do tipo

“Quem compra leite em geral tambem compra pao”,

“Quem compra cerveja e refrigerante em geral tambem compracarne”.

“Quem compra fralda em geral tambem compra cerveja”.

17 / 34

Page 40: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Exemplo: Sistemas de Recomendacao

18 / 34

Page 41: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Aprendizado de Maquina e portanto uma ferramenteextremamente util hoje para fazer predicoes (aprendizadosupervisionado) e aprender estruturas (aprendizado naosupervisionado) em conjuntos de dados grandes

Vamos entrar mais fundo no problema de predicao.

19 / 34

Page 42: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Aprendizado de Maquina e portanto uma ferramenteextremamente util hoje para fazer predicoes (aprendizadosupervisionado) e aprender estruturas (aprendizado naosupervisionado) em conjuntos de dados grandes

Vamos entrar mais fundo no problema de predicao.

19 / 34

Page 43: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Vamos assumir que deseja-se prever a altura de um filho (Y) combase na altura de seu pai (X), e que coletamos uma amostra(X1,Y1), . . . , (Xn,Yn) com observacoes sobre n indivıduos.

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

1.6

1.7

1.8

1.9

1.7 1.8Altura pai (X) em metros

Altu

ra fi

lho

(Y)

em m

etro

s

Com base nesses dados, podemos criar uma funcao de predicaog(x): dado que a altura do pai de um indivıduo e X = x , g(x)representa nossa predicao sobre a altura do filho Y .

20 / 34

Page 44: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Vamos assumir que deseja-se prever a altura de um filho (Y) combase na altura de seu pai (X), e que coletamos uma amostra(X1,Y1), . . . , (Xn,Yn) com observacoes sobre n indivıduos.

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

1.6

1.7

1.8

1.9

1.7 1.8Altura pai (X) em metros

Altu

ra fi

lho

(Y)

em m

etro

s

Com base nesses dados, podemos criar uma funcao de predicaog(x): dado que a altura do pai de um indivıduo e X = x , g(x)representa nossa predicao sobre a altura do filho Y .

20 / 34

Page 45: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Os principais objetivos de metodos de predicao sao (i) construir gde modo a se obter boas predicoes, e (ii) saber quantificar o quaoboa uma (funcao de) predicao e.

Uma maneira simples de se criar uma funcao de predicao g

nestecaso e atraves de uma regressao linear (vamos rever isto maistarde).

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

1.6

1.7

1.8

1.9

1.7 1.8Altura pai (X) em metros

Altu

ra fi

lho

(Y)

em m

etro

s

21 / 34

Page 46: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Os principais objetivos de metodos de predicao sao (i) construir gde modo a se obter boas predicoes, e (ii) saber quantificar o quaoboa uma (funcao de) predicao e.

Uma maneira simples de se criar uma funcao de predicao g nestecaso e atraves de uma regressao linear (vamos rever isto maistarde).

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

1.6

1.7

1.8

1.9

1.7 1.8Altura pai (X) em metros

Altu

ra fi

lho

(Y)

em m

etro

s

21 / 34

Page 47: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Digamos que queremos predizer a altura de um filho cujo pai temx = 1, 80 m. Nossa predicao neste caso e de g(1, 80) = 1, 77. Seobservamos uma altura de 1,76 m, como quantificar quao erradosestamos? (Exemplo no R)

Uma maneira de se fazer isso e usando-se o erro quadratico: nestecaso, diriamos que o erro incorrido por g para prever x = 1, 80 foide

(g(x)− y)2 = (1, 76− 1, 77)2 = 0.0001.

Quanto maior o valor de (g(x)− y)2, pior e nossa predicao.

22 / 34

Page 48: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Digamos que queremos predizer a altura de um filho cujo pai temx = 1, 80 m. Nossa predicao neste caso e de g(1, 80) = 1, 77. Seobservamos uma altura de 1,76 m, como quantificar quao erradosestamos? (Exemplo no R)

Uma maneira de se fazer isso e usando-se o erro quadratico: nestecaso, diriamos que o erro incorrido por g para prever x = 1, 80 foide

(g(x)− y)2 = (1, 76− 1, 77)2 = 0.0001.

Quanto maior o valor de (g(x)− y)2, pior e nossa predicao.

22 / 34

Page 49: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Digamos que queremos predizer a altura de um filho cujo pai temx = 1, 80 m. Nossa predicao neste caso e de g(1, 80) = 1, 77. Seobservamos uma altura de 1,76 m, como quantificar quao erradosestamos? (Exemplo no R)

Uma maneira de se fazer isso e usando-se o erro quadratico: nestecaso, diriamos que o erro incorrido por g para prever x = 1, 80 foide

(g(x)− y)2 = (1, 76− 1, 77)2 = 0.0001.

Quanto maior o valor de (g(x)− y)2, pior e nossa predicao.

22 / 34

Page 50: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Note que desta maneira quantificamos quao boa g e apenas paraum dado par (x , y). Uma maneira de se generalizar isso (i.e.,atribuir um unico numero quantificando quao boa g e) e atravesda funcao de risco R(g):

R(g) = E[(Y − g(X ))2

].

23 / 34

Page 51: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Note que desta maneira quantificamos quao boa g e apenas paraum dado par (x , y). Uma maneira de se generalizar isso (i.e.,atribuir um unico numero quantificando quao boa g e) e atravesda funcao de risco R(g):

R(g) = E[(Y − g(X ))2

].

23 / 34

Page 52: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

R(g) que avalia o erro preditivo de g . Por que? Digamos queobservamos um novo conjunto (Xn+1,Yn+1), . . . , (Xn+m,Yn+m).

Pela lei dos grandes numeros sabemos que, se m e grande,

1

m

m∑i=1

(Yn+i − g(Xn+i ))2 ≈ R(g) := E[(Y − g(X ))2

]Em outras palavras, R(g) e aproximadamente uma media do erroquadratico para cada uma das novas observacoes.

Assim, se conseguimos g tal que R(g) seja pequeno, teremos boaspredicoes em novas observacoes.

24 / 34

Page 53: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

R(g) que avalia o erro preditivo de g . Por que? Digamos queobservamos um novo conjunto (Xn+1,Yn+1), . . . , (Xn+m,Yn+m).

Pela lei dos grandes numeros sabemos que, se m e grande,

1

m

m∑i=1

(Yn+i − g(Xn+i ))2 ≈ R(g) := E[(Y − g(X ))2

]Em outras palavras, R(g) e aproximadamente uma media do erroquadratico para cada uma das novas observacoes.

Assim, se conseguimos g tal que R(g) seja pequeno, teremos boaspredicoes em novas observacoes.

24 / 34

Page 54: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

R(g) que avalia o erro preditivo de g . Por que? Digamos queobservamos um novo conjunto (Xn+1,Yn+1), . . . , (Xn+m,Yn+m).

Pela lei dos grandes numeros sabemos que, se m e grande,

1

m

m∑i=1

(Yn+i − g(Xn+i ))2 ≈ R(g) := E[(Y − g(X ))2

]Em outras palavras, R(g) e aproximadamente uma media do erroquadratico para cada uma das novas observacoes.

Assim, se conseguimos g tal que R(g) seja pequeno, teremos boaspredicoes em novas observacoes.

24 / 34

Page 55: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

R(g) que avalia o erro preditivo de g . Por que? Digamos queobservamos um novo conjunto (Xn+1,Yn+1), . . . , (Xn+m,Yn+m).

Pela lei dos grandes numeros sabemos que, se m e grande,

1

m

m∑i=1

(Yn+i − g(Xn+i ))2 ≈ R(g) := E[(Y − g(X ))2

]Em outras palavras, R(g) e aproximadamente uma media do erroquadratico para cada uma das novas observacoes.

Assim, se conseguimos g tal que R(g) seja pequeno, teremos boaspredicoes em novas observacoes.

24 / 34

Page 56: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

R(g) que avalia o erro preditivo de g . Por que? Digamos queobservamos um novo conjunto (Xn+1,Yn+1), . . . , (Xn+m,Yn+m).

Pela lei dos grandes numeros sabemos que, se m e grande,

1

m

m∑i=1

(Yn+i − g(Xn+i ))2 ≈ R(g) := E[(Y − g(X ))2

]Em outras palavras, R(g) e aproximadamente uma media do erroquadratico para cada uma das novas observacoes.

Assim, se conseguimos g tal que R(g) seja pequeno, teremos boaspredicoes em novas observacoes.

24 / 34

Page 57: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Resumindo ate agoraEm um problema de predicao:

I Observamos um conjunto de treinamento(X1,Y1), . . . , (Xn,Yn). X sao chamados de preditores, ouvariaveis explicativas, ou variaveis independentes, ou features.Y e chamado de resposta, ou variavel dependente, ou labels

I Desejamos criar uma funcao de predicao g(x) para prevernovas observacoes Xn+1, . . . ,Xn+m bem

I Prever novas observacoes bem significa criar g tal que o riscoquadratico R(g) = E

[(Y − g(X ))2

]seja baixo (dependendo

da situacao, outras funcoes de risco podem ser mais adequadas;

veremos mais sobre isso depois)

Vamos ver ao longo do curso como, em diferentes contextos, criarg tal que R(g) seja baixo, e como comparar diferentes g ’s.

25 / 34

Page 58: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Resumindo ate agoraEm um problema de predicao:

I Observamos um conjunto de treinamento(X1,Y1), . . . , (Xn,Yn). X sao chamados de preditores, ouvariaveis explicativas, ou variaveis independentes, ou features.Y e chamado de resposta, ou variavel dependente, ou labels

I Desejamos criar uma funcao de predicao g(x) para prevernovas observacoes Xn+1, . . . ,Xn+m bem

I Prever novas observacoes bem significa criar g tal que o riscoquadratico R(g) = E

[(Y − g(X ))2

]seja baixo (dependendo

da situacao, outras funcoes de risco podem ser mais adequadas;

veremos mais sobre isso depois)

Vamos ver ao longo do curso como, em diferentes contextos, criarg tal que R(g) seja baixo, e como comparar diferentes g ’s.

25 / 34

Page 59: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Resumindo ate agoraEm um problema de predicao:

I Observamos um conjunto de treinamento(X1,Y1), . . . , (Xn,Yn). X sao chamados de preditores, ouvariaveis explicativas, ou variaveis independentes, ou features.Y e chamado de resposta, ou variavel dependente, ou labels

I Desejamos criar uma funcao de predicao g(x) para prevernovas observacoes Xn+1, . . . ,Xn+m bem

I Prever novas observacoes bem significa criar g tal que o riscoquadratico R(g) = E

[(Y − g(X ))2

]seja baixo (dependendo

da situacao, outras funcoes de risco podem ser mais adequadas;

veremos mais sobre isso depois)

Vamos ver ao longo do curso como, em diferentes contextos, criarg tal que R(g) seja baixo, e como comparar diferentes g ’s.

25 / 34

Page 60: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Resumindo ate agoraEm um problema de predicao:

I Observamos um conjunto de treinamento(X1,Y1), . . . , (Xn,Yn). X sao chamados de preditores, ouvariaveis explicativas, ou variaveis independentes, ou features.Y e chamado de resposta, ou variavel dependente, ou labels

I Desejamos criar uma funcao de predicao g(x) para prevernovas observacoes Xn+1, . . . ,Xn+m bem

I Prever novas observacoes bem significa criar g tal que o riscoquadratico R(g) = E

[(Y − g(X ))2

]seja baixo (dependendo

da situacao, outras funcoes de risco podem ser mais adequadas;

veremos mais sobre isso depois)

Vamos ver ao longo do curso como, em diferentes contextos, criarg tal que R(g) seja baixo, e como comparar diferentes g ’s.

25 / 34

Page 61: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Qual a melhor funcao g(x)?

O problema de encontrar g que minimize R(g) = E[(Y − g(X ))2

]possui solucao analıtica!!

Seja r(x) = E[Y |X = x ] a funcao de regressao (note que naoestamos assumindo que ela e linear).

Entao R(r) ≤ R(g) para toda funcao g(x). Este e um exercıcio dalista.

O problema entao esta resolvido? Nao!! r(x) = E[Y |X = x ]depende de quantidades desconhecidas!

Contudo, este resultado indica que uma estimativa boa da funcaode regressao r nos fornece um bom preditor para y com base em x .

26 / 34

Page 62: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Qual a melhor funcao g(x)?

O problema de encontrar g que minimize R(g) = E[(Y − g(X ))2

]possui solucao analıtica!!

Seja r(x) = E[Y |X = x ] a funcao de regressao (note que naoestamos assumindo que ela e linear).

Entao R(r) ≤ R(g) para toda funcao g(x). Este e um exercıcio dalista.

O problema entao esta resolvido? Nao!! r(x) = E[Y |X = x ]depende de quantidades desconhecidas!

Contudo, este resultado indica que uma estimativa boa da funcaode regressao r nos fornece um bom preditor para y com base em x .

26 / 34

Page 63: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Qual a melhor funcao g(x)?

O problema de encontrar g que minimize R(g) = E[(Y − g(X ))2

]possui solucao analıtica!!

Seja r(x) = E[Y |X = x ] a funcao de regressao (note que naoestamos assumindo que ela e linear).

Entao R(r) ≤ R(g) para toda funcao g(x). Este e um exercıcio dalista.

O problema entao esta resolvido? Nao!! r(x) = E[Y |X = x ]depende de quantidades desconhecidas!

Contudo, este resultado indica que uma estimativa boa da funcaode regressao r nos fornece um bom preditor para y com base em x .

26 / 34

Page 64: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Qual a melhor funcao g(x)?

O problema de encontrar g que minimize R(g) = E[(Y − g(X ))2

]possui solucao analıtica!!

Seja r(x) = E[Y |X = x ] a funcao de regressao (note que naoestamos assumindo que ela e linear).

Entao R(r) ≤ R(g) para toda funcao g(x). Este e um exercıcio dalista.

O problema entao esta resolvido? Nao!! r(x) = E[Y |X = x ]depende de quantidades desconhecidas!

Contudo, este resultado indica que uma estimativa boa da funcaode regressao r nos fornece um bom preditor para y com base em x .

26 / 34

Page 65: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Qual a melhor funcao g(x)?

O problema de encontrar g que minimize R(g) = E[(Y − g(X ))2

]possui solucao analıtica!!

Seja r(x) = E[Y |X = x ] a funcao de regressao (note que naoestamos assumindo que ela e linear).

Entao R(r) ≤ R(g) para toda funcao g(x). Este e um exercıcio dalista.

O problema entao esta resolvido? Nao!! r(x) = E[Y |X = x ]depende de quantidades desconhecidas!

Contudo, este resultado indica que uma estimativa boa da funcaode regressao r nos fornece um bom preditor para y com base em x .

26 / 34

Page 66: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Uma forma de se criar/estimar g e atraves de uma regressao linear.Ao longo das proximas aulas veremos algumas metodologias maissofisticadas para isso; inclusive metodos que podem ser aplicadosquando x consiste em imagens, textos etc. Veja por exemplo ummetodo mais sofisticado (nao linear) para os dados das idades:

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

1.6

1.7

1.8

1.9

1.7 1.8Altura pai (X) em metros

Altu

ra fi

lho

(Y)

em m

etro

s

Antes disso, precisamos entender mais a fundo os elementos de umproblema de predicao.

27 / 34

Page 67: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Uma forma de se criar/estimar g e atraves de uma regressao linear.Ao longo das proximas aulas veremos algumas metodologias maissofisticadas para isso; inclusive metodos que podem ser aplicadosquando x consiste em imagens, textos etc. Veja por exemplo ummetodo mais sofisticado (nao linear) para os dados das idades:

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

1.6

1.7

1.8

1.9

1.7 1.8Altura pai (X) em metros

Altu

ra fi

lho

(Y)

em m

etro

s

Antes disso, precisamos entender mais a fundo os elementos de umproblema de predicao.

27 / 34

Page 68: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivoRegressao linear e (ou ao menos deveria ser) um velho conhecidoseu.

E um estimator de r(x) = E[Y |X = x ] quando ele assume umaforma linear, i.e.,

r(x) = β0 + β1x ,

ou, no caso em que x = (x1, . . . , xp) e um vetor,

r(x) = β0 + β1x1 + . . .+ βpxp.

Em notacao matricial,r(x) = βtx ,

com β = (β0, . . . , βp) e x = (x1, . . . , xn)

28 / 34

Page 69: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivoRegressao linear e (ou ao menos deveria ser) um velho conhecidoseu.

E um estimator de r(x) = E[Y |X = x ] quando ele assume umaforma linear, i.e.,

r(x) = β0 + β1x ,

ou, no caso em que x = (x1, . . . , xp) e um vetor,

r(x) = β0 + β1x1 + . . .+ βpxp.

Em notacao matricial,r(x) = βtx ,

com β = (β0, . . . , βp) e x = (x1, . . . , xn)

28 / 34

Page 70: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivoRegressao linear e (ou ao menos deveria ser) um velho conhecidoseu.

E um estimator de r(x) = E[Y |X = x ] quando ele assume umaforma linear, i.e.,

r(x) = β0 + β1x ,

ou, no caso em que x = (x1, . . . , xp) e um vetor,

r(x) = β0 + β1x1 + . . .+ βpxp.

Em notacao matricial,r(x) = βtx ,

com β = (β0, . . . , βp) e x = (x1, . . . , xn)

28 / 34

Page 71: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivoRegressao linear e (ou ao menos deveria ser) um velho conhecidoseu.

E um estimator de r(x) = E[Y |X = x ] quando ele assume umaforma linear, i.e.,

r(x) = β0 + β1x ,

ou, no caso em que x = (x1, . . . , xp) e um vetor,

r(x) = β0 + β1x1 + . . .+ βpxp.

Em notacao matricial,r(x) = βtx ,

com β = (β0, . . . , βp) e x = (x1, . . . , xn)

28 / 34

Page 72: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivo

Relembrando: o estimador para os parametros β usual e oestimador de mınimos quadrados que em sua forma matricial edado por

β = (β0, β1, . . . , βp) = (X tX )−1X tY .

Este e o estimador que minimiza

1

n

n∑i=1

(Yi − β0 − β1xi ,1 − . . .− βpxi ,p)2

Assim, uma estimativa para r(x) = E[Y |X = x ] e dada por

r(x) = βtx .

29 / 34

Page 73: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivo

Relembrando: o estimador para os parametros β usual e oestimador de mınimos quadrados que em sua forma matricial edado por

β = (β0, β1, . . . , βp) = (X tX )−1X tY .

Este e o estimador que minimiza

1

n

n∑i=1

(Yi − β0 − β1xi ,1 − . . .− βpxi ,p)2

Assim, uma estimativa para r(x) = E[Y |X = x ] e dada por

r(x) = βtx .

29 / 34

Page 74: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivo

Relembrando: o estimador para os parametros β usual e oestimador de mınimos quadrados que em sua forma matricial edado por

β = (β0, β1, . . . , βp) = (X tX )−1X tY .

Este e o estimador que minimiza

1

n

n∑i=1

(Yi − β0 − β1xi ,1 − . . .− βpxi ,p)2

Assim, uma estimativa para r(x) = E[Y |X = x ] e dada por

r(x) = βtx .

29 / 34

Page 75: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Regressao linear sob um ponto de vistapreditivo

No R, podemos usar a funcao lm:

ajuste=lm(“y ∼ x”,data=dados);

tambem e possıvel usar a forma matricial

30 / 34

Page 76: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Predicao versus Inferencia:

Em inferencia em geral assume-se que o modelo e correto. Issooccore pois o principal objetivo esta na interpretacao dosparametros β. Ex: quais parametros sao significantes? Qual oefeito do aumento da dose do remedio no medicamento? etc.

Ja em predicao, nosso objetivo maior e simplesmente criar g(x)que tenha bom poder preditivo. Nao estamos assumindo que averdadeira regressao e linear!! Isto nao quer dizer que naopossamos interpretar nossos resultados, mas este em geral nao e ofoco das analises.

31 / 34

Page 77: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Predicao versus Inferencia:

Em inferencia em geral assume-se que o modelo e correto. Issooccore pois o principal objetivo esta na interpretacao dosparametros β. Ex: quais parametros sao significantes? Qual oefeito do aumento da dose do remedio no medicamento? etc.

Ja em predicao, nosso objetivo maior e simplesmente criar g(x)que tenha bom poder preditivo. Nao estamos assumindo que averdadeira regressao e linear!! Isto nao quer dizer que naopossamos interpretar nossos resultados, mas este em geral nao e ofoco das analises.

31 / 34

Page 78: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

As duas culturas

L. Breiman: Statistical modeling: The two cultures. StatisticalScience, 16(3):199–231, 2001.

Duas culturas no uso de modelos estatısticos:

I Data Modeling Culture:

Domina a comunidade estatıstica.Nela se assume que o modelo para r(~x) e correto. Testarsuposicoes e fundamental. Foco em inferencia.

I Algorithmic Modeling Culture:

Domina a comunidade demachine learning. Nela nao se assume que o modelo utilizadopara r(~x) e correto; o modelo e utilizado apenas para criarbons algoritmos preditivos.

32 / 34

Page 79: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

As duas culturas

L. Breiman: Statistical modeling: The two cultures. StatisticalScience, 16(3):199–231, 2001.

Duas culturas no uso de modelos estatısticos:

I Data Modeling Culture:

Domina a comunidade estatıstica.Nela se assume que o modelo para r(~x) e correto. Testarsuposicoes e fundamental. Foco em inferencia.

I Algorithmic Modeling Culture:

Domina a comunidade demachine learning. Nela nao se assume que o modelo utilizadopara r(~x) e correto; o modelo e utilizado apenas para criarbons algoritmos preditivos.

32 / 34

Page 80: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

As duas culturas

L. Breiman: Statistical modeling: The two cultures. StatisticalScience, 16(3):199–231, 2001.

Duas culturas no uso de modelos estatısticos:

I Data Modeling Culture: Domina a comunidade estatıstica.Nela se assume que o modelo para r(~x) e correto. Testarsuposicoes e fundamental. Foco em inferencia.

I Algorithmic Modeling Culture:

Domina a comunidade demachine learning. Nela nao se assume que o modelo utilizadopara r(~x) e correto; o modelo e utilizado apenas para criarbons algoritmos preditivos.

32 / 34

Page 81: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

As duas culturas

L. Breiman: Statistical modeling: The two cultures. StatisticalScience, 16(3):199–231, 2001.

Duas culturas no uso de modelos estatısticos:

I Data Modeling Culture: Domina a comunidade estatıstica.Nela se assume que o modelo para r(~x) e correto. Testarsuposicoes e fundamental. Foco em inferencia.

I Algorithmic Modeling Culture: Domina a comunidade demachine learning. Nela nao se assume que o modelo utilizadopara r(~x) e correto; o modelo e utilizado apenas para criarbons algoritmos preditivos.

32 / 34

Page 82: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

“Oddly, we are in a period where there has never been such awealth of new statistical problems and sources of data. The dangeris that if we define the boundaries of our field in terms of familartools and familar problems, we will fail to grasp the newopportunities”. (Breiman, 2001)

33 / 34

Page 83: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Resumo da Aula: Mineracao de Dados e uma ferramenteextremamente util hoje para fazer predicoes (aprendizadosupervisionado) e aprender estruturas (aprendizado naosupervisionado) em conjuntos de dados grandes

Proxima Aula: Vamos entrar mais fundo no problema de predicao

34 / 34

Page 84: Minera˘c~ao de Dados Aula 1: Introdu˘c~aomarcosop/est171-ML/slides/aula01.pdf · Aula 1: Introdu˘c~ao Rafael Izbicki 1/34. Por que voc^e est a aqui? I Porque voc^e gosta do assunto

Resumo da Aula: Mineracao de Dados e uma ferramenteextremamente util hoje para fazer predicoes (aprendizadosupervisionado) e aprender estruturas (aprendizado naosupervisionado) em conjuntos de dados grandes

Proxima Aula: Vamos entrar mais fundo no problema de predicao

34 / 34