tópicos especiais em reconhecimento de padrões … · problemas i presen˘ca de valores extremos...

27
Sylvio Barbon Jr [email protected] opicos Especiais em Reconhecimento de Padr˜ oes [2COP329] Mestrado em Ciˆ encia da Computa¸c˜ ao

Upload: voquynh

Post on 03-Oct-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Sylvio Barbon [email protected]

Topicos Especiais emReconhecimento de Padroes

[2COP329]Mestrado em Ciencia da

Computacao

Page 2: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

(2/27)

Tema

AulaAnalise de Regressao

Page 3: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

1 Introducao

2 Regressao Linear Univariada

3 Exemplo

4 Avaliacao da Estimativa

5 Estudo de Caso 1

6 Regressao Linear Multipla

7 Regressao Linear Multivariada

8 Referencias

Page 4: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Introducao (4/27)

Regressao

I A analise de regressao visa descrever por meio de um modelomatematico, a relacao existente entre variaveis, a partir de nobservacoes ou exemplos.

I A ideia e generalizar (induzir) um modelo onde a variavel Y(dependente, alvo ou saıda) tem relacao com X(independente, explicativas ou regressoras).

I Entre os modelos possıveis, temos:

1. Modelo linear simples, por meio de uma equacao de retadescreve o comportamento entre duas variaveis;

2. Modelo linear multiplo preditores, onde uma equacao de retadescreve o comportamento de mais de duas variaveis;

3. Outros: nao linear simples, nao linear multipla, logıstica,polinomial, linear univariada e multivariada.

Page 5: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Introducao (5/27)

Regressao

I Os tipos de regressao podem ser divididos considerando:

1. Numero de variaveis independentes;2. Numero de variaveis dependentes;3. Formato ou tipo de funcao regressora;4. Tipo de variaveis dependentes;

Linear Logıstica Polinomial

Page 6: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Univariada (6/27)

Simples

I Relacao entre duas variaveis: X e Y.

I A relacao e expressa por:

y = β0 + β1x + ε (1)

I , onde:I y = variavel desejada (saıda, independente);I β0 = intercepto (valor esperado para y quando x for 0);I β1 = coeficiente angular (variacao esperada de x quando y

variar;I x = variavel de entradaI ε = erro do modelo (erro aleatorio, erro do modelo)

Page 7: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Univariada (7/27)

Regressao

Page 8: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Univariada (8/27)

Mınimos Quadrados

I Precisamos encontrar β0 e β1, buscando um ε mınimo.Podemos considerar β0 como a variavel associada a vendas eβ1 a youtube.

I Podem ser utilizados diferentes metodos, como por exemplometodos de tentativa e erro, forca bruta ou metodosestatısticos.

I Um metodo dos metodos utilizados para encontrar os valoresde β0 e β1 e o chamado Mınimos Quadrados e tem asseguintes caracterısticas:

1. A soma dos desvios verticais dos pontos e relacao a reta e zero;2. A soma dos quadrados destes desvios e mınima, isto e,

nenhuma outra reta daria menor soma de quadrados de taisdesvios;

Page 9: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Univariada (9/27)

Mınimos Quadrados

I β1 =∑

x .y−∑

x.∑

yn∑

x2− (∑

x)2

n

I β0 = y − β1.xI Sendo que:

I y =∑n

i=1 yin

I x =∑n

i=1 xin

Page 10: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Exemplo (10/27)

Descricao

I O custo de producao de um lote de um equipamento dependedo numero de unidades produzidas, ou seja, do tamanho dolote. Em uma amostra de 6 lotes diferentes, observou-se osseguintes resultados.

Page 11: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Exemplo (11/27)

Resultado

I Usando Mınimos Quadrados obteve-se:

Page 12: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Avaliacao da Estimativa (12/27)

Erro padrao

I Quanto foi precisa a estimativa do modelo?

I A determinante principal da precisao e a quantidade dedispersao na populacao, ou seja, quanto maior a dispersaomenor a precisao das estimativas.

I Erro padrao (Se) do modelo e calculado como:

Se =√∑

(yo−yr )2

n−2 , onde yo e o valor obtido pelo modelo e oyr e o valor real do problema.

Page 13: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Avaliacao da Estimativa (13/27)

Coeficiente de Correlacao

I Pode-se medir o grau de correlacao (r) entre duas populacoesusando a Correlacao de Pearson. O coeficiente de correlacao re um valor entre -1 e + 1. Sendo 0 a nao correlacao.

I r =∑

xy−∑

x.∑

yn√∑

x2− (∑

(x)2)n

.∑

y2− (∑

(y)2)n

Page 14: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Avaliacao da Estimativa (14/27)

Coeficiente de Correlacao

Page 15: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Avaliacao da Estimativa (15/27)

Resultado

I Aplicando a margem de erro Se . O r obtido foi de 0.99:

Page 16: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Avaliacao da Estimativa (16/27)

Problemas

I Presenca de valores extremos (outliers) influenciamdiretamente na qualidade do modelo. Assim, tecnicas pararemocao deste tipo de comportamento sao necessarias.

Page 17: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Estudo de Caso 1 (17/27)

Projeto

I Considere uma empresa que deseja compreender (analisar)sobre o impacto no investimento em marketing no youtube,facebook e newspaper com relacao as vendas (sales).

I Qual seria o melhor investimento?

I Justifique qual o melhor investimento por meio da suamodelagem.

I Demonstre os resultados de forma grafica, apontando o erro ecorrelacao dos modelos obtidos.

I A base de dados esta disponıvel no site.

Page 18: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (18/27)

Regressao Linear Multipla

I No ajuste de modelos de Regressao Linear Multipla, saotratadas um conjunto de variaveis preditoras (X ) .

I Assim, X = (X1, ...,XP), onde P sao as variaveis preditorasnao aleatorias que modelam um Y .

I Y = β0 + β1x1 + β2x2 + ...+ βpxp + ε

I Para o Estudo de Caso 1, agora vamos considerar os tresinvestimentos em marketing, em conjunto, para predizermos avendas.

Page 19: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (19/27)

Estudo de Caso

Page 20: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (20/27)

Estudo de Caso

Page 21: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (21/27)

Estudo de Caso

Page 22: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (22/27)

Estudo de Caso

Page 23: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (23/27)

Estudo de Caso

Page 24: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (24/27)

Estudo de Caso

Page 25: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multipla (25/27)

Estudo de Caso

Page 26: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Regressao Linear Multivariada (26/27)

Regressao Linear Multivariada

I No ajuste de modelos de Regressao Linear Multivariada,temos um conjunto de variaveis de resposta (Y ).

I Assim, Y = (Y1, ...,YP), onde P sao as variaveis preditorasnao aleatorias.

I Yj = βjXj + εJ , onde j = 1, ..., p

Page 27: Tópicos Especiais em Reconhecimento de Padrões … · Problemas I Presen˘ca de valores extremos ... Spinger Series in Statistics, 2001. 4.N. Cristianini and J. Shawe-Taylor, "An

Referencias (27/27)

Lista de Referencias

1. C.M. Bishop, ”Pattern Recognition and Machine Learning”,Springer, 2006

2. R. Duda, P. Hart, D. Stork, ”Pattern Classification”, secondedition, 2000.

3. T. Hastie, R. Tibshurani, and J.H. Friedman, ”The Elementsof Statistical Learning: Data Mining, Inference, andPrediction”, Spinger Series in Statistics, 2001.

4. N. Cristianini and J. Shawe-Taylor, ”An Introduction toSupport Vector Machines”, Cambridge Univ. Press, 2000.

5. B. D. Ripley, “Pattern Recognition and Neural Networks”,Cambridge University Press, 1996.