análise de componentes principais

10
Análise de Componentes Principais 1 Análise de Componentes Principais PCA de uma distribuição Gaussiana multivariada centrada em (1,3) com um desvio padrão de 3 aproximadamente na direção (0.878, 0.478) e desvio padrão 1 na direção ortogonal. Os vetores na figura são os autovetores da matriz de covariância multiplicados pela raiz quadrada do autovalor correspondente, e transladados de forma a iniciarem na média. A Análise de Componentes Principais ou principal component analysis (PCA) é um procedimento matemático que utiliza uma transformação ortogonal para converter um conjunto de observações de variáveis possivelmente correlacionadas a um conjunto de valores de variáveis linearmente descorrelacionadas chamadas componentes principais. O número de componentes principais é menor ou igual ao número de variáveis originais. Esta transformação é definida de forma que o primeiro componente principal tem a maior variância possível (ou seja, é responsável pelo máximo de variabilidade nos dados), e cada componente seguinte, por sua vez, tem a máxima variância sob a restrição de ser ortogonal a (i.e., não-correlacionado com) os componentes anteriores. Os componentes principais são garantidamente independentes apenas se os dados forem normalmente distribuídos (conjuntamente). O PCA é sensível à escala relativa das variáveis originais. Dependendo da área de aplicação, o PCA é também conhecido pela transformada KarhunenLoève (KLT) discreta,transformada de Hotelling ou decomposição ortogonal própria (POD). O PCA foi inventado em 1901 por Karl Pearson. [1] Agora, é mais comumente usado como uma ferramenta de análise exploratória de dados e para fazer modelos preditivos. PCA pode ser feito por decomposição em autovalores de uma matriz de covariância (ou de correlação) ou por decomposição em valores singulares de uma matriz de dados, geralmente depois de centralizar (e normalizar ou usar pontuações-Z) a matriz de dados para cada atributo. [2] Os resultados de PCA são geralmente discutidos em termos pontuações de componentes, também chamados de pontuações de fatores (os valores de variável transformados correspondem a um ponto de dado particular), e carregamentos (loadings), i.e., o peso pelo qual cada variável normalizada original deve ser multiplicada para se obter a pontuação de componente. [3] O PCA é a mais simples das verdadeiras análises multivariadas por autovetores. Com frequência, sua operação pode ser tomada como sendo reveladora da estrutura interna dos dados, de uma forma que melhor explica a variância nos dados. Se visualizarmos um conjunto de dados multivariados em um espaço de alta dimensão, com 1 eixo por variável, o PCA pode ser usado para fornecer uma visualização em dimensões mais baixas dos mesmos dados, uma verdadeira "sombra" do objeto original quando visto de seu ponto mais informativo. Isto é feito usando-se apenas os primeiros componentes principais, de forma que a dimensionalidade dos dados transformados é reduzida. O PCA é fortemente ligado à análise de fatores; de fato, alguns pacotes estatísticos propositadamente confluem as técnicas. A verdadeira análise de fatores faz assunções diferentes sobre a estrutura subjacente dos dados e encontra os autovetores de uma matriz levemente diferente.

Upload: saudade96

Post on 16-Aug-2015

222 views

Category:

Documents


6 download

DESCRIPTION

acp

TRANSCRIPT

Anlise de Componentes Principais1Anlise de Componentes PrincipaisPCA de uma distribuio Gaussiana multivariadacentrada em (1,3) com um desvio padro de 3aproximadamente na direo (0.878, 0.478) edesvio padro 1 na direo ortogonal. Os vetoresna figura so os autovetores da matriz decovarincia multiplicados pela raiz quadrada doautovalor correspondente, e transladados deforma a iniciarem na mdia.AAnlisedeComponentesPrincipaisouprincipalcomponentanalysis(PCA)umprocedimentomatemticoqueutilizaumatransformao ortogonal para converter um conjunto de observaes devariveispossivelmentecorrelacionadasaumconjuntodevaloresdevariveislinearmentedescorrelacionadaschamadascomponentesprincipais. O nmero de componentes principais menor ou igual aonmero de variveis originais. Esta transformao definida de formaqueoprimeirocomponenteprincipaltemamaiorvarinciapossvel(ouseja,responsvelpelomximodevariabilidadenosdados),ecada componente seguinte, por sua vez, tem a mxima varincia sob arestriodeserortogonala(i.e.,no-correlacionadocom)oscomponentesanteriores.Oscomponentesprincipaissogarantidamenteindependentesapenasseosdadosforemnormalmentedistribudos(conjuntamente).OPCAsensvelescalarelativadasvariveis originais. Dependendo da rea de aplicao, o PCA tambmconhecidopelatransformadaKarhunenLove(KLT)discreta,transformadadeHotellingoudecomposioortogonalprpria (POD).O PCA foi inventado em 1901 por Karl Pearson.[1] Agora, mais comumente usado como uma ferramenta de anliseexploratria de dados e para fazer modelos preditivos. PCA pode ser feito por decomposio em autovalores de umamatrizdecovarincia(oudecorrelao)oupordecomposioemvaloressingularesdeumamatrizdedados,geralmentedepoisdecentralizar(enormalizarouusarpontuaes-Z)amatrizdedadosparacadaatributo.[2] OsresultadosdePCAsogeralmentediscutidosemtermospontuaesdecomponentes,tambmchamadosdepontuaesdefatores(osvaloresdevariveltransformadoscorrespondemaumpontodedadoparticular),ecarregamentos(loadings),i.e.,opesopeloqualcadavarivelnormalizadaoriginaldevesermultiplicadaparaseobter a pontuao de componente.[3]O PCA a mais simples das verdadeiras anlises multivariadas por autovetores. Com frequncia, sua operao podeser tomada como sendo reveladora da estrutura interna dos dados, de uma forma que melhor explica a varincia nosdados.Sevisualizarmosumconjuntodedadosmultivariadosemumespaodealtadimenso,com1eixoporvarivel, o PCA pode ser usado para fornecer uma visualizao em dimenses mais baixas dos mesmos dados, umaverdadeira "sombra" do objeto original quando visto de seu ponto mais informativo. Isto feito usando-se apenas osprimeiros componentes principais, de forma que a dimensionalidade dos dados transformados reduzida.OPCAfortementeligadoanlisedefatores;defato,algunspacotesestatsticospropositadamenteconfluemastcnicas. A verdadeira anlise de fatores faz assunes diferentes sobre a estrutura subjacente dos dados e encontraos autovetores de uma matriz levemente diferente.Anlise de Componentes Principais2DetalhesO PCA matematicamente definido [4] como uma transformao linear ortogonal que transforma os dados para umnovosistemadecoordenadasdeformaqueamaiorvarinciaporqualquerprojeodosdadosficaaolongodaprimeiracoordenada(ochamadoprimeirocomponente),asegundamaiorvarinciaficaaolongodasegundacoordenada, e assim por diante.Seja a matriz de dados, XT, com mdia emprica nula (i.e., a mdia emprica (amostral) da distribuio foi subtradadosdados),ondecadaumadasnlinhasrepresentaumarepetiodiferentedoexperimento,ecadaumadasmcolunasdumtipoparticulardedado(e.g.,osresultadosdeumadeterminadasonda).(Note-sequeXT definidaaqui e no X propriamente dito, e o que estamos chamando de XT por vezes denotado por X.) A decomposio emvaloressingularesdeXX=WVT,ondeamatrizmmWamatrizdeautovetoresdamatrizdecovarinciaXXT, a matriz m n e uma matriz diagonal retangular com nmeros reais no-negativos na diagonal, e a matrizn n V a matriz de autovetores de XTX. Assim, a transformao PCA que preserva a dimensionalidade (i.e., qued o mesmo nmero de componentes principais do que o nmero de variveis originais) dada por:V no definida unicamente no caso usual de m < n 1, mas Y vai, com frequncia, ser definida unicamente. ComoW(pordefiniodaSVDdeumamatrizreal)umamatrizortogonal,ecadalinhadeYT simplesmenteumarotao da linha correspondente de XT. A primeira coluna de YT feita das "pontuaes" dos casos relativamente aocomponente"principal",aprximacolunatemapontuaorelativamenteaosegundocomponente"principal",eassim por diante.Sedesejarmosumarepresentaodedimensionalidadereduzida,pode-seprojetarXaoespaoreduzidodefinidoapenas pelos primeiros L vetores singulares, WL:ondecoma matriz identidade retangular.A matriz W de vetores singulares de X 'e equivalentemente a matriz W de autovetores da matriz de covarincias C =X XT,Dadoumconjuntodepontosnoespaoeuclidiano,oprimeirocomponenteprincipalcorrespondeaumalinhaquepassaatravsdamdiamultidimensionaleminimizaasomadosquadradosdasdistnciasdospontoslinha.Osegundocomponenteprincipalcorrespondeaomesmoconceito,depoisdesubtrair-setodaacorrelaocomoprimeiro componente principal dos pontos. Os valores singulares (em ) so as razes quadradas dos autovalores damatriz XXT. Cada autovalor proporcional poro de "varincia" (mais precisamente da soma dos quadrados dasdistncias dos pontos mdia multidimensional dos mesmos) que correlacionada com cada autovetor. A soma detodososautovaloresigualsomadosquadradosdospontosmdiamultidimensionaldosmesmos.OPCAessencialmenterotacionaoconjuntodepontosemtornodamdiadeformaaalinh-loscomoscomponentesprincipais.Istomoveomximopossveldevarincia(usandoumatransformaoortogonal)aalgumasdasprimeirasdimenses.Osvaloresnasdimensesrestantes,portanto,tendemaserempequenosepodemserdescartadoscomomnimodeperdadeinformao.OPCAcomumenteutilizadodessamaneiraparareduodedimensionalidade. O PCA tem a distino de ser a melhor transformao ortogonal para manter o subespao que temamaior"varincia"(comodefinidahapouco).Noentanto,essavantagemtemopreodeexigirmaisrecursoscomputacionaissecomparadocom,porexemplo,atransformadadiscretadecossenos(quandoestatambmforaplicvel).Tcnicasdedimensodereducionalidadeno-lineartendemaseraindamaisdispendiosas(computacionalmente) do que o PCA.OPCAsensvelescaladasvariveis.Setivermosapenasduasvariveisdevarinciasamostraisiguaise positivamente correlacionadas, ento o PCA ir consistir de uma rotao de 45, e os "carregamentos" (ou loadings)Anlise de Componentes Principais3paraasduasvariveisrelativosaocomponenteprincipalseroiguais.Massemultiplicarmostodososvaloresdaprimeiravarivelpor100,entoocomponenteprincipalserquaseigualaessavarivel,comumapequenacontribuio da outra varivel, ao passo que o segundo componente ser quase que alinhado com a segunda variveloriginal. Isso significa que, sempre que as diferentes variveis tm unidades diferentes (como massa e temperatura),o PCA de certa forma um mtodo arbitrrio de anlise de dados. Por exemplo, resultados diferentes seriam obtidosseFarenheitfosseusadoemvezdeCelsius.Note-sequeoartigooriginaldePearsonfoiintitulado"OnLinesandPlanes of Closest Fit to Systems of Points in Space" "in space" (no espao) implica o espao fsico euclidiano, noqual tais ressalvas no ocorrem. Uma maneira de tornar o PCA menos arbitrrio usar as variveis renormalizadaspara varincia unitria.DiscussoSubtrao de mdia, ou "centralizao na mdia", necessria no PCA para garantir que os primeiros componentesprincipaisdescrevamadireodemximavarincia.Seasubtraodamdianoforfeita,osprimeiroscomponentesprincipaispodemcorrespondermaisoumenosmdiadosdados.Umamdiadezeronecessriapara encontrar a base que minimiza o erro quadrado mdio da aproximao dos dados.[5]Assumindo-seumamdiaempricanula,ouseja,amdiaempricadadistribuiofoisubtradadoconjuntodedados, o componente principal w1 de um conjunto de dados X pode ser definido como:(Verargmaxparaanotao.)Comosprimeirosk1componentes,ok-simocomponentepodeserencontradosubtrando-se os primeiroscomponentes principais de X:e substituindo-se isso como o novo conjunto de dados cujo componente principal obtido emO PCA equivalente a funes ortogonais empricas (EOF), um nome que usado em meteorologia.UmaredeneuralautoencodercomumacamadalinearescondidasimilaraoPCA.convergncia,osvetoresdepesodosKneurniosnacamadaescondidaformaroumabaseparaoespaoformadopelosprimeirosKcomponentes principais. Diferente do PCA, essa tcnica no necessariamente produz vetores ortogonais.O PCA uma tcnica fundamental em reconhecimento de padres. No entanto, no otimizado para separabilidadede classes.[6] Uma alternativa a LDA, que leva esse aspecto em considerao.Propriedades e limitaes do PCAComo visto acima, os resultados do PCA dependem da escala das variveis.A aplicabilidade do PCA limitada por certas premissas[7] feitas em sua derivao.Calculando o PCA atravs do mtodo da covarinciaOclculodoPCAusandoomtododacovarinciadescritonestaseo.[8] Note-se,porm,quemelhorusaradecomposio em valores singulares (com software padro de lgebra linear).OobjetivotransformarumdadoconjuntodedadosXdedimensoMnumconjuntoalternativoYdedimensomenor L. Equivalentemente, deseja-se a matriz Y, onde Y a KarhunenLove transform (KLT) da matriz X:Anlise de Componentes Principais4Organizar o conjunto de dadosSuponha-seumconjuntodedadossobreumconjuntodeobservaesdeMvariveis,ondeoobjetivoreduzirosdadosdeformaquecadaobservaopossaserdescritacomapenasLvariveis,L