Transcript

Anlise de Componentes Principais1Anlise de Componentes PrincipaisPCA de uma distribuio Gaussiana multivariadacentrada em (1,3) com um desvio padro de 3aproximadamente na direo (0.878, 0.478) edesvio padro 1 na direo ortogonal. Os vetoresna figura so os autovetores da matriz decovarincia multiplicados pela raiz quadrada doautovalor correspondente, e transladados deforma a iniciarem na mdia.AAnlisedeComponentesPrincipaisouprincipalcomponentanalysis(PCA)umprocedimentomatemticoqueutilizaumatransformao ortogonal para converter um conjunto de observaes devariveispossivelmentecorrelacionadasaumconjuntodevaloresdevariveislinearmentedescorrelacionadaschamadascomponentesprincipais. O nmero de componentes principais menor ou igual aonmero de variveis originais. Esta transformao definida de formaqueoprimeirocomponenteprincipaltemamaiorvarinciapossvel(ouseja,responsvelpelomximodevariabilidadenosdados),ecada componente seguinte, por sua vez, tem a mxima varincia sob arestriodeserortogonala(i.e.,no-correlacionadocom)oscomponentesanteriores.Oscomponentesprincipaissogarantidamenteindependentesapenasseosdadosforemnormalmentedistribudos(conjuntamente).OPCAsensvelescalarelativadasvariveis originais. Dependendo da rea de aplicao, o PCA tambmconhecidopelatransformadaKarhunenLove(KLT)discreta,transformadadeHotellingoudecomposioortogonalprpria (POD).O PCA foi inventado em 1901 por Karl Pearson.[1] Agora, mais comumente usado como uma ferramenta de anliseexploratria de dados e para fazer modelos preditivos. PCA pode ser feito por decomposio em autovalores de umamatrizdecovarincia(oudecorrelao)oupordecomposioemvaloressingularesdeumamatrizdedados,geralmentedepoisdecentralizar(enormalizarouusarpontuaes-Z)amatrizdedadosparacadaatributo.[2] OsresultadosdePCAsogeralmentediscutidosemtermospontuaesdecomponentes,tambmchamadosdepontuaesdefatores(osvaloresdevariveltransformadoscorrespondemaumpontodedadoparticular),ecarregamentos(loadings),i.e.,opesopeloqualcadavarivelnormalizadaoriginaldevesermultiplicadaparaseobter a pontuao de componente.[3]O PCA a mais simples das verdadeiras anlises multivariadas por autovetores. Com frequncia, sua operao podeser tomada como sendo reveladora da estrutura interna dos dados, de uma forma que melhor explica a varincia nosdados.Sevisualizarmosumconjuntodedadosmultivariadosemumespaodealtadimenso,com1eixoporvarivel, o PCA pode ser usado para fornecer uma visualizao em dimenses mais baixas dos mesmos dados, umaverdadeira "sombra" do objeto original quando visto de seu ponto mais informativo. Isto feito usando-se apenas osprimeiros componentes principais, de forma que a dimensionalidade dos dados transformados reduzida.OPCAfortementeligadoanlisedefatores;defato,algunspacotesestatsticospropositadamenteconfluemastcnicas. A verdadeira anlise de fatores faz assunes diferentes sobre a estrutura subjacente dos dados e encontraos autovetores de uma matriz levemente diferente.Anlise de Componentes Principais2DetalhesO PCA matematicamente definido [4] como uma transformao linear ortogonal que transforma os dados para umnovosistemadecoordenadasdeformaqueamaiorvarinciaporqualquerprojeodosdadosficaaolongodaprimeiracoordenada(ochamadoprimeirocomponente),asegundamaiorvarinciaficaaolongodasegundacoordenada, e assim por diante.Seja a matriz de dados, XT, com mdia emprica nula (i.e., a mdia emprica (amostral) da distribuio foi subtradadosdados),ondecadaumadasnlinhasrepresentaumarepetiodiferentedoexperimento,ecadaumadasmcolunasdumtipoparticulardedado(e.g.,osresultadosdeumadeterminadasonda).(Note-sequeXT definidaaqui e no X propriamente dito, e o que estamos chamando de XT por vezes denotado por X.) A decomposio emvaloressingularesdeXX=WVT,ondeamatrizmmWamatrizdeautovetoresdamatrizdecovarinciaXXT, a matriz m n e uma matriz diagonal retangular com nmeros reais no-negativos na diagonal, e a matrizn n V a matriz de autovetores de XTX. Assim, a transformao PCA que preserva a dimensionalidade (i.e., qued o mesmo nmero de componentes principais do que o nmero de variveis originais) dada por:V no definida unicamente no caso usual de m < n 1, mas Y vai, com frequncia, ser definida unicamente. ComoW(pordefiniodaSVDdeumamatrizreal)umamatrizortogonal,ecadalinhadeYT simplesmenteumarotao da linha correspondente de XT. A primeira coluna de YT feita das "pontuaes" dos casos relativamente aocomponente"principal",aprximacolunatemapontuaorelativamenteaosegundocomponente"principal",eassim por diante.Sedesejarmosumarepresentaodedimensionalidadereduzida,pode-seprojetarXaoespaoreduzidodefinidoapenas pelos primeiros L vetores singulares, WL:ondecoma matriz identidade retangular.A matriz W de vetores singulares de X 'e equivalentemente a matriz W de autovetores da matriz de covarincias C =X XT,Dadoumconjuntodepontosnoespaoeuclidiano,oprimeirocomponenteprincipalcorrespondeaumalinhaquepassaatravsdamdiamultidimensionaleminimizaasomadosquadradosdasdistnciasdospontoslinha.Osegundocomponenteprincipalcorrespondeaomesmoconceito,depoisdesubtrair-setodaacorrelaocomoprimeiro componente principal dos pontos. Os valores singulares (em ) so as razes quadradas dos autovalores damatriz XXT. Cada autovalor proporcional poro de "varincia" (mais precisamente da soma dos quadrados dasdistncias dos pontos mdia multidimensional dos mesmos) que correlacionada com cada autovetor. A soma detodososautovaloresigualsomadosquadradosdospontosmdiamultidimensionaldosmesmos.OPCAessencialmenterotacionaoconjuntodepontosemtornodamdiadeformaaalinh-loscomoscomponentesprincipais.Istomoveomximopossveldevarincia(usandoumatransformaoortogonal)aalgumasdasprimeirasdimenses.Osvaloresnasdimensesrestantes,portanto,tendemaserempequenosepodemserdescartadoscomomnimodeperdadeinformao.OPCAcomumenteutilizadodessamaneiraparareduodedimensionalidade. O PCA tem a distino de ser a melhor transformao ortogonal para manter o subespao que temamaior"varincia"(comodefinidahapouco).Noentanto,essavantagemtemopreodeexigirmaisrecursoscomputacionaissecomparadocom,porexemplo,atransformadadiscretadecossenos(quandoestatambmforaplicvel).Tcnicasdedimensodereducionalidadeno-lineartendemaseraindamaisdispendiosas(computacionalmente) do que o PCA.OPCAsensvelescaladasvariveis.Setivermosapenasduasvariveisdevarinciasamostraisiguaise positivamente correlacionadas, ento o PCA ir consistir de uma rotao de 45, e os "carregamentos" (ou loadings)Anlise de Componentes Principais3paraasduasvariveisrelativosaocomponenteprincipalseroiguais.Massemultiplicarmostodososvaloresdaprimeiravarivelpor100,entoocomponenteprincipalserquaseigualaessavarivel,comumapequenacontribuio da outra varivel, ao passo que o segundo componente ser quase que alinhado com a segunda variveloriginal. Isso significa que, sempre que as diferentes variveis tm unidades diferentes (como massa e temperatura),o PCA de certa forma um mtodo arbitrrio de anlise de dados. Por exemplo, resultados diferentes seriam obtidosseFarenheitfosseusadoemvezdeCelsius.Note-sequeoartigooriginaldePearsonfoiintitulado"OnLinesandPlanes of Closest Fit to Systems of Points in Space" "in space" (no espao) implica o espao fsico euclidiano, noqual tais ressalvas no ocorrem. Uma maneira de tornar o PCA menos arbitrrio usar as variveis renormalizadaspara varincia unitria.DiscussoSubtrao de mdia, ou "centralizao na mdia", necessria no PCA para garantir que os primeiros componentesprincipaisdescrevamadireodemximavarincia.Seasubtraodamdianoforfeita,osprimeiroscomponentesprincipaispodemcorrespondermaisoumenosmdiadosdados.Umamdiadezeronecessriapara encontrar a base que minimiza o erro quadrado mdio da aproximao dos dados.[5]Assumindo-seumamdiaempricanula,ouseja,amdiaempricadadistribuiofoisubtradadoconjuntodedados, o componente principal w1 de um conjunto de dados X pode ser definido como:(Verargmaxparaanotao.)Comosprimeirosk1componentes,ok-simocomponentepodeserencontradosubtrando-se os primeiroscomponentes principais de X:e substituindo-se isso como o novo conjunto de dados cujo componente principal obtido emO PCA equivalente a funes ortogonais empricas (EOF), um nome que usado em meteorologia.UmaredeneuralautoencodercomumacamadalinearescondidasimilaraoPCA.convergncia,osvetoresdepesodosKneurniosnacamadaescondidaformaroumabaseparaoespaoformadopelosprimeirosKcomponentes principais. Diferente do PCA, essa tcnica no necessariamente produz vetores ortogonais.O PCA uma tcnica fundamental em reconhecimento de padres. No entanto, no otimizado para separabilidadede classes.[6] Uma alternativa a LDA, que leva esse aspecto em considerao.Propriedades e limitaes do PCAComo visto acima, os resultados do PCA dependem da escala das variveis.A aplicabilidade do PCA limitada por certas premissas[7] feitas em sua derivao.Calculando o PCA atravs do mtodo da covarinciaOclculodoPCAusandoomtododacovarinciadescritonestaseo.[8] Note-se,porm,quemelhorusaradecomposio em valores singulares (com software padro de lgebra linear).OobjetivotransformarumdadoconjuntodedadosXdedimensoMnumconjuntoalternativoYdedimensomenor L. Equivalentemente, deseja-se a matriz Y, onde Y a KarhunenLove transform (KLT) da matriz X:Anlise de Componentes Principais4Organizar o conjunto de dadosSuponha-seumconjuntodedadossobreumconjuntodeobservaesdeMvariveis,ondeoobjetivoreduzirosdadosdeformaquecadaobservaopossaserdescritacomapenasLvariveis,L


Top Related