capitulo ii ~ mÉtricas

Upload: rosa-pincay-jimenez

Post on 28-Feb-2018

235 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 CAPITULO II ~ MTRICAS

    1/24

    CAPITULO II

    2. MARCO TERICO CONCEPTUAL DE LOS MTODOS

    ESTADISTICOS

    Introduccin

    En este capitulo se define la estadstica descriptiva y los mtodos

    estadsticos multivariados que se utilizaron en el presente estudio. Dentro de

    los mtodos estadsticos multivariados descritos estn: (i) el anlisis de

    componentes principales, el cual detalla, sus caractersticas, ob etivos y la

    e!plicaci"n de la obtenci"n de ellas. El se#undo mtodo multivariado definido

    es (ii) el anlisis de con#lomerados, en este, se describen los ob etivos, las

    medidas de seme anza, distancia y las tcnicas de a#rupamiento. $omo

    %ltimo mtodo se tiene (iii) el anlisis discriminante, en el cual se detalla la

    obtenci"n de las funciones discriminante para los casos de dos o mas

    #rupos.

    2.1. Estad stica D!scri"ti#a

    Ti"os d! Cur#a

  • 7/25/2019 CAPITULO II ~ MTRICAS

    2/24

    En ocasiones, las frecuencias tienden a acumularse en el lado izquierdo de

    la #rafica con una cola o rama que se e!tiende &acia la derec&a. 'e dice que

    dic&a curva es sesgada o asimtrica. 'i la cola o e!tremidad va &acia la

    derec&a, este tipo de sesgo (o asimetra ) se conoce como positivo . Esta

    condici"n se denomina como ses#o ne#ativo.

    as curvas pueden clasificarse tambin con base en su #rado de

    a#udizaci"n o curtosis . ay tres tipos de curtosis. $uando la curva es muy

    a#uda y los e!tremos o cola estn mas por encima de la lnea de la base.

    Dic&a curva se llama leptocrtica. a curva que es al#o ac&atada se

    denomina mesocrtica, en tanto que la curva muy aplanada, se llama

    platocrtica .

    Dia$ra%a d! Ca&a

    *n dia#rama de ca a es una ilustraci"n #rfica, basada en cuartiles, que

    ayuda a visualizar un con unto de datos.

    'e requieren cinco tipos de datos para construir un dia#rama de ca a: el valor

    mnimo, el primer cuartil, la mediana, el tercer cuartil, y el valor m!imo.

    'i$ura 2.1Dia$ra%a d! Ca&a

    37

  • 7/25/2019 CAPITULO II ~ MTRICAS

    3/24

    +uente: .-. Do nie y /.0. eat&, 1234

    5utor: 6amela $ro

    Pru!(as d! )ondad d! A&ust!

    E!isten diferentes pruebas para verificar el a uste de los datos a una

    distribuci"n de probabilidad. as dos mas utilizadas son el contraste de X 2 de

    Pearson y la prueba de Kolmogorov-Smirnov .

    Pru!(a d! *o+%o$oro#,S%irno#

    Este contraste, que es valido %nicamente para variables continuas, compara

    la funci"n de distribuci"n (probabilidad acumulada) te"rica con la observada,

    calcula un valor de discrepancia, representado &abitualmente como D, que

    corresponde a la discrepancia m!ima en valor absoluto entre la distribuci"n

    observada y la distribuci"n te"rica, proporcionando asimismo un valor de

    probabilidad P , que corresponde, si estamos verificando un a uste a la

    distribuci"n normal, a la probabilidad de obtener una distribuci"n que

    discrepe tanto como la observada si verdaderamente se &ubiera obtenido

    38

  • 7/25/2019 CAPITULO II ~ MTRICAS

    4/24

    una muestra aleatoria, de tama7o n, de una distribuci"n normal. 'i esa

    probabilidad es #rande no &abr por tanto razones estadsticas para suponer

    que nuestros datos no proceden de una distribuci"n, mientras que si es

    peque7a, no ser aceptable suponer ese modelo probabilstica para los

    datos.

    2.2. Estad stica Mu+ti#ariada

    2.2.1. Introduccin

    a estadstica multivariada es usada para describir y analizar observaciones

    multidimensionales o multivariadas. *na observaci"n multidimensional se

    obtiene cuando se releva informaci"n sobre varias variables para cada

    unidad o 8individuo9 en estudio. a Estadstica -ultivariada provee

    &erramientas para comprender la relaci"n de dependencia entre variablesmedidas simultneamente sobre una misma unidad, para comparar, a#rupar

    y o clasificar observaciones multivariadas e incluso para comparar, a#rupar y

    clasificar variables. ;ran parte de la metodolo#a multivariada se basa en

    los conceptos de distancia y de dependencia lineal. as distancias sern

    usadas como medidas de variabilidad entre pares de puntos que

    representan los datos multivariados y a partir de ellas es posible analizar

    similitudes y diferencias entre observaciones y o variables. -ientras que el

    anlisis univariado e!plora datos de cada variable independientemente, el

    anlisis multivariado e!plora tablas de datos de varias variables y por tanto

    permite contemplar distintos tipos de dependencias entre variables:

    39

  • 7/25/2019 CAPITULO II ~ MTRICAS

    5/24

    dependencias entre cada para de variables, entre una variable y todas las

    restantes, entre pares de variables controlando por el efecto de otras en el

    sistema multivariado y dependencia con unta entre todas las variables.

    2.2.2. Matri- d! Datos Mu+ti#ariados

    a or#anizaci"n de datos para un anlisis multivariado #eneralmente se lo

    realiza en forma de una matriz con n filas, en cada fila se re#istran

    observaciones de un mismo individuo, y cada una de las p columnas

    representa una variable aleatoria. a Figura 2.2 muestra la matriz de datos

    multivariados de dimensi"n n!p. 5 esta matriz de datos la llamaremos X ,

    donde cada fila es un caso u observaci"n multivariada. *na observaci"n

    multivariada es la colecci"n de mediciones sobre p variables diferentes

    tomadas sobre el mismo tem o unidad ob eto de estudio.

    'i$ura 2.2Or$ani-acin d! Datos Mu+ti#ariados

    Variable

    Caso

    1 X 2 X j X p X

    1 11 X 12 X ... 1 j X ... 1 p X

    2 21 X 22 X ... 2 j X ... 2 p X . . . ... . ... .

    . . . ... . ... .

    n 1n X 2n X ... nj X ... np X

    +uente: /enc&er 5., 1223 5utor: 6amela $ro

    40

  • 7/25/2019 CAPITULO II ~ MTRICAS

    6/24

    $ada observaci"n multivariada puede ser representada como un punto en el

    espacio R p por un vector pbservando la matriz de datos multivariados puede observarse que los

    valores de p variables medidas en n individuos representan la colecci"n de p

    vectores columnas n

  • 7/25/2019 CAPITULO II ~ MTRICAS

    7/24

    variables artificiales (siendo menor que p) las mismas que se pretende,

    tendrn tanta informaci"n como las p variables ori#inales.

    El 5$6 provee una apro!imaci"n para la construcci"n de nuevas variables y

    para decidir cuntas de estas nuevas variables podran ser necesarias para

    representar la informaci"n ori#inal.

    2. .1. Caract!r sticas 0 O(&!ti#o

    'e presenta al#ebraicamente como una combinaci"n lineal de las p

    variables aleatorias observadas y #eomtricamente esta combinaci"n lineal

    representa la creaci"n de un nuevo sistema de coordenadas obtenidas al

    rotar el sistema ori#inal. 6ermite describir la estructura de interrelaci"n de

    variables ori#inales consideradas simultneamente, determinando as q

    combinaciones lineales de p variables observables que conten#an la mayor

    parte de la variable total, y as resumir y reducir los datos disponibles.

    El ob etivo de la tcnica consiste en:

    /educir el n%mero de variables consideradas tanto como sea posible.

    Encontrar una e!plicaci"n de los factores que inciden en el

    comportamiento de las p variables ori#inales.

    42

  • 7/25/2019 CAPITULO II ~ MTRICAS

    8/24

    2. .2. Matri- d! arian-a , Co#arian-a

    as componentes principales, dependen solamente de la matriz de

    Farianzas

  • 7/25/2019 CAPITULO II ~ MTRICAS

    9/24

    ten#a lon#itud 1. Esta restricci"n debe ser impuesta ya que de lo contrario la

    varianza de la combinaci"n lineal podra incrementarse indeterminadamente

    a travs de la multiplicaci"n del vector de coeficientes de la combinaci"n por

    al#una constante.

    2. . . Pro"orcin d! +a arian-a Po(+aciona+ Tota+

    El numero de componentes principales posibles de construir es p, pero para

    obtener una dimensi"n de reducci"n se selecciona un orden d J p de

    combinaciones lineales, la cual retendr una proporci"n de varianza total no

    menos del KLM y se usan estas combinaciones como nuevas variables para

    #raficar y analizar los datos sin mayor prdida de informaci"n.

    2. .3. O(t!ncin d! +as Co%"on!nt!s Princi"a+!s

    6ara su obtenci"n no se requiere el supuesto de normalidad multivariada,

    por otra parte, si las componentes principales se derivan de una poblaci"n

    normal multivariada se tienen interpretaciones en trminos de las elipsoides

    de confianza.

    a tcnica de anlisis de datos, se basa en el al#ebra lineal, presenta

    mtodos descriptivos que no &acen nin#%n tipo de &ip"tesis probabilsticas,

    mas bien dan prioridad a la informaci"n pero en la b%squeda de

    interpretaci"n de los factores, se pueden su#erir formulas de &ip"tesis, a

    partir de los resultados

    44

  • 7/25/2019 CAPITULO II ~ MTRICAS

    10/24

    2. . An/+isis d! Con$+o%!radoEl 85nlisis de $on#lomerados9 es una tcnica multivariada que se utiliza

    para a#rupar observaciones, variables o entidades de un con unto de datos

    en base a sus seme anzas o diferencias. os ob etos pueden corresponder a

    estructuras identificables como fsicas o psicol"#icas (personas, empresas,

    pases, etc.). as variables son las caractersticas con respecto a las cuales

    los ob etos varan entre s y que permiten diferenciarlos.

    2. .1. O(&!ti#o d!+ An/+isis d! Con$+o%!rado

    El anlisis de con#lomerado tiene como finalidad ubicar los ob etos en

    #rupos o clusters de forma su#erida por los datos, no definidos 8a priori9, tal

    que los ob etos en un #rupo dado tiendan a ser seme antes en al#%n aspecto

    (co&esi"n interna del #rupo) y los ob etos en diferentes #rupos tiendan a ser

    distintos (aislamiento e!terno del #rupo). ;eneralmente es utilizado para

    conocer el n%mero de #rupos y la estructura de estos mismos. ay otros

    usos que se le da al anlisis de con#lomerados como el de clasificaci"n

    automtica, la cual parte de la e!istencia de un n%mero determinado de

    #rupos y lo que &ace es &allar una se#mentaci"n razonable de los ob etos.

    Nambin se lo usa para resumir datos o disminuir dimensi"n ms que

    encontrar #rupos 8naturales9 o 8artificiales9, a este procedimiento se lo llama

    tambin disecci"n.

    45

  • 7/25/2019 CAPITULO II ~ MTRICAS

    11/24

    2. .2. M!didas d! s!%!&an-aEn el anlisis de con#lomerados se parte de una matriz de datos n ! p

    (supon#amos p mediciones o variables en cada uno de los n ob etos

    estudiados) que lue#o es transformada en una matriz de pro!imidad (n ! n)

    que mide la seme anza o la distancia entre pares de ob etos i y para i, I1,...,

    n. ue#o se eli#e un al#oritmo de clasificaci"n que define las re#las

    concernientes al procedimiento de a#rupaci"n de los ob etos o variables en

    sub#rupos en base a sus pro!imidades. 5l#oritmos diferentes se basan en

    diferentes definiciones de clusters y de seme anzas entre los ob etos a

    a#rupar.

    2. . . Distancias

    Dado que el ob etivo bsico del anlisis de con#lomerados es medir la

    asociaci"n entre las entidades a a#rupar, es necesario que se establezca

    una medida de similaridad, o su complemento (medida de disimilaridad). En

    la formaci"n de #rupos, la pro!imidad est dada por al#%n tipo de distancia.

    a selecci"n de una medida de distancia apropiada es fundamental en el uso

    de cualquier tcnica de a#rupamiento, sin embar#o la selecci"n de esta

    depende de la naturaleza de las variables ya sean estas: binaria, discreta,

    continua, de la escala de medici"n (nominal, ordinal, intervalo, cociente) y

    del conocimiento del ob eto de estudio.

    46

  • 7/25/2019 CAPITULO II ~ MTRICAS

    12/24

    6ara los datos con propiedades mtricas pueden usarse distancias

    derivadas de la mtrica de -in os i, mientras que con datos cualitativos o

    atributos son ms apropiadas medidas de coincidencia o similaridad.

    'upon#amos que se desea a#rupar n observaciones multivariadas, cada

    una representada por un vector aleatorio p

  • 7/25/2019 CAPITULO II ~ MTRICAS

    13/24

    Nransformar distancias en medidas de asociaci"n es bastante sencillo, la

    similitud entre el ob eto i y k es 1 (1 Q d i ) si d i es la distancia entre ellos.

    'in embar#o, lo contrario no es cierto, debido a que las distancias deben

    satisfacer las condiciones de positividad, simetra y desi#ualdad trian#ular.

    ;o er mostr" que si la matriz de similitudes es definida no

  • 7/25/2019 CAPITULO II ~ MTRICAS

    14/24

    son sometidas a un al#oritmo de clasificaci"n para a#rupar observaciones

    y o variables.

    2. . .1. T4cnicas d! a$ru"a%i!nto &!r/r5uico

    as tcnicas de a#rupamiento errquicas estn or#anizados de tal manera

    que un cluster puede estar contenido completamente dentro de otro cluster,

    pero no est permitido otro tipo de superposici"n entre ellos. os al#oritmos

    de clasificaci"n errquicos utilizados con fines de a#rupamiento pueden ser

    acumulativos o a#lomerativos y divisorios.

    En el caso de los a#lomerativos, estos se determinan a travs de fusiones de

    los n ob etos variables por una serie de uniones sucesivas= donde en el inicio

    &ay tantos #rupos como ob etos y los ob etos similares se a#rupan primero y

    esos #rupos iniciales son lue#o unidos de acuerdo a sus similitudes, como

    las diferencias van disminuyendo, al final todos los sub#rupos formarn un

    solo #rupo. -ientras que en el caso de los divisorios particionan los n

    ob etos variables en subdivisiones cada vez ms finas.

    os mtodos ms utilizados en la prctica de anlisis estadstico de datos

    son los mtodos acumulativos o a#lomerativos.

    *tilizando el procedimiento errquico a#lomerativo, se muestran el si#uiente

    dendro#rama los resultados del a#rupamiento, en el que se pueden observar

    las uniones y o divisiones que se van realizando en cada nivel del proceso

    de construcci"n de con#lomerados 6'i$ura 2. 7. En el dendro#rama se traz"

    49

  • 7/25/2019 CAPITULO II ~ MTRICAS

    15/24

    una lnea de referencia a nivel de una ma#nitud de distancia i#ual a L, en la

    cual se pueden identificar L con#lomerados, si la referencia &ubiese estado

    en 3, se &abran clasificado los ob etos en H #rupos.

    'i$ura 2. D!ndro$ra%a Construido "or un Proc!di%i!nto 8!r/r5uico

    A$+o%!rati#o d! C+asi9icacin

    Encadenamiento promedio (average linkage)

    S.SS 1.KH G.H3 L.BB 4.24 3.KS 1S.HH 1B.13

    Distancia

    H1KS

    1L4BSBBHSLSKGG4LBBL1KLB1

    KL4K

    GGKLLL

    +uente: /enc&er 5., 1223 5utor: 6amela $ro

    *na de las principales caractersticas de los procedimientos de

    a#rupamiento errquicos a#lomerativos es que la ubicaci"n de un ob eto en

    un #rupo (cluster) no cambia, o sea, que una vez que un ob eto se ubic" en

    un con#lomerado, no se lo reubica, s"lo puede ser fusionado con otros

    50

  • 7/25/2019 CAPITULO II ~ MTRICAS

    16/24

    ob etos pertenecientes a al#%n otro con#lomerado, para formar un tercero

    que incluye a ambos.

    Nodos los mtodos acumulativos proceden de manera seme ante:

    1. $ada ob eto pertenece a un con#lomerado diferente, lue#o

    B. 'e fusionan los dos ob etos variables ms cercano (con#lomerado)=

    G. *n nuevo ob eto variable se a#re#a al con#lomerado formado por

    esos dos ob etos variables u otros dos ob etos variables se fusionan

    formando otro con#lomerado.

    H. El proceso contin%a de manera similar &asta que, eventualmente,

    se forma un solo con#lomerado que contiene todos los

    ob etos variables como inte#rantes del mismo.

    as tcnicas de a#rupamiento errquico difieren por las definiciones

    alternativas de distancia o seme anza que utiliza. as tcnicas acumulativas

    ms comunes son:

    2.4.4.1.1. Encad!na%i!nto Si%"+! 6Sin$+! +in:a$!7

    Este mtodo utiliza el concepto de mnima distancia y comienza buscando

    los dos ob etos variables que la minimizan. Ellos constituyen el primer

    con#lomerado. En las etapas si#uientes se procede como se &a e!plicitado

    en el punto anterior, pero partiendo de n

  • 7/25/2019 CAPITULO II ~ MTRICAS

    17/24

    con#lomerado formado anteriormente. a distancia entre con#lomerados

    est definida como la distancia entre sus miembros ms cercanos.

    Dado que el procedimiento de encadenamiento simple une con#lomerados

    en funci"n de la mnima distancia entre ellos, el procedimiento puede tener

    problemas cuando &ay #rupos muy cercanos o con cierta superposici"n. El

    procedimiento de encadenamiento simple, es uno de los pocos

    procedimientos de clasificaci"n que tienen un buen desempe7o con

    confi#uraciones de con#lomerados no

  • 7/25/2019 CAPITULO II ~ MTRICAS

    18/24

    Este al#oritmo si#ue el mismo procedimiento que los al#oritmos de

    encadenamiento simple y completo e!cepto que las distancias entre

    con#lomerados se definen como el promedio de distancias entre todos los

    pares de puntos, con cada miembro del par perteneciendo a uno de los

    con#lomerados del par.

    .

    2. . .1. . Otros Proc!di%i!ntos d! A$ru"a%i!nto 8!r/r5uicos

    C!ntroid!

    Noma el promedio de todos los ob etos en un con#lomerado (centroide) para

    representar al con#lomerado y medir distancias entre ob etos y el

    con#lomerado o entre con#lomerados.

    ;ard

    6romedia todas las distancias entre los pares de ob etos en diferentes

    #rupos, a ustando por las covarianzas.

    2. . .2. Proc!di%i!ntos No,&!r/r5uicos

    *no de los mtodos no errquico de a#rupamiento ms utilizado es el

    procedimiento conocido como 8T

  • 7/25/2019 CAPITULO II ~ MTRICAS

    19/24

    2. . .2.1. *,%!ans

    El procedimiento comienza con un a#rupamiento inicial o con un #rupo de

    puntos semilla (centroides) que formarn los centros de #rupo (partici"n

    inicial del #rupo de ob etos en T items). 6rosi#ue asi#nando cada ob eto al

    #rupo que tiene el centroide (media) ms cercano. ;eneralmente se utiliza

    distancia Eucldea con observaciones estandarizadas o no. /ecalcula el

    centroide para el con#lomerado que recibi" un nuevo tem y para el que lo

    perdi". /epite el accionar descrito varias veces &asta que ya no e!isten ms

    re

  • 7/25/2019 CAPITULO II ~ MTRICAS

    20/24

    conoce a qu #rupo pertenecen. Esta observaci"n nueva (no usada en la

    construcci"n de la re#la de clasificaci"n), se asi#nar al #rupo en el cual

    tienen ms probabilidad de pertenecer en base a sus caractersticas

    medidas. 6ara tal asi#naci"n es necesario definir re#las de clasificaci"n.

    5 diferencia del anterior, en el anlisis discriminante descriptivo estamos ms

    interesados en las variables empleadas para diferenciar los #rupos, y lo que

    deseamos es determinar cules de esas variables son las que ms

    diferencian a los #rupos, cuales son importantes y cuales no a efectos de

    clasificar los su etos.

    2.3.1. O(t!ncin d! +as 9uncion!s discri%inant!s

    Ncnicamente, se puede decir que el anlisis discriminante tratar

    de encontrar funciones de variables cuyos valores separen o discriminen lo

    ms posible a los #rupos e!istentes. Estas funciones, denominadas

    funciones o e es discriminantes, sern combinaciones lineales de las

    variables ori#inales de la forma:

    < I a S Q a 1? 1 Q a B? B Q C. Q a p? p

    donde p es el n%mero de variables e!plicativas y los coeficientes Ua S, a 1,C.,

    a pV se eli#en de tal forma que se consi#a la m!ima separaci"n entre los

    #rupos e!istentes, es decir, tratando de que los valores que toman

    estas funciones discriminantes W en los #rupos sean lo ms diferentes

    posibles.

    55

  • 7/25/2019 CAPITULO II ~ MTRICAS

    21/24

    Varianza entre Grupo

    Varianza !entro !e Grupo

    Estadsticamente, este criterio equivale a ma!imizar la varianza 8entre

    #rupos9 frente a la varianza 8dentro de #rupos9. 6or tanto, los coeficientes Ua S,

    a 1,C., a pV se ele#irn de tal forma que se consi#a ma!imizar el valor del

    cociente:

    =__________________________

    'i la varianza 8entre #rupos9 es #rande, es decir si &ay #randes

    diferencias entre los valores que toma la funci"n W en los distintos

    #rupos, pero la varianza 8dentro de #rupos9 es peque7a, es decir, los

    valores de W para municipios de un mismo #rupo son muy similares, entonces

    diremos que la funci"n discriminante separa bien a los #rupos, que sern,

    internamente muy &omo#neos y a la vez muy diferentes entre s.

    ay que se7alar que el n%mero de funciones que pueden obtenerse es el

    mnimo entre el n%mero de variables e!plicativas disponibles y el

    n%mero de #rupos menos uno. Estas funciones se obtienen de forma

    sucesiva en funci"n de su capacidad discriminatoria. 5s, la primera

    funci"n discriminante, que ser de la forma:

  • 7/25/2019 CAPITULO II ~ MTRICAS

    22/24

    'er la si#uiente en capacidad discriminatoria y adems, estar

    incorrelacionada con la funci"n anterior W 1.

    En ciertas ocasiones, la capacidad discriminatoria de la primera funci"n,

    W1, es tan #rande, que la informaci"n a7adida por la se#unda funci"n W B

    apenas es relevante y sta se i#nora, ya que su contribuci"n a la separaci"n

    entre los #rupos no es si#nificativa.

    El ob etivo del anlisis discriminante es, precisamente, me orar la

    separaci"n entre #rupos utilizando no s"lo un par de variables, sino

    todas variables disponibles. 6ara ello, la informaci"n de todas las

    variables se combina en unas funciones lineales que son las denominadas

    funciones discriminantes

    2.3.2. An/+isis Discri%inant! d! 'is=!r

    +is&er (12G4) present" la primera apro!imaci"n a la clasificaci"n multivariante

    para el caso de dos #rupos. os coeficientes propuestos por +is&er se utilizan

    %nicamente para la 8clasificaci"n9. 5l solicitar esta opci"n se obtiene una

    funci"n de clasificaci"n para cada #rupo. En el caso de dos #rupos, la

    diferencia entre ambas funciones da lu#ar a un vector de coeficientes

    proporcional a los coeficientes no tipificados de la funci"n discriminante

    can"nica. 6ara aplicar estos coeficientes, se calcula cada una de las

    funciones para un su eto dado y se clasifica al su eto en el #rupo en el que la

    57

  • 7/25/2019 CAPITULO II ~ MTRICAS

    23/24

    funci"n obtiene una puntuaci"n mayor.

    Es importante mencionar que el mtodo de +is&er no requiere del supuesto

    de normalidad multivariada, asume matrices de covarianzas &omo#neas

    entre #rupos y usa la mtrica de -a&alanobis para la discriminaci"n.

    2.3. . An/+isis Discri%inant! Cannico 6ADC7

    $uando ms de dos #rupos o poblaciones describen la estructura de las

    observaciones, el mtodo de +is&er es #eneralizado ba o el nombre de

    anlisis discriminante can"nico.

    a l"#ica del 5D$ para la separaci"n de los #rupos se sustenta en la

    obtenci"n de la combinaci"n lineal (X) de las variables independientes (W i),

    de forma que la correlaci"n entre X y W i sea ma!imizada. a idea bsica en el

    5D$ es encontrar los valores de los coeficientes que ma!imicen la

    correlaci"n entre X y W i. El 5D$ transforma las variables ori#inales en un

    n%mero peque7o de variables compuestas, denominadas funciones o

    variables can"nicas, que ma!imizan la variaci"n entre los #rupos y minimizan

    la variaci"n dentro de ellos.

    a combinaci"n lineal para una funci"n discriminante (X) puede ser

    representada por:

    X I Y 1 W1 Q YB WB Q ... Q Yi Wi

    58

  • 7/25/2019 CAPITULO II ~ MTRICAS

    24/24

    Donde Y i es el coeficiente can"nico y W i son las variables independientes

    medidas.

    El n%mero m!imo de funciones discriminantes can"nicas #eneradas es i#ual

    al n%mero de #rupos menos uno.

    a distancia de -a&alanobis (D B), definida como el cuadrado de la distancia

    entre las medidas de los valores estandarizados de X (centros), fue utilizada

    para verificar si e!istan diferencias si#nificativas entre los #rupos. De esa

    forma, cuanto mayor el valor de D B, mayor la distancia entre las medias de

    los dos #rupos considerados. El centro de cada #rupo representa el valor

    medio discriminante de los individuos de cada tratamiento. El estadstico

    lambda de 0il s fue usado para evaluar si las funciones discriminantes

    can"nicas contribuyeron si#nificativamente en la separaci"n de los #rupos.