análise descritiva e exploratória de dados

29
U NIVERSIDADE F EDERAL DE S ÃO C ARLOS C ENTRO DE C IÊNCIAS E XATAS E DE T ECNOLOGIA D EPARTAMENTO DE E STATÍSTICA I NTRODUÇÃO AO P LANEJAMENTO E A NÁLISE E STATÍSTICA DE E XPERIMENTOS - C C APÍTULO 2 A NÁLISE D ESCRITIVA E E XPLORATÓRIA DE D ADOS E LABORADO P OR : P ROF . P EDRO F ERREIRA F ILHO 1 º S EMESTRE DE 2009

Upload: maryana-scoralick

Post on 02-Oct-2015

224 views

Category:

Documents


1 download

DESCRIPTION

Elaborado por: Pedro Ferreira Filho - UFSCar

TRANSCRIPT

  • UUNNIIVVEERRSS IIDDAADDEE FFEEDDEERRAALL DDEE SSOO CCAARRLLOOSS CC EENN TTRROO DD EE CC II NNCC II AA SS EE XXAA TT AASS EE DD EE TT EE CCNNOO LLOOGG II AA

    DD EE PP AARR TT AAMMEENN TTOO DD EE EE SS TT AA TT SS TT II CC AA

    IINNTTRROODDUUOO AAOO PPLLAANNEEJJAAMMEENNTTOO EE AANNLLIISSEE EESSTTAATTSSTTIICCAA DDEE

    EEXXPPEERRIIMMEENNTTOOSS -- CC

    CCAAPP TTUULLOO 22

    AANN LL II SS EE DD EE SS CCRR II TT II VV AA EE EE XXPP LL OORRAA TTRR II AA DD EE DD AADDOOSS

    EE LL AA BBOORR AA DDOO PPOORR :: PP RROO FF .. PP EE DD RROO FF EE RR RR EE II RR AA FF II LL HH OO

    11 SS EEMMEE SS TT RR EE DD EE 22000099

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 12

    22 .. AANN LL II SS EE DD EE SS CCRR II TT II VV AA EE EE XX PP LL OORRAA TTRR II AA DD EE DD AADDOOSS :: Um estudo, ou investigao de uma determinada hiptese, deve do ponto de

    vista estatstico, contemplar as etapas de planejamento, coleta, organizao, anlise

    descritiva e exploratria dos dados, inferncia estatstica e a tomada de decises

    (concluses).

    O papel da estatstica pode ser considerado como a de uma minerao de

    dados. Os dados devem ser cuidadosamente coletados (observados), devidamente

    conhecidos e utilizados para analisar e interpretar a sua variabilidade de forma a

    possibilitar uma correta resposta hiptese em estudo.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 13

    22 .. 11 .. CCOONNCC EE II TTOOSS BB SS II CCOOSS EEMM EE SS TT AA TT SS TT II CC AA ::

    INFORMAO NUMRICA: Um conjunto de dados estatsticos consiste de uma ou mais medidas, escores

    ou valores observados (coletados) de certo nmero de indivduos, objetos, ensaios,

    experimentos, etc.

    ASPECTO BSICO DA INFORMAO: A anlise estatstica de um conjunto de dados s faz sentido quando existir

    variabilidade nos valores observados, ou seja, os valores devem apresentar

    diferenas nas diferentes unidades de observao utilizadas. A no existncia de

    variabilidade entre os valores observados torna desnecessria a utilizao de

    qualquer mtodo estatstico.

    POPULAO: Conjunto de indivduos ou objetos os quais o pesquisador tem interesse, que

    apresentam relevncia para a investigao de hiptese em estudo. Podemos ainda

    dizer que a populao formada por todos os valores possveis de serem observados

    numa dada situao. No caso de estudos experimentais, o alvo sempre uma dada

    populao. A resposta para a hiptese de interesse dada por uma concluso a

    respeito da populao em estudo.

    Nesse sentido fundamental, m qualquer situao, definir claramente qual a

    populao que se tem interesse. Muitas vezes, por incrvel que parea, isso no est

    suficientemente claro para os responsveis pelo estudo (experimento).

    Conseqentemente, corre-se o risco de estender concluses a situaes mais amplas

    do que aquelas realmente possveis a partir do estudo realizado.

    Uma populao pode ser classificada em duas diferentes situaes:

    Populao Finita: Todos os elementos da populao so

    conhecidos e possveis de serem identificados;

    Populao Infinita: No possvel uma enumerao de todos

    os elementos da populao;

    Uma populao pode ser investigada a partir da observao de seus

    elementos atravs de duas diferentes formas: Censo ou Amostra.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 14

    CENSO: Denominamos de censo aquelas situaes onde a investigao realizada a

    partir da observao de todos os elementos de uma populao. Esse tipo de

    observao somente possvel em populaes finitas.

    AMOSTRA: Na grande maioria das vezes (quase sempre!) no possvel observar todos

    os elementos de uma populao, porm possvel observar-se uma parte desta

    populao. O conjunto de elementos efetivamente observado denominado

    amostra. Podemos ento dizer que uma amostra todo e qualquer subconjunto

    necessariamente finito da populao.

    Para que a amostra seja uma representao realista, no tendenciosa, da

    populao, necessrio que seus elementos sejam escolhidos de forma

    rigorosamente aleatria. Esta condio fundamental na prtica, porque as

    inferncias estatsticas sempre supem que as amostras so representativas da

    populao. Por isso ao realizar um experimento, devemos sempre tomar o cuidado

    para coletar os dados de modo que a hiptese de aleatoriedade, seja se no,

    rigorosamente, pelo menos aproximadamente obedecida.

    Amostra Aleatria:

    Amostra de N valores ou indivduos (unidades experimentais) obtidos de tal

    forma que todos os possveis elementos da populao tenham a mesma chance de

    participar na amostra.

    OBTENO DE UMA AMOSTRA EM PESQUISAS CIENTFICAS:

    Nas pesquisas cientficas as amostras, em geral so obtidas de duas diferentes

    formas: Estudos observacionais e experimentos planejados.

    Nos estudos observacionais os dados so obtidos medida que se tornam

    disponveis. Por exemplo, suponha que um pesquisador esteja avaliando o

    desempenho de um processo de fabricao de componentes plsticos atravs da

    injeo em molde. Pode-se observar o processo, selecionar componentes medida

    que so fabricados e medir importantes caractersticas de interesse, tais como a

    espessura da parede, o encolhimento ou a resistncia da pea. O pesquisador pode

    MarianaDestacar

    MarianaDestacar

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 15

    medir tambm e registrar as variveis de processo potencialmente importantes, tais

    como a temperatura do molde, o contedo de umidade da matria-prima e o tempo

    do ciclo. Freqentemente, em um estudo observador, o pesquisador est interessado

    em usar os dados para construir um modelo do sistema ou processo. Esses modelos

    so freqentemente chamados de modelos empricos. Uma outra maneira e que os

    dados observados so obtidos atravs da anlise de dados histricos do sistema ou

    processo. Por exemplo, na fabricao de semicondutores, e razoavelmente comum

    manter registros extensos de cada batelada ou lote de pastilhas que foi produzido.

    Esses registros incluiriam dados de teste de caractersticas fsicas e eltricas das

    pastilhas, assim como as condies de processamento sob as quais cada batelada de

    pastilhas foi produzida. Se aparecerem questes relativas a uma mudana em uma

    importante caracterstica eltrica, a histria do processo pode ser estudada em um

    esforo para determinar o ponto no tempo onde a mudana ocorreu e para ganhar

    algum discernimento em relao as variveis do processo que devem ser

    responsveis pela mudana. Freqentemente, esses estudos envolvem um conjunto

    muito grande de dados e requerem um firme domnio dos princpios estatsticos, se o

    pesquisador quiser alcanar o sucesso.

    Nos experimentos planejados, o engenheiro (ou pesquisador) faz

    variaes propositais nas variveis controlveis de alguns sistemas ou processos,

    observa os dados de sada do sistema resultante e, ento, faz uma inferncia ou

    deciso sobre as variveis que so responsveis pelas mudanas observadas no

    desempenho de sada. O planejamento de experimentos tem um papel muito

    importante no projeto e desenvolvimento de engenharia e na melhoria dos processos

    de fabricao. Geralmente, quando produtos e processos so planejados e

    desenvolvidos com experimentos planejados, eles tm melhor desempenho, mais

    alta confiabilidade e menores custos globais. Experimentos planejados tambm

    desempenham um papel crucial na reduo do tempo de conduo de um projeto de

    engenharia e do desenvolvimento de atividades.

    MarianaDestacar

    MarianaDestacar

    MarianaDestacar

    MarianaDestacar

    MarianaDestacar

    MarianaDestacar

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 16

    INFERNCIA ESTATSTICA: Embora seja observada apenas uma amostra, o objetivo de qualquer estudo

    estabelecer concluses com respeito populao de interesse. A metodologia

    utilizada para se fazer a passagem dos resultados obtidos na amostra para

    concluses populacionais chamada inferncia estatstica.

    A inferncia estatstica pode ser definida em duas etapas:

    Estimao: Obter informao sobre uma caracterstica populacional;

    Teste de Hipteses: Utilizao da informao amostral para responder as

    hipteses de interesse no estudo.

    ANLISE ESTATSTICA: O processo de organizao, processamento, sumarizao e retirada de

    concluses sobre um determinado conjunto de dados (amostra) chamado de

    anlise estatstica. As hipteses (questes de interesse) daqueles que realizam o

    estudo indicam o tipo de dado que precisa der obtido e conseqentemente a

    inferncia a ser realizada.

    O quadro abaixo resume uma anlise estatstica de dados.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 17

    Figura 2.1. Anlise Estatstica.

    22 .. 22 .. OORRGGAANN II ZZ AA OO ,, SSUUMMAARR II ZZ AA OO EE RR EE PPRR EE SS EENNTT AA OO DD EE DD AADDOOSS ::

    A organizao, sumarizao e apresentao dos dados observados so

    essenciais para um bom julgamento estatstico, dado que permitem que sejam

    identificadas caractersticas importantes da amostra e ainda mais, indicar modelos

    que podem ser mais adequados para verificao da hiptese em estudo.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 18

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 19

    22 .. 22 .. 11 .. TT II PPOOSS DD EE VV AARR II VV EE II SS ::

    As informaes obtidas em uma amostra so denominadas, usualmente, de

    variveis em estudo. Em cada estudo pode-se observar uma ou mais variveis em

    funo das necessidades e objetivos a serem investigados. Assim, por exemplo,

    pode-se observar uma nica medida num dado experimento, como possvel

    observar uma srie de caractersticas de interesse na aplicao de um questionrio.

    As variveis observadas em uma amostra podem ser classificadas em dois

    tipos: Variveis Categricas (Qualitativas) ou Variveis Contnuas

    (Quantitativas).

    Variveis Categricas: Denominamos variveis categricas aquelas medidas

    (caractersticas) observadas na amostra que apenas identificam a unidade de

    observao. Em outras palavras, uma varivel categrica identifica um atributo,

    classe, qualidade,..., da unidade de observao.

    Exemplo: Sexo, Grau de escolaridade, tipo de solo, fornecedor, etc.

    As variveis qualitativas podem ainda ser classificadas como qualitativas

    nominais e qualitativas ordinais. As nominais apenas identificam um atributo

    unidade experimental sem qualquer outra propriedade (sexo, por exemplo),

    enquanto que as ordinais identificam um atributo que estabelece uma estrutura de

    ordem nas unidades de observao (grau de escolaridade, por exemplo).

    Variveis Quantitativas: Denominamos de variveis quantitativas aquelas medidas

    (caractersticas) observadas na amostra que estabelecem uma informao resultante

    de uma contagem ou de uma mensurao feita na unidade experimental.

    As variveis quantitativas podem tambm ser classificadas em dois grupos:

    Quantitativas discretas ou quantitativas contnuas. As quantitativas discretas podem

    assumir um conjunto finito ou enumervel de valores (nmero de acidentes em uma

    determinada regio da cidade, por exemplo), por outro lado, as quantitativas

    contnuas podem assumir valores num intervalo de nmeros reais.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 20

    Observao:

    Uma varivel quantitativa pode ser categorizada, porm a recproca no possvel.

    importante, porm considerar a PERDA DE INFORMAO que ocorre nesses casos.

    Figura 2.2. Classificao das Variveis.

    Para cada tipo de varivel existem tcnicas apropriadas para organizar e

    resumir a informao, embora em muitos casos se verifique as tcnicas usadas em

    um caso podem ser adaptadas para outros.

    22 .. 22 .. 22 .. AA PPRR EE SS EENNTT AA OO DDOOSS DD AADDOOSS ::

    A apresentao de informaes contidas num conjunto de dados pode ser

    feita de vrias formas. Para cada tipo de varivel existe formas mais adequadas e

    corretas de apresent-las. O objetivo de uma apresentao dos dados organizar os

    valores observados de forma a obter o mximo de informao. Os procedimentos

    usuais de apresentao de dados so tabelas e grficos.

    Consideremos o seguinte experimento: Uma indstria qumica formula um

    experimento para verificar se um novo mtodo de fabricao de um produto qumico

    superior a um mtodo tradicional de fabricao. Um experimento foi realizado

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 21

    obtendo-se dados de produo industrial dos mtodos A (Tradicional) e B (Novo

    Mtodo), cujos resultados esto apresentados na Tabela 2.1:

    TABELA 2.1. Dados de Produo Industrial.

    Lote Mtodo Produo Lote Mtodo Produo

    1 A 89.7 11 B 84.7

    2 A 81.4 12 B 86.1

    3 A 84.5 13 B 83.2

    4 A 84.8 15 B 91.9

    5 A 87.3 15 B 86.3

    6 A 79.7 16 B 79.3

    7 A 85.1 17 B 82.6

    8 A 81.7 18 B 89.1

    9 A 83.7 19 B 83.7

    10 A 84.5 20 B 88.5

    O problema apresenta duas variveis: Mtodo de Produo e Produo

    Observada. A varivel mtodo de produo categrica nominal e a varivel

    produo quantitativa contnua.

    A apresentao usual dos dados observados feita atravs de uma tabela

    denominada distribuio de freqncias. Nesta forma so apresentados os

    valores observados, a freqncia com que cada valor foi observado, o percentual que

    este nmero de freqncia representa em relao ao total de observao, bem como

    os respectivos valores acumulados.

    Para tabela acima as distribuies de freqncias so dadas por:

    TABELA 2.2. Distribuio de Freqncia da Varivel Mtodo de Produo Industrial.

    Mtodo

    Mtodo Freqncia Absoluta

    Freqncia Percentual

    Freqncia Acumulada

    Percentual Acumulada

    A 10 50.00 10 50.00

    B 10 50.00 20 100.00

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 22

    TABELA 2.3. Distribuio de Freqncia da Varivel Produo Industrial

    Produo

    Produo Freqncia Absoluta

    Freqncia Percentual

    Freqncia Acumulada

    Percentual Acumulada

    79.3 1 5.00 1 5.00

    79.7 1 5.00 2 10.00

    81.4 1 5.00 3 15.00

    81.7 1 5.00 4 20.00

    82.6 1 5.00 5 25.00

    83.2 1 5.00 6 30.00

    83.7 2 10.00 8 40.00

    84.5 2 10.00 10 50.00

    84.7 1 5.00 11 55.00

    84.8 1 5.00 12 60.00

    85.1 1 5.00 13 65.00

    86.1 1 5.00 14 70.00

    86.3 1 5.00 15 75.00

    87.3 1 5.00 16 80.00

    88.5 1 5.00 17 85.00

    89.1 1 5.00 18 90.00

    89.7 1 5.00 19 95.00

    91.9 1 5.00 20 100.00

    Notao:

    fi = freqncia do i-simo valor

    pi = freqncia percentual do i-simo valor pi = fi / n

    n = tamanho da amostra (nmero de unidades observadas)

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 23

    Fi = freqncia acumulada at o i-simo valor, ou seja, nmero de observaes at o

    i-simo valor =

    =i

    a

    ai fF1

    Pi = freqncia percentual acumulada at o i-simo valor, ou seja, percentual de

    observaes at o i-simo valor =

    =i

    a

    ai pP1

    Observao:

    Nos casos de variveis qualitativas nominais a freqncia acumulada e

    percentual acumulada no tem sentido de interpretao.

    Problema:

    No caso das variveis quantitativas, como no exemplo acima, podemos ter

    que a varivel assume um grande nmero de valores todos (ou a grande maioria)

    com baixas freqncias, logo a distribuio de freqncias se torna grande sem uma

    maior contribuio para a interpretao dos dados.

    Nessas situaes, recomenda-se a categorizao da varivel atravs do

    estabelecimento de intervalos de acordo com os objetivos do estudo. No exemplo:

    TABELA 2.4. Distribuio de Freqncia da Varivel Produo Industrial Categorizada.

    Produo Categorizada

    Produo Categorizada

    Freqncia Absoluta

    Freqncia Percentual

    Freqncia Acumulada

    Percentual Acumulada

    Menor que 80 2 10.00 2 10.00

    [80,85) 10 50.00 12 60.00

    [85,90) 7 35.00 19 95.00

    90 ou mais 1 5.00 20 100.00

    Sugesto Usual:

    Os intervalos gerados pela categorizao devem ter o mesmo comprimento

    e/ou aproximadamente mesmas freqncias.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 24

    Uma segunda forma de apresentao dos dados atravs de uma

    representao grfica dos mesmos. Usualmente representa-se graficamente a

    distribuio de freqncias. O tipo de grfico a ser utilizado est associado ao tipo de

    varivel em estudo.

    Variveis qualitativas podem ser representadas por:

    Grfico em Barras

    Grfico de Setores (Grfico de Pizza)

    Grfico em Retngulo

    Variveis quantitativas podem ser representadas por:

    Diagrama de Pontos

    Histogramas

    Polgono de Freqncias

    Ramos e Folhas

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 25

    RR EE PPRR EE SS EENNTT AA OO GGRR FF II CC AA DDAADDOOSS CC AA TT EEGGRR II CCOOSS

    58.06

    41.94

    0

    20

    40

    60

    80

    100

    Masculino Feminino

    Sexo

    Sexo

    Sexo

    Masculin

    o

    58%

    Feminino

    42%

    Masculino Feminino

    Sexo

    58.06 41.94

    0% 20% 40% 60% 80% 100%

    Masculino Feminino

    32.26

    58.06

    9.68

    0 20 40 60 80 100

    Bom

    Algum

    Nenhum

    Computador

    Bom

    32%

    Algum

    58%

    Nenhum

    10%

    Bom Algum Nenhum

    32.26

    58.06

    9.68

    0%

    20%

    40%

    60%

    80%

    100%

    Dominio de Computador

    Bom Algun Nenhum

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 26

    RR EE PPRR EE SS EENNTT AA OO GGRR FF II CC AA DD AADDOOSS QQUUAANNTT II TT AA TT II VVOOSS Ramo e Folhas 5 5 22222 10 5 55689 14 6 0014 (8) 6 55555789 9 7 124 6 7 57 4 8 01 2 8 5 1 9 0

    Diagrama de Pontos . . : : : :. .. :. . : .. . . . .. . . . . . -----+---------+---------+---------+---------+---------+-Peso 56.0 63.0 70.0 77.0 84.0 91.0

    Peso dos AlunosPeso dos AlunosPeso dos AlunosPeso dos Alunos

    PESO

    N

    o

    o

    f

    o

    b

    s

    16.1%

    6.5%

    3.2% 3.2%3.2%

    6.5%

    3.2% 3.2%

    16.1%

    3.2%3.2%3.2% 3.2%3.2% 3.2%3.2% 3.2% 3.2%3.2% 3.2% 3.2%

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    8

    9

    Peso dos AlunosPeso dos AlunosPeso dos AlunosPeso dos Alunos

    PESON

    N

    o

    o

    f

    o

    b

    s

    29.0%

    32.3%

    12.9% 12.9%

    6.5% 6.5%

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    15

    0 1 2 3 4 5 6 7

    Peso dos Alunos Peso dos Alunos Peso dos Alunos Peso dos Alunos

    PESON

    N

    o

    o

    f

    o

    b

    s

    29.0%

    61.3%

    74.2%

    87.1%

    93.5%

    100.0%

    0

    3

    6

    9

    12

    15

    18

    21

    24

    27

    30

    33

    0 1 2 3 4 5 6 7

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 27

    22 .. 22 .. 33 .. SSUUMMAARR II ZZ AA OO DDOOSS DD AADDOOSS ::

    A distribuio de freqncias alm de apresentar os dados observados,

    tambm pode ser considerada uma sumarizao de dados. Porm, na maioria dos

    casos, desejado obter valores que possam representar cada uma das variveis em

    estudo. Esses valores devem ser medidas que, sob algum ponto de vista sejam

    representativos dos dados observados. As medidas usualmente utilizadas se referem

    a locao e disperso dos dados.

    22 .. 22 .. 33 .. 11 .. MM EE DD II DD AA SS DD EE LL OO CC AA OO OO UU TT EE NN DD NN CC II AA CC EE NN TT RR AA LL ::

    Medidas relacionadas posio dos dados, ou ainda a valores em torno dos

    quais os valores observados tendem a se agrupar. As principais medidas de posio

    so:

    Moda

    Mediana

    Quartis, Decis, Percentis.

    Mdia

    MODA:

    Definio: Valor (Classe, intervalo..) que ocorre com maior freqncia.

    Vantagem: Pode ser obtida para qualquer tipo de varivel, porm, mais

    apropriada para dados qualitativos nominais.

    Observaes:

    1) Podemos encontrar variveis em um conjunto de dados com mais de uma

    moda (bimodal, tri-modal.);

    2) Podemos ter variveis em um conjunto de dados onde a moda no existe.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 28

    MEDIANA: Definio: Valor que ocupa a posio central num conjunto de dados ordenados,

    ou seja, valor para o qual 50% dos valores observados so inferiores e 50% dos

    valores observados so superiores a ele.

    Condio: Para obteno da mediana a varivel em estudo deve ser pelo menos

    qualitativa ordinal.

    Clculo da Mediana:

    1) Dados devem ser ordenados

    2) Se o nmero de observaes :

    2.1) mpar: Mediana o valor que est no centro da srie, ou seja o valor que

    ocupa a posio (n+1)/2.

    2.2) Par: Mediana qualquer valor entre aqueles dois valores que esto no

    centro da srie, ou seja, qualquer valor entre aqueles que ocupam as posies

    n/2 e (n/2)+1. Valor usual: Mdia dos valores que ocupam a posio (n/2) e

    (n/2)+1.

    QUARTIS, DECIS, PERCENTIS: Definio: A mediana divide o conjunto de dados em duas partes. Quartis decis

    e percentis seguem o mesmo princpio, porm dividem os dados observados em

    4, 10 e 100 partes respectivamente.

    Desta forma temos que:

    percentil (50) = mediana ou segundo quartil (Md)

    percentil (25) = primeiro quartil (Q1)

    percentil (75) = terceiro quartil (Q3)

    percentil (10) = primeiro decil

    Observao: Mediana, Quartis, Decis, Percentiis tambm so chamados de

    separatrizes.

    MDIA ARITIMTICA:

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 29

    Definio: A mdia aritmtica simples de um conjunto de dados observados o

    quociente da diviso por n da soma dos valores destas observaes.

    Seja x1, x2, x3, .....xn os valores de uma varivel observada na amostra. A

    mdia x (l-se x barra) dada por:

    Onde xi o smbolo que indica a observao de ordem i = 1,2,....n

    Condio: Possvel de obteno apenas para dados quantitativos.

    Propriedades: A mdia aritmtica possui propriedades interessantes que podem ser

    teis em determinadas situaes:

    1) Se x1=x2=x3=......=xn= a ento

    a mdia de uma constante a prpria constante;

    2) Se a todo valor observado adicionado uma constante a, ento:

    se adicionamos uma mesma constante a toda observao, a mdia tambm

    fica adicionada deste valor.

    3) Se a todo valor observado multiplicado por uma constante a, ento:

    n

    x

    n

    xxxxx

    n

    i

    i

    n

    ==

    ++++= 1321

    ...

    an

    a

    x

    n

    i ====1

    axn

    ax

    n

    y

    yaxy

    n

    i

    i

    n

    i

    i

    ii +=+

    ===+=== 11

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 30

    se multiplicamos toda observao por uma mesma constante, a mdia

    tambm fica multiplicada deste valor.

    4) A soma dos desvios em torno da mdia zero:

    Observao: Outros tipos de mdias so conhecidos tais como: mdia ponderada,

    mdia harmnica, mdia geomtrica, mdia aparada. Cada uma destas mdias tem

    sua utilizada e aplicaes especficas e podem ser encontradas na grande maioria de

    textos de Estatstica Bsica.

    22 .. 22 .. 33 .. 22 .. CC OOMM PP AA RR AA NN DD OO MM EE DD II DD AA SS DD EE LL OO CC AA OO OO UU TT EE NN DD NN CC II AA CC EE NN TT RR AA LL ::

    Uma comparao da mdia, mediana e moda, nas situaes onde possvel

    calcular todos estes valores, podem nos revelar uma informao sobre o

    comportamento dos dados, denominada assimetria.

    Definio: Uma varivel dita ter comportamento (ou distribuio) assimtrica

    quando os seus valores esto mais concentrados em um dos seus extremos (valores

    altos ou baixos). As possveis situaes de assimetria e simetria so derivadas do

    comportamento dos valores da mdia, mediana e moda e podem ser representadas

    da seguinte forma:

    xan

    ax

    n

    y

    yaxy

    n

    i

    i

    n

    i

    i

    ii ======= 11

    ( ) 01

    ==

    n

    i

    i xx

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 31

    Figura 2.3. Assimetria de Uma Varivel

    22 .. 22 .. 33 .. 33 .. MM EE DD II DD AA SS DD EE DD II SS PP EE RR SS OO ::

    Na anlise de uma varivel de interesse em qualquer estudo, quase nunca

    suficiente para descrever de modo satisfatrio, observar apenas uma nica medida

    de posio. Podemos facilmente encontrar variveis que apresentam o mesmo valor

    para uma medida de locao (mdia, por exemplo), porm com dados apresentando

    comportamentos completamente diferentes. Esses diferentes comportamentos so

    conseqncia de dados com diferentes graus de disperso.

    Objetivo: Verificar o quanto os valores observados esto dispersos, ou ainda o

    quanto variam os dados.

    Apresentamos a seguir algumas medidas de disperso.

    AMPLITUDE: Definio: Diferena entre o maior e o menor valor observado na amostra.

    Notao:

    Seja X(n) = maior valor observado para a varivel na amostra;

    Seja X(1) = menor valor observado para a varivel na amostra;

    Amplitude = A = X(n) X(1)

    Observaes:

    1) Medida sujeita a influencia da presena de valores extremos.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 32

    2) O aumento do nmero de observaes na amostra no produz qualquer

    mudana no valor dado pela amplitude.

    DIFERENA DE QUARTIS: Definio: Valor dado pela diferena entre os valores que delfinem os 50%

    dos valores centrais observados.

    Notao:

    Seja Q(1) = 1 quartil dos dados observados (25% das observaes na

    amostra);

    Seja Q(3) = 3 quartil dos dados observados (75% das observaes na

    amostra);

    Logo Q(3) Q1) contm 50% das observaes e, consequentemente

    Diferena de Quartis = DQ = Q(3) Q(1)

    VARINCIA DESVIO PADRO: Definio: A VARINCIA uma medida de variabilidade dos dados em torno

    da mdia, ou seja, ela quantifica a variabilidade ou o espalhamento ao redor da

    mdia.

    natural procurar uma medida de disperso que dependa dos desvios de

    cada observao em relao mdia (xi x ), e razovel considerar a soma de

    todos estes desvios. Quanto maior forem os desvios, maior ser a variabilidade

    presente nos dados. Entretanto, pela definio de mdia, (xi x ) = 0 para

    qualquer conjunto de dados.

    Uma alternativa, para se obter uma medida de disperso, elevar os desvios

    de cada observao em relao mdia ao quadrado, isto ,

    di= (xi - x )2

    Assim,

    (xi x )2

    a soma dos quadrados dos desvios em relao mdia. Desta forma somamos

    somente valores positivos. Torna-se necessrio considerar o n de observaes,

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 33

    pois quanto maior o n de observaes maior ser o valor deste somatrio. Assim,

    a varincia amostral definida por:

    1

    )(2

    2

    1

    ==n

    xxin

    iS Por que (n-1)?

    Quando dividimos por n-1 temos que S2 um estimador no viciado, importante

    propriedade da inferncia estatstica:

    Se a amostra grande, os valores obtidos dividindo por n ou n-1 so praticamente

    iguais.

    Propriedades da Varincia

    1) A varincia de uma constante zero, isto , xi = a, para todo i= 1, 2,..,n

    ento S2 = 0

    2) Se multiplicarmos cada valor da varivel por uma constante a, a varincia ser

    a varincia da varivel original multiplicada por a2.

    y = a X, ento Var(y) = Var (a x)= a2 Var(x).

    3) Se somarmos ou subtrairmos de cada valor da varivel uma constante a, a

    varincia no se altera.

    Seja y = X + a, ento Var(y) = Var (x + a)= Var(x).

    4) Se dividirmos cada valor da varivel por uma constante a, a varincia ser a

    varincia da varivel original dividida por a2.

    Seja xa

    y1

    = ento Var(y) = Var ( xa

    1)=

    2

    1

    aVar(x).

    Note que a unidade de medida de S2 a unidade de medida das

    observaes elevada ao quadrado. Ento, para obter uma medida de

    variabilidade com a mesma unidade de medida das observaes extra-se a raiz

    quadrada. Esta medida denominada DESVIO PADRO e definida por:

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 34

    1

    )( 2

    1

    ==n

    xxin

    iS

    Observaes:

    1) S mede a disperso em torno da mdia e s deve ser calculado quando a

    mdia tomada como medida de locao.

    2) S 0. Logo, quanto maior a disperso em torno da mdia, maior o valor do

    desvio padro, ou maior valor de S.

    Alm das medidas de disperso aqui apresentadas, algumas outras so

    encontradas na literatura, como por exemplo, as medidas de simetria e de

    achatamento (tambm ditas de curtose). Para as aplicaes que sero feitas ao

    longo desse curso, as medidas aqui apresentadas so suficientes, outras medidas

    podem ser encontradas em livros de Estatstica Bsica.

    22 .. 22 .. 33 .. 44 .. MM EE DD II DD AA SS DD EE DD II SS PP EE RR SS OO RR EE LL AA TT II VV AA ::

    Em muitos casos, em particular em situaes que desejamos comparar a

    disperso de variveis com diferentes unidades de medida, conveniente expressar

    a disperso em termos relativos, ou seja, expressar a variabilidade dos dados tirando

    a influncia da ordem de grandeza da varivel.

    COEFICIENTE DE VARIAO: Definio: O desvio padro descreve o desvio padro relativo mdia.

    expresso em termos de valores percentuais.

    Notao:

    O coeficiente de variao, que definido por:

    100*x

    SCV =

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 35

    O coeficiente de variao (CV) adimensional, isto , um nmero puro e

    usualmente expresso em porcentagem. Sua utilidade fornecer uma medida para a

    homogeneidade do conjunto de dados. Quanto menor o CV mais homogneo o

    conjunto de dados.

    Pelo fato do CV ser adimensional, possvel comparar a variabilidade de dois

    conjuntos de dados muitos distintos. O CV muito til na comparao de duas

    variveis ou dois grupos que a princpio no so comparveis (por exemplo, com

    ordens de grandeza das variveis muito diferentes).

    Um valor de CV maior que 50% indica um alto grau de disperso e

    conseqentemente uma baixa representatividade da mdia. Um valor de CV menor

    ou igual a 25% geralmente indicar que o conjunto de dados razoavelmente

    homogneo. Entretanto, esse padro varia de acordo com a aplicao. Uma possvel

    classificao a seguinte:

    CV:

    Baixo - (inferior a 0,10);

    Mdio - (de 0,10 a 0,25);

    Alto - (0,25 a 0,35);

    Muito Alto - (0,35).

    22 .. 22 .. 33 .. 55 .. UUMM AA RR EE PP RR EE SS EE NN TT AA OO GG RR FF II CC AA CC OO NN JJ UU NN TT AA DD EE MM EE DD II DD AA SS DD EE LL OO CC AA OO EE DD EE DD II SS PP EE RR SS OO ::

    Como apresentado anteriormente, uma anlise de dados deve, minimamente

    considerar conjuntamente uma medida de locao e uma medida de disperso.

    Nesse sentido importante tambm estabelecer uma representao grfica conjunta

    de medidas de locao e disperso atravs da qual seja possvel verificar o

    comportamento da varivel em ambos os aspectos.

    ESQUEMA DE CINCO NMEROS: Proposta: Identificar 5 valores dentre o conjunto de n observados que possa

    dar condies de se ter uma idia geral do comportamento geral das observaes.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 36

    Condio: Possvel para variveis quantitativas;

    Valores Propostos (Tukey):

    Mediana

    Valor Maximo (X(n)) e Valor Mnimo (X(1))

    1 e 3 Quartis

    Observao:

    Alguns outros autores e softwares propem o uso de mdia e desvio padro

    no lugar de mediana e quartis. Tukey justifica o uso de mediana e quartis dado eu as

    mesmas so medidas de locao e disperso que no so influenciadas pela

    presena de valores extremos no conjunto de dados e que, portanto permitem uma

    mais fcil identificao de presena dos mesmos dentre os valores observados.

    DESENHO ESQUEMATICO BOX PLOT: Proposta: Representao grfica do esquema de 5 nmeros.

    O Box-plot obtido seguindo-se os passos:

    1. Numa reta so marcados o 1 quartil (Q1), a mediana (Q2 ) e o 3 quartil (Q3).

    2. Acima dessa reta constri-se um retngulo com limites iguais s posies do

    1 e 3 quartis, cortado por um segmento de reta na posio relativa

    mediana.

    3. A partir dos limites do retngulo, traam-se linhas at:

    a. Encontrar um extremo (valor mximo ou mnimo) ou

    b. Um valor correspondente a 1,5 DQ, se o extremo correspondente

    estiver a mais de 1,5 DQ do quartil respectivo.

    Os pontos que esto a mais de 1,5 DQ do quartil correspondente at 3DQ so

    chamados pontos externos (* ) e os que esto a mais de 3DQ, pontos soltos (o).

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 37

    Figura 2.4. Construdo o Box - Plot

    Mximo

    Q3

    Mediana

    Q1

    Mnimo

    25%

    50%

    75%

    ConstruoLS=Q3+1,5(Q3-Q1)

    LI=Q1-1,5(Q3-Q1)

    Mximo o maior valor menor que LS;

    Mnimo o menor valor maior que LI.

    Figura 2.5. Forma Final do Box - Blot

    O Box Plot um procedimento que permite iidentificar em um conjunto de

    dados:

    Simetria

    Disperso

    Valores Discrepantes

    _Q3

    _Q1

    _md

    linha

    auxiliar

    _Q3

    _Q1

    _md

    _Q1-1,5d

    _Q3+1,5d

    ****

    **

    ****

    **

    _Q3

    _Q1

    _md

    _Q1-1,5d

    _Q3+1,5d

    altura_Q3

    _Q1

    d

    Q1 = 1 quartil Q1 = 1 quartil mdmd = mediana Q3 = 3 quartil d = diferena = mediana Q3 = 3 quartil d = diferena interquartilinterquartil

    BoxBox--PlotPlot

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 38

    IMPORTANTE:

    O BoxPlot, alm das aplicaes apresentadas, um procedimento

    extremamente importante na comparao de diferentes grupos (tratamentos) que

    so observados e, por exemplo, dentre os quais, deseja-se identificar aquele com

    melhor desempenho.

    Exemplo:

    Comparando o total de pontos obtidos pelos alunos ingressos no

    processo seletivo 2005 nos diferentes cursos da UFSCar.

  • Captulo 2 Anlise Descritiva e Exploratria de Dados

    Introduo ao Planejamento e Anlise Estatstica de Experimentos C 1o Semestre de 2009 39

    22 .. 33 .. RR EE FF EE RR NNCC II AA SS BB II BB LL II OOGGRR FF II CC AA SS ::

    Barros Neto, B., Scarminio, I. S., Bruns, R. E. (2001) Como Fazer

    Experimentos: Pesquisa e desenvolvimento na cincia e na indstria.

    Editora da Unicamp, Campinas, SP.

    Montgomery, D. C., Runger, G. C. (2003) Estatstica APlicada e

    Probabilidade para Engenheiros, LTC Editora, 2a Edio, Rio Janeiro, RJ.

    Triola, M. F. (2005) Introduo a Estatstica, LTC Editora, 9 Edio, Rio

    Janeiro.

    Anderson, T.W., Sclove, S. L. (1974) Introductory Statistical Analysis,

    Houghton Miflin, Boston.

    Vieira, S. (1999) Princpios de Estatstica, Pioneira, So Paulo, SP.