visualização de dados e testes de hipóteses com r · de igual amplitude, com n o número de...

34
Versão: 31-Aug-17 © UAberta 1 Visualização de dados e testes de hipóteses com R – uma breve abordagem prática – N. Sousa

Upload: truongphuc

Post on 20-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 1

Visualizaçãodedadose

testesdehipótesescomR

–umabreveabordagemprática–

N.Sousa

Page 2: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 2

ÍNDICEInstalaçãodoR.............................................................................................................................3

Entradadedados.........................................................................................................................4

Tabelasdefrequências.................................................................................................................6Variáveisdiscretas.................................................................................................................................6Variáveiscontínuas................................................................................................................................7Construçãomanualdeclasses................................................................................................................9

Visualizaçãodedados................................................................................................................11Variáveisdiscretas...............................................................................................................................11

Diagramadebarras..................................................................................................................................11Diagramascirculares.................................................................................................................................13

Variáveiscontínuas..............................................................................................................................15Histogramas..............................................................................................................................................15Diagramascirculares.................................................................................................................................17

Médiaedesvio-padrãoamostrais...............................................................................................18Médiaamostral....................................................................................................................................18Desvio-padrãoamostral.......................................................................................................................20

Testesdehipóteses....................................................................................................................22Filosofiadeumtestedehipóteses.......................................................................................................22Testeàmédiadeumapopulação.........................................................................................................23

Validadedeumtesteàmédia..................................................................................................................26Testeàproporção................................................................................................................................27

Análisedevariância....................................................................................................................28ExecuçãodeumaANOVAcomR–casoprático....................................................................................28

Validaçãodepressupostos.......................................................................................................................29Formataçãodedadosedataframes........................................................................................................30TabelaANOVAesuainterpretação..........................................................................................................32Testesdecomparaçõesmúltiplas.............................................................................................................32

Exercícios...................................................................................................................................34

Page 3: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 3

InstalaçãodoRORéumpoderososoftwareestatísticogratuitoeopensource.Asuaversãobasefazpraticamentetudo o que é elementar e avançado, e tem suplementos para todo o tipo de temáticas maisespecíficas.O R pode ser descarregado de http://cran.r-project.org/ para os três sistemas operativos maisusados:Windows,MacOS,Linux(váriasdistribuições).Ésóseguirasinstruçõesnapágina-mãedoCRAN.AinstalaçãobasedoCRANédotipolinha-de-comandos,i.e.oscommandossãodadosporescritaenãorecorrendoamenus.Eisoaspetodalinha-de-comandosemMacOS:

Noquesesegue,vai-seassumirqueoestudante leuosoutrosrecursosdeestatísticaentretantodisponibilizados na página da UC e que, por conseguinte, está familiarizado com a terminologiaestatísticaquesesegue.

Page 4: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 4

EntradadedadosExistem essencialmente duas formas de entrar dados no R: manualmente, através da linha-de-comandos,oucarregandoumficheiroexterno.Nestedocumentovamosabordarapenasaentradamanualdedados.NoRosdados sãoguardados soba formadevetores, ou seja, listasordenadasde valores. Paraexemplificaraentradadedados,vamosrecorreraumexemplo.Suponhamosquequeremosestudarapluviosidademensalnumpontodopaís.Osdadosrecolhidosdaestaçãometeorológicaforam:Mês Pluviosidade

(mm)Mês Pluviosidade

(mm)Mês Pluviosidade

(mm)Janeiro 110 Maio 70 Setembro 42Fevereiro 100 Junho 18 Outubro 89Março 60 Julho 17 Novembro 108Abril 80 Agosto 17 Dezembro 143Paraentrarestesdados,bastaescrevernalinha-de-comandos> pluv = c(110, 100, 60, 80, 70, 18, 17, 17, 42, 89, 108, 143) Ficaassimcriadaumavariável,pluv,queéumvetorcomos12valoresindicados.Ocomando“c”significa:“combinarasequênciadevaloresqueseseguenumvetor”.Paravermosovalorquepluvtem,bastaescreverpluvnalinha-de-comandos:> pluv [1] 110 100 60 80 70 18 17 17 42 89 108 143 Setiverhavidoumerronaentradadedados,podemossubstituirindividualmenteoelementoerrado.P.ex.seo5ºelementofosse75(emvezde70),essaalteraçãoseriafeitacom> pluv[5] = 75 > pluv [1] 110 100 60 80 75 18 17 17 42 89 108 143 Ocomandopluv[5] = 75significa,emlinguagemcorrente,“o5ºelementodepluvpassaaseriguala75”.Tambémsepode sempre voltar a entrar todoo vetorpluv, oqueémais fácil usandoas setas“up/down”paranavegarnalistadecomandosentradosanteriormentee,encontradoocomandopluv = c(...),substituirovalor70por75.Norestantedestedocumentovamosassumirqueosdadossãoentradosdeformamanual.Note-sequeoRsuporta“copy-paste”,peloqueparaentrarpluvnoseucomputadorbastarácopiaralinhaazulacimaparaalinha-de-comandosefazerpaste.

Page 5: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 5

Apluviosidadeéumavariávelestatísticacontínua,ouseja,umavariávelquepodetomarqualquervalornumaescala.Vejamosagoraumexemplodevariávelestatísticadiscreta,i.e.umavariávelquesópodetomarumagamafixadevalores,normalmenteinteiros.P.ex.on.ºdeirmãosquecadaumade40pessoastêm:> irmaos = c(0,1,2,0,0,2,4,1,2,3,2,1,1,1,1,0,0,0,1,2,3,4,2,2,1,1,0,1,0,1,0,1,0,2,1,1,2,0,1,1) [1] 0 1 2 0 0 2 4 1 2 3 2 1 1 1 1 0 0 0 1 2 3 4 2 2 1 1 0 1 0 1 0 1 0 2 1 1 2 0 1 1 Asvariáveispluveirmaosvãoservir-nosdeferramentadetrabalhoparaorestodestasbrevesnotas,peloquesesugereaoestudantequeasentrenoseuterminalR(compluv[5] = 75).

Page 6: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 6

TabelasdefrequênciasAtabeladefrequênciaséaformamaissimplesdefazeracontabilidadedosdadosrecolhidos.Talcomonateoriageraldeestatística,noRacriaçãodestastabelasdependeseavariávelemestudoédiscretaoucontínua.Comecemoscomocasomaissimples,variáveisdiscretas.VariáveisdiscretasOcomandotabledevolveumatabela:> table(irmaos) irmaos 0 1 2 3 4 11 16 9 2 2 Ouseja“11pessoastêmzeroirmãos,16pessoastêm1irmão,etc.”Paraorganizarestainformaçãodeumaformamaisfácildeler,etambémmaiscomum,podemosusarocomandotransform:> transform(table(irmaos)) irmaos Freq 1 0 11 2 1 16 3 2 9 4 3 2 5 4 2 AcolunaFreqpodeserpassadaaoutrosargumentosdetransform.P.ex.sequisermosescreveruma3ªcoluna,comfrequênciasrelativas,bastaráescrever> transform(table(irmaos), FreqRel = Freq/40) irmaos Freq FreqRel 1 0 11 0.275 2 1 16 0.400 3 2 9 0.225 4 3 2 0.050 5 4 2 0.050 (Recordemosqueforamas40pessoasaresponderàquestãodon.ºdeirmãos.)Énecessáriodarumnome, p.ex. FreqRel, ao cabeçalho da coluna, caso contrário o comando transform nãoimprimiráessacoluna(experimente!).Sequisermosincluirfrequênciasacumuladas,recorremosàfunçãocumsum:> transform(table(irmaos), FreqRel = Freq/40, FreqAcum = cumsum(Freq)) irmaos Freq FreqRel FreqAcum 1 0 11 0.275 11

Page 7: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 7

2 1 16 0.400 27 3 2 9 0.225 36 4 3 2 0.050 38 5 4 2 0.050 40 E,sequisermosaindaasfrequênciasrelativasacumuladas,> transform(table(irmaos), FreqRel = Freq/40, FreqAcum = cumsum(Freq), FreqRelAcum = cumsum(Freq)/40) irmaos Freq FreqRel FreqAcum FreqRelAcum 1 0 11 0.275 11 0.275 2 1 16 0.400 27 0.675 3 2 9 0.225 36 0.900 4 3 2 0.050 38 0.950 5 4 2 0.050 40 1.000 ORéumalinguagemmuitoflexíveleexistemmuitasoutrasformasdeobtertabelas,edeasformataragosto.Aqueapresentámosaquiéamaissimplesepermitecopy-pasteparaoutrasferramentascomop.ex.umatabeladeprocessadordetextooufolhadecálculo(Word,Excel,Pages,Numbers,etc.).Estecopy-pastenãovaiser,noentanto,livredeproblemas...vaiserprecisoposteriormenteusarasferramentasdeformataçãoparaajustaraocontexto.VariáveiscontínuasVejamosagoracomotratarvariáveiscontínuas.Setentarmossimplesmentecorrerocomandotablesobreumasériededadoscontínuos,vamosobterumresultadoalgoinútil:> table(pluv) pluv 17 18 42 60 75 80 89 100 108 110 143 2 1 1 1 1 1 1 1 1 1 1 Istoaconteceporquevariáveiscontínuasnãorepetemvalores.Equandorepetem,épor faltadeprecisãonamedição(setivéssemosmaisalgarismos,osdois17acimapoderiamserp.ex.17,1e17,3).Otratamentocorretodevariáveiscontínuasexigeconstruir-seclasses,i.e.intervalosdevalores,nosquais vamosencaixarasmediçõesobservados.Aprimeiraquestãoéquantas classes construir,equais.Háváriasregrasparaofazer.Aquivamosusararegramaissimples,queéconstruir 𝑁classesde igual amplitude, comN o número de valores da amostra (ou dimensão da amostra). Comonormalmenteumaraizquadradanãoéinteira,arredonda-separaointeiroaseguir.Paraocasodepluvtemosentão 12 ≈ 3,46 → 4classes.Noentanto,comoveremos,oRnãovaiconseguirsemprefazeradivisãoem4classesautomaticamente.Atabelapodeagoraserconstruídarecorrendoàfunçãocut,quedivideointervalodasmediçõesemparcelasiguais: > table(cut(pluv, breaks = pretty(pluv, n = 4)))

Page 8: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 8

(0,50] (50,100] (100,150] 4 5 3 Oparâmetrobreaksindicaotipodedivisãoquesequer,eafunçãoprettytentaencaixarpluvnas4classesdesejadas,comlimitesdadospornúmerosredondos(bonitinhos,“pretty”).Atraduçãodocomandoacimaparalinguagemcorrenteseriaalgocomo“construaumatabeladepluv,dividindoointervalotantoquantopossívelem4classesdelimitesredondos”.Comovemos,oRconstruiuapenas3classes.Napróximasecçãovamosvercomofazersequiséssemosmesmoinsistirnas4classes.Anotação(a,b]significaintervaloabertoàesquerdaefechadoàdireita.Sequiséssemosabertoàdireita e fechado à esquerda, como é comum em outras fontes na literatura, teríamos queacrescentaroparâmetroright = FALSEemcut:(necessáriasletrasmaiúsculas)> table(cut(pluv, breaks = pretty(pluv, n = 4),right = FALSE)) [0,50) [50,100) [100,150) 4 4 4 Paraumaapresentaçãomaispolidapodemosnovamenteusarocomandotransform: > transform(table(cut(pluv, breaks = pretty(pluv, n = 4)))) Var1 Freq 1 (0,50] 4 2 (50,100] 5 3 (100,150] 3 Sequisermosacrescentarmaisfrequências,relativaseacumuladas,teríamos:> transform(table(cut(pluv, breaks = pretty(pluv, n = 4))),FreqRel = Freq/12, FreqAcum = cumsum(Freq), FreqRelAcum = cumsum(Freq)/12) Var1 Freq FreqRel FreqAcum FreqRelAcum 1 (0,50] 4 0.3333333 4 0.3333333 2 (50,100] 5 0.4166667 9 0.7500000 3 (100,150] 3 0.2500000 12 1.0000000 O leitor atento terá notado que o nomeda variável,pluv, foimisteriosamente substituído porVar1.Porqueéqueissoaconteceéumalongahistória....dáparaalterar,masporagoranãovaleapena.Maisimportanteénotarquetodasasclassesconstruídassão,poromissão,intervalosabertos.Seporventuraosdados tiveremvaloresque coincidamcomos limitesda1ªouúltima classe,podeacontecer que estes valores não sejam incluídos na tabela, o que levaria a erros de contagem.Imaginep.ex.queomêsdeagostonãotinhapluviosidade:> pluv2 = c(110, 100, 60, 80, 70, 18, 17, 0, 42, 89, 108, 143)

Page 9: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 9

> transform(table(cut(pluv2, breaks = pretty(pluv2, n = 4)))) Var1 Freq 1 (0,50] 3 2 (50,100] 5 3 (100,150] 3 Comovemos,ovalorzerorespeitanteaagostonãofoiincluídonatabela.Istoporqueointervalodaclasse1éabertoàesquerda,i.e.sóincluivaloressuperioresazero.Paratermosagarantiadequetodososvaloressãotomadosemconta,mesmoosquesejamiguaisaoslimitesdeclasses,bastaadicionaraocomandocutoparâmetroinclude.lowest=TRUE: > transform(table(cut(pluv2, breaks = pretty(pluv2, n = 4), include.lowest = TRUE))) Var1 Freq 1 [0,50] 4 2 (50,100] 5 3 (100,150] 3 Eagorajátodososvaloressãoincluídos.Estacautelaéespecialmenteimportantequandoosdadossãocontínuos,masestãoapresentadoscomointeiros,i.e.semcasasdecimais.ConstruçãomanualdeclassesAfunçãoprettytemavantagemdegerarautomaticamenteclassescomlimitesquesãonúmerosredondos,mastem,comovimos,adesvantagemdenemsemprepermitironúmerodeclassesquequeremos.Sequiséssemosp.ex.6classes(emvezdas4recomendadaspelaregrada 𝑁),bastariafazern = 6empretty:> transform(table(cut(pluv, breaks = pretty(pluv, n = 6)))) Var1 Freq 1 (0,20] 3 2 (20,40] 0 3 (40,60] 2 4 (60,80] 2 5 (80,100] 2 6 (100,120] 2 7 (120,140] 0 8 (140,160] 1 OmelhorqueoRconseguiuautomaticamentefoiexpandirasanteriores3classesem6(enão6).Istotevecomoconsequênciaqueduasclassesficaramdesertasdevaloresobservados,oquedeveserevitado.Em todo o caso, o resultado da geração automática das classes é normalmente satisfatório. Ssequisermosmesmo4 classes, issoépossível,mas teremosdeas construirmanualmente.Para talbasta,noparâmetrobreaks,dizerquais sãoexatamenteos limitesque sepretende,e issoexigealgumareflexãoporpartedoutilizador.

Page 10: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 10

Umapossibilidadeép.ex.considerarpluviosidadede0a160mmedividiristoem4intervalosiguais,ou seja, colocar quebras (breaks) em 0, 40, 80, 120, 160. O comando R para isto é indicar noparâmetrobreaks as quebras, sob a forma de vetor, usando o comandoc (que, recordemos,significa“combineintovector”):> transform(table(cut(pluv, breaks = c(0,40,80,120,160)))) Var1 Freq 1 (0,40] 3 2 (40,80] 4 3 (80,120] 4 4 (120,160] 1 Eagorajáfuncionacomoqueremos.Adesvantageméque,comodito,ageraçãodasclassesnãofoiautomáticaeoutilizadortevedeolharparaosdadosparapensarcomoconstruiressasclasses.

Page 11: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 11

VisualizaçãodedadosTratadaaquestãodastabelas,vamosagoravercomovisualizaremgráficososdados.Ostiposdegráfico mais usados são os diagramas de barras, os histogramas e os diagramas circulares.NovamenteaquioRtemcomandosdiferentes,consoanteasvariáveissejamdiscretasoucontínuas.VariáveisdiscretasParaestetipodevariávelpodemosfazerumdiagramadebarrasouumdiagramacircular.DiagramadebarrasComecemosporumdiagramadebarras.OcomandoRfazerumtaldiagramaébarplot,eaformadeousaré> barplot(table(irmaos)) quegera,numajanelaàparte,umgráficocomooabaixo:

No comando acima, o table é essencial. O comando direto barplot(irmaos)seriaincorretamenteinterpretadopeloReconstuiriaumgráficosempésnemcabeça(experimente!).Odiagramaacimaéalgoescassoeminformação.Paraoembelezarháquerecorreraosparâmetrosqueocomandobarplotpermite.P.ex.:

0 1 2 3 4

05

1015

Page 12: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 12

space Controlaoespaçamentoentrebarras.names.arg Permitesubstituironomedasbarras(0,1,2,3,4)poroutracoisaqualquer.P.ex.

paracolocarzero,um,dois,etc.,faz-senames.arg=c(“zero”, “um”, “dois”, “tres”, “quatro").Asaspassignificamqueoqueestáentreelasétexto,esãoessenciais.CasocontráriooRpensaráquesãovariáveis,cujovalornãoestarádefinido(edaráerro).Evitartambémcolocaracentosnotexto,dadoqueotratamentocorretodestesdependeumpoucodaversãodoRepodegerarproblemas.

main Dáumtítuloaodiagrama.xlab,ylab Dánomesaoseixoshorizontalevertical.cex.axis Controlaotamanhodosnúmerosnoeixovertical.cex.names Controlaotamanhodosnúmeros/letrasnoeixohorizontal.E hámais parâmetros (p.ex. cores, sombreados das barras, etc.). Consultar o help file doR. Vertambémhttp://www.stat.columbia.edu/~tzheng/files/Rcolor.pdfparaumalistadenomesdecores.Umexemplocomtodosestesparâmetros:> barplot(table(irmaos), space = 0, names.arg = c("zero","um","dois","tres","quatro"), main = "Distribuicao do nr. de irmaos", xlab = "Numero de irmaos", ylab = "Frequencia absoluta", cex.axis = 1.5, cex.names = 1.2)

Page 13: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 13

DiagramascircularesOcomandoparadiagramascirculares(“piechart”)épie:> pie(table(irmaos)) quedevolve:

zero um dois tres quatro

Distribuicao do nr. de irmaos

Numero de irmaos

Freq

uenc

ia a

bsol

uta

05

1015

Page 14: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 14

Tambémaquisepodeembelezarodiagrama.Umexemplo:> pie(table(irmaos), labels = c("zero","um","dois","tres","quatro"), radius = 1.05, col=c("blue1","bisque2","brown3","chartreuse1","deeppink1"), main = "Nr. de irmaos")

0

1

2

3

4

Page 15: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 15

VariáveiscontínuasNocasodevariáveiscontínuasvamosvercomofazerumhistograma(oequivalenteaodiagramadebarrasdeumavariáveldiscreta)eodiagramacircular.HistogramasOcomandoRparaumhistogramaéhist.Ohistogramadeveterasmesmasclassesqueseusouquandosefezatabeladefrequências.Ouseja,deve-seincluirumparâmetrobreaksigualaoqueseusounatabela.Avantageméhistassumealgumascoisasporomissão.Bem,omelhoréverumexemplo:> hist(pluv, breaks = 4) gera-nos

zero

um

dois

tres

quatro

Nr. de irmaos

Page 16: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 16

Note-seque:1.Nãofoiprecisodarindicaçãodedivisão(cut).Bastouindicaravariávelaserrepresentadaehistassumequeestatemnecessariamentedeserdividida.2.Tambémnãofoiprecisoescreverbreaks = pretty(pluv, n = 4),tendobastadobreaks = 4.Ocomandohistsimplesmenteinvoca,poromissão,prettycomparâmetro4.Se quiséssemos exatamente 4 classes teríamos, tal como no caso da tabela de frequências, queindicarexplicitamenteoslimites:> hist(pluv, breaks = c(0,40,80,120,160)) comoqualobteríamos

Histogram of pluv

pluv

Frequency

0 50 100 150

01

23

45

Page 17: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 17

Ocomandohistpartilhacombarplotalgunsparâmetros,comop.ex.xlab,ylab,main,etc.Talcomonastabelasdefrequência,parausarintervalosfechadosàesquerdaeabertosàdireitaoparâmetroéright = FALSE.DiagramascircularesOcomandoéomesmodavariáveldiscreta,pie.Noentanto,aocontráriodehist,pienãoherdavaloresporomissãoeénecessáriodar-lhetodasessas indicações.Napráticaodiagramacircularcorrespondenteaohistogramaacimaéobtidocomoseguintecomando:> pie(table(cut(pluv, breaks = c(0,40,80,120,160))))

Histogram of pluv

pluv

Frequency

0 50 100 150

01

23

4

Page 18: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 18

Novamente,todootipodeetiquetaseembelezamentoépossível.

Médiaedesvio-padrãoamostraisAmédiaeodesvio-padrãosãoduasgrandezasqueresumem,numnúmeroapenas,informaçãosobreosdadosrecolhidos.Amédiaéumamedidadelocalização,nosentidoemquenosdizondeestálocalizadaumadeterminadacaraterísticadosdados(jávamosverqual),eodesvio-padrãoéumamedidadedispersão,umavezquenosindicaoquãosdispersososdadosestão.MédiaamostralTodosnóstemosumanoçãointuitivadoqueéumamédia.Matematicamente,amédiaéovaloraoqualosdadosmaisseaproximameérepresentadaquaseuniversalmentepelosímbolo𝑥.Amédiapodesercalculadapelafórmulageral:

(0,40]

(40,80]

(80,120]

(120,160]

Page 19: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 19

𝑥 =1𝑁 𝑥,

-

,./

Nestaexpressão,queéválidaparaqualquertipodevariável(discretaoucontínua),Néadimensãodaamostraeosímbolo“S”,quesedesignapor“somatório”,nãoésenãoasomadetodososvaloresdaamostra(𝑥,).Aletra𝑖éumíndice:umameraetiquetaquedistingueosvaloresobservadosdavariávelestatísticaemestudo.Sedissermosqueo𝑥/éoprimeirodosvaloresobservados,𝑥1osegundo,𝑥2oterceiroeassimpordiante,entãoemlinguagemcorrenteaexpressão“ 𝑥,-

,./ ”significa:“pegueno1ºvalorobservado,some-lheosegundo,oterceiro,eassimpordianteatéaoúltimo”.Nocasodepluvtemos𝑥/ =110,𝑥/ = 100,𝑥/ = 60,etc.eaexpressãoparaamédiatorna-se

𝑥 =1𝑁 𝑥,

-

,./

⇔ 𝑥 =112 110 + 100 + 60 + 80 + 75 + 18 + 17 + 17 + 42 + 89 + 108 + 143

=85912 = 71,58333… ≈ 71,6

NoRamédiaédadapelocomandomean:> mean(pluv) [1] 71.58333 Paraocasodosirmãostemos:> mean(irmaos) [1] 1.2 Porvezesnaliteraturavemosoutrasexpressõesparaocálculodamédia(médiapesada,médiaparadadosemclasses,etc.).Essasexpressõesreferem-seasituaçõesemqueosdadosestãoagregadosemcategoriasouclasses.Quandoosdadosestãodesagregados,ouseja,quandosãoconsideradosum-a-um(queécomoosentramosnoR),afórmulaacimaésuficiente.Umainterpretaçãocuriosadamédiaéqueestaécomoqueumfieldabalança.Ouseja,sedividirmosum histograma ou um diagrama de barras em partes esquerda e direita, amédia é o ponto deequilíbriodessediagrama:

Page 20: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 20

Esteéodiagramadebarrasdeirmaos.Amédiaéalinhaavermelho.Seimaginarmosestediagramacomosendosólidoeoequilibrarmosnabaseexatamentenopontodamédia,elemanter-se-áemequilíbriosemtombarparanenhumdoslados!Desvio-padrãoamostralOdesvio-padrãodeumaamostramede,comoditoacima,adispersãodosdadosdeumaamostra.Temcomosímbolo“𝑠”eédadopelaexpressão:

𝑠 =1

𝑁 − 1 𝑥, − 𝑥 1

-

,./

Afórmulaéumpoucomaiscomplicadadeentenderdoqueadamédia,masnoRbasta-nosusarocomandosdparaoobteroseuvalorsemesforço:

0 1 2 3 4

05

1015

Page 21: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 21

> sd(irmaos) [1] 1.066987 > sd(pluv) [1] 41.48923 Comoodesvio-padrãodepluvémaiordoqueodeirmaos,pode-sepensarquehámaisdispersãoempluvqueemirmaos.Nãoébemassim:ovaloremsinãotemsignificado.Sóoganhaquandoocomparadocomorestodosdados.Paraperceberistomelhor,vamosrecorreraumainterpretaçãográfica.Osdoishistogramasabaixoforam gerados a partir de 1000 observações de variáveis estatísticas com média 20 e desviosdiferentes.Nocasodaesquerda,avariáveltemdesvio-padrão3,nodadireitatemdesvio-padrão1.

O gráfico da esquerda representa a variável commaior desvio-padrão. O seu pico é bemmaisesbatidoedispersodoqueodográficodadireita,queevidenciaumpicomuitomaispronunciadoebem definido, fruto de ummenor desvio-padrão, logomenor dispersão. É esse o significado dedesvio-padrão:quantomaiorfor,porcomparaçãocomorestodosdados,maisdispersosvãoestaressesdados.Quantomenorfor,menosdispersosestarão,i.e.estarãomaisconcentradosemtornodamédia.Umaúltimainterpretaçãoquesepodefazerdodesvio-padrãoéaseguinte:“Numaamostra,aproximadamente2/3dosdadosvãoestarnointervaloentre𝑥 − 𝑠e𝑥 + 𝑠.”Faz-senotar,noentanto,queestainterpretaçãotemumregimedevalidadealgolimitado.

Histogram of n1

n1

Frequency

5 10 15 20 25 30 35

0100

200

300

400

Histogram of n2

n2

Frequency

5 10 15 20 25 30 35

0100

200

300

400

Page 22: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 22

TestesdehipótesesUmtestedehipóteseéumatécnicaestatísticacujointuitoéverificarseumadadaamostradedadosé,ounão,compatívelcomumahipótesefeitasobreapopulaçãoquelhedeuorigem.Exemplos:Q1.“Seráplausívelque,emmédia,oscidadãosportuguesestenham2irmãos?”Q2.“AtendendoaqueamédiamensaldepluviosidadeemPortugaléde70,6mm,teráoanodepluvsidoexcecionalmentechuvoso?”Comoveremos,oconceitodetestedehipótesesvai-nospermitirobterrespostasaestasquestões.Estarespostapoderánãoser,noentanto,peremptória.Tudodependerádaevidênciaestatísticaqueatécnicausadanosdevolver.Usardadosdeumaamostrapara tentardizeralgosobreapopulaçãoque lhesdeuorigeméumimportanteramodaestatística,chamadoinferênciaestatística,eotestedehipótesesumadassuasprincipaisferramentas.Vejamosentãodoquesetrata.FilosofiadeumtestedehipótesesUm teste de hipóteses coloca lado-a-lado duas hipóteses sobre a população que deu origem àamostradedadosquetemosàdisposição.Umahipóteseinicial,ouhipótesenula,eumahipótesealternativa. Estas sãonormalmentedesignadaspor𝐻? e𝐻/ respetivamentee referem-seaumacaraterística de uma população. Desta população é retirada uma amostra, cuja informação serátratada. Do resultado desse tratamento vamos encontrar evidência para se rejeitar, ou não, ahipótesenula.Casohajarejeiçãodahipótesenula,oinvestigadordevedaíemdianteconsiderarnasuapesquisaahipótesealternativa.Masvejamosoqueistosignificanaprática.Consideremosoprimeirodosexemplosacima.Nesteexemploapopulaçãosãotodososcidadãosportugueses,daqualtemosumaamostraàdisposição:irmaos.EmEstatísticaécomumdesignar-seamédiadeumapopulaçãopela letra𝜇 (aocontráriodamédiadaamostra,que,comovimos,designamos por 𝑥). A hipótese nula colocada pela questão Q1 pode-se escrever, em linguagemmatemática,por

𝐻?:𝜇 = 2Ahipótesealternativaterádeseralgodiferentedisto.Hátrêspossibilidades:

𝐻/:𝜇 ≠ 2, 𝐻/: 𝜇 < 2, 𝐻/: 𝜇 > 2Ouseja,podemosassumir,emcontrastecomahipótesenula“médiadeirmãos=2”,queessamédiapossa,emalternativa,sermaiorque2,menorque2ousimplesmentediferentede2.Levanta-seentãoumaquestão:qualdestashipótesesdevemosconsiderarparahipótesealternativa?Aquidevemostercuidado.Seoleitorespreitarumaspáginasatrás,veráqueamédiadaamostraé

Page 23: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 23

𝑥 = 1,2irmãos.Istopoderálevá-loapensarqueahipótesealternativaaconsiderardevaser“médiadeirmãos<2”.Esteraciocínioé,noentanto,enviesadoporquesósabemosamédiadaamostraaposteriori,i.e.depoisdeaobter.Poroutraspalavras,tereieu,antesdeperguntaràs40pessoasdeirmaos,algumarazãoparadesconfiarqueaverdadeiramédiadeirmãossejamenorque2?Emprincípionão.Quandonãotemosnenhumaindicaçãoaprioridetendência,ahipótesealternativadeve ser enunciada como “diferente”. É só quando temos alguma suspeita de tendência quedevemosconsideraraalternativacomo“menor”ou“maior”.NocasodaQ1devemos,pois,considerar𝐻/:𝜇 ≠ 2.Nãoquerdizerquenãosepossaconsiderar𝐻/:𝜇 < 2ou𝐻/:𝜇 > 2;apenasqueseofizermos,devemosterumarazãojustificativa.Resumindo:otestedehipóteseslevantadoporQ1podeserformalmentedescritopor

𝐻?:𝜇 = 2𝑣𝑠𝐻/:𝜇 ≠ 2Existemformasalternativasdeseenunciarmatematicamenteumtestedehipóteses.Noentanto,em todas estas formas, a hipótese nula contém sempre uma igualdade e a hipótese alternativasempreumadesigualdade.Testescomaalternativaescritacomo“diferente”dizem-sebilaterais.Testescomalternativa“menor”designam-seporunilateraisesquerdos,ecomalternativa“maior”unilateraisdireitos.VejamosagoraotestequesepodeenunciarapartirdeQ2.Estepodeserformalmentedescritocomop.ex.

𝐻?:𝜇 = 70,6𝑣𝑠𝐻/:𝜇 ≠ 70,6Comoexemplodeumtesteunilateral,podemospegarnaQ2ereescrevê-la:Q2b.“AmédiamensaldepluviosidadeemPortugaléde70,6mm.Poderãoasmudançasclimáticasteremdiminuídoapluviosidademédia?”Nestecaso,porquequeremostestarumapossíveltendência,otesteteriarepresentaçãoformal

𝐻?:𝜇 = 70,6𝑣𝑠𝐻/:𝜇 < 70,6Epluvseriaaamostraausarparaexecutaroteste.(Naverdade,umaamostracommédiaamostralnosentidocontrárioàalternativanãoiránuncalevararejeiçãodahipótesenula,masissoéoutrahistória.)VejamosagoracomoéquepodemosusaroRparaexecutarestestestes.TesteàmédiadeumapopulaçãoOs testes de hipóteses enunciados na secção anterior são, todos eles, testes à média de umapopulação.Ateoriamatemáticaquepermiteexecutarumtesteéalgocomplicadaeestáforadoâmbitodestetexto.Assim,vamoslimitar-nosaindicarcomoofazernoR.

Page 24: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 24

TendoumaamostranoR,ocomandot.testpermiterealizar-seumtesteàmédia,baseadonessaamostra.ParaQ1vem> t.test(irmaos, mu = 2) One Sample t-test data: irmaos t = -4.742, df = 39, p-value = 2.817e-05 alternative hypothesis: true mean is not equal to 2 95 percent confidence interval: 0.858761 1.541239 sample estimates: mean of x 1.2 Emprimeirolugarvejamososparâmetrosdocomando:irmaosindicaaamostraausaremu = 2queesseéovalordamédiadapopulaçãoatestar.Vejamosagoraooutput.Ofulcralnooutputéovalordeprova,p-value.Paracompreenderestenúmero,consideremososeguinteraciocíno:mesmoqueamédiadapopulaçãosejarealmente𝜇 =2,nemtodasasamostrasdelatiradasvãotermédiaamostral𝑥 = 2.Comoavariávelemestudoéaleatória,umasamostrasirãotermaisque2,outrasmenosque2.Ouseja,énormalhaveralgumdesvio.Oquenãoénormaléqueessedesviosejagrandedemais!Oraop-valueéonúmeroquenosdizaprobabilidadede,sendo𝐻?verdadeira,odesvioentreamédiaamostraleamédiadapopulaçãoserigualousuperioraoobservado.Paraocasoacima,op-valueéde2,817´10-5,i.e.0,002817%.Ouseja,se𝜇 = 2aprobabilidadedeumaamostratiradadessapopulaçãoapresentarumamédiatãopequenaquantoaobservada(𝑥 =1,2) ou menos essa é extremamente baixa. Assim, é de suspeitar que a verdadeira média dapopulaçãonãoseja𝜇 = 2,massimalgodiferente(nestecasomenorque2),ouseja,éderejeitarahipótesenulaeconsiderarahipótesealternativa.Paraseperceberbemestepontovamosgeraraleatoriamentealgumasamostrascom40elementosdeumapopulaçãocom𝜇 = 2egerarop-valuedotesteàmédiaassociado:

Am. média amostral p-value 1 2.136109 43% 2 2.051206 80% 3 1.856278 31% 4 1.753305 14% 5 1.885642 47%

Comovemos,nas5amostrasacima,amédiaamostraloscilouumpouco,masnuncaseafastoumuitode2e,consequentemente,osp-valuesnuncaficaramabaixodos10%.Ouseja,emnenhumdoscasoshouveevidênciaestatísticapara rejeitar𝜇 = 2.Agora,quandoapareceumaamostra commédiaamostral1,2ep-value0,0028%époucoprovávelqueelasejaoriundadeumapopulação𝜇 = 2.Podeacontecer,masépoucoprováveledeve-serejeitaressahipótese.

Page 25: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 25

Tipicamenteafronteiraentrerejeiçãoenão-rejeiçãositua-seentreos1e10%dep-value.Ouseja,parap-valuesabaixode1%,écomumrejeitar-sesempreahipótesenula.Paravaloresacimade10%nãosecostumarejeitar.Entre1e10%estamosnachamada“zonacinzenta”,emqueojulgamentoderejeiçãoounãoficaaocritériododecisor.Éporestarazãoquesedissequeoresultadodeumtestedehipótesesnemsempreéperemptório.VejamosagoraotesteQ2.OoutputRé> t.test(pluv, mu = 70.6) One Sample t-test data: pluv t = 0.082102, df = 11, p-value = 0.936 alternative hypothesis: true mean is not equal to 70.6 95 percent confidence interval: 45.22234 97.94433 sample estimates: mean of x 71.58333 O p-value de 93,6% indica claramente não-rejeição de𝐻?. Ou seja, não há razão para rejeitar ahipótesedequeoanodepluvtenhasidoumanodepluviosidadenormal.QuantoaQ2btemos:> t.test(pluv, mu = 70.6, alternative = "less") One Sample t-test data: pluv t = 0.082102, df = 11, p-value = 0.532 alternative hypothesis: true mean is less than 70.6 95 percent confidence interval: -Inf 93.09248 sample estimates: mean of x 71.58333 Oparâmetroalternative = "less"indicaqueotestedeveserunilateralesquerdo.Paraumtestelateraldireitodeve-seusaralternative = "greater".Asintaxemesmodeseresta.Sintaxesaparentementemaisnaturaisdãoerro...> t.test(pluv, mu < 70.6) Error in t.test.default(pluv, mu < 70.6) : object 'mu' not foundSenãoseusaroparâmetroalternative,oRfazumtestebilateral.

Page 26: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 26

ValidadedeumtesteàmédiaComovimos,érelativamentesimplesfazerumtesteàmédiacomoR.Noentanto,estatisticamenteexistemalgunspressupostosteóricosquesedevemcumprirparaquesepossaconfiarnoresultadodesseteste(p-value).Paraamostraspequenas,N£30,apopulaçãoemestudodeveserprovenientedeumadistribuiçãogaussiana,ounormal.Adistribuiçãonormaléumadistribuiçãocontínua,usualmenteassociadaacoisascomocaraterísticasfísicas(peso,altura,etc.)ouerrosdemedição.Paraamostrasmaiores,N>30,apopulaçãopodeserqualquer.Nosnossosdoiscasostemosquepluvéumaamostrapequena(N=12)eirmaosumaamostragrande(N=40).Ouseja,parairmaospodemosconfiarnoresultadodostestesquefizémos.Eparapluv? Como podemos verificar que pluv é (pelo menos aproximadamente) uma distribuiçãonormal?Verificaropressupostodenormalidadepodeser feitoatravésdeumtestedehipótesespreliminar,otestedeShapiro-Wilk.OcomandoRparaexecutarestetesteéshapiro.test:> shapiro.test(pluv) Shapiro-Wilk normality test data: pluv W = 0.93505, p-value = 0.4368 Neste teste a hipótese nula é “a distribuição depluv é normal” e a hipótese alternativa é “adistribuição não é normal”. O valor de prova 44% diz-nos que não há evidência estatística pararejeitar a hipótese nula, pelo que podemos considerar quepluv provém efetivamente de umadistribuiçãonormal.Assimsendo,osresultadosobtidosanteriormenteparapluvestãovalidados.Seporventuraop-valuedotestedeShapiro-Wilkfossebaixo(p.ex.<1%),entãoserianecessáriorecolhermaisdadosdepluvparasechegaraumaamostracompelomenos30valores.Comocuriosidade,abaixotemosotestedeSharpiro-Wilkparairmaos:Ovalordeprovade0,012%eraesperado,dadoqueadistribuiçãodeirmaosnãoécontínua,massimdiscreta.> shapiro.test(irmaos) Shapiro-Wilk normality test data: irmaos W = 0.8557, p-value = 0.0001241 Podemosresumirafilosofiadevalidaçãodeumtesteàmédianaseguintechavedicotómica:

Page 27: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 27

TesteàproporçãoUmaoutrasituaçãocomuméo testeaumaproporção.Vejamosumasituação típica: lançoumamoedaaoar100vezes,tendosaído60vezescara(logo40vezescoroa).Estaráamoedaviciada?Otesteàproporçãoéaferramentaestatísticaqueajudaaajuizarsituaçõescomoesta.Este tipo de teste reporta-se a situações em que uma experiência, que só tem dois resultadospossíveis(simounão),érepetidanvezes,tendoocorridoxvezesum“sim”.Seaproporçãoesperadaforp,ocomandoRbinom.testpermitedescortinaraplausibilidadedeaproporçãoreal,serdefacto,p.Vejamosestetesteemaçãoparaoexemplodamoeda:> binom.test(60, 100, p = 0.5) Exact binomial test data: 60 and 100 number of successes = 60, number of trials = 100, p-value = 0.05689 alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.4972092 0.6967052 sample estimates: probability of success 0.6 Nocomando,o60éonúmerodesucessos,100onúmerodelançamentosep = 0.5aproporçãoqueesperaríamosseamoedanãoestivesseviciada.ORdevolve-nosp-value = 0.05743,queéaplausibilidadedodesvioemrelaçãoaoesperado(60sucessos,emvezdos50esperados)serfrutodoacaso.Osresultadosapontamparaumaplausibilidadedecercade6%,oquecainadita“zonacinzenta”.Omelhoraquiseriacontinuaralançaramoeda,paraverseos6%oubaixamparaos1%,casoemqueamoedaprovavelmenteestariaviciada,ouse,pelocontrário,sobepara10%,casoemquenãoteríamosrazãoparadesconfiardevício.Poromissão,otesteàproporçãoébilateral.Noscasosemqueháumadesconfiançaaprioriqueamoeda poderá estar viciada num dos sentidos, pode-se, tal como no caso do teste à média,acrescentaroparâmetroalternative = "less"(p<0,5)oualternative = "greater"(p>0,5),quetornaotesteunilateralesquerdooudireito.

Corrert.test

N>30

Rej.H0

Não-rej.H0

N£30

Dimensãodaamostra?N

Corrershapiro.test

ResultadoRecolhademaisdados

ResultadoConclusão

Page 28: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 28

OalgoritmodetesteàproporçãoprogramadonoRéexato,portantoaquestãodavalidadedotestenãosecoloca.Eleéválidoparaqualquervalorden,xoup.

AnálisedevariânciaAanálisedevariância(analysisofvariance–ANOVA)éumtestedehipótesesadequadoacompararmédiasdemaisdeduasamostras.Estatécnicafoidesenvolvidaoriginalmenteparafinsagrícolas,como uma forma de determinar se diferentes tratamentos aplicados aos terrenos cultivadosresultavamemmelhoriadeprodutividade.Embora a ANOVA seja normalmente usada para comparar dados provenientes demais de duasamostras,estatécnicapodeaindaassimserusadacomapenasduasamostras.Noentanto,oleitordeve saber que nesse caso existem testes mais abrangentes, no sentido em que cobrem maissituaçõesdoqueaquelasemqueaANOVApodeseraplicada.Por útlimo, háque referir que existemmuitos tipos deANOVA.Aqui vamos estudar o tipomaissimples,aANOVAde1fatordeefeitosfixos(one-wayfixedeffectsanalysisofvariance).ExecuçãodeumaANOVAcomR–casopráticoVejamos um exemplo de ANOVA, neste contexto original. Suponhamos que três terrenos sãosubmetidosatrêstratamentosdiferentes,p.ex.aduboA,BouC.Sãorecolhidas5colheitasdecadaterreno,tendo-seobtidoasseguintesprodutividadesporhectare:

Tratamento Produtividade(ton/ha)A 14,13,20,15,13B 13,14,13,18,15C 19,16,17,20,19

AprimeiracoisaafazeréentrarestesdadosnoR:> A = c(14, 13, 20, 15, 13) > B = c(13, 14, 13, 18, 15) > C = c(19, 16, 17, 20, 19) Amédiadestestrêsconjuntos,ougrupos,dedadosé> mean(A) [1] 15 > mean(B) [1] 14.6 > mean(C) [1] 18.2 eaquestãoaresponderé

Page 29: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 29

Q:“Seráqueadiferençaentreestasmédiasamostraiséestatisticamenterelevante,ouserãoapenasflutuaçõesestatísticas?”EmlinguagemmatemáticapoderíamosescreverQ:“Seráqueostrêsgrupostêmamesmamédiadepopulação,ouhaverápelomenosumquetenhaamédiadepopulaçãodiferentedosoutros?”Quesetraduz,emlinguagemformal,

𝐻?: ∀,G𝜇, = 𝜇G𝑣𝑠.𝐻/: ∃,G𝜇, ≠ 𝜇G A rejeição,ounão,de𝐻? serábaseadanasamostrasquetirámosdostrêsgruposdedadosenatécnicaANOVA.ValidaçãodepressupostosAntesdeprosseguircomaANOVAháquelembrarque,àsemelhançadostestesàmédia,háumasériedepressupostosacumprirparaqueoresultadofinalsejaestatisticamenteaceitável.Casoestespressupostos não sejam todos validados, haverá que procurar na literatura por outros testes dehipótesesalternativos,comop.ex.otestedeKruskal-WallisoudeFriedman.Oprimeiropressupostoéaindependênciadosgrupos.Ouseja,quenãoháinterferênciadeumgruponooutro.Talpoderiaacontecerp.ex.seosterrenosfossemcontíguoseafertilizaçãosedesseporpolinização: nesse caso haveriamistura genética entre os grupos, complicando a análise. Outroexemploéomesmoconjuntodepessoasseradministradotrêsmedicamentosdiferentes.Ofactodeseremasmesmaspessoasemtrêssituaçõesdiferentescolocaemcausaaindependênciaeháquerecorrer a testes alternativos (neste caso o teste de Friedman). Se fossem três medicamentosadministradosatrêsconjuntosdiferentesdepessoas,aísim,jáhaveriaindependência.Opressupostodeindependêncianãopodeserverificadocomnenhumtesteestatísticopreliminar.Cabeao investigadorzelarparaqueascondiçõesdaexperiênciaaleatóriagarantem,pelomenosaproximadamente, a independência dos grupos. No caso em estudo vamos assumir que não háproblemasdeinfestaçãodeumterrenopelooutroeque,porconseguinte,háindependência.O segundo pressuposto é que os grupos seguem distribuições normais. Para verificar estepressupostobastacorreronossojáconhecidotestedeShapiro-Wilk.Talcomonocasodostestesàmédia,dispensa-seestaverificaçãoparaN>30.Nocasoemmãostemos:> shapiro.test(A) Shapiro-Wilk normality test data: A W = 0.77559, p-value = 0.0505 > shapiro.test(B)

Page 30: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 30

Shapiro-Wilk normality test data: B W = 0.84215, p-value = 0.171 > shapiro.test(C) Shapiro-Wilk normality test data: C W = 0.91367, p-value = 0.4899 Ogrupo1estánoborderlinedanormalidade(p-valuepequeno,àrodados5%),masaindaassimpodeserconsideradocomoseguindoumadistribuiçãonormal.O terceiro e último pressuposto é que os grupos têm amesma variância. Variância é apenas oquadrado do desvio-padrão. O R dispõe de vários testes para verificar esta homogeneidade davariância.UmdosmaisusadoséotestedeBartlett,cujashipótesessão,emlinguagemcoloquial,H0:osgrupostêmamesmavariânciavs.H1:hápelomenosumgrupocomvariânciadiferentedosoutros.OcomandoRparacorrerotestedeBartletté> bartlett.test(list(A,B,C)) Bartlett test of homogeneity of variances data: list(A, B, C) Bartlett's K-squared = 1.2051, df = 2, p-value = 0.5474 O valor de prova de 55% indica clara não-rejeição de H0, pelo que se valida o pressuposto dahomogeneidadedevarância.Note-sequeénecessárioescreverexplicitamentelist(A,B,C).Seescrevermossemlist,p.ex.bartlett.test(A,B,C),ocomandointerpretamalosignificadodeB:> bartlett.test(A,B,C) Error in bartlett.test.default(A, B, C) : there must be at least 2 observations in each group Validadosostrêspressupostos,podemosfinalmenteprepararecorrerotesteprincipal,aANOVAde1fator.FormataçãodedadosedataframesParaoRcorrerotesteANOVAháqueagregarosdadosdaprodutividadenumvetorapenas.Afunçãoc(combine),jánossaconhecida,podeserusadaparaisso:> prod<-c(A,B,C) > prod

Page 31: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 31

[1] 14 13 20 15 13 13 14 13 18 15 19 16 17 20 19 Temosnototal15valores.Paraasassociaraosgruposrespetivosháagoraquecriarumnovovetorcomindicaçãodequaléessegrupo.Háduasmaneirasdefazer isto:uma“manual”, i.e.escreverexplicitamenteovetor:> grupos <-c("A","A","A","A","A","B","B","B","B","B","C","C","C","C","C") > grupos [1] "A" "A" "A" "A" "A" "B" "B" "B" "B" "B" "C" "C" "C" "C" "C" eumaoutra,maiscompacta,quefazusodocomandorep(replicar):> grupos<-c(rep("A",5),rep("B",5),rep("C",5)) > grupos [1] "A" "A" "A" "A" "A" "B" "B" "B" "B" "B" "C" "C" "C" "C" "C" Ocomandorep("A",5)significa:“repliqueocaraterAcincovezes”.Orestoéautoexplicativo.Háapenasque ter o cuidadodenãonos enganarmosna afetaçãonemna contagemde valores: setivermosp.ex.7valoresnogrupoAdevemosusarrep("A",7).Tambémconvémnãoesquecerdaaspas,casocontráriooRpensaráqueAéumavariáveledaráerromaistarde.Umaformadeverificarseaafetaçãoficoubemfeitaéjuntarosdoisvetoresnumúnicoquadrodedados(dataframe).Paraissousa-seocomandodata.framee:> quadro<-data.frame(prod,grupos) > quadro prod grupos 1 14 A 2 13 A 3 20 A 4 15 A 5 13 A 6 13 B 7 14 B 8 13 B 9 18 B 10 15 B 11 19 C 12 16 C 13 17 C 14 20 C 15 19 C Esta visualização permite verificar rapidamente se os dados foram bem entrados. O comandodata.frame tenta juntar os dois vetoresprod egrupos numobjeto do tipodata frame. Oformatodata frame é semelhante ao já conhecidotable,mas não exatamente igual. OsdataframessãoimportantesemRporqueéoformatomaissimplesparaimportaçãodedadosdeficheirosexternos,comop.ex.folhasdecálculo.XLSou.XLSX.

Page 32: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 32

TabelaANOVAesuainterpretaçãoEstamosfinalmenteprontosparacorrerocomandoqueexecutaaANOVA.Esteé,juntamentecomoresultado,> anova(lm(prod ~ grupos)) Analysis of Variance Table Response: prod Df Sum Sq Mean Sq F value Pr(>F) grupos 2 38.933 19.4667 3.7677 0.05372 . Residuals 12 62.000 5.1667 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 O comando significa “execute uma ANOVA sobre o modelo linear (lm) em que cada valor daprodutividade(prod)estáassociadaaogruporespetivo(grupos)”.Ocomandolmcriaummodelolineargeral,queservetantoparaaANOVAcomopararegressõeseoutrastécnicas.Notarquesesetrocarprodcomgrupos,i.e.tentaranova(lm(grupos ~ prod)),oRnãovaicompreenderoquesepretendeevaidevolvererro.Épossívelinvocarocomandoanovaapartirdodataframequadro,masesseprocedimentotemalgumassubtilezasquenãovamosfocaragora.Vejamosos resultadosagora.Op-valuedo testeANOVAéovalornaúltimacolunaPr(>F) = 0.05372,cercade5%.Éumvalornolimiardarejeiçãode𝐻?,ouseja,háumasuspeitaconsideráveldequepelomenosumtratamentotenhageradodiferenteprodutividade.Emboraaevidênciaestatísticanãosejatotalmenteconcludente(sê-lo-iaseop-valuefosseabaixode 1%), há uma questão que se torna pertinente: qual será, ou quais serão, os tratamentosresponsáveis pelas diferenças? Também aqui a estatística nos permite dar uma resposta a estaquestão,medianteoquesedesignapor“testepost-hoc”.TestesdecomparaçõesmúltiplasOs testes de comparaçõesmúltiplas, ou testes post-hoc, tentam identificar qual/is o(s) grupo(s)responsáveis pela rejeição de𝐻? na ANOVA. Há umas boas duas dezenas de testes post-hoc, amaioriadosquaisoR faz.Vejamoscomofuncionamnaprática.OcomandoRparaomaisusadodeles,o“TukeyHSD”(honestsignificantdifference)ésemelhanteaodaANOVA:> TukeyHSD(aov((lm(prod ~ grupos)))) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = (lm(prod ~ grupos))) $grupos diff lwr upr p adj B-A -0.4 -4.2352956 3.435296 0.9583671 C-A 3.2 -0.6352956 7.035296 0.1068512 C-B 3.6 -0.2352956 7.435296 0.0665354

Page 33: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 33

AfunçãoaovénecessáriaporqueocomandoTukeyHSDatuasobreobjetosdessaclasse.Trata-seapenasdeumatecnicalidadequenãovaleapenaexploraragora.Vejamos,issosim,osresultados.ORdevolve-nosumasériedecomparações(daíonome“testesdecomparaçõesmúltiplas”)entregrupos.Na1ªlinha,B-A,osgruposAeBsãocomparadosparaoteste“seráamédiadapopulaçãodeAestatisticamenteigualàdeB(H0)oudiferente(H1)?”Op-valuede96%apontaclaramenteparanão-rejeiçãodeH0.Na2ºlinha,C-A,sãocomparadosAeC,paraump-valuede11%.Emboraasamostras apontem para diferenças entre as médias de populaçãomais significativas, ainda nãosuficientementefortesparaindicarumadiferença.Finalmente,na3ªlinha,C-B,acomparaçãoentreBeCdevolveump-valuede6,6%.Aconclusãodesteestudonãoécompletamenteperentória.Noentanto,umacoisaparececlara:sehouverumtratamentodiferentedosoutros, seráo tratamentoC.Nestecasooqueháa fazerérecolhermaisdadoserepetiraanálise.

Page 34: Visualização de dados e testes de hipóteses com R · de igual amplitude, com N o número de valores da amostra (ou dimensão da amostra). Como Como normalmente uma raiz quadrada

Versão:31-Aug-17 ©UAberta 34

ExercíciosParaterminarestabreveintroduçãoàvisualizaçãodedadosetestesdehipótesescomR,deixa-seaquialgunsexercíciosparapraticar.1. Asequênciaabaixoindicaonúmerodetelefonemasrecebidospor30pessoasduranteumdia.

2 2 3 4 3 2 1 3 2 4 2 3 3 2 2 4 2 2 1 4 2 0 3 4 5 4 2 0 3 1

Representeestesdadosemtabeladefrequências,diagramadebarrasecircular,everifiqueseéplausívelqueamédiadiáriadetelefonemasrecebidossejamenorque3.

2. Osvaloresabaixoreferem-seàalturade15adultosdosexomasculino,emcm.

186 184 177 177 179 189 177 185 179 186 179 175 182 187 175 (a) Organizeestesdadosem3-4classes(manualmenteoudeixandoaocuidadodepretty)e

elaboreumatabeladefrequênciaseumhistogramadosmesmos.(b) Atendendo a que a média da altura dos homens portugueses é de 173 cm, qual será a

plausibilidadedaamostraacimaoriginarnapopulaçãoportuguesa?3. Umamigoseuasseguraqueseumdadoforlançadodeumacertamaneira,duasdassuasfaces

sairãomenosvezesqueasoutras.Aofimde50lançamentos,essasduasfacessaem15vezes.Teráoseuamigorazãonoquediz?Notequenestecasoaprobabilidadedesair2facesem6possíveisserá,àpartida,2em6,ousejap=1/3.

4. OexemplodeANOVAquevimosnasecçãodeanálisedevariâncianãoeratotalmenteconclusivo,

Assim,foramrecolhidasmais5colheitasdecadaumdosterrenossujeitosaostratamentosA,BeC.Cadagrupotemagora10observaçõesdeprodutividade,quesão

Tratamento Produtividade(ton/ha)

A 14,13,20,15,13,15,19,18,11,13B 13,14,13,18,15,15,16,15,16,15C 19,16,17,20,19,16,18,21,19,16

Terão os dados suplementares ajudado a determinar se há algum tratamento diferente dosoutros?Respondaaestaquestão repetindoaANOVAdoexemplo: validepressupostos, corrao testeANOVAe,casoaANOVAdetetediferençassignificativasentretratamentos,corraotesteTukeyHSDparatentaridentificaro(s)tratamento(s)diferentes.