alguns comandos no r. aula 1 minicurso

43
Alguns comandos no R. Aula 1 minicurso 10 de outubro de 2013 I congreso Internacional de Estad ´ ıstica. Trujillo-Per´ u. 2013 Resumo Muitos programas de computador auxiliam as an´ alises de dados de pesquisas e estas an´ alises r ecaem em pacotes estat´ ısticos que no mer- cado s˜ao pagos ou alugados com licen¸cas que expiram ou se renovam periodica mente. No entan to a plataf orma R, supera estes impasses, proporcionando um programa livre (o seu c´ odigo fonte esta dispo n ´ ıvel para altera¸ ao pelo usu´ ario) e gratuito (sem custo monet´ ario) usando a linguagem de programa¸ c˜ao S, do SPLUS. Este programa ´ e con´ avel pela qualidade dos seus resultados, e pela estabilidade em ambientes como Linux e Windows. Atua lmen te o R disponibil iza mais de 1000 pacotes para serem instaladas na sua biblioteca, porem cada ´ area uti- liza fun¸ oes esp ec´ ıficas, por exemplo, em econometria, podemos esta interessados inicialmen te nos pacotes: “lmtest”, “quantreg”, “KernS- moot h”, “ca r”, “st rucchange”, “AER”, a l´ em do pacot e padr˜ ao “stats”. Para s´ eries temp orais, p odemos acrescentar os pacotes: “tseries”, “fo- recast”, “fracdi”, “TSA ”, “vars”, todos estes pacotes podem ser fa- cilmente baixados (download) via internet, al´ em disso os seus tutoriais est˜ ao disp on ´ ıveis no formato htlm, pdf, como alternativa use a a juda (help) do R. 1

Upload: graciela-marques

Post on 06-Jul-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 143

Alguns comandos no R Aula 1 minicurso

10 de outubro de 2013

I congreso Internacional de Estadıstica Trujillo-Peru 2013

ResumoMuitos programas de computador auxiliam as analises de dados

de pesquisas e estas analises recaem em pacotes estatısticos que no mer-cado sao pagos ou alugados com licencas que expiram ou se renovamperiodicamente No entanto a plataforma R supera estes impassesproporcionando um programa livre (o seu codigo fonte esta disponıvelpara alteracao pelo usuario) e gratuito (sem custo monetario) usandoa linguagem de programacao S do SPLUS Este programa e confiavelpela qualidade dos seus resultados e pela estabilidade em ambientescomo Linux e Windows Atualmente o R disponibiliza mais de 1000pacotes para serem instaladas na sua biblioteca porem cada area uti-liza funcoes especıficas por exemplo em econometria podemos esta

interessados inicialmente nos pacotes ldquolmtestrdquo ldquoquantregrdquo ldquoKernS-moothrdquo ldquocarrdquo ldquostrucchangerdquo ldquoAERrdquo alem do pacote padrao ldquostatsrdquoPara series temporais podemos acrescentar os pacotes ldquotseriesrdquo ldquofo-recastrdquo ldquofracdiffrdquo ldquoTSA rdquo ldquovarsrdquo todos estes pacotes podem ser fa-cilmente baixados (download) via internet alem disso os seus tutoriaisestao disponıveis no formato htlm pdf como alternativa use a a juda(help) do R

1

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 243

1 INICIANDO O R

1 Iniciando o R

Para instalar o R temos que estar conectados a internet e baixar dire-tamente da pagina httpwwwr-projectorg Se estamos usando a pla-taforma Windows baixar o R para Windows atualmente a versao e 301disponıvel desde 25092013

Figura 1 Visualizacao na inicializacao do R

Quando instalamos o R uma lista de pacotes padrao ja estao nabiblioteca os quais sao visualizados com a funcao search()

gt search()

[1] GlobalEnv packagestats packagegraphics

[4] packagegrDevices packageutils packagedatasets

[7] packagemethods Autoloads packagebase

Castaneda Daniel F N 2013 2

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 343

11 Dados permanentes e removendo objetos 1 INICIANDO O R

Para instalar pacotes do R uma lista completa esta disponıvel com o

comando

installpackages()

11 Dados permanentes e removendo objetos

Durante uma sessao no R objetos sao criados e guardados por nomespara verificar estes objetos usamos o comando ou funcao

objects( ) ou gtls( )

[1] a1 a2 aa acei

[5] ads aju aju1 ajuste

[9] ajuste1 ajuste2 ajustehw ara

Para remover objetos antigos ou sem uso utilizamos o comando rm()

rm(a1 a2 aa acei ads aju)

Para detectar os pacotes na biblioteca local

library()

Para instalar o pacote urca disponıvel na biblioteca

installpackages(urca)

Um pacote instalado tem que ser chamado no R para realizar a tarefaPara chamar o pacote urca ja instalado

library(urca)

Para verificar os pacotes na biblioteca externa

updatepackages()

Para ver a lista de pacotes instalados na biblioteca local

installedpackages()

Castaneda Daniel F N 2013 3

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

12 Manipulacao de numeros e vetores

Para declarar numeros exemplo v =983131

10983133

realizamos o seguinte co-mando

v=10

v

[1] 10

Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =

9831311 3 34 6 99 3

983133 usamos

q=c(13346993)

Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar

1q

[1] 10000000 03333333 029411765 01666667 00101010 03333333

No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim

qgt3

[1] FALSE FALSE TRUE TRUE TRUE FALSE

para restringir valores de q maiores do que 3

q[qgt3]

[1] 34 6 99

Podemos converter numeros em caracteres ou dıgitos assim

z2=c(09) equivalente a z2=09

digit=ascharacter(z2)

digit

[1] 0 1 2 3 4 5 6 7 8 9

Para retornar dıgitos em numeros com o seguinte comando

d=asinteger(digit)

d

[1] 0 1 2 3 4 5 6 7 8 9

Castaneda Daniel F N 2013 4

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

Para preparar uma variavel para ingressar seus valores por exemplo

e=numeric()

e[3]=17

Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos

e

[1] NA NA 17

Podemos ainda declarar os outros elementos de e

Para Construir um vetor qualitativo sendo na ordem 10 homens e 5

mulheres usamos a funcao rep()

w=c(rep(homem10) rep(mulher5))

w

[1] homem homem homem homem homem homem homem

[8] homem homem homem mulher mulher mulher mulher

[15] mulher

Considere o tamanho do calcado no pe de cada individuo em w

pe=c(404239414440424144403535373637)

Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma

table(wpe)

pe

w 35 36 37 39 40 41 42 44

homem 0 0 0 1 3 2 2 2

mulher 2 1 2 0 0 0 0 0

Para construir graficos para as tabelas usamos as funcoes

plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)

barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))

Seus respectivo graficos sao

Castaneda Daniel F N 2013 5

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643

13 Func˜ oes matematicas 1 INICIANDO O R

Frequecircncias

sexo

n uacute m e r o

homem mulher

3 5

3 6

3 7

3 9

4 0

4 1

4 2

4 4

35 36 37 39 40 41 42 44

Frequecircncias

peacute

c a s o s

0 0

0

5

1 0

1 5

2 0

2

5

3 0

mulherhomem

Figura 2 Descricao do calcado por sexo

13 Funcoes matematicas

Para utilizar as funcoes matematicas usamos os comandos

gt history() comandos usados previamente

gt length(x) numero de elementos do vetor ou lista x

gt log(x) log na base e de x

gt exp(x) antilogaritmo de x

gt log(xn) log na base n de x

gt log10(x) log na base 10 de x

gt sqrt(x) raiz quadrada de x

gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))

gt gamma(x) x (x-1) x inteiro

gt floor(x) menor inteiro de x

gt trunc(x) escolha do menor inteiro

gt abs(x) valor absoluto de x

gt cos(x) cosseno de x

gt sin(x) seno de x

gt tan(x) tangente de x

gt acos(x) inversa cosseno

gt asin(x) inversa seno

gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica

gt asinh(x) inversa seno hiperbolica

gt atanh(x) inversa tangente hiperbolica

gt round(x digits=2) aproximac~ao a duas casas decimais

gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos

Castaneda Daniel F N 2013 6

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 2: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 243

1 INICIANDO O R

1 Iniciando o R

Para instalar o R temos que estar conectados a internet e baixar dire-tamente da pagina httpwwwr-projectorg Se estamos usando a pla-taforma Windows baixar o R para Windows atualmente a versao e 301disponıvel desde 25092013

Figura 1 Visualizacao na inicializacao do R

Quando instalamos o R uma lista de pacotes padrao ja estao nabiblioteca os quais sao visualizados com a funcao search()

gt search()

[1] GlobalEnv packagestats packagegraphics

[4] packagegrDevices packageutils packagedatasets

[7] packagemethods Autoloads packagebase

Castaneda Daniel F N 2013 2

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 343

11 Dados permanentes e removendo objetos 1 INICIANDO O R

Para instalar pacotes do R uma lista completa esta disponıvel com o

comando

installpackages()

11 Dados permanentes e removendo objetos

Durante uma sessao no R objetos sao criados e guardados por nomespara verificar estes objetos usamos o comando ou funcao

objects( ) ou gtls( )

[1] a1 a2 aa acei

[5] ads aju aju1 ajuste

[9] ajuste1 ajuste2 ajustehw ara

Para remover objetos antigos ou sem uso utilizamos o comando rm()

rm(a1 a2 aa acei ads aju)

Para detectar os pacotes na biblioteca local

library()

Para instalar o pacote urca disponıvel na biblioteca

installpackages(urca)

Um pacote instalado tem que ser chamado no R para realizar a tarefaPara chamar o pacote urca ja instalado

library(urca)

Para verificar os pacotes na biblioteca externa

updatepackages()

Para ver a lista de pacotes instalados na biblioteca local

installedpackages()

Castaneda Daniel F N 2013 3

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

12 Manipulacao de numeros e vetores

Para declarar numeros exemplo v =983131

10983133

realizamos o seguinte co-mando

v=10

v

[1] 10

Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =

9831311 3 34 6 99 3

983133 usamos

q=c(13346993)

Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar

1q

[1] 10000000 03333333 029411765 01666667 00101010 03333333

No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim

qgt3

[1] FALSE FALSE TRUE TRUE TRUE FALSE

para restringir valores de q maiores do que 3

q[qgt3]

[1] 34 6 99

Podemos converter numeros em caracteres ou dıgitos assim

z2=c(09) equivalente a z2=09

digit=ascharacter(z2)

digit

[1] 0 1 2 3 4 5 6 7 8 9

Para retornar dıgitos em numeros com o seguinte comando

d=asinteger(digit)

d

[1] 0 1 2 3 4 5 6 7 8 9

Castaneda Daniel F N 2013 4

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

Para preparar uma variavel para ingressar seus valores por exemplo

e=numeric()

e[3]=17

Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos

e

[1] NA NA 17

Podemos ainda declarar os outros elementos de e

Para Construir um vetor qualitativo sendo na ordem 10 homens e 5

mulheres usamos a funcao rep()

w=c(rep(homem10) rep(mulher5))

w

[1] homem homem homem homem homem homem homem

[8] homem homem homem mulher mulher mulher mulher

[15] mulher

Considere o tamanho do calcado no pe de cada individuo em w

pe=c(404239414440424144403535373637)

Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma

table(wpe)

pe

w 35 36 37 39 40 41 42 44

homem 0 0 0 1 3 2 2 2

mulher 2 1 2 0 0 0 0 0

Para construir graficos para as tabelas usamos as funcoes

plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)

barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))

Seus respectivo graficos sao

Castaneda Daniel F N 2013 5

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643

13 Func˜ oes matematicas 1 INICIANDO O R

Frequecircncias

sexo

n uacute m e r o

homem mulher

3 5

3 6

3 7

3 9

4 0

4 1

4 2

4 4

35 36 37 39 40 41 42 44

Frequecircncias

peacute

c a s o s

0 0

0

5

1 0

1 5

2 0

2

5

3 0

mulherhomem

Figura 2 Descricao do calcado por sexo

13 Funcoes matematicas

Para utilizar as funcoes matematicas usamos os comandos

gt history() comandos usados previamente

gt length(x) numero de elementos do vetor ou lista x

gt log(x) log na base e de x

gt exp(x) antilogaritmo de x

gt log(xn) log na base n de x

gt log10(x) log na base 10 de x

gt sqrt(x) raiz quadrada de x

gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))

gt gamma(x) x (x-1) x inteiro

gt floor(x) menor inteiro de x

gt trunc(x) escolha do menor inteiro

gt abs(x) valor absoluto de x

gt cos(x) cosseno de x

gt sin(x) seno de x

gt tan(x) tangente de x

gt acos(x) inversa cosseno

gt asin(x) inversa seno

gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica

gt asinh(x) inversa seno hiperbolica

gt atanh(x) inversa tangente hiperbolica

gt round(x digits=2) aproximac~ao a duas casas decimais

gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos

Castaneda Daniel F N 2013 6

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 3: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 343

11 Dados permanentes e removendo objetos 1 INICIANDO O R

Para instalar pacotes do R uma lista completa esta disponıvel com o

comando

installpackages()

11 Dados permanentes e removendo objetos

Durante uma sessao no R objetos sao criados e guardados por nomespara verificar estes objetos usamos o comando ou funcao

objects( ) ou gtls( )

[1] a1 a2 aa acei

[5] ads aju aju1 ajuste

[9] ajuste1 ajuste2 ajustehw ara

Para remover objetos antigos ou sem uso utilizamos o comando rm()

rm(a1 a2 aa acei ads aju)

Para detectar os pacotes na biblioteca local

library()

Para instalar o pacote urca disponıvel na biblioteca

installpackages(urca)

Um pacote instalado tem que ser chamado no R para realizar a tarefaPara chamar o pacote urca ja instalado

library(urca)

Para verificar os pacotes na biblioteca externa

updatepackages()

Para ver a lista de pacotes instalados na biblioteca local

installedpackages()

Castaneda Daniel F N 2013 3

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

12 Manipulacao de numeros e vetores

Para declarar numeros exemplo v =983131

10983133

realizamos o seguinte co-mando

v=10

v

[1] 10

Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =

9831311 3 34 6 99 3

983133 usamos

q=c(13346993)

Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar

1q

[1] 10000000 03333333 029411765 01666667 00101010 03333333

No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim

qgt3

[1] FALSE FALSE TRUE TRUE TRUE FALSE

para restringir valores de q maiores do que 3

q[qgt3]

[1] 34 6 99

Podemos converter numeros em caracteres ou dıgitos assim

z2=c(09) equivalente a z2=09

digit=ascharacter(z2)

digit

[1] 0 1 2 3 4 5 6 7 8 9

Para retornar dıgitos em numeros com o seguinte comando

d=asinteger(digit)

d

[1] 0 1 2 3 4 5 6 7 8 9

Castaneda Daniel F N 2013 4

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

Para preparar uma variavel para ingressar seus valores por exemplo

e=numeric()

e[3]=17

Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos

e

[1] NA NA 17

Podemos ainda declarar os outros elementos de e

Para Construir um vetor qualitativo sendo na ordem 10 homens e 5

mulheres usamos a funcao rep()

w=c(rep(homem10) rep(mulher5))

w

[1] homem homem homem homem homem homem homem

[8] homem homem homem mulher mulher mulher mulher

[15] mulher

Considere o tamanho do calcado no pe de cada individuo em w

pe=c(404239414440424144403535373637)

Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma

table(wpe)

pe

w 35 36 37 39 40 41 42 44

homem 0 0 0 1 3 2 2 2

mulher 2 1 2 0 0 0 0 0

Para construir graficos para as tabelas usamos as funcoes

plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)

barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))

Seus respectivo graficos sao

Castaneda Daniel F N 2013 5

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643

13 Func˜ oes matematicas 1 INICIANDO O R

Frequecircncias

sexo

n uacute m e r o

homem mulher

3 5

3 6

3 7

3 9

4 0

4 1

4 2

4 4

35 36 37 39 40 41 42 44

Frequecircncias

peacute

c a s o s

0 0

0

5

1 0

1 5

2 0

2

5

3 0

mulherhomem

Figura 2 Descricao do calcado por sexo

13 Funcoes matematicas

Para utilizar as funcoes matematicas usamos os comandos

gt history() comandos usados previamente

gt length(x) numero de elementos do vetor ou lista x

gt log(x) log na base e de x

gt exp(x) antilogaritmo de x

gt log(xn) log na base n de x

gt log10(x) log na base 10 de x

gt sqrt(x) raiz quadrada de x

gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))

gt gamma(x) x (x-1) x inteiro

gt floor(x) menor inteiro de x

gt trunc(x) escolha do menor inteiro

gt abs(x) valor absoluto de x

gt cos(x) cosseno de x

gt sin(x) seno de x

gt tan(x) tangente de x

gt acos(x) inversa cosseno

gt asin(x) inversa seno

gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica

gt asinh(x) inversa seno hiperbolica

gt atanh(x) inversa tangente hiperbolica

gt round(x digits=2) aproximac~ao a duas casas decimais

gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos

Castaneda Daniel F N 2013 6

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 4: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

12 Manipulacao de numeros e vetores

Para declarar numeros exemplo v =983131

10983133

realizamos o seguinte co-mando

v=10

v

[1] 10

Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =

9831311 3 34 6 99 3

983133 usamos

q=c(13346993)

Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar

1q

[1] 10000000 03333333 029411765 01666667 00101010 03333333

No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim

qgt3

[1] FALSE FALSE TRUE TRUE TRUE FALSE

para restringir valores de q maiores do que 3

q[qgt3]

[1] 34 6 99

Podemos converter numeros em caracteres ou dıgitos assim

z2=c(09) equivalente a z2=09

digit=ascharacter(z2)

digit

[1] 0 1 2 3 4 5 6 7 8 9

Para retornar dıgitos em numeros com o seguinte comando

d=asinteger(digit)

d

[1] 0 1 2 3 4 5 6 7 8 9

Castaneda Daniel F N 2013 4

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

Para preparar uma variavel para ingressar seus valores por exemplo

e=numeric()

e[3]=17

Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos

e

[1] NA NA 17

Podemos ainda declarar os outros elementos de e

Para Construir um vetor qualitativo sendo na ordem 10 homens e 5

mulheres usamos a funcao rep()

w=c(rep(homem10) rep(mulher5))

w

[1] homem homem homem homem homem homem homem

[8] homem homem homem mulher mulher mulher mulher

[15] mulher

Considere o tamanho do calcado no pe de cada individuo em w

pe=c(404239414440424144403535373637)

Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma

table(wpe)

pe

w 35 36 37 39 40 41 42 44

homem 0 0 0 1 3 2 2 2

mulher 2 1 2 0 0 0 0 0

Para construir graficos para as tabelas usamos as funcoes

plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)

barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))

Seus respectivo graficos sao

Castaneda Daniel F N 2013 5

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643

13 Func˜ oes matematicas 1 INICIANDO O R

Frequecircncias

sexo

n uacute m e r o

homem mulher

3 5

3 6

3 7

3 9

4 0

4 1

4 2

4 4

35 36 37 39 40 41 42 44

Frequecircncias

peacute

c a s o s

0 0

0

5

1 0

1 5

2 0

2

5

3 0

mulherhomem

Figura 2 Descricao do calcado por sexo

13 Funcoes matematicas

Para utilizar as funcoes matematicas usamos os comandos

gt history() comandos usados previamente

gt length(x) numero de elementos do vetor ou lista x

gt log(x) log na base e de x

gt exp(x) antilogaritmo de x

gt log(xn) log na base n de x

gt log10(x) log na base 10 de x

gt sqrt(x) raiz quadrada de x

gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))

gt gamma(x) x (x-1) x inteiro

gt floor(x) menor inteiro de x

gt trunc(x) escolha do menor inteiro

gt abs(x) valor absoluto de x

gt cos(x) cosseno de x

gt sin(x) seno de x

gt tan(x) tangente de x

gt acos(x) inversa cosseno

gt asin(x) inversa seno

gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica

gt asinh(x) inversa seno hiperbolica

gt atanh(x) inversa tangente hiperbolica

gt round(x digits=2) aproximac~ao a duas casas decimais

gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos

Castaneda Daniel F N 2013 6

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 5: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543

12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R

Para preparar uma variavel para ingressar seus valores por exemplo

e=numeric()

e[3]=17

Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos

e

[1] NA NA 17

Podemos ainda declarar os outros elementos de e

Para Construir um vetor qualitativo sendo na ordem 10 homens e 5

mulheres usamos a funcao rep()

w=c(rep(homem10) rep(mulher5))

w

[1] homem homem homem homem homem homem homem

[8] homem homem homem mulher mulher mulher mulher

[15] mulher

Considere o tamanho do calcado no pe de cada individuo em w

pe=c(404239414440424144403535373637)

Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma

table(wpe)

pe

w 35 36 37 39 40 41 42 44

homem 0 0 0 1 3 2 2 2

mulher 2 1 2 0 0 0 0 0

Para construir graficos para as tabelas usamos as funcoes

plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)

barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))

Seus respectivo graficos sao

Castaneda Daniel F N 2013 5

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643

13 Func˜ oes matematicas 1 INICIANDO O R

Frequecircncias

sexo

n uacute m e r o

homem mulher

3 5

3 6

3 7

3 9

4 0

4 1

4 2

4 4

35 36 37 39 40 41 42 44

Frequecircncias

peacute

c a s o s

0 0

0

5

1 0

1 5

2 0

2

5

3 0

mulherhomem

Figura 2 Descricao do calcado por sexo

13 Funcoes matematicas

Para utilizar as funcoes matematicas usamos os comandos

gt history() comandos usados previamente

gt length(x) numero de elementos do vetor ou lista x

gt log(x) log na base e de x

gt exp(x) antilogaritmo de x

gt log(xn) log na base n de x

gt log10(x) log na base 10 de x

gt sqrt(x) raiz quadrada de x

gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))

gt gamma(x) x (x-1) x inteiro

gt floor(x) menor inteiro de x

gt trunc(x) escolha do menor inteiro

gt abs(x) valor absoluto de x

gt cos(x) cosseno de x

gt sin(x) seno de x

gt tan(x) tangente de x

gt acos(x) inversa cosseno

gt asin(x) inversa seno

gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica

gt asinh(x) inversa seno hiperbolica

gt atanh(x) inversa tangente hiperbolica

gt round(x digits=2) aproximac~ao a duas casas decimais

gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos

Castaneda Daniel F N 2013 6

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 6: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643

13 Func˜ oes matematicas 1 INICIANDO O R

Frequecircncias

sexo

n uacute m e r o

homem mulher

3 5

3 6

3 7

3 9

4 0

4 1

4 2

4 4

35 36 37 39 40 41 42 44

Frequecircncias

peacute

c a s o s

0 0

0

5

1 0

1 5

2 0

2

5

3 0

mulherhomem

Figura 2 Descricao do calcado por sexo

13 Funcoes matematicas

Para utilizar as funcoes matematicas usamos os comandos

gt history() comandos usados previamente

gt length(x) numero de elementos do vetor ou lista x

gt log(x) log na base e de x

gt exp(x) antilogaritmo de x

gt log(xn) log na base n de x

gt log10(x) log na base 10 de x

gt sqrt(x) raiz quadrada de x

gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))

gt gamma(x) x (x-1) x inteiro

gt floor(x) menor inteiro de x

gt trunc(x) escolha do menor inteiro

gt abs(x) valor absoluto de x

gt cos(x) cosseno de x

gt sin(x) seno de x

gt tan(x) tangente de x

gt acos(x) inversa cosseno

gt asin(x) inversa seno

gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica

gt asinh(x) inversa seno hiperbolica

gt atanh(x) inversa tangente hiperbolica

gt round(x digits=2) aproximac~ao a duas casas decimais

gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos

Castaneda Daniel F N 2013 6

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 7: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743

14 Func˜ oes estatısticas 1 INICIANDO O R

14 Funcoes estatısticas

gt max(x) valor maximo de x

gt min(x) valor mınimo de x

gt sum(x) soma total dos valores de x

gt mean(x) media aritmetica de x

gt median(x) mediana de x

gt range(x) vetor de mınimo e maximo de x

gt summary(x) resumo de estatısticas de locac~ao de x

gt var(x) variancia de x

gt cor(xy) correlac~a o d e x e y

gt sort(x) ordena em forma crescente os elementos de x

gt rank(x) vector de filas em xgt order(x) valores originais de x

gt quantile(x) vetor contendo os quartis de x

gt cumsum(x) vetor contendo a suma total elemento a elemento

gt cumprod(x) vetor contendo o produto elemento a elemento

gt cummax(x) vetor n~ao decrescente de x substituindo valores

gt cummin(x) vetor n~ao crescente de x substitui os valores

pelo mınimo

gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e

substituindo o maximo em cada posic~ao

gt pmin(xyz) vetor contendo o vetor maior entre x y ou z

e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x

gt colSums(x) calcula os totais por coluna na matriz x

gt rowMeans(x) calcula a media por linhas na matriz x

gt rowSums(x) calcula os totais por linhas na matriz x

15 Cores

O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero

ja especificado por exemplo

teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou

plot(tetasin(teta) col=2 pch=16cex=2)

Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando

Castaneda Daniel F N 2013 7

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 8: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843

16 Fatores ordenados e desordenados 1 INICIANDO O R

plot(tetasin(teta) col=120 pch=16cex=2)

Para modificar a bolinha apenas modificamos pch

plot(tetasin(teta) col=120 pch=+cex=2)

Cores podem tambem ser incrementadas fora do corpo do grafico

plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)

Outras alteracoes de cores podem ser construıdas com

colmain cor para o tıtulo do grafico

colaxis cor para os numeros dos eixos

collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico

A fonte pode ser alterada da seguinte maneira

fontmain fonte para o tıtulo do grafico

fontaxis fonte para os numeros dos eixos

fontlab fonte para os tıtulos dos eixos

fontsub fonte para o subtıtulo do grafico

Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)

16 Fatores ordenados e desordenados

exemplo

estados=c(PEALSEBAPBBAPBALSEBAPB

+ SE BASEBA)

estadosf=factor(estados)

estadosf

[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA

Levels AL BA PB PE SE

levels(estadosf)[1] AL BA PB PE SE

salarios=c(604959564948565960696658475868)

A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir

Castaneda Daniel F N 2013 8

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 9: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943

17 Vetores e Matrizes 1 INICIANDO O R

mestados=tapply(salariosestadosfmean) media

mestados

AL BA PB PE SE

5400 5760 5700 6000 5875

destados=tapply(salariosestadosfsd) desvio padr~ao

destados

AL BA PB PE SE

70710678 105498815 85440037 NA 09574271

Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply

cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

cv=function(x) sqrt(var(x))100mean(x)

cvestados=tapply(salariosestadosfcv)

cvestados

AL BA PB PE SE

13094570 18315767 14989480 NA 1629663

17 Vetores e Matrizes

Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas

z=runif(30)

dim(z)=c(352)

z

1

[1] [2] [3] [4] [5]

[1] 09500783 09262226 005847740 034257312 03718370

[2] 08591887 07057183 020592054 003569694 06709746

[3] 06806468 06270572 001570158 021650180 05170189

Castaneda Daniel F N 2013 9

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 10: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043

18 Indexando matrizes 1 INICIANDO O R

2

[1] [2] [3] [4] [5]

[1] 03539723 05918548 037104534 02148440 04169542

[2] 08895178 05751237 069399721 03808024 03872492

[3] 08036340 07065130 003400331 01593949 02306890

18 Indexando matrizes

x=array(120dim=c(45))

x

[1] [2] [3] [4] [5]

[1] 1 5 9 13 17[2] 2 6 10 14 18

[3] 3 7 11 15 19

[4] 4 8 12 16 20

i=array(c(1331)dim=c(32))

i

[1] [2]

[1] 1 3

[2] 2 2

[3] 3 1

gt x[i][ 1 ] 9 6 3

x[13]=9 x[22]=6 x[31]=3

O ındice i indica os valores da matriz x a serem extraıdos temos

x[i]=0 Substituımos x[i] por zero

x

[1] [2] [3] [4] [5]

[1] 1 5 0 13 17

[2] 2 0 10 14 18[3] 0 7 11 15 19

[4] 4 8 12 16 20

Construindo uma matriz 3 times 3 com elementos de 1 ao 9

c=matrix(c(19)33)

Castaneda Daniel F N 2013 10

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 11: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143

19 Sequencias 1 INICIANDO O R

c

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

19 Sequencias

Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento

b=seq(1014 by=5)

b[1] 100 105 110 115 120 125 130 135 140

a=seq(19)

ab=ab multiplicando vetores

ab

[1]

[1] 570

ab=outer(ab)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9]

[1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

ab=at(b)

ab

[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14

[2] 20 210 22 230 24 250 26 270 28

[3] 30 315 33 345 36 375 39 405 42

[4] 40 420 44 460 48 500 52 540 56

[5] 50 525 55 575 60 625 65 675 70

Castaneda Daniel F N 2013 11

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 12: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243

110 Multiplicando matrizes 1 INICIANDO O R

[6] 60 630 66 690 72 750 78 810 84

[7] 70 735 77 805 84 875 91 945 98

[8] 80 840 88 920 96 1000 104 1080 112

[9] 90 945 99 1035 108 1125 117 1215 126

d=outer(0909)

d

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]

[1] 0 0 0 0 0 0 0 0 0 0

[2] 0 1 2 3 4 5 6 7 8 9

[3] 0 2 4 6 8 10 12 14 16 18

[4] 0 3 6 9 12 15 18 21 24 27

[5] 0 4 8 12 16 20 24 28 32 36

[6] 0 5 10 15 20 25 30 35 40 45

[7] 0 6 12 18 24 30 36 42 48 54

[8] 0 7 14 21 28 35 42 49 56 63

[9] 0 8 16 24 32 40 48 56 64 72

[10] 0 9 18 27 36 45 54 63 72 81

110 Multiplicando matrizes

Para a construcao de matrizes o preenchimentos das celulas ou casas e

feita coluna a coluna como padrao exemplo

a= matrix(c(19)33)

a

[1] [2] [3]

[1] 1 4 7

[2] 2 5 8

[3] 3 6 9

podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma

at=matrix(c(19)33byrow=T)

at

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

Castaneda Daniel F N 2013 12

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 13: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343

111 Invers˜ ao de matrizes 1 INICIANDO O R

Uma alternativa seria usar a funcao aperm()

b= aperm(ac(21))

b

[1] [2] [3]

[1] 1 2 3

[2] 4 5 6

[3] 7 8 9

ab multiplicac~ao elemento a elemento

[1] [2] [3]

[1] 1 8 21[2] 8 25 48

[3] 21 48 81

ab multiplicac~ao das matrizes a e b

[1] [2] [3]

[1] 66 78 90

[2] 78 93 108

[3] 90 108 126

crossprod(ab) produto da transposta de a por b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

t(a)b

[1] [2] [3]

[1] 30 36 42

[2] 66 81 96

[3] 102 126 150

111 Inversao de matrizes

c=matrix(c(324572159)33)

d=matrix(c(223582858)33)

c

Castaneda Daniel F N 2013 13

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 14: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443

112 Comandos cbind() e rbind() 1 INICIANDO O R

[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

gt solve(c)

[1] [2] [3]

[1] 036551724 -029655172 012413793

[2] 001379310 015862069 -008965517

[3] -016551724 009655172 007586207

solve(cd) inverte a matriz c e multiplica por d

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

gt solve(c)d forma alternativa

[1] [2] [3]

[1] 051034483 -029655172 24344828

[2] 007586207 115862069 01862069

[3] 008965517 009655172 -02344828

112 Comandos cbind() e rbind()

E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas

cbind(cd)

[1] [2] [3] [4] [5] [6]

[1] 3 5 1 2 5 8

[2] 2 7 5 2 8 5

[3] 4 2 9 3 2 8

rbind(cd)[1] [2] [3]

[1] 3 5 1

[2] 2 7 5

[3] 4 2 9

[4] 2 5 8

Castaneda Daniel F N 2013 14

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 15: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543

113 Autovalores e autovetores 1 INICIANDO O R

[5] 2 8 5

[6] 3 2 8

cbind(1c)

[1] [2] [3] [4]

[1] 1 3 5 1

[2] 1 2 7 5

[3] 1 4 2 9

rbind(1d)

[1] [2] [3]

[1] 1 1 1

[2] 2 5 8

[3] 2 8 5

[4] 3 2 8

113 Autovalores e autovetores

ev=eigen(c) calcula autovalores e autovetores

ev

$values

[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i

$vectors[1] [2] [3]

[1] 03799264+0i 07884141+00000000i 07884141+00000000i

[2] 06480231+0i 00745376+03051027i 00745376-03051027i

[3] 06600924+0i -04774265-02276482i -04774265+02276482

det(c)

[1] 145

det(d)

[1] -57

114 Data frame ou construtor de dados

Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)

Castaneda Daniel F N 2013 15

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 16: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 17: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743

116 Func˜ ao readtable() 1 INICIANDO O R

attach(ind)

peso

[1] 67 60 62 69 54 59 57 67 60 65 59 55

salario

[1] 59 40 45 65 55 45 48 67 65 68 62 45

sex

[1] 1 0 0 1 0 0 0 1 1 1 1 0

detach(ind)

salario

Erro objeto rsquosalariorsquo n~ao encontrado

A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame

116 Funcao readtable()

Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao

1161 Arquivos com extensao txt

Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo

(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice

funcao=readtable(functxtheader=T)

funcao

grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf

1 0 24 1 1 0 2 77 360 1

2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0

107 0 24 1 1 0 2 73 360 0

108 0 27 1 0 0 3 74 360 1

109 1 42 1 0 2 14 99 440 1

Castaneda Daniel F N 2013 17

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 18: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843

117 Script com extens˜ ao R 1 INICIANDO O R

Considere os dados de consumo de agua de uma residencia durante

o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice

ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos

ca

dado valor consumo diasconsumo Construindo

1 1 1476 11 30 0

2 2 1347 10 31 0

64 64 3439 14 31 1

65 65 2221 11 32 0

Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar

datalt-readtable(filechoose()header=T)

117 Script com extensao R

Exemplo com extensao R lida por readtable com dados do proprio R

exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo

dado valor

1 1 115

2 2 117

3 3 118

4 4 119

5 5 127

118 Funcao scan()

A funcao scan tambem pode incluir elementos no R

scan()

1 12

2 13

3 14

Castaneda Daniel F N 2013 18

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 19: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943

119 Func˜ ao sample 1 INICIANDO O R

4 15

5

Read 4 items

[1] 12 13 14 15

Use a funcao scan() para ingressar dados diretamente na plataforma R

119 Funcao sample

Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua

(ca)setseed(10)

ca20=ca[sample(1208)]

ca20

dado valor consumo diasconsumo Construindo

11 11 3153 16 31 1

6 6 1347 10 32 0

8 8 1347 10 30 0

12 12 3755 18 32 1

2 2 1347 10 31 0

4 4 5275 22 33 1

15 15 3755 18 32 0

14 14 1648 11 30 0

120 Rcmdr

Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca

library(Rcmdr)

este pacote trabalha via janelas para maior comodidade

121 Dados disponıveis no R

R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data

data()

Castaneda Daniel F N 2013 19

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 20: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043

122 Modificando e editando dados 1 INICIANDO O R

No R pode-se acessar a conjunto de dados de outros pacotes disponıveis

na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira

data(package=lmtest)

122 Modificando e editando dados

Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir

xnovo=edit(wagespackage=lmtest)

Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma

xn=edit(dataframe())

123 Exportando dados do R para o Excel

Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R

writeClipboard(ascharacter(valor))

Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando

writetable(caclipboardsep=tcolnames=NA)

Na tela do Excel faca Ctrl+V ou um click em colar

124 Funcoes apply tapply sapply e lapply

A funcao apply calcula medidas estatısticas por linhas ou por colunas

e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia

apply(ca2mean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

Castaneda Daniel F N 2013 20

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 21: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143

125 Distribuic˜ oes de probabilidade 1 INICIANDO O R

tapply(valorConstruindomean)

0 1

2115271 3803882

sapply(camean)

dado valor consumo diasconsumo Construindo

330000000 255690769 126153846 307076923 02615385

lapply(camean) verificar

125 Distribuicoes de probabilidade

R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-

bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk

log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn

Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos

rpois(105) 10 numeros aleatorios da dist poisson com parametro 5

[1] 3 2 3 1 8 6 1 3 2 3

Castaneda Daniel F N 2013 21

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 22: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

rnorm(5) 5 numeros aleatorios da normal padr~ao

[1] 004659011 -005019082 -128753167 115411245 -137573809

qt(09550) valor quantilico da t com 50 gl

[1] 1675905

qchisq(0951) valor da qui-quadrado

com 95 de confianc a e 1 g l

[1] 3841459

dpois(45) densidade da dist poisson x=4 parametro=5

[1] 01754674

ppois(45) P(xlt=4) parametro=5

[1] 04404933

126 Algoritmos de programacao no R

R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo

medianamediarazao lt- function(x)

return(median(x)mean(x))

setseed(20)

z = rexp(10000)

medianamediarazao(z)

[1] 06925193

Construindo a mediana

mediana=function(x)

oddeven=length(x)2

if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2

else sort(x)[ceiling(length(x)2)]

Construindo a media geometrica

mediageometrica = function (x) exp(mean(log(x)))

Construindo a media harmonica

Castaneda Daniel F N 2013 22

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 23: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343

126 Algoritmos de programac˜ ao no R 1 INICIANDO O R

mediaharmonica=function (x) 1mean(1x)

Um algoritmo que envolva as medidas de tendencia central

medidascentrais = function(y medida)

switch(medida

media = mean(y)

mgeometrica = exp(mean(log(y)))

mharmonica = 1mean(1y)

mediana = median(y)

stop(Medida n~ao inclusa))

medidascentrais(ymedia)

Gerando uma distribuicao uniforme para o lancamento de um dado

ndado=function(x) return(round(runif(x)6+05))

hist(ndado(100000)

Com o comando sample podemos realizar este mesmo experimento daseguinte maneira

gerando=sample(16 100000 replace=TRUE)

hist(gerando)

Considere o seguinte objeto c

c=c(122715365)

Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos

ischaracter(c)

[1] FALSE

isnumeric(c)

[1] TRUE

A este objeto c podemos a signar nome a cada valor definido da seguinteforma

names(c)=c(abcdef)

c

a b c d e f

10 22 70 150 30 65

Castaneda Daniel F N 2013 23

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 24: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443

127 Lacos no R 1 INICIANDO O R

Podemos associar uma comparacao logica com o vetor c da seguinte

forma

cgt3

a b c d e f

FALSE FALSE TRUE TRUE FALSE TRUE

Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo

d=matrix(c(223582858)33)

colnames(d)=c(c1c2c3)

rownames(d)=c(1o2o3o)

d

c1 c2 c3

1o 2 5 8

2o 2 8 5

3o 3 2 8

A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()

127 Lacos no R

Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario

consumoc=numeric(length(consumo))

for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0

else consumoc[i]=1

valorc=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1

Castaneda Daniel F N 2013 24

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 25: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543

128 A func˜ ao cut() 1 INICIANDO O R

Nota Podemos construir os lacos considerando a condicao como texto

exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao

consumoc2=ifelse(consumolt=10[0-10]Acima de 10)

valorc2=ifelse(valorlt=20[0-20]Acima de 20)

limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos

valorc3=numeric(length(valor))

for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)

else if (valor[i]lt30)

valorc3[i]=[20-30) else valorc3[i]=[30 a +

table(valorc3)

128 A funcao cut()

Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira

q=cut(valorquantile(valor) includelowest=T)

table(q)

q

[135165] (165222] (222327] (327693]

17 16 16 16

Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo

valr=cut(valmseq(137019)right=Fincludeupper=T)

table(valr)

valr

[1332) [3251) [5170)

48 15 2

129 Criando funcoes Teste que compara duas medias

Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes

Castaneda Daniel F N 2013 25

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 26: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643

130 Coeficiente de regressao 1 INICIANDO O R

testeduas lt- function(y1 y2)

+ n1 lt- length(y1) n2 lt- length(y2)

+ yb1 lt- mean(y1) yb2 lt- mean(y2)

+ s1 lt- var(y1) s2 lt- var(y2)

+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)

+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))

+ tst

+

x=runif(20)

y=rnorm(20)

testeduas(xy)

[1] 2874636

Uma forma alternativa e usando a funcao ttest()

ttest(xy)

Welch Two Sample t-test

data x and y

t = 28746 df = 21784 p-value = 0008858

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

01846283 11429380sample estimates

mean of x mean of y

05539270 -01098562

130 Coeficiente de regressao

Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples

mq1lt- function(X y)

+ X lt- qr(X)

+ qrcoef(X y)+

mq1(xy)

[1] -008755885

Castaneda Daniel F N 2013 26

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 27: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743

131 Teste Qui- Quadrado 1 INICIANDO O R

131 Teste Qui- Quadrado

Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas

chisqtest(d)

Pearsonrsquos Chi-squared test

data d

X-squared = 46497 df = 4 p-value = 03252

Warning message

In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta

Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica

chisqtest(c)

Chi-squared test for given probabilities

data c

X-squared = 22549 df = 5 p-value = 00004116

Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos

table(consumocvalorc)

valorc

consumoc 0 1

0 24 0

Castaneda Daniel F N 2013 27

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 28: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843

132 Teste t - student 1 INICIANDO O R

1 3 38

chisqtest(consumocvalorc)$expected

chisqtest(consumocvalorc)$observed

chisqtest(consumocvalorc)

Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction

data consumoc and valorc

X-squared = 498015 df = 1 p-value = 1701e-12

barplot(table(consumocvalorc) beside=T)

Concluimos que ha associacao entre consumo de agua e o valor pago em

reais

132 Teste t - student

O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos

exp2009

[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930

[8] 13840850 13863222 14081686 12652892 14462624

exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625

[9] 1883279 1838042 1768733 2091814

H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC

ttest(exp2009exp2010paired = FALSE)

Welch Two Sample t-test

data exp2009 and exp2010

t = -42813 df = 18202 p-value = 00004394

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-6075666 -2077757

sample estimates

mean of x mean of y

Castaneda Daniel F N 2013 28

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 29: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943

133 Teste F 1 INICIANDO O R

1274956 1682627

Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma

Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario

attach(ca)

ttest(valor~Construindo)

Welch Two Sample t-test

data valor by Construindo

t = -58383 df = 21731 p-value = 7465e-06

alternative hypothesis true difference in means is not equal to 0

95 percent confidence interval

-2288867 -1088356

sample estimates

mean in group 0 mean in group 1

2115271 3803882

Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)

Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma

ttest(valor~consumoc)

ttest(consumo~valorc)

boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)

boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)

133 Teste F

Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos

Castaneda Daniel F N 2013 29

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 30: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043

133 Teste F 1 INICIANDO O R

vartest(valor~Construindo)

F test to compare two variances

data valor by Construindo

F = 04834 num df = 47 denom df = 16 p-value = 005478

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

0194815 1014916

sample estimates

ratio of variances

04834048

Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto

a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir

boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))

natildeo construccedilatildeo construccedilatildeo

2 0

3 0

4 0

5 0

6 0

7 0

Figura 4 Valor pago em reais no consumo de agua

Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC

Castaneda Daniel F N 2013 30

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 31: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143

134 Graficos 1 INICIANDO O R

vartest(exp2009exp2010)

F test to compare two variances

data exp2009 and exp2010

F = 03728 num df = 11 denom df = 11 p-value = 01166

alternative hypothesis true ratio of variances is not equal to 1

95 percent confidence interval

01073346 12951624

sample estimates

ratio of variances

03728482

Conclusao Nao houve mudancas na variabilidade das exportacoes de

2009 e 2010

134 Graficos

Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos

boxplot(exp2009exp2010 main=exportac~oes do Brasil

names=c(20092010))

2009 2010

1 0 0 0 0

1 2 0 0 0

1 4 0 0 0

1 6 0 0 0

1 8 0 0 0

2 0

0 0 0

exportaccedilotildees do Brasil

Figura 5 Exportacoes FOB em dolares

Para o grafico da funcao acumulativa das exportacoes

plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE

lty=3 xlim=c(1000023000))

lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE

col=2)

Castaneda Daniel F N 2013 31

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 32: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243

134 Graficos 1 INICIANDO O R

1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00

0 0

0 2

0 4

0 6

0 8

1 0

ecdf(exp2010)

x

F n ( x )

Figura 6 Funcao acumulada das exportacoes 2009-2010

Considere as exportacoes do Brasil um histograma e Q-Q plot sera

hist(exp main=Exportac~oes FOB-US col=8)

qqnorm(exp xlim=c(-55)ylim=c(-100021000))

qqline(exp)

Exportaccedilotildees FOBminusUS$

exp

F r e q u e n c y

0 5000 10000 15000 20000

0

5 0

1 0 0

1 5 0

minus4 minus2 0 2 4

0

5 0 0 0

1 0 0 0 0

1 5 0 0 0

2 0 0 0 0

Normal QminusQ Plot

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 7 Graficos das Exportacoes no Brasil 2001-2010

Para ativar alguns graficos pacotes sao necessarios exemplo

library(MASS)

Castaneda Daniel F N 2013 32

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 33: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343

134 Graficos 1 INICIANDO O R

par(mfrow=c(21))

z = rnorm(500000)

hist(z prob=T)

curve(dnorm(x)add=T)

histscott(z prob=T)

Histogram of z

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

Histogram of x

z

D e n s i t y

minus4 minus2 0 2 4

0 0

0 2

0 4

Figura 8 Histograma de numeros aleatorios normais

boxcox(dist~speed data=cars) transformac~ao Box-Cox

minus2 minus1 0 1 2

minus 4 0 0

minus 3 5 0

minus 3 0 0

minus 2 5 0

λ

l o g minus

L i k e l i h o o d

95

Figura 9 Valor otimo na transformacao Box-Cox

Castaneda Daniel F N 2013 33

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 34: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443

135 Tabelas 1 INICIANDO O R

Para ter um alcance maior sobre a capacidade grafica do R podemos

usar as seguintes funcoes

demo(graphics)

demo(image)

demo(persp)

demo(recursion)

demo(plotmath)

demo(package = packages(allavailable = TRUE))

135 Tabelas

Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL

SEBAMGESRJPBPEALSEBAMGESRJ

PBPEALSEBAMGESRJ)

estadof=factor(estado)

estadof

[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA

[22] MG ES RJ PB PE AL SE BA MG ES RJ

Levels AL BA ES MG PB PE RJ SE

setseed(10)

salarios=c(round(runif(32)100))

salarios

[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41

[26] 71 84 24 77 36 54 9

salariom=tapply(salariosestadofmean)

salariom

AL BA ES MG PB PE RJ SE

5800 4575 4875 4525 3975 4275 2875 5850

salariof=factor(cut(salariosbreaks=0+15(07)))

salariof

[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]

[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]

[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]

[28] (1530] (7590] (3045] (4560] (015]

Levels (015] (1530] (3045] (4560] (6075] (7590]

table(salariofestadof)

estadof

Castaneda Daniel F N 2013 34

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 35: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543

136 Comandos adicionais 2 R E ECONOMETRIA

salariof AL BA ES MG PB PE RJ SE

(015] 0 2 0 0 1 0 1 0

(1530] 0 0 1 1 0 1 1 1

(3045] 2 0 1 1 1 2 2 0

(4560] 0 0 1 1 1 0 0 1

(6075] 1 0 0 1 1 1 0 1

(7590] 1 2 1 0 0 0 0 1

table(salariofestadof)

estadof

salariof AL BA ES MG PB PE RJ SE

(015] 1 1 0 0 1 0 1 2

(1530] 0 0 1 1 0 0 1 1

(3045] 0 0 2 0 0 1 0 0

(4560] 2 0 1 0 0 1 0 0

(6075] 0 1 0 2 3 0 1 0

(7590] 0 1 0 1 0 2 0 1

(90105] 0 1 0 0 0 0 1 0

136 Comandos adicionais

Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T

indicando que a informacao apresenta dados faltantes Exemplo

df=c(2NA58NA) O ultimo elemento esta ausente

mean(f) Comando padr~ao para calcular a media

[1] NA

mean(fnarm=T) Comando declarando a ausencia de elementos

[1] 5

2 R e Econometria

Dados economicos precisam de uma atencao matematica para dar fun-

damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta

Castaneda Daniel F N 2013 35

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 36: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643

21 Tipos de Dados 2 R E ECONOMETRIA

disciplina aproxima a Estatıstica da Economia onde a teoria economica for-

mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica

Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio

21 Tipos de Dados

Os tipos de dados sao

1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE

2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA

3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais

Castaneda Daniel F N 2013 36

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 37: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743

22 Metodologia 2 R E ECONOMETRIA

22 Metodologia

Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao

221 Hipotese

Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo

1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela

mesma

2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma

A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)

222 Modelo matematico

Usaremos uma funcao de consumo simples

Y = β 1 + β 2X (11)

A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2

223 Modelo econometrico do valor pago

O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto

Castaneda Daniel F N 2013 37

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 38: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843

22 Metodologia 2 R E ECONOMETRIA

por que alem do consumo outras variaveis afetam o valor pago por exemplo

os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo

224 Nıvel de significancia

Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025

225 Obtencao de Dados

Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir

10 15 20

2 0

3 0

4 0

5 0

6 0

7 0

Valor pago em reais de consumo de aacutegua

Variaacutevel independenteConsumo em m3

V a r i aacute v e l d e p e n d e n t e V a l o r p a g o

Y = minus12365+3007X

Figura 10 Relacao causal entre consumo e valor pago em reais

Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)

Castaneda Daniel F N 2013 38

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 39: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943

22 Metodologia 2 R E ECONOMETRIA

226 Estatıstica de prova

Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica

t0 =β 2

dp(β 2)asymp tnminus2gl (12)

onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983

227 Tipos de erro

Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela

Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )

Castaneda Daniel F N 2013 39

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 40: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043

22 Metodologia 2 R E ECONOMETRIA

228 Regra de Decisao

Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da

distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R

Signif codes 0 0001 001 005 01 1

sera interpretada da seguinte maneira

bull 0 significancia menor que 0001

bull 0001 significancia menor que 001

bull 001 significancia menor que 005

bull 005 significancia menor que 01

bull 01 significancia menor que 1

229 Conclusoes

Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas

Castaneda Daniel F N 2013 40

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 41: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143

23 Previs˜ oes 2 R E ECONOMETRIA

23 Previsoes

Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3

de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais

231 Resıduos

Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por

ϵi = Y i minus Y i (13)

A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao

jarqueberatest() da biblioteca tseries com o seguinte grafico

minus2 minus1 0 1 2

minus 5

0

5

1 0

resiacuteduos do modelo valor= f(consumo)

Theoretical Quantiles

S a m p l e Q u a n t i l e s

Figura 11 Normalidade dos resıduos

Castaneda Daniel F N 2013 41

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 42: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243

24 Exercıcios REFER ENCIAS

24 Exercıcios

1 Por que a econometria precisa ser uma disciplina autonoma

2 Que e econometria

3 Pesquise dados de corte transversal corte longitudinal e de painel

4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)

5 No item anterior e possıvel encontrar uma relacao quadratica

6 Quais sao os pressupostos basicos de um modelo de regressao linear

simples

7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria

8 Que e o projeto R

9 R e um programa econometrico

Referencias

[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA

[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America

[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo

[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork

[5] Cribari Neto F (2002) C for Econometricians conputational Econo-

mics 14 p135-149

[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA

[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana

Castaneda Daniel F N 2013 42

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43

Page 43: Alguns Comandos No R. Aula 1 Minicurso

8162019 Alguns Comandos No R Aula 1 Minicurso

httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343

REFER ENCIAS REFER ENCIAS

[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de

Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA

[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo

[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts

[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota

[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992

[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference

[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA

[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte

Castaneda Daniel F N 2013 43