iv – avaliaÇÃo · testes de normalidade d'agostino's k-squared test jarque–bera...

Post on 26-Jan-2019

220 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

IV.4 – Análise de Dados da Avaliação

1

IV – AVALIAÇÃO

IV.4 – ANÁLISE DE DADOS DA AVALIAÇÃO

Interactive System Design, Cap. 10, William Newman

1

Melhor e Pior?

2

IV.4 – Análise de Dados da Avaliação

2

Resumo Aula Anterior

o Testes com utilizadores

o Fases do Teste

o Análise dos dados

3

Sumário

o Análise dos dados por métodos

estatísticos

  Teste t

  Intervalos de Confiança

 Chi Quadrado

4

IV.4 – Análise de Dados da Avaliação

3

As Bases – Estatística Descritiva

Média

Soma dos quadrados das diferenças

Variância

Desvio Padrão

5

No Excel…

AVERAGE(range)

VAR(range)

STDEV(range)

MEDIAN(range)

MODE(range)

6

IV.4 – Análise de Dados da Avaliação

4

Não Chega!

7

TESTES ESTATÍSTICOS!

8

IV.4 – Análise de Dados da Avaliação

5

Testes Estatísticos

Solução A melhor que a B?

Alteração no tipo de menus (PullDown vs Pie)

Caligráfico vs Menus

Solução cumpre os objectivos?

Os nossos objectivos de usabilidade são

atingidos?

9

Para quê este trabalho todo…

Questão: a tarefa leva menos do que 30 segundos?

10

IV.4 – Análise de Dados da Avaliação

6

Para quê este trabalho todo…

Testes com 10 utilizadores:

Média: 29.6

11

Para quê este trabalho todo…

Testes com 10 utilizadores:

29.6 < 30

12

IV.4 – Análise de Dados da Avaliação

7

Para quê este trabalho todo…

Testes com 10 utilizadores:

29.6 < 30

13

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

Problema 1: Grande dispersão!

14

IV.4 – Análise de Dados da Avaliação

8

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

45

50

15

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

16

IV.4 – Análise de Dados da Avaliação

9

Para quê este trabalho todo…

Média: 29.6 StDev: 8.7

0

5

10

15

20

25

30

35

40

17

Para quê este trabalho todo…

Problema 2: amostra pequena!

0

5

10

15

20

25

30

35

40

18

IV.4 – Análise de Dados da Avaliação

10

Para quê este trabalho todo…

Média: 31.3 StDev: 5.1

0

5

10

15

20

25

30

35

40

19

Para quê este trabalho todo…

Mas mesmo assim não chega!

20

IV.4 – Análise de Dados da Avaliação

11

Para quê este trabalho todo…

Mas mesmo assim não chega!

0

5

10

15

20

25

30

35

40

21

Para quê este trabalho todo…

Média: 29.1 StDev: 4.5

0

5

10

15

20

25

30

35

40

22

IV.4 – Análise de Dados da Avaliação

12

Para quê este trabalho todo…

Então??

23

Para quê este trabalho todo…

Acreditamos na média?

24

IV.4 – Análise de Dados da Avaliação

13

Para quê este trabalho todo…

Acreditamos na média?

É melhor olhar para os dados…

25

Para quê este trabalho todo…

Acreditamos na média?

É melhor olhar para os dados…

Mas… Só temos uma amostra!

26

IV.4 – Análise de Dados da Avaliação

14

Universo vs Amostra

Média, desvio padrão da população

Da amostra…

27

Significado Variância/Desvio Padrão

28

IV.4 – Análise de Dados da Avaliação

15

Há sempre mais um…

29

Procedimento

1. Escolha da amostra representativa Público alvo

30

IV.4 – Análise de Dados da Avaliação

16

Procedimento

1. Escolha da amostra representativa

2. Formulação da hipótese nula (H0)

31

Procedimento – Hipótese Nula

Hipótese H0 – Hipótese Nula

“Não há diferenças, o tempo é igual” Ex. A mudança de menus não afecta o

desempenho

Hipótese H1 - Hipótese experimental

Diz o que queremos verificar Ex. Os novos menus melhoram o desempenho

32

IV.4 – Análise de Dados da Avaliação

17

Procedimento – Grau de Confiança

α = Probabilidade de parecer que H1 se verifica, mas afinal estarmos errados (“apanhámos esquisitos”)

Grau de Confiança = (1 - α )

33

Procedimento – Grau de Confiança

Aceitável: α = 0.05, grau de confiança = 95%

Melhor: α = 0.01, grau de confiança = 99%

34

IV.4 – Análise de Dados da Avaliação

18

Procedimento – Grau de Confiança

Objectivo rejeitar H0 para um determinado α

35

Procedimento

1.  Escolha da amostra representativa

2.  Formulação da hipótese nula (H0)

3. Realização dos testes Recolher os dados

36

IV.4 – Análise de Dados da Avaliação

19

Realizar os testes

Inter-Grupos Dois grupos de teste

Cada grupo usa apenas um dos sistemas

Intra-Grupos Um grupo de utilizadores

Cada pessoa usa ambos os sistemas Não podem usar as mesmas tarefas ou pela mesma ordem (aprendizagem)

37

Realizar os testes

Maiores Amostras

Melhores Resultados

38

IV.4 – Análise de Dados da Avaliação

20

Procedimento

1.  Escolha da amostra representativa

2.  Formulação da hipótese nula (H0)

3. Realização dos testes

4. Aplicar tratamento estatístico

39

Três testes diferentes…

t-student para médias

intervalos de confiança

chi-quadrado

40

IV.4 – Análise de Dados da Avaliação

21

t T-STUDENT

41

Objectivo: Médias Iguais?

Atalhos Menus

3 2

2 3

3 4

4 3

3 4

4 4

3 3

2 4

3 2

1 3

4 1

Média 2.9 3

D.Pad. 0.94 1

Atalhos é melhor que Menus?

42

IV.4 – Análise de Dados da Avaliação

22

Objectivo: Médias Iguais?

Atalhos Menus

3 2

2 3

3 4

4 3

3 4

4 4

3 3

2 4

3 2

1 3

4 1

Média 2.9 3

D.Pad. 0.94 1

Atalhos é melhor que Menus?

Não Sabemos!!

Valores próximos, grande desvio padrão

43

O t-student para médias

Definir

H0 44

IV.4 – Análise de Dados da Avaliação

23

Bicaudal e Unicaudal

45

Unicaudal

46

IV.4 – Análise de Dados da Avaliação

24

Bicaudal

47

O t-student para médias

H0 As médias são iguais

48

IV.4 – Análise de Dados da Avaliação

25

O t-student para médias

Se rejeitarmos H0:

A probabilidade de (não parecerem iguais e) serem é menor que α.

49

O t-student para médias

Se rejeitarmos H0:

Posso dizer que são diferentes com uma confiança de (1- α).

50

IV.4 – Análise de Dados da Avaliação

26

Presusposto: Normalidade

Amostra segue uma distribuição normal

51

E agora?

testes de normalidade

D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk test …

52

IV.4 – Análise de Dados da Avaliação

27

E agora?

testes de normalidade

D'Agostino's K-squared test Jarque–Bera test Anderson–Darling test Lilliefors test for normality Kolmogorov–Smirnov test Shapiro–Wilk test …

53

O Universo é Porreiro

54

IV.4 – Análise de Dados da Avaliação

28

É Verdade que…

Valores medidos na natureza tendem para a normalidade!

Amostras de pelo menos 20

55

Como se calcula?

Variância combinada

Desvio padrão da

diferença

Valor de t

56

IV.4 – Análise de Dados da Avaliação

29

Conclusão!

Se t > tH0 (da tabela) rejeitamos H0 (para α)

57

Exemplo: Bilheteira

Objectivo: Comparar Bilheteira com Máquina

Hipótese nula:

a forma de aquisição do bilhete não tem influência

no tempo da tarefa (α = 0.05)

Medidas

bilheteira: 28, 25, 23, 26, 30, 32 segundos

máquina: 32, 41, 37, 40, 30 segundos

Médias

bilheteira: 29 s máquina: 36 s 58

IV.4 – Análise de Dados da Avaliação

30

Teste de t - Bilheteira

TTEST(…)

Type: 3 (se inter-grupos)

Type: 1 (se intra-grupos)

59

Teste de t - Bilheteira

Resultado: probabilidade com que não

poderiamos rejeitar H0

0.036 < 0.05

60

IV.4 – Análise de Dados da Avaliação

31

Teste de t - Bilheteira

Resultado: probabilidade com que não

poderiamos rejeitar H0

0.036 < 0.05

Rejeita-se H0! 61

Teste de t - Bilheteira

Conclusão

A compra de bilhetes em máquina é 24% (36/29)

mais lenta do que na bilheteira, com uma

probabilidade de 96,4%

62

IV.4 – Análise de Dados da Avaliação

32

[0, 1] INTERVALOS DE CONFIANÇA

63

Objectivo: Atingimos um valor?

Atalhos

3

2

3

4

3

4

3

2

3

1

4

Média 2.9

D.Pad. 0.94

O tempo para usar os atalhos é inferior a 3s?

64

IV.4 – Análise de Dados da Avaliação

33

Objectivo: Atingimos um valor?

Atalhos

3

2

3

4

3

4

3

2

3

1

4

Média 2.9

D.Pad. 0.94

O tempo para usar os atalhos é inferior a 3s?

Não Sabemos!!

Grande desvio padrão

65

lembram-se disto?

Média: 29.1 StDev: 4.5

0

5

10

15

20

25

30

35

40

66

IV.4 – Análise de Dados da Avaliação

34

Intervalo de Confiança

A média da população

está dentro do intervalo

com uma dada probabilidade.

67

Intervalo de Confiança

Evitar este

68

IV.4 – Análise de Dados da Avaliação

35

Intervalo de Confiança

Exemplo

Uma operação não deve demorar mais

do que 25s

Intervalo totalmente abaixo de 25 s

69

Como se calcula?

1.  Calcular variância (s2)

2.  Desvio padrão da média

3.  Determinar t bicaudal para a probabilidade pretendida e grau de liberdade da amostra (N-1)

4.  O intervalo estará compreendido entre

70

IV.4 – Análise de Dados da Avaliação

36

Intervalo de Confiança (Ex.)

Métrica: Nº de Erros Objectivo: Nº erros <= 15 (α = 0.05)

Amostra: 13, 6, 8, 11

Média: 9,5 Variância: 9,67

71

Intervalo de Confiança (Ex.)

Desvio padrão da média:

Para p=0,05 t=3.182 (da tabela ou usando TINV ())

Intervalo xmin = 9,5 – 3,182 x 1,55 = 5,84

xmax = 9,5 + 3,182 x 1,55 = 13,15

72

IV.4 – Análise de Dados da Avaliação

37

Intervalo de Confiança (Ex.)

Intervalo abaixo de 15

Conclusão:

Nº erros da população

inferior a 15 c/ 95% de certeza

73

χ2 CHI-QUADRADO

74

IV.4 – Análise de Dados da Avaliação

38

Objectivo: Frequências esperadas = observadas?

Achamos que: 40% usa menus 60% usa atalhos

Medimos: 45% usam menus 55% usam atalhos

75

Objectivo: Frequências esperadas = observadas?

40% != 45% 60% != 55%

Afinal é 45/55 em vez de 40/60?

76

IV.4 – Análise de Dados da Avaliação

39

Objectivo: Frequências esperadas = observadas?

40% != 45% 60% != 55%

Afinal é 45/55 em vez de 40/60?

Não sabemos!

77

Chi-Quadrado

H0 As frequências observadas

são as esperadas 78

IV.4 – Análise de Dados da Avaliação

40

Como se calcula?

diferença entre freq. observadas e esperadas

Se > H0 (da tabela) rejeitamos H0

(para α)

79

Tabela do chi Quadrado

80

IV.4 – Análise de Dados da Avaliação

41

Teste do Chi Quadrado (Exemplo)

Objectivo: Qual a opção preferida de entre as 3?

Hipótese Nula: As freqs. 5,16,9 (observadas) são iguais a 10,10,10 (esperadas)

30 utilizadores

Opção f esperada

f observada

Diferença Quad. Da Diferença

/ f esperada

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

81

Teste do Chi Quadrado (Exemplo)

Graus de liberdade: N-1 = 3-1 = 2

Da tabela obtemos 5,99 para α =0,05

Rejeita-se a hipótese nula (6.2 > 5.99)

= 6.2

Opção f esperada

f observada

Diferença Quad. Da Diferença

/ f esperada

A 10 5 -5 25 2,5

B 10 16 6 36 3,6

C 10 9 -1 1 0,1

82

IV.4 – Análise de Dados da Avaliação

42

Chi Quadrado no Excel

0.045 < 0.05 -> Rejeitar H0 83

CHI-Quadrado (Ex.)

Conclusão:

Uma das opções é preferida relativamente às outras,

com 95% de certeza.

84

IV.4 – Análise de Dados da Avaliação

43

Foi fácil!

85

Escolha de testes

Funções estatísticas disponíveis em : Matlab, SPSS, R, ou mesmo Excel

Essencial: escolher método apropriado

86

IV.4 – Análise de Dados da Avaliação

44

Escolha de testes: resumo!

t-student: Duas médias são diferentes? “A é mais rápido/lento que B” “Os utilizadores do grupo A cometem

menos erros do que os do grupo B”

intervalos de confiança: atingimos um dado valor? “A tarefa leva mais/menos do que x

segundos?” 87

Escolha de testes: resumo!

chi-quadrado: vimos as frequências que esperávamos? “Metade dos utilizadores prefere menus e

a outra teclas de atalho?” “70% das vezes escolhe-se usar a toolbar,

20% o menu de contexto e 10% a tecla de atalho”

88

IV.4 – Análise de Dados da Avaliação

45

Resumo

Os testes mais conclusivos devem ser realizados com utilizadores reais

Os testes devem ser planeados e aprovados previamente

Devem ser recolhidos dados qualitativos e quantitativos

Dados numéricos só são conclusivos se validados por testes estatísticos

Escolhido o método estatístico adequado

89

Próxima Aula

o Factores Humanos  HCI, Cap. 1 , Alan Dix

o Modelo Humano de Processamento   Subsistema de Percepção •  Visão

•  Audição

•  Tacto

  Subsistema Motor 90

top related