pesquisa experimental prof. raul sidnei wazlawick ufsc-ctc-ine 2012
TRANSCRIPT
Pesquisa ExperimentalProf. Raul Sidnei WazlawickUFSC-CTC-INE2012
Pesquisa Observacional e Experimental Numa pesquisa observacional (ou de
levantamento) as características de uma população são levantadas (observadas ou medidas), mas sem manipulação. ◦ É o caso de um censo demográfico, pesquisas
eleitorais, pesquisas de mercado, inspeção da qualidade, etc.
◦ Em todos esses casos, se quer ter idéia de uma certa população tal qual ela é na natureza ou no processo.
Nas pesquisas experimentais, grupos de indivíduos (ou animais, ou objetos) são manipulados para se avaliar o efeito de diferentes tratamentos. ◦ É o caso de se verificar o rendimento de um processo
químico para diferentes temperaturas de reação, as quais são manipuladas de acordo com o interesse prático.
Pesquisa ExperimentalPopulação AmostragemVariáveis Média e VariânciaCorrelação
Pesquisa ExperimentalPopulação AmostragemVariáveis Média e VariânciaCorrelação
PopulaçãoPopulação é o conjunto de elementos
(indivíduos, objetos, etc.) que formam o universo de nosso estudo e que são passíveis de serem observados, sob as mesmas condições.
Num processo de inspeção da qualidade, a população pode ser considerada como o conjunto de todos os itens que saem da linha de produção.
Numa pesquisa de mercado, a população é o conjunto de possíveis consumidores.
Pesquisa ExperimentalPopulação AmostragemVariáveis Média e VariânciaCorrelação
Censo
A palavra censo refere-se à pesquisa de todos os elementos de uma população.
Geralmente realizamos um censo quando:◦A população é pequena.◦As variáveis são fáceis de serem
medidas ou observadas.◦Necessitamos resultados exatos.
AmostragemGrande parte das pesquisas científicas ou de
resoluções de problemas de engenharia são feitos por amostragem, ou seja, observamos apenas um subconjunto de elementos da população.
A amostragem é particularmente interessante quando:◦ a população é grande ou infinita◦ as observações ou mensurações têm alto custo◦ as medidas exigem testes
destrutivos◦ necessidade de rapidez ◦ etc.
POPULAÇÃO: todos os possíveis consumidores
Amostra: um subconjunto dos consumidores
inferência
amostragem
Técnicas de Amostragem
Amostragem aleatória simples.Amostragem sistemática.Amostragem estratificada.Amostragem de conglomerados.
Convenção:◦N é o tamanho da população◦n é o tamanho da amostra
Amostragem aleatória simples
Para a seleção de uma amostra aleatória simples precisamos ter uma lista completa dos elementos da população.
Esse tipo de amostragem consiste em selecionar a amostra através de sorteios, sem restrição.
Amostragem Sistemática
Um processo mais simples é sortear o primeiro elemento e extrair os demais sistematicamente.
Mais especificamente:◦calcula-se o intervalo de seleção,
dado por l=N/n, desprezando as decimais.
◦sorteia-se o primeiro elemento do conjunto {1, 2, ..., I}; e
◦completa-se a amostra extraindo um elemento a cada I elementos.
Amostragem EstratificadaA técnica da amostragem
estratificada consiste em dividir a população em subgrupos, que denominaremos de estratos.
Esses estratos devem ser internamente mais homogêneos do que a população toda, com respeito às variáveis em estudo.
Amostragem de ConglomeradosTende a produzir uma amostra
que gera resultados menos precisos, quando comparada com uma amostra aleatória simples de mesmo tamanho.
Contudo, seu custo financeiro tende a ser bem menor, especialmente em amostragens de grandes populações.
Amostragem Acidental ou a EsmoToma-se amostras a esmo
(exemplo, alguns alunos em uma universidade).
Não produz resultados tão confiáveis quanto as outras formas.
Tamanho da AmostraUm fator importante na determinação
do tamanho da amostra é a variabilidade da população em termos da variável em estudo.
Por exemplo, uma amostra de sangue pode ser bem pequena, pois o sangue é razoavelmente homogêneo em nosso corpo.
Por outro lado, populações com variâncias grandes exigem amostras maiores
Outra questão importante é a relação entre tamanho da população (N) e tamanho da amostra (n).
Considerando uma precisão desejada para as estimativas de interesse, a relação entre N e n não é linear
tamanho da população
tam
anho
da
amos
tra
Tamanho de AmostraToda amostra comporta um erro
amostral, que é a diferença entre o parâmetro obtido e o seu valor real (média, por exemplo).
Pode-se calcular um tamanho mínimo de amostra para permitir um erro amostral mínimo (E) dentro de um determinado nível de confiança.
A dificuldade para obter este tamanho de amostra para garantir um erro mínimo é que muitas vezes a variância da população não é conhecida a priori.
Em alguns casos essa variância pode ser obtida a partir de uma amostragem piloto.
Uma amostra muito grande custará muito caro e levará muito tempo para ser verificada.
Uma amostra muito pequena poderá apresentar grande erro.
Portanto, deve-se determinar o tamanho mínimo da amostra para encontrar uma proporção em uma população finita.
Pesquisa ExperimentalPopulação AmostragemVariáveis Média e VariânciaCorrelação
Variáveis
Uma variável, é o nome que se dá a um fenômeno que pode ser medido e que varia conforme a medição.
Se não variasse seria uma constante e não teria maior interesse para a pesquisa.
Definições constitutivas e operacionais
Definições constitutivas são definições de dicionário
Uma definição operacional atribui significado a um constructo ou variável especificando as atividades ou “operações” necessárias para medi-lo ou manipulá-lo.
Variáveis discretas e contínuasO domínio de uma variável pode ser
discreto ou contínuo.A idéia de contínuo vem do fato de
que entre dois valores sempre existe um terceiro.
Já as variáveis discretas assumem seus valores em conjuntos cujos elementos podem ser ordenados ou em conjuntos finitos (categóricas).
Variável Medida
Uma variável medida é aquela cujo fenômeno vai ser observado pelo pesquisador.
Por exemplo, quantas vezes um usuário de uma ferramenta vai olhar no manual para obter informações para desempenhar a tarefa que lhe foi proposta. ◦ Essa variável tem como domínio o conjunto
dos números naturais e seus valores não são determinados pelo observador, mas simplesmente medidos.
Variável ManipuladaA variável manipulada é aquela
que o experimentador vai deliberadamente modificar para realizar seu experimento.
Por este motivo, esse tipo de variável também é chamado de variável experimental.
Mas porque pesquisadores manipulam uma ou mais variáveis enquanto observam outras?
É porque eles querem encontrar dependências entre essas variáveis.
A princípio pode-se testar a dependência entre quaisquer variáveis manipuladas e observadas.
Mas nem sempre esse teste fará sentido.
Antes de analisar uma dependência experimentalmente o pesquisador usualmente desenvolve uma teoria ou hipótese.
Variáveis Dependentes e Independentes
A variável independente é aquela que, se supõe, influencia outra.
A variável dependente é a influenciada.
Dependência pode ser medida por correlação.
Para chegar na correlação precisaremos antes de um pouco de matemática.
Pesquisa ExperimentalPopulação AmostragemVariáveis Média e VariânciaCorrelação
Média
Usualmente a média é considerada uma medida importante na avaliação de conjuntos de valores
Por exemplo, ao avaliar um determinado sistema, o pesquisador contabiliza o tempo de interação de cada pessoa dentre um conjunto previamente definido.
MédiaPor exemplo, se quatro pessoas
foram analisadas e os tempos medidos em minutos foram 10, 12, 14, 9, então se pode dizer que o tempo médio observado foi de 11,25 minutos.
VariânciaConsidere-se as três séries de valores
abaixo:◦ <10, 12, 14, 9>◦ <1, 20, 2, 22>◦ <11, 11, 11, 12>
É possível notar certa semelhança entre elas?
Aparentemente são conjuntos bem diferentes.
Mas todos têm a mesma média: 11,25.
VariânciaA observação do distanciamento
dos elementos em relação à média é chamada de variância.
Então, além da média, o pesquisador deve ficar atento também à variância do conjunto de valores, já que esta complementa a caracterização do conjunto.
Cálculo da variância
Para cada elemento, subtraia a média do conjunto deste elemento:<10-11,25, 12-11,25, 14-11,25, 9-11,25> = <-1,25, 0,75, 2,75,
-2,25>
<1-11,25, 20-11,25, 2-11,25, 22-11,25> = <-10,25, 8,75, -9,25, 10,75>
<11-11,25, 11-11,25, 11-11,25, 12-11,25> = <-0,25, -0,25, -0,25, 0,75>
Agora, cada valor representa a distância do elemento para a média do conjunto
Eleve os valores resultantes ao quadrado:
<-1,252, 0,752, 2,752, -2,252> = <1,5625, 0,5625, 7,5625, 5,0625>
<-10,252, 8,752, -9,252, 10,752> = <105,0625, 76,5625, 85,5625, 115,5625>
<-0,252, -0,252, -0,252, 0,752> = <0,0625, 0,0625, 0,0625, 0,5625>
Isso faz com que todas as distâncias fiquem positivas e aumenta a influência de elementos mais distantes da média.
Some os resultados:
1,5625+0,5625+7,5625+5,0625 = 14,75
105,0625+76,5625+85,5625+115,5625 = 382,75
0,0625+0,0625+0,0625+0,5625 = 0,75
Isso gera um valor absoluto da variância acumulada
Divida pelo número de elementos do conjunto menos 1:14,75/3 = 4,9166...382,75/3 = 127,5833... 0,75/3 = 0,25
Isso gera a distância média, ou seja, independente do número de elementos no conjunto.Poderia ser n ao invés de n-1, mas a variância de um conjunto com apenas 1 elemento deve ser indeterminada.
é a variância do conjunto X
representa cada um dos elementos do conjunto X
é a média do conjunto X
é o número de elementos do conjunto X
Desvio-PadrãoO desvio-padrão é uma medida
também bastante utilizada para analisar conjuntos e é definido simplesmente como a raiz quadrada da variância
Pesquisa ExperimentalPopulação AmostragemVariáveis Média e VariânciaCorrelação
Dependência Variáveis manipuladas realmente
influenciam as variáveis experimentais?
Existe dependência entre elas?A co-variância pode dizer!
Co-variância (exemplo)O valor de pontos de caso de uso
estimado por um método Y produz uma estimativa melhor do que um outro método Y’?
Onde “melhor” significa com “alta dependência em relação ao conjunto de tempos X”.
Exemplo de co-variância alta e direta (método Y)
Caso de Uso
Tempo conhecido (horas) - X
Pontos de caso de uso - Y
UC1 1 1UC2 18 2UC3 4 1UC4 67 3UC5 22 2UC6 12 2UC7 2 1UC8 7 1UC9 18 2UC10 55 3
Exemplo de co-variância baixa (método Y’)
Caso de uso
Tempo conhecido (horas) - X
Pontos de caso de uso – Y’
UC1 1 1UC2 18 2UC3 4 3UC4 67 1UC5 22 2UC6 12 3UC7 2 1UC8 7 2UC9 18 3UC10 55 1
Co-variância
Covariância de Y
Caso de uso
Tempo conhecido (horas) - X
Pontos de caso de uso - Y
(xi - ) (yi - ) (xi - )(yi - )
UC1 1 1 -19,6 -0,8 15,68UC2 18 2 -2,6 0,2 -0,52UC3 4 1 -16,6 -0,8 13,28UC4 67 3 46,4 1,2 55,68UC5 22 2 1,4 0,2 0,28UC6 12 2 -8,6 0,2 -1,72UC7 2 1 -18,6 -0,8 14,88UC8 7 1 -13,6 -0,8 10,88UC9 18 2 -2,6 0,2 -0,52UC10 55 3 34,4 1,2 41,28
149,2 / 9 = 16,57777...
Covariância de Y’
Caso de uso
Tempo conhecido (horas) - X
Pontos de caso de uso – Y’
(xi - ) (y’i - ) (xi - )(y’i - )
UC1 1 1 -19,6 -0,9 17,64UC2 18 2 -2,6 0,1 -0,26UC3 4 3 -16,6 1,1 -18,26UC4 67 1 46,4 -0,9 -41,76UC5 22 2 1,4 0,1 0,14UC6 12 3 -8,6 1,1 -9,46UC7 2 1 -18,6 -0,9 16,74UC8 7 2 -13,6 0,1 -1,36UC9 18 3 -2,6 1,1 -2,86UC10 55 1 34,4 -0,9 -30,96
x 'yx 'y
-70,4 / 9 = -7,822222...
CorrelaçãoÉ uma medida de variância
normalizada (entre -1 e 1)
Voltando ao exemploCorrelação de Y e X:
0,928041193.Correlação de Y’ e X: -
0,39445403.
Existe correlação entre Y e X?Existe correlação entre Y’ e X?
Valores mínimos de correlação para ser considerada significativa com 95% de certeza.n mínimo n mínimo n mínimo
3 .99692 13 .5529 27 .38094 .95000 14 .5324 32 .34945 .8783 15 .5139 37 .32466 .8114 16 .4973 42 .30447 .7545 17 .4821 47 .28758 .7067 18 .4683 52 .27329 .6664 19 .4555 62 .2500
10 .6319 20 .4438 72 .231911 .6021 21 .4329 82 .217212 .5760 22 .4227 92 .2050
No exemplon = 10Mínimo: 0,6319
Corr(X,Y) = 0,928041193 OKCorr(X,Y’) = -0,39445403 .....