projeto profissional interdisciplinarfacsumare.nunes.net.br/00541_62/ppi4_estatistica_cc4m1.pdf ·...
TRANSCRIPT
FACULDADE SUMARÉ
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
PROJETO PROFISSIONAL INTERDISCIPLINAR
Carlos Felix dos Santos – RA 1417022 Hugo Vinicius de Melo Silva – RA 1415321
Ivan César Martinez – RA 1522612 José Eduardo de Araujo Nunes – RA 1413355
CÁLCULOS ESTATÍSTICOS
São Paulo 2015
Carlos Felix dos Santos – RA 1417022
Hugo Vinicius de Melo Silva – RA 1415321 Ivan César Martinez – RA 1522612
José Eduardo de Araujo Nunes – RA 1413355
CÁLCULOS ESTATÍSTICOS
Trabalho apresentado como requisito parcial para conclusão da disciplina PPI-3 Orientador: Victor Inacio
São Paulo 2015
FACULDADE SUMARÉ
BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO
PROJETO PROFISSIONAL INTERDISCIPLINAR
CÁLCULOS ESTATÍSTICOS
Autores: __________________________
Carlos Felix dos Santos
__________________________
Hugo Vinicius de Melo Silva
__________________________
Ivan César Martinez
__________________________
José Eduardo de Araujo Nunes
Orientador:
______________________________
Victor Inácio de Oliveira
São Paulo,_____de__________________2015
Aos pais, irmãos e amigos pelo apoio necessário
AGRADECIMENTOS
Agradecemos ao nosso orientador Victor Inácio de Oliveira por suas sábias contribuições. Agradecemos à professora Cristiane Grala Roldão pelas excelentes aulas sobre estatística. Agradecemos a todos os familiares pelo apoio. Agradecemos a todos os amigos pela ajuda.
“Os únicos limites, como
sempre, são os de nossa visão”
JAMES BROUGHTON
RESUMO Realizamos nesse projeto o desenvolvimento de um software para a área de estatística que calcule as frequências: Absoluta (f), Absoluta Relativa (fr), Acumulada (F) e Acumulada Relativa (Fr) de variáveis discretas e contínuas, produzindo os gráficos de barras e os polígonos de frequência. Para o caso de variáveis contínuas há a possibilidade de alterar a amplitude das classes (h) e o ponto inicial do agrupamento, permitindo lapidar os parâmetros e obter de forma rápida e prática a melhor visualização possível dos resultados calculados. Também é possível transformar variáveis discretas em contínuas, agrupando os dados ao aumentar a amplitude de classe (h) em um valor maior que zero. Os gráficos gerados de acordo com os dados computados oferecem a visualização dos resultados. Pode-se imprimir ou exportar a tabela com os resultados calculados em um formato compatível com o Excel.
Palavras-chave: Estatística – java.
LISTA DE ILUSTRAÇÕES Figura 1 – Gráfico de polígonos
Figura 2 – Gráfico de polígonos
Figura 3 – Gráfico de polígonos
SUMÁRIO
1. INTRODUÇÃO..................................................................................................................... 2 1.1. PANORAMA HISTÓRICO DA ESTATÍSTICA ........................................................... 3
1.2. A ESTATISTICA NAS EMPRESAS ............................................................................. 3 1.3. A INFORMÁTICA NO PROCESSO DE CÁLCULO ESTATÍSTICO....................... 4
2. OBJETIVO ........................................................................................................................... 6
2.1 INTEGRAÇÃO DAS DISCIPLINAS............................................................................... 6 3. METODOLOGIA ................................................................................................................. 8
4. CONCLUSÃO .................................................................................................................... 12
REFERÊNCIAS BIBLIORÁFICAS ..................................................................................... 13
APÊNDICE A – TELA DO PROGRAMA.............................................................................. I
2
1. INTRODUÇÃO
Existem muitas coisas que nós seres humanos somos capazes de fazer, como
construir belas edificações, decifrar o DNA humano, identificar matérias atomicamente
minúsculas como o Bóson de Higgs, desenvolver o pensamento quântico e suas
metodologias de cálculos avançados, preparar e computar toda uma gama de dados
conhecida por “Big Data”, deduzir o filme preferido dos jovens de determinada região
do planeta ou quais serão os hits do verão, entre outros. Para que tudo isso seja
possível, nós precisamos analisar uma quantidade substancial de dados.
Sem utilizar um método adequado, não é simples trabalhar com um volume de
informações da ordem de centenas de dados, e, para muitas análises que
encontramos no dia-a-dia, trabalhamos com amostras de milhares e com milhões de
dados variados, como por exemplo, quais são os programas de TV assistidos em
determinado estado ou os dados do IBGE sobre a renda de toda a população de um
país.
Esse é o momento que a estatística se prova eficaz e nos ampara, pois oferece
um método organizado e eficiente que permite resumir e apresentar informações de
maneira que auxilie na compreensão e interpretação destes dados.
Para tanto, Morais (2008) ressalta a importância de evidenciar o valor mínimo,
valor máximo, soma dos valores, contagens, média, moda, mediana, variância e
desvio padrão, além da organização do conjunto de dados através de tabelas e
gráficos, na estatística descritiva, resumindo o conjunto de dados recolhidos numa
dada investigação.
Correa (2003) nos alerta para a incerteza dos dados, porque não se pode estar
seguro de que o que foi constatado para a amostra se verificará igualmente para o
todo. Essa incerteza é consequência da variabilidade de um fenômeno e dificulta a
tomada de decisões. Guimarães (2007) nos orienta que o profissional de estatística
deve ter a habilidade de controlar esta incerteza por meio de procedimentos de
amostragem.
Assim, com base em todos os parâmetros citados como importante por diversos
autores, buscamos modelar a construção do software para contemplar todos os
parâmetros sugeridos: números, tabelas e gráficos, afim de produzir uma ferramenta
útil de interação com a estatística descritiva.
3
1.1. PANORAMA HISTÓRICO DA ESTATÍSTICA
Historicamente, o desenvolvimento da estatística pode ser entendido a partir
de dois fenômenos: a necessidade de governos coletarem dados censitários e o
desenvolvimento da teoria do cálculo das probabilidades.
Dados têm sido coletados através de toda a história. Na Antiguidade, vários
povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam
estimativas das riquezas sociais, distribuíam equitativamente terras aos povos,
cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje,
chamaríamos de “estatísticas”. Na Idade Média colhiam-se informações, geralmente
com finalidades tributárias ou bélicas. Atualmente, informações numéricas são
necessárias para cidadãos e organizações de qualquer natureza, e de qualquer parte
do mundo globalizado.
O que é Estatística?
“Estatística é um conjunto de métodos e processos quantitativos que serve para
estudar e medir os fenômenos coletivos.”
Dugé de Bernonville
Em outras palavras, é a ciência que se preocupa com a coleta, a organização,
descrição (apresentação), análise e interpretação de dados experimentais e tem como
objetivo fundamental o estudo de uma população.
Este estudo pode ser feito de duas maneiras:
Investigando todos os elementos da população.
Amostragem, ou seja, selecionando alguns elementos da população.
1.2. A ESTATISTICA NAS EMPRESAS
No mundo atual, a empresa é uma das vigas-mestras da Economia dos povos.
A direção de uma empresa, de qualquer tipo, incluindo as estatais e
governamentais, exige de seu administrador a importante tarefa de tomar decisões, e
o conhecimento e o uso da Estatística facilitarão seu tríplice trabalho de organizar,
dirigir e controlar a empresa.
Por meio de sondagem, de coleta de dados e de recenseamento de opiniões,
podemos conhecer a realidade geográfica e social, os recursos naturais, humanos e
financeiros disponíveis, as expectativas da comunidade sobre a empresa, e
4
estabelecer suas metas, seus objetivos com maior possibilidade de serem alcançados
a curto, médio ou longo prazos.
A Estatística ajudara em tal trabalho, como também na seleção e organização
de estratégia a ser adotada no empreendimento e, ainda, na escolha das técnicas de
verificação e avaliação da quantidade e da qualidade do produto e mesmo dos
possíveis lucros e ou perdas.
1.3. A INFORMÁTICA NO PROCESSO DE CÁLCULO ESTATÍSTICO
A análise de dados, na maioria das pesquisas, era realizada com
procedimentos mecânicos muito rudimentares. Entre nós isto ocorreu até quase o final
dos anos de 1970, salvo raras exceções, em que se pôde dispor de meios sofisticados,
fora do usual. As calculadoras de bolso representaram uma grande inovação ao serem
difundidas no início dos anos 70, no entanto, no princípio permitiam apenas operações
básicas. Isto exigiu dos pesquisadores grandes esforços, além de um enorme
consumo de tempo para fazer os cálculos estatísticos. Por esse motivo, muitas
análises complexas não chegavam sequer a ser propostas, muito menos realizadas.
A partir do início dos anos 80, houve uma generalização no uso dos
computadores. Este processo se iniciou nos Estados Unidos no início dos anos 70,
mas chegou até nós muito mais tarde. Hoje, praticamente todas as pesquisas realizam
suas análises de dados mediante procedimentos informáticos. Isto permite falar de
uma revolução na estatística aplicada. Entre as características que mais se destacam
nesta revolução está o fato de que o cálculo deixou de ter importância, já que o
computador o faz. Agora podem-se propor análises que antes eram impensáveis, e o
tempo investido nesta fase diminuiu de forma considerável.
Esta revolução poderia provocar uma certa defasagem nos manuais de
estatística aplicada: hoje a fase de análise de dados não se realiza tal como se expõe
em muitos deles, manualmente, mas sim mediante pacotes de programas estatísticos.
Por isso, o pesquisador deve dominar a estatística aplicada, utilizando o computador
como instrumento de cálculo.
Os programadores foram criando pacotes de programas, que consistem,
essencialmente, em programas preparados para serem utilizados no momento
oportuno, por um usuário sem grandes conhecimentos de informática. Estes pacotes
5
servem para realizar um conjunto de operações específicas, geralmente sob o
controle de uma linguagem simplificada ou mediante um conjunto de instruções
relativamente simples.
Na análise estatística, um dos marcos mais inovadores foi o desenvolvimento
de “pacotes de programas estatísticos”. Eles consistem em coleções de programas
que facilitam o acesso aos recursos informáticos para realizar a fase de análise de
dados.
6
2. OBJETIVO
Colocamos em prática o conteúdo trabalhado durante as aulas, tanto em
programação quanto em estatística, para obter uma plataforma simples onde serão
feitos os cálculos estatísticos tais quais como eram feitos em papel, produzindo
resultados em tabelas e gráficos a partir de determinada entrada, que podem ser
utilizados tanto para a conferência de um exercício, como na resolução de um
problema real ou em testes e refinamento de dados.
Durante o desenvolvimento do design do software, houve o cuidado com a boa
interação entre o software e o usuário, tornando simples a transformação dos dados
em indicadores quantitativos. Conforme ilustrado por Steve Jobs (ISAACSON, 2011),
"quando se impõe ordem à complexidade descobre-se um jeito de fazer o produto
submeter-se à nossa vontade.", e percebemos que com o uso dessa ferramenta
conseguimos nos abstrair do trabalho manual e perceber o que de fato significam os
dados processados e o que podemos fazer com eles, manipulando os parâmetros de
agrupamento ou visualização para que os resultados se aproximem à nossa
expectativa de aplicação.
Algumas partes do código desenvolvido nesse aplicativo buscam antecipar a
vontade do usuário ou proporcionar as melhores práticas, estimando a visualização
mais simples dos resultados com números fáceis de se observar e entender. Com um
software simples e de fácil domínio pelos usuários, os únicos limitadores de sua
usabilidade nos mais diversos contextos ficam puramente vinculados aos limites da
imaginação.
2.1 INTEGRAÇÃO DAS DISCIPLINAS
Foi desenvolvida a integração das seguintes disciplinas fundamentais para a
execução do projeto:
Laboratório de Programação I e II: para produzir os algoritmos do
projeto em Java;
Matemática II e III: simplificando fórmulas e obtendo desempenho nos
cálculos matemáticos;
7
Estrutura de Dados: cerceando o horizonte acerca das melhores
práticas em programação para que possamos compor um algoritmo
simples e eficaz;
Estatística: cujo conteúdo didático será a base para a realização desse
projeto.
8
3. METODOLOGIA
Inicialmente para computar os dados brutos é necessário organizá-los em um
ROL (dados ordenados). Utilizamos para tal o algoritmo de ordenação demonstrado
na aula de Laboratório de Programação I: o BubbleSort, que segundo Santos (2009)
é um algoritmo popular e intuitivo de ordenação com as seguintes características:
Ordenação interna: não necessita de uma memória secundária para o
processo.
Estável: não permuta itens de mesmo valor, mantendo a ordem original dos
dados.
Baixa complexidade no código do algoritmo, com fácil implementação.
Para produzir todos os cálculos e dispor os dados computados em tabelas,
gráficos e informar os valores da média, mediana, variação, desvio padrão e variância,
baseamos o design em nossos rascunhos de exercícios feitos em aula e os cálculos
no conteúdo da matéria de Estatística ministrado pela nossa professora Cristiane
Grala Roldão.
Também nos aprofundamos um pouco na matéria e estudando Correa (2003),
encontramos a fórmula de Czuber para calcular a moda; as medidas de dispersão,
que indicam se uma distribuição tem baixa dispersão (coeficiente de variação menor
que 15%), média dispersão (coeficiente de variação entre 15% e 30%, incluindo 15%)
ou alta dispersão (coeficiente de variação maior que 30%); e também o coeficiente de
assimetria da amostra, utilizando o coeficiente de Pearson para indicar se a
distribuição dos dados é simétrica, assimétrica positiva ou assimétrica negativa;
Calculamos o erro padrão da média com a fórmula 𝑑𝑒𝑠𝑣𝑖𝑜𝑝𝑎𝑑𝑟ã𝑜
√𝑁. No algoritmo de cálculo
de classes (k), optamos por utilizar a regra de Sturges 𝑘 = 1 + 3.3 log 𝑛 que estima
uma quantidade de classes (k) em função do número de valores da variável, sendo a
mais adequada para amostras com mais de 500 números em comparação à fórmula
𝑘 = √𝑁. Programamos também uma verificação que garanta o menor valor possível
na amplitude (h) sem ultrapassar o limite de classes (k).
Na composição dos gráficos, fizemos a disposição das barras e pontos do
polígono contemplando o espaço disponível em divisões iguais que variam entre 15 a
39 posições, referente à quantidades de classes. Observamos que um número maior
9
do que 39 posições dificultaria a leitura do gráfico e portanto, definimos as 39 posições
como limite de classes (k) do programa.
O número 39 se mostrou interessante para o limite de classes (k) pois com
base na regra de Sturges, 39 classes nos permite trabalhar confortavelmente com
uma amostra de 327 bilhões de números, um número exorbitante em relação à
capacidade atual de dados brutos aceitos pelo programa, limitados pela quantidade
de memória na máquina virtual Java: 9 milhões de números. Guimarães (2007) indica
como regra geral que para obter maior resumo ou melhor detalhamento é conveniente
utilizar entre 5 a 20 classes, assim, o nosso limite de 39 classes continuou se
mostrando satisfatório ao atender também a essa sugestão.
Elaboramos um algoritmo para fracionar o eixo cartesiano Y de maneira
automática em partes inteiras ou com incrementos de 0.5 ou 0.25, nessa ordem, com
limite visual de 17 divisões, oferecendo a possibilidade de escolha do valor de divisões
e também do valor máximo do gráfico, tornando possível produzir diversos gráficos
entre várias execuções que utilizem a mesma escala, facilitando a leitura e a
interpretação dos resultados entre variadas amostras.
Figura 1: Gráfico de polígonos. Pode-se observar que a representação dos dados
dessa amostra atinge exatamente o ponto máximo (23) do gráfico.
10
Figura 2: Gráfico de polígonos. Pode -se observar que a representação dos dados
dessa amostra não atinge o ponto máximo (23) do gráfico.
Figura 3: Gráfico de polígonos. Pode -se observar que a representação dos dados
dessa amostra ultrapassa o ponto máximo (23) do gráfico.
Como observado nas Figuras 1, 2 e 3, utilizar a mesma escala em diferentes
momentos e, ou, com diversas amostras, nos permite - em alguns casos - observar
11
de maneira crítica e sob a mesma ótica qual a melhor solução para um determinado
problema.
12
4. CONCLUSÃO
Os alunos, professores e profissionais se beneficiarão com uma ferramenta de
precisão, que os ajude a ganhar tempo visualizando com maior detalhe e
experimentando as soluções em um mesmo conjunto de dados, podendo efetuar a
alteração de variáveis pré-determinadas dos cálculos e a escalabilidade dos gráficos,
conseguindo assim comparar dois ou mais resultados, para analisar o problema em
diversos cenários, aprimorando o processo ensino-aprendizagem durante as aulas,
além de também auxiliar os profissionais dentro de seu contexto.
Além do uso acadêmico em sala de aula com a verificação dos exercícios
propostos e como ferramenta de estudos, o software já foi utilizado no meio
corporativo como ferramenta de detecção de falhas na infraestrutura da empresa e
também para estimar o espaço necessário para efetuar o backup dos dados da
mesma empresa.
Algumas aplicações futuras nas quais já planejamos utilizar o software
produzido irão envolver a análise da periodicidade na geração de números aleatórios
e o ganho de performance durante a otimização de algoritmos.
13
REFERÊNCIAS BIBLIORÁFICAS
AKANIME, Carlos Takeo. 2 ed. Estudo Dirigido de Estatística Descritiva. São Paulo. Editora Érica LTDA. 2009. 280p BISQUERRA, Rafael. Jorge Castellá Sarriera. Francese Martínez. - 1 ed. Introdução à estatística [recurso eletrônico] : enfoque informático com o pacote estatístico SPSS - Dados eletrônicos. - Porto Alegre : Artmed, 2007. 679p. CORREA, Sonia Maria Barros Barbosa. Probabilidade e Estatística. 2 ed. Belo Horizonte: PUC Minas Virtual, 2003. 116p. CRESPO, Antonio Arnot. Estatistica facil. 17, ed, - São Paulo: Saraiva, 2002. 224p Estatística Aplicada à Informática e às suas Novas Tecnologias FALCO, Javert Guimarães. Estatística aplicada. 01 ed. Cuiabá: Ed. UFPR, 2008. 92p. FIELD, Andy. 2 ed. Descobrindo a estatística usando o SPSS [recurso eletrônico] / Andy Field : tradução Lori Viali. - Dados eletrônicos. - Porto Alegre : Artmed, 2009. 251p. FIGUEIREDO, Fernanda. Estatística Descritiva e Probabilidades. São Paulo. Escolar Editora LTDA. 2009. 409p GUIMARÃES, Paulo Ricardo Bittencourt. Métodos Quantitativos Estatísticos. 1 ed. Curitiba: IESDE Brasil S.A., 2008. 245p. ISAACSON, Walter. Steve Jobs. 1 ed. São Paulo: Companhia das Letras, 2011. 624p. LARSON, Ron. Estatistica Aplicada. 4 ed.;Tradução Luciane Ferreira Pauleti Vianna. São Paulo. Ed Pearson. 2010. 638p. MARA, Sandra Silva. 1 ed. Novas Tecnologias de informação e comunicação nas relações de aprendizagem da estatística no ensino médio. Faculdade Jorge Amado. Salvador, 2004. 65p. MARTINS, Gilberto De Andrade, JAIRO Simon Da Fonseca. Curso De Estatística - 6ª Edição 2006. São Paulo. 320p. Medeiros, Carlos Augusto de. Estatística Aplicada à Educação. Carlos Augusto de Medeiros. Brasília : Universidade de Brasília, 2007. 130 p. MORAIS, Carlos. Descrição análise e interpretação de informação quantitativa. Bragança: Instituto Politécnico de Bragança (IPB), 2008. 29p. NAZARETH, Helenalda. 1 ed. Curso Básico de Estatística. São Paulo. Editora Ática LTDA. 2001. 200p. REIS, Elizabeth. Paulo Melo. Rosa Andrade. Teresa Calapez. Vol. 1. Estatística Aplicada - : Probabilidades, Variáveis aleatórias, Distribuições Teóricas - Lisboa : Sílabo, 2015. 299p. RUPRECHT, Otto Bekman. LUIZ. Pedro de O. Costa Neto. 1 ed. Análise estatística da Decisão. São Paulo. Editora Edgard Blücher LTDA. 2006. 200p. SANTOS, Luiz Henrique. Algoritmos e Estruturas de dados. 5 ed. Ouro Preto: Universidade Federal de Ouro Preto (UFOP), 2009. 35p. SPIEGEL, Murray Ralph. Probabilidade e Estatística. Coleção Schaum. 1 ed; Tradução Alfredo Alves de Faria. São Paulo. Ed Mc Graw-Hill. 1978. 734p.
I
APÊNDICE A – TELA DO PROGRAMA