projeto profissional interdisciplinarfacsumare.nunes.net.br/00541_62/ppi4_estatistica_cc4m1.pdf ·...

FACULDADE SUMARÉ

BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO

PROJETO PROFISSIONAL INTERDISCIPLINAR

Carlos Felix dos Santos – RA 1417022 Hugo Vinicius de Melo Silva – RA 1415321

Ivan César Martinez – RA 1522612 José Eduardo de Araujo Nunes – RA 1413355

CÁLCULOS ESTATÍSTICOS

São Paulo 2015

Carlos Felix dos Santos – RA 1417022

Hugo Vinicius de Melo Silva – RA 1415321 Ivan César Martinez – RA 1522612

José Eduardo de Araujo Nunes – RA 1413355


Trabalho apresentado como requisito parcial para conclusão da disciplina PPI-3 Orientador: Victor Inacio

São Paulo 2015

FACULDADE SUMARÉ

BACHARELADO EM CIÊNCIA DA COMPUTAÇÃO

PROJETO PROFISSIONAL INTERDISCIPLINAR


Autores: __________________________

Carlos Felix dos Santos

__________________________

Hugo Vinicius de Melo Silva

__________________________

Ivan César Martinez

__________________________

José Eduardo de Araujo Nunes

Orientador:

______________________________

Victor Inácio de Oliveira

São Paulo,_____de__________________2015

Aos pais, irmãos e amigos pelo apoio necessário

AGRADECIMENTOS

Agradecemos ao nosso orientador Victor Inácio de Oliveira por suas sábias contribuições. Agradecemos à professora Cristiane Grala Roldão pelas excelentes aulas sobre estatística. Agradecemos a todos os familiares pelo apoio. Agradecemos a todos os amigos pela ajuda.

“Os únicos limites, como

sempre, são os de nossa visão”

JAMES BROUGHTON

RESUMO Realizamos nesse projeto o desenvolvimento de um software para a área de estatística que calcule as frequências: Absoluta (f), Absoluta Relativa (fr), Acumulada (F) e Acumulada Relativa (Fr) de variáveis discretas e contínuas, produzindo os gráficos de barras e os polígonos de frequência. Para o caso de variáveis contínuas há a possibilidade de alterar a amplitude das classes (h) e o ponto inicial do agrupamento, permitindo lapidar os parâmetros e obter de forma rápida e prática a melhor visualização possível dos resultados calculados. Também é possível transformar variáveis discretas em contínuas, agrupando os dados ao aumentar a amplitude de classe (h) em um valor maior que zero. Os gráficos gerados de acordo com os dados computados oferecem a visualização dos resultados. Pode-se imprimir ou exportar a tabela com os resultados calculados em um formato compatível com o Excel.

Palavras-chave: Estatística – java.

LISTA DE ILUSTRAÇÕES Figura 1 – Gráfico de polígonos

Figura 2 – Gráfico de polígonos

Figura 3 – Gráfico de polígonos

SUMÁRIO

1. INTRODUÇÃO..................................................................................................................... 2 1.1. PANORAMA HISTÓRICO DA ESTATÍSTICA ........................................................... 3

1.2. A ESTATISTICA NAS EMPRESAS ............................................................................. 3 1.3. A INFORMÁTICA NO PROCESSO DE CÁLCULO ESTATÍSTICO....................... 4

2. OBJETIVO ........................................................................................................................... 6

2.1 INTEGRAÇÃO DAS DISCIPLINAS............................................................................... 6 3. METODOLOGIA ................................................................................................................. 8

4. CONCLUSÃO .................................................................................................................... 12

REFERÊNCIAS BIBLIORÁFICAS ..................................................................................... 13

APÊNDICE A – TELA DO PROGRAMA.............................................................................. I

2

1. INTRODUÇÃO

Existem muitas coisas que nós seres humanos somos capazes de fazer, como

construir belas edificações, decifrar o DNA humano, identificar matérias atomicamente

minúsculas como o Bóson de Higgs, desenvolver o pensamento quântico e suas

metodologias de cálculos avançados, preparar e computar toda uma gama de dados

conhecida por “Big Data”, deduzir o filme preferido dos jovens de determinada região

do planeta ou quais serão os hits do verão, entre outros. Para que tudo isso seja

possível, nós precisamos analisar uma quantidade substancial de dados.

Sem utilizar um método adequado, não é simples trabalhar com um volume de

informações da ordem de centenas de dados, e, para muitas análises que

encontramos no dia-a-dia, trabalhamos com amostras de milhares e com milhões de

dados variados, como por exemplo, quais são os programas de TV assistidos em

determinado estado ou os dados do IBGE sobre a renda de toda a população de um

país.

Esse é o momento que a estatística se prova eficaz e nos ampara, pois oferece

um método organizado e eficiente que permite resumir e apresentar informações de

maneira que auxilie na compreensão e interpretação destes dados.

Para tanto, Morais (2008) ressalta a importância de evidenciar o valor mínimo,

valor máximo, soma dos valores, contagens, média, moda, mediana, variância e

desvio padrão, além da organização do conjunto de dados através de tabelas e

gráficos, na estatística descritiva, resumindo o conjunto de dados recolhidos numa

dada investigação.

Correa (2003) nos alerta para a incerteza dos dados, porque não se pode estar

seguro de que o que foi constatado para a amostra se verificará igualmente para o

todo. Essa incerteza é consequência da variabilidade de um fenômeno e dificulta a

tomada de decisões. Guimarães (2007) nos orienta que o profissional de estatística

deve ter a habilidade de controlar esta incerteza por meio de procedimentos de

amostragem.

Assim, com base em todos os parâmetros citados como importante por diversos

autores, buscamos modelar a construção do software para contemplar todos os

parâmetros sugeridos: números, tabelas e gráficos, afim de produzir uma ferramenta

útil de interação com a estatística descritiva.

3

1.1. PANORAMA HISTÓRICO DA ESTATÍSTICA

Historicamente, o desenvolvimento da estatística pode ser entendido a partir

de dois fenômenos: a necessidade de governos coletarem dados censitários e o

desenvolvimento da teoria do cálculo das probabilidades.

Dados têm sido coletados através de toda a história. Na Antiguidade, vários

povos já registravam o número de habitantes, de nascimentos, de óbitos, faziam

estimativas das riquezas sociais, distribuíam equitativamente terras aos povos,

cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje,

chamaríamos de “estatísticas”. Na Idade Média colhiam-se informações, geralmente

com finalidades tributárias ou bélicas. Atualmente, informações numéricas são

necessárias para cidadãos e organizações de qualquer natureza, e de qualquer parte

do mundo globalizado.

O que é Estatística?

“Estatística é um conjunto de métodos e processos quantitativos que serve para

estudar e medir os fenômenos coletivos.”

Dugé de Bernonville

Em outras palavras, é a ciência que se preocupa com a coleta, a organização,

descrição (apresentação), análise e interpretação de dados experimentais e tem como

objetivo fundamental o estudo de uma população.

Este estudo pode ser feito de duas maneiras:

Investigando todos os elementos da população.

Amostragem, ou seja, selecionando alguns elementos da população.

1.2. A ESTATISTICA NAS EMPRESAS

No mundo atual, a empresa é uma das vigas-mestras da Economia dos povos.

A direção de uma empresa, de qualquer tipo, incluindo as estatais e

governamentais, exige de seu administrador a importante tarefa de tomar decisões, e

o conhecimento e o uso da Estatística facilitarão seu tríplice trabalho de organizar,

dirigir e controlar a empresa.

Por meio de sondagem, de coleta de dados e de recenseamento de opiniões,

podemos conhecer a realidade geográfica e social, os recursos naturais, humanos e

financeiros disponíveis, as expectativas da comunidade sobre a empresa, e

4

estabelecer suas metas, seus objetivos com maior possibilidade de serem alcançados

a curto, médio ou longo prazos.

A Estatística ajudara em tal trabalho, como também na seleção e organização

de estratégia a ser adotada no empreendimento e, ainda, na escolha das técnicas de

verificação e avaliação da quantidade e da qualidade do produto e mesmo dos

possíveis lucros e ou perdas.

1.3. A INFORMÁTICA NO PROCESSO DE CÁLCULO ESTATÍSTICO

A análise de dados, na maioria das pesquisas, era realizada com

procedimentos mecânicos muito rudimentares. Entre nós isto ocorreu até quase o final

dos anos de 1970, salvo raras exceções, em que se pôde dispor de meios sofisticados,

fora do usual. As calculadoras de bolso representaram uma grande inovação ao serem

difundidas no início dos anos 70, no entanto, no princípio permitiam apenas operações

básicas. Isto exigiu dos pesquisadores grandes esforços, além de um enorme

consumo de tempo para fazer os cálculos estatísticos. Por esse motivo, muitas

análises complexas não chegavam sequer a ser propostas, muito menos realizadas.

A partir do início dos anos 80, houve uma generalização no uso dos

computadores. Este processo se iniciou nos Estados Unidos no início dos anos 70,

mas chegou até nós muito mais tarde. Hoje, praticamente todas as pesquisas realizam

suas análises de dados mediante procedimentos informáticos. Isto permite falar de

uma revolução na estatística aplicada. Entre as características que mais se destacam

nesta revolução está o fato de que o cálculo deixou de ter importância, já que o

computador o faz. Agora podem-se propor análises que antes eram impensáveis, e o

tempo investido nesta fase diminuiu de forma considerável.

Esta revolução poderia provocar uma certa defasagem nos manuais de

estatística aplicada: hoje a fase de análise de dados não se realiza tal como se expõe

em muitos deles, manualmente, mas sim mediante pacotes de programas estatísticos.

Por isso, o pesquisador deve dominar a estatística aplicada, utilizando o computador

como instrumento de cálculo.

Os programadores foram criando pacotes de programas, que consistem,

essencialmente, em programas preparados para serem utilizados no momento

oportuno, por um usuário sem grandes conhecimentos de informática. Estes pacotes

5

servem para realizar um conjunto de operações específicas, geralmente sob o

controle de uma linguagem simplificada ou mediante um conjunto de instruções

relativamente simples.

Na análise estatística, um dos marcos mais inovadores foi o desenvolvimento

de “pacotes de programas estatísticos”. Eles consistem em coleções de programas

que facilitam o acesso aos recursos informáticos para realizar a fase de análise de

dados.

6

2. OBJETIVO

Colocamos em prática o conteúdo trabalhado durante as aulas, tanto em

programação quanto em estatística, para obter uma plataforma simples onde serão

feitos os cálculos estatísticos tais quais como eram feitos em papel, produzindo

resultados em tabelas e gráficos a partir de determinada entrada, que podem ser

utilizados tanto para a conferência de um exercício, como na resolução de um

problema real ou em testes e refinamento de dados.

Durante o desenvolvimento do design do software, houve o cuidado com a boa

interação entre o software e o usuário, tornando simples a transformação dos dados

em indicadores quantitativos. Conforme ilustrado por Steve Jobs (ISAACSON, 2011),

"quando se impõe ordem à complexidade descobre-se um jeito de fazer o produto

submeter-se à nossa vontade.", e percebemos que com o uso dessa ferramenta

conseguimos nos abstrair do trabalho manual e perceber o que de fato significam os

dados processados e o que podemos fazer com eles, manipulando os parâmetros de

agrupamento ou visualização para que os resultados se aproximem à nossa

expectativa de aplicação.

Algumas partes do código desenvolvido nesse aplicativo buscam antecipar a

vontade do usuário ou proporcionar as melhores práticas, estimando a visualização

mais simples dos resultados com números fáceis de se observar e entender. Com um

software simples e de fácil domínio pelos usuários, os únicos limitadores de sua

usabilidade nos mais diversos contextos ficam puramente vinculados aos limites da

imaginação.

2.1 INTEGRAÇÃO DAS DISCIPLINAS

Foi desenvolvida a integração das seguintes disciplinas fundamentais para a

execução do projeto:

Laboratório de Programação I e II: para produzir os algoritmos do

projeto em Java;

Matemática II e III: simplificando fórmulas e obtendo desempenho nos

cálculos matemáticos;

7

Estrutura de Dados: cerceando o horizonte acerca das melhores

práticas em programação para que possamos compor um algoritmo

simples e eficaz;

Estatística: cujo conteúdo didático será a base para a realização desse

projeto.

8

3. METODOLOGIA

Inicialmente para computar os dados brutos é necessário organizá-los em um

ROL (dados ordenados). Utilizamos para tal o algoritmo de ordenação demonstrado

na aula de Laboratório de Programação I: o BubbleSort, que segundo Santos (2009)

é um algoritmo popular e intuitivo de ordenação com as seguintes características:

Ordenação interna: não necessita de uma memória secundária para o

processo.

Estável: não permuta itens de mesmo valor, mantendo a ordem original dos

dados.

Baixa complexidade no código do algoritmo, com fácil implementação.

Para produzir todos os cálculos e dispor os dados computados em tabelas,

gráficos e informar os valores da média, mediana, variação, desvio padrão e variância,

baseamos o design em nossos rascunhos de exercícios feitos em aula e os cálculos

no conteúdo da matéria de Estatística ministrado pela nossa professora Cristiane

Grala Roldão.

Também nos aprofundamos um pouco na matéria e estudando Correa (2003),

encontramos a fórmula de Czuber para calcular a moda; as medidas de dispersão,

que indicam se uma distribuição tem baixa dispersão (coeficiente de variação menor

que 15%), média dispersão (coeficiente de variação entre 15% e 30%, incluindo 15%)

ou alta dispersão (coeficiente de variação maior que 30%); e também o coeficiente de

assimetria da amostra, utilizando o coeficiente de Pearson para indicar se a

distribuição dos dados é simétrica, assimétrica positiva ou assimétrica negativa;

Calculamos o erro padrão da média com a fórmula 𝑑𝑒𝑠𝑣𝑖𝑜𝑝𝑎𝑑𝑟ã𝑜

√𝑁. No algoritmo de cálculo

de classes (k), optamos por utilizar a regra de Sturges 𝑘 = 1 + 3.3 log 𝑛 que estima

uma quantidade de classes (k) em função do número de valores da variável, sendo a

mais adequada para amostras com mais de 500 números em comparação à fórmula

𝑘 = √𝑁. Programamos também uma verificação que garanta o menor valor possível

na amplitude (h) sem ultrapassar o limite de classes (k).

Na composição dos gráficos, fizemos a disposição das barras e pontos do

polígono contemplando o espaço disponível em divisões iguais que variam entre 15 a

39 posições, referente à quantidades de classes. Observamos que um número maior

9

do que 39 posições dificultaria a leitura do gráfico e portanto, definimos as 39 posições

como limite de classes (k) do programa.

O número 39 se mostrou interessante para o limite de classes (k) pois com

base na regra de Sturges, 39 classes nos permite trabalhar confortavelmente com

uma amostra de 327 bilhões de números, um número exorbitante em relação à

capacidade atual de dados brutos aceitos pelo programa, limitados pela quantidade

de memória na máquina virtual Java: 9 milhões de números. Guimarães (2007) indica

como regra geral que para obter maior resumo ou melhor detalhamento é conveniente

utilizar entre 5 a 20 classes, assim, o nosso limite de 39 classes continuou se

mostrando satisfatório ao atender também a essa sugestão.

Elaboramos um algoritmo para fracionar o eixo cartesiano Y de maneira

automática em partes inteiras ou com incrementos de 0.5 ou 0.25, nessa ordem, com

limite visual de 17 divisões, oferecendo a possibilidade de escolha do valor de divisões

e também do valor máximo do gráfico, tornando possível produzir diversos gráficos

entre várias execuções que utilizem a mesma escala, facilitando a leitura e a

interpretação dos resultados entre variadas amostras.

Figura 1: Gráfico de polígonos. Pode-se observar que a representação dos dados

dessa amostra atinge exatamente o ponto máximo (23) do gráfico.

10

Figura 2: Gráfico de polígonos. Pode -se observar que a representação dos dados

dessa amostra não atinge o ponto máximo (23) do gráfico.

Figura 3: Gráfico de polígonos. Pode -se observar que a representação dos dados

dessa amostra ultrapassa o ponto máximo (23) do gráfico.

Como observado nas Figuras 1, 2 e 3, utilizar a mesma escala em diferentes

momentos e, ou, com diversas amostras, nos permite - em alguns casos - observar

11

de maneira crítica e sob a mesma ótica qual a melhor solução para um determinado

problema.

12

4. CONCLUSÃO

Os alunos, professores e profissionais se beneficiarão com uma ferramenta de

precisão, que os ajude a ganhar tempo visualizando com maior detalhe e

experimentando as soluções em um mesmo conjunto de dados, podendo efetuar a

alteração de variáveis pré-determinadas dos cálculos e a escalabilidade dos gráficos,

conseguindo assim comparar dois ou mais resultados, para analisar o problema em

diversos cenários, aprimorando o processo ensino-aprendizagem durante as aulas,

além de também auxiliar os profissionais dentro de seu contexto.

Além do uso acadêmico em sala de aula com a verificação dos exercícios

propostos e como ferramenta de estudos, o software já foi utilizado no meio

corporativo como ferramenta de detecção de falhas na infraestrutura da empresa e

também para estimar o espaço necessário para efetuar o backup dos dados da

mesma empresa.

Algumas aplicações futuras nas quais já planejamos utilizar o software

produzido irão envolver a análise da periodicidade na geração de números aleatórios

e o ganho de performance durante a otimização de algoritmos.

13

REFERÊNCIAS BIBLIORÁFICAS

AKANIME, Carlos Takeo. 2 ed. Estudo Dirigido de Estatística Descritiva. São Paulo. Editora Érica LTDA. 2009. 280p BISQUERRA, Rafael. Jorge Castellá Sarriera. Francese Martínez. - 1 ed. Introdução à estatística [recurso eletrônico] : enfoque informático com o pacote estatístico SPSS - Dados eletrônicos. - Porto Alegre : Artmed, 2007. 679p. CORREA, Sonia Maria Barros Barbosa. Probabilidade e Estatística. 2 ed. Belo Horizonte: PUC Minas Virtual, 2003. 116p. CRESPO, Antonio Arnot. Estatistica facil. 17, ed, - São Paulo: Saraiva, 2002. 224p Estatística Aplicada à Informática e às suas Novas Tecnologias FALCO, Javert Guimarães. Estatística aplicada. 01 ed. Cuiabá: Ed. UFPR, 2008. 92p. FIELD, Andy. 2 ed. Descobrindo a estatística usando o SPSS [recurso eletrônico] / Andy Field : tradução Lori Viali. - Dados eletrônicos. - Porto Alegre : Artmed, 2009. 251p. FIGUEIREDO, Fernanda. Estatística Descritiva e Probabilidades. São Paulo. Escolar Editora LTDA. 2009. 409p GUIMARÃES, Paulo Ricardo Bittencourt. Métodos Quantitativos Estatísticos. 1 ed. Curitiba: IESDE Brasil S.A., 2008. 245p. ISAACSON, Walter. Steve Jobs. 1 ed. São Paulo: Companhia das Letras, 2011. 624p. LARSON, Ron. Estatistica Aplicada. 4 ed.;Tradução Luciane Ferreira Pauleti Vianna. São Paulo. Ed Pearson. 2010. 638p. MARA, Sandra Silva. 1 ed. Novas Tecnologias de informação e comunicação nas relações de aprendizagem da estatística no ensino médio. Faculdade Jorge Amado. Salvador, 2004. 65p. MARTINS, Gilberto De Andrade, JAIRO Simon Da Fonseca. Curso De Estatística - 6ª Edição 2006. São Paulo. 320p. Medeiros, Carlos Augusto de. Estatística Aplicada à Educação. Carlos Augusto de Medeiros. Brasília : Universidade de Brasília, 2007. 130 p. MORAIS, Carlos. Descrição análise e interpretação de informação quantitativa. Bragança: Instituto Politécnico de Bragança (IPB), 2008. 29p. NAZARETH, Helenalda. 1 ed. Curso Básico de Estatística. São Paulo. Editora Ática LTDA. 2001. 200p. REIS, Elizabeth. Paulo Melo. Rosa Andrade. Teresa Calapez. Vol. 1. Estatística Aplicada - : Probabilidades, Variáveis aleatórias, Distribuições Teóricas - Lisboa : Sílabo, 2015. 299p. RUPRECHT, Otto Bekman. LUIZ. Pedro de O. Costa Neto. 1 ed. Análise estatística da Decisão. São Paulo. Editora Edgard Blücher LTDA. 2006. 200p. SANTOS, Luiz Henrique. Algoritmos e Estruturas de dados. 5 ed. Ouro Preto: Universidade Federal de Ouro Preto (UFOP), 2009. 35p. SPIEGEL, Murray Ralph. Probabilidade e Estatística. Coleção Schaum. 1 ed; Tradução Alfredo Alves de Faria. São Paulo. Ed Mc Graw-Hill. 1978. 734p.

I

APÊNDICE A – TELA DO PROGRAMA

projeto profissional interdisciplinarfacsumare.nunes.net.br/00541_62/ppi4_estatistica_cc4m1.pdf ·...

Documents