curso - ebartacademy.files.wordpress.com · análise exploratória de dados módulo 1 eric...

69

Upload: others

Post on 15-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 2

    Curso

    Análise Exploratória de Dados

    Módulo 1

    Eric Bartulici

    Abril de 2020

  • 3

    Análise Exploratória de Dados

    1ª Edição

    2020

    Eric Bartulici

    Proibida a Cópia e Distribuição sem a autorização expressa do autor.

    Cursos

  • 4

    Para minha amada família,

    pelo suporte, pela fé e

    apoio incondicional,

    tornando possível esta

    obra.

  • 5

    Sobre o Autor

    Eric Bartulici é natural de São Paulo-SP, Engenheiro Metalúrgico e egresso da turma

    de 1997/2 pela Escola de Minas de Ouro Preto / UFOP. Seu primeiro trabalho foi

    como Analista Censitário pelo IBGE em 1991, e logo depois de formar trabalhou na

    Indústria de Fundição Tupy, em Joinville-SC, de março de 1998 a abril de 2003,

    atuando como Engenheiro de Processos nas áreas de Fundição e Moldagem,

    Tratamentos Térmicos, Acabamento de Produtos e Proteção Superficial (Zincagem,

    Roscagem e Inspeção de produtos). Em 2001 concluiu sua pós-graduação em Gestão

    Industrial pela FGV – Fundação Getúlio Vargas, e logo em seguida certificou-se como

    Black Belt Seis Sigma, tendo coordenado projetos nas Áreas de Fundição de Conexões

    e Zincagem.

    Em 2003 iniciou seu mestrado na Universidade Federal de Minas Gerais – UFMG, com ênfase em Metalurgia

    Física com foco na obtenção de aços de alta resistência por meio de tratamentos térmicos de aços C-Mn, obtendo

    elevadas resistências à tração, concluindo em 2005 o mesmo.

    De volta ao mundo empresarial, de 2004 a 2014 atuou na Gerdau Açominas (Ouro Branco-MG) como Engenheiro

    de Processos, Chefe de Área de Acabamento, Gerente de Logística Interna, Consultor Técnico e Coordenador de

    Projetos estratégicos nas áreas de S&OP (Sales and Operation Planning), e Gerdau Template (líder de projeto

    pela Logística Global), onde liderou a implantação do Projeto Global de Logística no SAP na América do Sul

    (Uruguai, Argentina, Chile e Brasil).

    Em 2015 foi chamado para assumir o cargo de professor EBTT no Instituto Federal de Ciência e Tecnologia de

    Minas Gerais, após aprovação em concurso público, onde trabalha até os dias atuais, como docente nas áreas de

    Fundição, Metalurgia do Pó, Pesquisa Operacional Metalúrgica (e como professor convidado para a turma de

    Administração), Sistemas de Garantia da Qualidade e Estatística Aplicada à Engenharia , em projetos de ensino ,

    pesquisa e extensão universitária.

    Como ações de extensão, além do curso de Estatística Aplicada à Engenharia que foi aplicado à comunidade e

    discentes do IFMG, é o autor e proprietário do Site eBart Academy, voltado para cursos à distância, notícias do

    setor Mínero-Metalúrgico, para a democratização do ensino, e troca de informações e interação com a

    comunidade acadêmica e empresarial, em busca do desenvolvimento da região em que atua.

    Conselheiro Lafaiete, 15/04/2020

    Z

  • 6

    Sumário

    Capítulo 1 – Coleta e Análise de Dados ................................................................................................................. 10

    Introdução ......................................................................................................................................................... 10

    Categorização dos Dados................................................................................................................................... 10

    A Coleta e Análise dos Dados ............................................................................................................................ 12

    A Organização dos Dados .................................................................................................................................. 13

    Comportamento dos Dados no Tempo ............................................................................................................. 14

    Visualização Gráfica dos Dados Coletados ........................................................................................................ 15

    Gráficos Sequenciais ...................................................................................................................................... 15

    Gráficos de Pizza ............................................................................................................................................ 16

    Gráficos de Barras / Colunas ......................................................................................................................... 16

    Gráficos Combinados ..................................................................................................................................... 17

    Stem and Leaf ................................................................................................................................................ 18

    Histogramas ................................................................................................................................................... 19

    Elaboração do Histograma no Excel .............................................................................................................. 20

    EXERCÍCIOS RESOLVIDOS ................................................................................................................................... 22

    Capítulo 2 – Variância nos Dados Amostrais ......................................................................................................... 25

    Introdução ......................................................................................................................................................... 25

    A Estatística Descritiva no Excel ........................................................................................................................ 25

    O Desvio-padrão ................................................................................................................................................ 29

    Teorema de Chebyshev ................................................................................................................................. 30

    Exercícios Resolvidos ......................................................................................................................................... 30

    Capítulo 3 – Análise de Tendência nos Dados ....................................................................................................... 33

    Equações Lineares (primeira ordem) ................................................................................................................ 33

    Equações Polinomiais (segunda ordem) ........................................................................................................... 37

    Análise de Tendência e Correlação ................................................................................................................... 42

    Regressão Linear Simples .................................................................................................................................. 43

    Estimativas de Erro na Regressão ...................................................................................................................... 48

    Exercícios Resolvidos ......................................................................................................................................... 49

    Capítulo 4 – Regressões Lineares Usando o Excel. ................................................................................................ 53

    Introdução ......................................................................................................................................................... 53

    Habilitando o SOLVER ........................................................................................................................................ 53

    Utilizando o Solver em Regressões Lineares ..................................................................................................... 54

    Métodos de Análise de Regressão com o Excel ................................................................................................ 55

    Análise de Resíduos de Regressão ..................................................................................................................... 57

  • 7

    Regressão Linear Múltipla ................................................................................................................................. 58

    R-Múltiplo .......................................................................................................................................................... 61

    Exercícios Resolvidos ......................................................................................................................................... 61

    Bibliografia Consultada ...................................................................................................................................... 67

  • 8

    Prefácio

    Esta obra é parte de um projeto maior, iniciado neste ano de 2020, após ter iniciado, no último ano, um curso

    de extensão universitária para os alunos dos cursos de graduação de Engenharia Metalúrgica e de Administração

    do Instituto Federal de Ciência e tecnologia de Minas Gerais – IFMG). Na verdade, ela remonta de anos

    anteriores, onde ainda atuava no setor privado, trabalhando na empresa Gerdau – Usina Ouro Branco como

    Consultor Técnico e Coordenador de Projetos, onde já planejava os anos nos quais iria atuar no ensino e na

    elaboração de obras didáticas na área de engenharia, estatística e gestão.

    Em 2019 foi dado o primeiro curso de estatística aplicada. Ofertei o curso “Estatística Aplicada à Engenharia”

    para alunos e comunidade de Ouro Branco e região, ampliando o escopo e abrangência da atuação como

    educador e servidor público federal. Tal iniciativa veio do entendimento de inadiável tarefa, e o do dever, de

    levar à população um ensino sintonizado com as demanda atuais de formação do engenheiro e administradores

    para as empresas, inseridas em um mercado amplamente competitivo e que demanda resultados cada vez mais

    estáveis, sustentáveis e de qualidade superior, habilitando não só a continuidade empresarial e a sua expansão,

    mas principalmente, a preparação de profissionais competentes e capazes de aturem e crescerem

    profissionalmente neste ambiente.

    O primeiro módulo, Análise Exploratória de Dados, é a preparação inicial para os demais que virão ao longo dos

    próximos meses. Os objetivos deste módulo, em linhas gerais são:

    • Capacitar o aluno a uma abordagem quantitativa e qualitativa dos dados amostrais, permitindo-o

    analisar e propor ações nos processos onde atue.

    • Levar ao aluno o entendimento do poder e amplitude da ferramenta estatística aplicada aos processos,

    permitindo um trabalho de maior relevância e conteúdos superiores com foco em resultados superiores.

    • Inserir esta área do conhecimento ao mundo do gestor, seja ele engenheiro ou administrador,

    permitindo dar à gestão da rotina ou da melhoria nas empresas as bases para a análise metodológica e

    científica.

    Ao longo dos quatro capítulos, o estudante encontrará uma teoria aplicada, com apoio de exercícios propostos

    e resolvidos, além de screencastings e vídeos disponíveis no canal do YouTube do curso, que reforçam o ensino

    e dão visibilidade à prática, acelerando a compreensão dos tópicos apresentados no material didático em pdf.

    Com a realização dos exercícios propostos o aluno estará habilitado a entrar no mundo da solução estatística de

    problemas com uso de soluções básicas computacionais, e assim, abrir o horizonte de formação posterior nas

    ciências estatísticas e matemáticas, tão indispensáveis para o mundo dos profissionais da área de exatas e

    também Sociais Aplicadas.

    Espero que aproveitem e gostem do conteúdo, que desde já se tornam abertos á melhoria contínua, revisões

    pelos colegas e clientes, e que serão prontamente disponibilizadas pelos meios digitais propostos pela eBart

    Academy, e assim, desde já, agradeço a todos pela prestimosa contribuição!

    Eric Bartulici

    Abril/2020

  • 9

    “Sem dados você é uma pessoa qualquer com uma opinião.”

    Willian Edwards Deming

    (1900 – 1993)

  • Capítulo 1 – Coleta e Análise dos Dados 10

    Capítulo 1 – Coleta e Análise de Dados

    Introdução

    No mundo atual encontramos a crescente necessidade de se aprender a não só levantar dados de operações

    bancárias, governamentais, etc, como também aprender a organizá-los e então obter valiosas informações para o

    gerenciamento dos processos produtivos e prestação de serviços com a análise estruturada dos resultados, sejam

    eles descritivos ou gráficos.

    Vemos surgir neste século a demanda por profissionais que atuarão em meio às revoluções digitais, da Internet das

    Coisas (IoT – Internet of Things), experts em Big Data, ou ainda de profissionais da Tecnologia da Informação, em

    busca de atender à irreversível tendência de automação e controle de processos e Serviços à população, demandados

    pelos governos ou do setor privado.

    Neste capítulo iremos abordar a importância do levantamento de dados, a sua estruturação para adequar à aplicação

    desejada, bem como a sua tratativa necessária para gerar informações úteis ao analista e público em geral.

    Finalizaremos o mesmo abordando a elaboração de gráficos no Excel, capazes de ilustrar bem o conteúdo gerado

    pelos dados, permitindo ao usuário uma visão mais ampla do conteúdo prático dos dados coletados, permitindo assim

    a tomada de ações para otimizar seus produtos, processos e serviços.

    Categorização dos Dados

    As publicações sobre coleta e análise de dados são inúmeras, sejam aquelas das áreas de estudos estatísticos ou

    das áreas de engenharia, administração, informática e automação de processos. Em meio a esse turbilhão de dados

    que naturalmente nascem dos processos, surge a necessidade de categorizar os dados, ou seja, agrupá-los em

    determinados critérios, classes e subclasses, que permitam compará-las entre si e ainda determinar ações específicas

    de controle, gerenciamento e otimizações. Sem os dados, não gerenciamos os processos de forma satisfatória. Pelo

    menos, não cientificamente... sabemos da história as grandes evoluções nas atividades humanas, mesmo não sendo

    todos de cunho científico, muitas foram conseguidas em civilizações que, no processo de tentativa e erro, geraram

    grandes e respeitáveis resultados. Entretanto, em um mundo de elevadíssima competitividade, não há espaços para

    erros renitentes, que gerem perda de competitividade, em qualquer campo de atuação. Vemos nos esportes como

    nas indústrias a utilização de softwares cada vez mais complexos e precisos, gerando informações que permitem a

    superação de metas, a construção de novos e mais desafiadores objetivos para todos.

    Categorizar dados significa em muitos casos tabulação. Organizá-los em tabelas com linhas e colunas suficientes e

    adequadas ao nível de estratificação de dados que se queira chegar. E não mais que isso... devemos primar pela

    minimização de controles, apenas controlar e relacionar as informações que sejam úteis ao propósito desejado.

    Exceder no nível de informação significa dispêndio de energia desnecessária, pois serão bits gerados sem utilidade,

    ou de reduzida importância para o processo (isso significa custo!). Quanto custa o armazenamento de dados no seu

    computador pessoal?

    Em seu livro “A Qualidade Desde o Projeto”, J. M. Juram1 explica em seu quinto capítulo a necessidade de provermos

    medições em todas as etapas dos planejamentos dos processos em busca de garantir a qualidade superior de nossos

    produtos e processos. O autor correlaciona a maior precisão necessária para a comunicação de informações

    referentes à qualidade à estruturação de uma “comunicação numérica”. Para tanto, Juran assume a necessidade de

    se criar um sistema de medições, que consiste em:

    • Estabelecer uma unidade de medida: a define como sendo uma “quantidade definida de alguma

    característica de qualidade, que permita avalia-la em números”, como horas nas prestações de serviços em

    kilowatts gastos na execução de uma operação de máquina, etc...

  • Capítulo 1 – Coleta e Análise dos Dados 11

    • Utilizar um sensor: seria um método ou um instrumento para se avaliar o processo ou produto e traduzi-los

    em números, ou seja, em unidades de medida úteis, como um relógio ou cronômetro para as horas, ou um

    termômetro ou termopar para as temperaturas, cada qual com sua precisão e adequação ao rigor de

    mensuração.

    É comum nos estudos de melhoria contínua de processos se determinar quais informações são críticas para os

    processos e produtos, e como se estabelecem seus controles operacionais. São atribuídas as classes de variáveis de

    processos, de acordo com a sua área de geração e necessidade de controle. Cada processo terá seu conjunto de

    variáveis a serem controladas ou verificadas periodicamente, na tentativa de com esta prática estabelecer um maior

    nível de resultados, ou seja, maximizar os ganhos empresariais com a redução contínua de perdas e retrabalhos,

    elevando as atividades que agregam valor ao produto eliminando ou reduzindo aquelas que não agregam e, até

    mesmo, destroem valor na empresa. Este é um campo altamente explorado pela metodologia Lean, surgida e

    desenvolvida amplamente na Toyota no século passado (Lean Manufacturing)2.

    As variáveis podem ser classificadas em conformidade com o que é mostrado na figura 1.1 a seguir:

    Figura 1.1 – Classificação geral das variáveis qualitativas e quantitativas.

    Chamamos de variáveis qualitativas aquelas variáveis que se enquadram em classes não mensuráveis por escalas

    métricas contínuas, mas são perfeitamente agrupadas segundo critérios objetivos por similaridade de características

    intrínsecas dos materiais, ações ou categorias (por isso também conhecidas como categóricas). Já as variáveis

    quantitativas são aquelas que podem ser mensuradas quantitativamente por escalas ou valores numéricos

    racionalmente determinados para a relativização de suas grandezas, podendo assumir qualquer valor entre os

    números reais.

    As escalas de medição podem permitir uma leitura contínua, como no caso dos comprimentos, das horas, dos pesos,

    etc, conhecidas como variáveis contínuas, e que surgem naturalmente do processo de medição. Para as variáveis

    que não obedecem a uma escala contínua de medidas, mas são agrupadas segundo critérios de enumeração, como

    as contagens de unidades, ou múltiplos de grandezas, como lotes, kits, conjuntos, unidades de produtos, etc... são

    denominadas de variáveis discretas. A figura 1.2 exemplifica estas variáveis em questão:

    Figura 1.2: variáveis discretas (contagem de itens) e variáveis contínuas (distância percorrida)

    No campo das classificações das variáveis nominais estão as variáveis do tipo sim/não, passa/ não-passa, zero/um,

    aprovado/reprovado, escolhas múltiplas entre opções, como meio de informação que o leitor utiliza como Revista,

    jornal, internet, tv, etc..., ou seja, critérios ditos binários ou múltiplos objetivos, agrupando em duas classes todos os

    itens avaliados. Por outro lado, podemos classificar as variáveis ordinais como sendo aquelas que permitem sua

    enumeração em ordem crescente ou decrescente segundo escalas estabelecidas, como aquelas de classificação de

    riscos alto, médio ou baixo, ou da Standard & Poors na classificação de riscos de investimento (AAA / AA / A / BBB /

    BB / B ...). A figura 1.3 exemplifique estes dois tipos de variáveis em questão:

  • Capítulo 1 – Coleta e Análise dos Dados 12

    Figura 1. 3: variáveis nominais binárias. Fonte: adaptado de “O Globo”.

    O leitor deve notar que há inúmeras possibilidades de organizações ente estes tipos de classificações, combinações

    em diferentes níveis de relações ente elas. Não é menos importante o estudo e prática das técnicas de organização

    de dados em tabelas. Esta é uma prática altamente recomendável para a estruturação dos dados, organizando-os

    segundo as classificações desejadas pelo usuário, permitindo uma visualização global das informações geradas pela

    coleta de dados. Vamos abordar agora a etapa de coleta de dados antes de entrar no mérito da estruturação de

    tabelas e seus tipos básicos.

    A Coleta e Análise dos Dados

    A coleta de dados é naturalmente uma atividade excitante os pesquisadores no início dos seus trabalhos, seduzidos

    pelo senso de urgência que devemos ter na condução dos projetos de pesquisa. Entretanto, há uma etapa anterior

    muito mais importante do que se arvorar aos processos em busca de dados desejados para análise: definir quais

    dados são necessários e preciso coletar! Somente após esta etapa devo coletar os dados desejados, uma vez que

    agora já sei sobre sua forma e classificação (grandezas a serem medidas, instrumentos, aspectos qualitativos a serem

    estabelecidos ou não, etc...).

    É necessária a escolha de uma fonte confiável de dados, não só nas medições (aferições de instrumentos), mas

    também na determinação das classes e níveis necessários ao agrupamento dos dados. Sem isso, a próxima etapa

    não poderá ser feita corretamente, que é a sumarização dos dados, organizando-os em grupos racionais criteriosos,

    para que possamos visualizar o “conjunto da obra”, e assim, permitir analisá-los. Em resumo, na figura 1.4 estão as

    etapas que devem ser seguidas minimamente na atividade de coleta e análise de dados:

    Pyzdek3 sugere que a análise exploratória de dados tem basicamente duas grande etapas:

    • A fase Exploratória de Dados.

    • A fase Confirmativa dos Dados.

    O autor afirma que todo cientista de dados deve trabalhar realmente como um detetive de dados, e que, antes mesmo

    de coletar as primeiras amostras (trial data) devemos examinar inteiramente e exaustivamente evidências dos dados,

    ou seja, suas fontes, estruturas, apontamentos, veracidade, precisão, etc... Explorar os dados e então confirma-los,

    dando garantias de que os dados trarão confiabilidade às análises e ao futuro processo decisório.

    Apesar de já lidarmos com dados de processos há muitos anos, o tema da Análise Exploratória de Dados já fez vários

    “aniversários”. Atribui-se a John W. Tukey, na Universidade americana de Stanford, as primeiras publicações e

    palestras sobre o tema4. Vamos agora abordar as técnicas de organização dos dados.

  • Capítulo 1 – Coleta e Análise dos Dados 13

    A Organização dos Dados

    A estruturação dos dados coletados é uma etapa de suma importância para iniciarmos a análise dos dados coletados.

    Uma boa organização dos dados nos permitirá reduzir o tempo de análise e portando, da tomada de decisão. Há

    diversos recursos para a execução desta atividade, graças à evolução dos aplicativos, softwares e técnicas da

    tecnologia da informação. Vamos resumir aqui aquelas que são aplicáveis em escala simples, sejam manuais ou com

    o suporte de uma simples planilha eletrônica (disponíveis nos softwares comerciais como Excel, Calc, Origin, Minitab,

    etc...), que são soluções que permitem boa velocidade e praticidade de organização dos dados. No Excel por exemplo,

    podemos gerar tabelas dinâmicas que são uma Excelente solução para a tratativa do problema de organização dos

    dados. Vamos dar um exemplo, considerando os dados coletados na Tabela I a seguir (reduzida graficamente por

    razões óbvias...). Nela, note o leitor que não há a menor possibilidade de se tirar uma conclusão direta e rápida da

    tabela levantada com tamanha quantidade e variedade de dados (salvo o caso da superdotação de faculdades

    intelectuais, claro!), pois a mesma é um extrato resumido de uma coleta de 999 dados de reduzida apropriações de

    Figura 1.4 – Fluxo de Coleta e Análise de dados.

    custos, despesa a despesa com os valores gastos pela área responsável pelo centro de custo em questão (CEO /

    Diretoria / Gerência e Operação). Várias perguntas podem ser derivadas desta tabela, como por exemplo:

    1. Qual é a classe de maior apropriação de despesas entre as apresentadas na tabela? Quanto?

    2. Qual centro de custo na empresa como um todo tem o maior desembolso financeiro?

    3. Qual é o principal grupo de conta detalhado por classes em débitos totais?

    Tabela I – Exemplo de dados coletados no sistema de custos de uma empresa.

  • Capítulo 1 – Coleta e Análise dos Dados 14

    Para poder responder estas perguntas, o administrador deveria trabalhar a tabela e seus dados contidos para

    estratificar os dados em uma análise vertical, estruturando do item desejado na pergunta para os níveis mais

    detalhados em sequência, como por exemplo, apresentando as seguintes sequências de estratificação:

    i) Classe > Grupo > Centro de Custo > Valor

    ii) Centro de Custo > Valor

    iii) Grupo > Classe > Valor

    O diretor pode querer saber mais, como por exemplo, em qual área o custo está estourando ou não? Uma nova

    tratativa de dados permite realizar esta observação, mas não antes de se aumentar o nível de “quebra” das

    informações da tabela pela área contábil (Classe, na tabela I), inserindo novo campo de pesquisa que é o valor orçado

    por centro de custo, por classe e por grupo! Como veem, as coisas vão se complicando à medida que aumentamos o

    nível de detalhamento desejado... isso requer mais tempo de coleta, tempo de estruturação dos dados e tempo de

    análise... portanto, custo de análise do pessoal envolvido nesta atividade. Não há como não se executar, desde o

    início do processo de planejamento de coleta dos dados, o alinhamento de objetivos de resposta com esta atividade,

    evitando perdas de tempo ou retrabalhos desnecessários e indesejáveis.

    Comportamento dos Dados no Tempo

    Em muitas situações serão necessárias outro tipo de abordagem, que permita avaliar como uma variável se comporta

    não só em uma amostra, mas também o seu comportamento com o tempo no qual a atividade se processa. A análise

    de Séries Temporais da estatística nos permite uma abordagem quantitativa superior, se comparado aos gráficos de

    resumo de dados, dado a utilização de maior quantidade e visualização sequencial dos dados coletados. O Gráfico

    da figura 1.5 mostra como se comportou o preço médio da tonelada de aço ao longo dos anos (mar-2000 a mar 2020).

    O gráfico nos permite ver períodos de alta e de baixa no preço, bem como as oscilações de valor ocorridas no período,

    que são informações extras que não teríamos se apenas analisássemos a tabela de dados coletados.

    Figura 1.5 – Séries temporais para o preço da tonelada de aço bruto.

    Fonte: https://www.indexmundi.com/pt/pre%C3%A7os-de-mercado/?mercadoria=min%C3%A9rio-de-ferro&meses=240

    ID Grupo de Conta Classe Centro de Custo Valor Apropriado (R$)

    1 Viagens Diretoria 2205 12.420,23R$

    2 Refeições Gerência 1007 1.927,54R$

    3 Salários Operação 990 90.523,93R$

    4 Seguros CEO 1149 9.990,00R$

    . . . .

    . . . .

    . . . .

    997 Transportes Gerência 1010 5.875,28R$

    998 Escritório Operação 750 4.925,05R$

    999 Bônus CEO 1109 112.005,79R$

    https://www.indexmundi.com/pt/pre%C3%A7os-de-mercado/?mercadoria=min%C3%A9rio-de-ferro&meses=240

  • Capítulo 1 – Coleta e Análise dos Dados 15

    As observações quando arranjadas graficamente de forma sequencial (time series plotting) favorecem as análises de

    previsão (time series forecasting), como aquelas usadas à exaustão nas Bolsas de Valores, agências financeiras, ao

    expressarem os seus índices em termos transacionais temporais, com vistas a determinação de valores futuros dos

    mesmos5.

    Como o leitor verá, ao longo dos módulos deste curso, o conhecimento dos dados, suas classes e métricas serão de

    suma importância para o estabelecimento matemático e estatístico dos modelos para gerenciamento que serão

    apresentados futuramente.

    Visualização Gráfica dos Dados Coletados

    A forma mais útil de se analisar dados numéricos é a sua exibição gráfica. Há inúmeros tipos de gráficos disponíveis

    para se realizar esta tarefa, entretanto, não há uma forma aconselhável única e definitiva, mas sempre aquela que se

    adequa a sua necessidade temporal.

    Entre os tipos de gráficos e diagramas mais utilizados, podemos citar os seguintes:

    • Gráficos Sequenciais

    • Gráficos Tipo Pizza

    • Gráfico de Barras

    • Gráficos Combinados

    • Diagrama de Pareto

    • Etc...

    A esta altura você deve estar se perguntando: qual a diferença entre gráficos e diagramas? Sendo ortograficamente

    correto, gráficos são representações visuais de números de forma estruturada no plano cartesiano para facilitar sua

    compreensão. Já por diagramas entende-se como sendo as representações gráficas de objetos por meio de linhas,

    traçados, delineamentos ou esboços. Portanto, o nome Diagrama de Pareto estaria errado? Não necessariamente

    como veremos, já que para os que já o conhecem há uma dupla interpretação nominal, visto que no mesmo há

    representações numéricas em eixos coordenados, e também o percentual acumulado, que seriam traços ou linhas

    que representam os valores acumulados dos percentuais individuais das classes representadas nele. Lembramos que

    no passado, não havia computadores para realizar esta tarefa, e, portanto, o nome mais apropriado era Diagrama de

    Pareto, visto que se tornava quase uma arte traçá-lo para os estudos numéricos mais complexos, pois eram feitos à

    mão! Em homenagem aos seus precursores, trataremos aqui como Diagramas de Pareto.

    Gráficos Sequenciais

    Os gráficos sequenciais são mais indicados para visualização de dados que representam uma sequência lógica da

    atividade em avaliação, sob a qual foram coletados os dados. São reconhecidamente úteis para os eventos temporais,

    onde a ordem de análise importa no estudo. Veja o exemplo na figura 1.6.

    Figura 1.6 – Exemplo de gráfico sequencial, relativo à produção horária média por dia de trabalho.

  • Capítulo 1 – Coleta e Análise dos Dados 16

    Os gráficos sequenciais podem ser elaborados no Excel a partir dos modelos de gráfico chamados “Dispersão”,

    como veremos adiante. A vantagem de se elaborar esses gráficos a partir dos pontos isolados e depois ajustados

    por linhas de tendência, é que admitimos equações de retas ou curvas que passando pelo ponto médio entre os

    pontos permitem uma interpretação e representação matemática superior. Há modelos prontos disponíveis no Excel

    que agilizam a elaboração dos gráficos e rápida análise dos dados coletados.

    Outra aplicação conceitual, com as devidas adequações estatísticas, é a elaboração de cartas de controle estatístico

    (CEP), que partem do conceito de plotagem temporal dos dados amostrais e permitem uma tratativa estatística

    adequada para a análise de estabilidade dos processos produtivos.

    Gráficos de Pizza

    Os gráficos de pizza são comumente usados para visualizar a distribuição percentual ou quantitativa de itens

    categorizados que foram analisados dentro de uma certa amostra. Isso se dá considerando que toda a sua

    circunferência possui 100% dos dados totais e cada “fatia” representada possui a sua cota numérica ou percentual

    desse total. Permite a visualização da categoria mais importante pela maior “fatia” de seu total, e outras menores até

    a menor, sucessivamente. Veja o exemplo:

    Figura 1.7 – Exemplo de gráfico sequencial, relativo à produção horária média por dia de trabalho.

    Os gráficos de Pizza precisam de uma tabela de dados resumida, de forma a representar as quantidades nominais e

    seus percentuais relativos.

    Gráficos de Barras / Colunas

    Estes gráficos são indicados para a visualização de montantes das categorias em uma escala comum de valores entre

    as categorias, permitindo visualizar qual dos itens apresenta maior valor para esta categoria analisada dentre os

    demais itens representados. Veja o exemplo:

    Figura 1.8 – Exemplo de gráfico de colunas com dados de despesas ordenados pela coluna “item”.

    Composição de Custo UnitárioItem Custo (R$) %

    Vidros 220,00R$ 44%

    Madeiras 190,00R$ 38%

    Ferragens 45,00R$ 9%

    Verniz 29,00R$ 6%

    Silicone 15,00R$ 3%

    Total = 499,00R$ 100%

    Vidros; R$ 220,00

    ; 44%

    Madeiras; R$

    190,00 ; 38%

    Ferragens; R$

    45,00 ; 9%

    Verniz; R$ 29,00 ; 6% Silicone; R$ 15,00 ; 3%

    Custo Unitário (%)

    Vidros Madeiras Ferragens Verniz Silicone

    Item Despesa (R$)

    Alimentação 1.200,00R$

    Educação 850,00R$

    Habitação 1.000,00R$

    Trasnportes 600,00R$

    Saúde 990,00R$

    Viagens 450,00R$

    Reservas 500,00R$

    Total Despesas = 5.590,00R$

    Orçamento Mensal

    R$ -

    R$ 200,00

    R$ 400,00

    R$ 600,00

    R$ 800,00

    R$ 1.000,00

    R$ 1.200,00

    Alimentação Educação Habitação Trasnportes Saúde Viagens Reservas

    Despesa (R$) R$ 1.200,00 R$ 850,00 R$ 1.000,00 R$ 600,00 R$ 990,00 R$ 450,00 R$ 500,00

    De

    spe

    sa M

    en

    sal (

    R$)

    Despesa (R$)

  • Capítulo 1 – Coleta e Análise dos Dados 17

    Na figura 1.9 as colunas não ficaram ordenadas por tamanho, pois a tabela estava ordenada por ordem alfabética dos

    itens de custo. Ordenando a tabela agora pelos valores decrescentes do orçamento, teremos, de forma mais agradável

    visualmente:

    Figura 1.9 – Exemplo de gráfico de colunas reajustado por ordem decrescente de valores plotados.

    Poderíamos expressar o mesmo gráfico acima na forma de barras, no caso de querer visualizar os dados de forma

    mais “limpa” na tela, obtendo:

    Figura 1.10 – Exemplo de gráfico de barras, por ordem decrescente de valores de despesa.

    Gráficos Combinados

    Estes gráficos são especiais, e que podem apresentar dois eixos verticais com escalas diferentes para a representação

    de mais de uma variável no mesmo espaço gráfico. São úteis para representar o efeito de uma mesma variável (eixo

    X) em suas grandezas (variáveis Y nos eixos verticais esquerdo e direito).

    Podem ser construídos com barras, linhas, pontos ou combinações entre eles. Veja o exemplo:

    Figura 1.11 – Exemplo de gráfico de duplo eixo (combinados), com grandezas distintas para uma mesma relação no eixo x

    (quantidades produzidas).

    Item Despesa (R$)

    Alimentação 1.200,00R$

    Habitação 1.000,00R$

    Saúde 990,00R$

    Educação 850,00R$

    Trasnportes 600,00R$

    Reservas 500,00R$

    Viagens 450,00R$

    Total Despesas = 5.590,00R$

    Orçamento Mensal

    R$ -

    R$ 200,00

    R$ 400,00

    R$ 600,00

    R$ 800,00

    R$ 1.000,00

    R$ 1.200,00

    Alimentação Habitação Saúde Educação Trasnportes Reservas Viagens

    Despesa (R$) R$ 1.200,00 R$ 1.000,00 R$ 990,00 R$ 850,00 R$ 600,00 R$ 500,00 R$ 450,00

    De

    spe

    sa M

    en

    sal (

    R$)

    Despesa (R$)

    Quantidade Peso Rendimento

    100 2.495 89

    250 6.200 92

    500 12.000 91

    750 18.750 94

    1.000 25.000 93

    1.250 31.250 95

    1.500 37.500 9586

    87

    88

    89

    90

    91

    92

    93

    94

    95

    96

    -

    5.000

    10.000

    15.000

    20.000

    25.000

    30.000

    35.000

    40.000

    100 250 500 750 1.000 1.250 1.500

    Re

    nd

    ime

    nto

    (%)

    Pe

    so (

    kg)

    Quantidade Produzida (Unidades)

    Peso (kg) x Rendimento (%)

    Peso Rendimento

  • Capítulo 1 – Coleta e Análise dos Dados 18

    Entre os gráficos citados, resta abordar o Diagramas de Pareto, o que deixaremos para mais a frente onde serão

    abordados no capítulo 3.

    A visualização de dados numéricos permitiu um grande avanço na interpretação de dados numéricos estatisticamente

    trabalhados na indústria e na sociedade em geral. Com eles podemos entender melhor o comportamento de

    indicadores muito utilizados nos estudos acadêmicos e empresariais.

    Muitos são os tipos e formatos, entretanto citaremos aqui alguns, já nos preparando para o capítulo 2, onde os

    utilizaremos em maior intensidade, e que são, sem dúvida, muito importantes para os atuais e também futuros

    engenheiros, administradores e estatísticos no mercado.

    Stem and Leaf

    Estes diagramas de visualização de dados são conhecidos como Diagramas Ramo e Folha, sendo os dados

    organizados em grupos (os ramos) e em valores de cada grupo (as folhas). Com esta organização, permite-se a

    análise de em quais grupos os dados estão mais concentrados, nos dando uma nossa de “Densidade de Distribuição”.

    Exemplo 1.1

    Considere os seguintes dados coletados, a respeito de um indicador que registra as perdas de alimento nos pratos de

    clientes de um restaurante (Resto Ingesta), onde tem como saída a amostragem de vários pratos (peso em gramas)

    com sobras em um dia de coleta:

    94; 141; 51; 84;19; 71; 60; 72; 104; 62; 28; 82; 45; 129; 77; 50; 90; 65; 49; 71; 83; 69; 73; 52; 64; 76; 87.

    Para elaborar o diagrama Stem and Leaf procedemos da seguinte forma:

    i. Em uma primeira coluna colocamos o valor dos decimais das amostras (ou centenas), partindo do menor para

    o maior valor decimal. No nosso exemplo, a amostra de menor valor em peso é 19 e a maior é 141 gramas.

    Assim, vamos ordenar em uma coluna valores de 10 a 140.

    ii. Nas demais colunas à direita da primeira, vamos preenchendo com os números das unidades, em ordem de

    ocorrência, até esgotarem os números da amostra. Por exemplo, o primeiro número da amostragem, 19, estará

    na linha da dezena 10 e à direita escreve-se o número da unidade 9. Para o Número 60, escreve-se zero ao

    lado direito do número 60, e assim sucessivamente.

    Assim, obtemos o diagrama:

    Figura 1.12 – Diagrama Stem and Leaf para o Resto Ingesta.

    Note que poderíamos escrever o ramo em ordem crescente de 1 a 14 apenas, que o efeito final seria o mesmo

    visualmente... a informação importante que o diagrama traz é que os dados dos pesos médios de Resto Ingesta estão

    em torno de 70 gramas. Para saber o valor médio correto, devemos usar as técnicas estatísticas, que abordaremos

    no capítulo 3. Para o empresário neste momento não necessitaria um valor mais confiável, mas já pode estimar o

    comportamento do indicador de sobras nos pratos após refeições e o quanto de peso ele está em média descartando

    10 9

    20 8

    30

    40 5 9

    50 1 0 2

    60 0 2 5 9 4

    70 1 2 7 1 3 6

    80 4 2 3 7

    90 4 0

    100 4

    110

    120 9

    130

    140 1

  • Capítulo 1 – Coleta e Análise dos Dados 19

    diariamente, bastando multiplicar o valor médio estimado pelo número de pratos servidos naquele dia. Da mesma

    forma poderia estimar o peso médio de pratos pesados pelos clientes no dia de trabalho. Para estimativas mais

    precisas aconselha-se a utilização de análises de médias, medianas e variância dos dados amostrais, através das

    metodologias estatísticas.

    Histogramas

    Ao analisarmos o diagrama Stem and Leaf, vemos que há uma relação de frequências de ocorrência de alguns valores

    em torno de valores médios, visualmente observáveis no diagrama anterior (figura 1.12). Uma nova forma de relacionar

    estas frequências foi desenvolvida pelos estatísticos em forma de um gráfico de barras, onde no eixo Y relacionam-

    se as frequências relativas para algumas classes observáveis, sendo estas últimas expressas no eixo X. Assim, para

    cada variação entre essas classes apontam-se os valores nelas contidos de forma cumulativa, levando a obter-se

    maiores barras no gráfico para as classes mais presentes nas amostras levantadas, tendo assim, por consequência,

    que estas representariam as classes mais frequentes na amostra estudada. Vamos ver esse exemplo:

    Exemplo 1.2

    Neste exemplo, foram coletados em um restaurante os pesos dos pratos que continham sobras de comida após a

    refeição, o chamado Resto Ingesta. A amostragem se deu aleatoriamente ao longo do serviço em um mês de

    atendimento, tendo gerado os seguintes dados (pesos em gramas):

    Para a elaboração dos histogramas devemos determinar as classes que comporão a base do gráfico. Há algumas

    sugestões de regras de elaboração, mas esta é livre ao usuário, devendo se preocupar em não ter uma quantidade

    mínima que prejudique a análise (visualização de uma dispersão nem tão larga, a ponto de gerar apenas uma

    observação por classe, e nem tão curta, a ponto de gerar em uma única classe todas as observações). Está disponível

    no material do curso um screencasting para visualizar a elaboração deste histograma, com explicação do passo a

    passo.

    SC Ex. 01.01 - Resto Ingesta

    Figura 1.13 – Histograma para o Resto Ingesta

    As classes presentes no eixo X foram obtidas por critérios aleatórios, mas em geral, podem ter a quantidade de classes

    determinadas ou estimadas pela raiz quadrada do tamanho da amostra (n), no nosso caso, pela raiz quadrada de 23

    amostras, o que daria, arredondando, para 5 classes. Como o menor valor era 19 e o maior valor 141, escolhemos

    94 141 51 84 19 71 60 72 104 62 28 82 45 129 77 50 90 65 49 71 83 69 73

  • Capítulo 1 – Coleta e Análise dos Dados 20

    varia de 30 em 30 gramas, obtendo as cinco classes necessárias. Após esta escolha, bastou contar quantos valores

    de amostras estão com valores abaixo de 30 (ou de zero a 30), e obtemos apenas duas amostras (a de valor 19 e de

    valor 28). A próxima classe vai de 31 a 60. Depois de 61 a 90, e assim, sucessivamente. Uma vez determinadas as

    quantidades de números em cada classe, fazemos o gráfico, marcando a altura da coluna como sendo o número

    encontrado em cada classe. No Excel podemos elaborar o histograma, mas com alguns ajustes.

    Elaboração do Histograma no Excel

    No Excel, primeiramente temos que digitar em uma coluna os números amostrados. No nosso caso, os 23 números

    de restos na bandeja dos clientes do restaurante. Uma vez completada a etapa inicial, escolhemos as classes para as

    quais elaboraremos o histograma, e ao lado dos valores amostrados, digitamos nova coluna com as classes escolhidas

    (estas serão nosso eixo x do histograma). Agora o resto é com o Excel. Para iniciar o histograma, faça o seguinte

    passo-a-passo:

    • Passo 1: Ao lado da coluna com os dados digitados, escolha as classes necessárias e digite-as em de acordo

    com seu critério de formação escolhido. Como havia sido relatado anteriormente, as classes seriam 30, 60,

    90, 120 e 150, pelos critérios adotados no exemplo.

    • Passo 2: agora, em Dados, escolha a ação “Análise de Dados”, em histograma e clique em OK.

    • Passo 3: ao clicar em Ok, abrirá a seguinte caixa de diálogo:

    O preenchimento deverá seguir as seguintes orientações:

    • Em Intervalo de entrada, preencha com o intervalo nos quais estão as amostras coletadas. No caso do

    exemplo, foram as células $C$2 a $C$24, portanto, com os 23 números amostrados.

    • Em intervalo de bloco, preencha com o intervalo onde digitou as classes escolhidas (de 30 a 150), que no

    exemplo foram as células de $E$6 a $E$10. Caso você não deseje escolher as classes, deixe em branco

    este campo, o Excel determinará automaticamente para você.

    • Em intervalo de saída, escolha qualquer área de qualquer tamanho para sair os dados, e o Excel escolherá

    o tamanho necessário e adequará seus limites.

    • Marque as caixas de diálogo Pareto, Porcentagem cumulativa e resultado gráfico.

  • Capítulo 1 – Coleta e Análise dos Dados 21

    Os resultados do Excel, serão os seguintes:

    Tabela do Histograma

    Há uma opção de se determinar apenas a frequência para uma análise inicial através do Excel. É a função:

    “=FREQUENCIA(matriz_dados;matriz_bin)”,

    onde :

    • a matriz de dados é a coluna na qual estão os dados amostrados, sem o rótulo, e

    • a matriz_bin é a sequencia dos valores de bloco, ou seja, a base do histograma ou eixo X que você

    determinou.

    Para o exemplo 1.1, temos a saída gráfica para o histograma dos dados fornecidos (figura 1.14):

    Figura 1.14 – Histograma Classificado (padrão gerado pelo Excel), sem ordenamento de classes.

    Na verdade este é um Pareto gerado pelo Excel.

    Note que o histograma classificado não está da mesma forma que o histograma apresentado anteriormente na figura

    1,13, pois se reparar, no eixo das classes, os números não estão ordenados do menor para o maior. Corrigindo-se

    esta questão, o gráfico será igual ao da figura 1.14. Este gráfico não é um histograma, e sim, um Pareto! Há nele as

    frequências acumuladas e, portanto, obteríamos o histograma tradicional fazendo no Excel apenas um gráfico

    utilizando as colunas “Bloco” e “Frequência” da tabela de histograma acima, gerada pelo Excel.

    Uma vez introduzidos os principais gráficos mais usuais para uma primeira visualização dos dados coletados, estamos

    preparados para dar sequência aos demais temas. Não se esgotam aqui os tipos de gráficos, mas estes serão os

    necessários nessa etapa. À medida que os módulos do curso forem estudados, outros serão apresetnados e

    estudados.

    Para uma fixação do conteúdo, só tem um jeito senhores: Hands On! Mãos à obra!! Segue agora alguns exercícios

    para seu estudo e elaboração, com as respostas e screencastings disponíveis no material do curso.

    Bloco Freqüência % cumulativo Bloco Freqüência % cumulativo

    30 2 8,70% 90 12 52,17%

    60 5 30,43% 60 5 73,91%

    90 12 82,61% 30 2 82,61%

    120 2 91,30% 120 2 91,30%

    150 2 100,00% 150 2 100,00%

    Mais 0 100,00% Mais 0 100,00%

  • Capítulo 1 – Coleta e Análise dos Dados 22

    EXERCÍCIOS RESOLVIDOS

    Instruções:

    Para o melhor andamento dos estudos, sugere-se os seguintes passos:

    1. Identifique o código do exercício resolvido.

    2. Verifique a sua disponibilidade no material do curso, no formato de screencasting.

    3. Leia o enunciado e em seguida assista à resolução.

    4. Faça novamente usando os recursos apresentados.

    5. Em caso de dúvida, intercale a revisão do screencasting com o texto explicativo.

    OBS: Os exercícios a seguir estão com as soluções disponíveis em screencasting no material do curso (código

    relacionado no enunciado de cada exercício).

    01. (SC01.01) Com base nos dados fornecidos, organize-os e elabore um gráfico tipo Pizza para responder as

    questões a seguir:

    Dados: disponíveis no arquivo ExR 1.1.xls no material do curso.

    a. Qual foi o item mais vendido pela empresa no mês (quantidades em percentual)?

    R: O Item mais vendido foi a Pizza de 4 queijos, com 531 unidades vendidas no mês.

    b. Ordene as vendas por ordem decrescente de itens vendidos. Qual item trouxe maior faturamento para a

    empresa?

    R: O maior faturamento foi também o de pizza 4 queijos, com R$ 16.032,67 vendidos no mês.

    c. Qual foi o faturamento diário médio da empresa com a venda de todas as pizzas? Faça um gráfico

    sequencial.

    Rótulos de Linha Soma de Quant. Soma de Receita

    4 Queijos 531 16.032,67R$

    Calabresa 450 13.216,99R$

    Frango 454 12.827,11R$

    Mussarela 369 8.775,59R$

    Peperoni 398 11.432,46R$

    Total Geral 2.202 62.284,82R$

  • Capítulo 1 – Coleta e Análise dos Dados 23

    R: o faturamento diário médio foi de R$ 2.076,16, para um total faturado de R$62.284,82 nos 30 dias do mês.

    02. (SC01.02) Para os dados da questão anterior, elabore um gráfico de barras para as quantidades vendidas e outro

    para a receita de vendas.

    R:

    03. (SC01.03) Ainda para o exercício 1, qual seria o gráfico ideal para ler simultaneamente os valores de quantidades

    vendidas e receita de vendas de pizzas? Elabore-o.

    Dados: disponíveis no arquivo ExR 1.5.xls no material do curso.

    R: o melhor gráfico é o gráfico combinado (Barras + Linhas) com dois eixos, pois as escalas são diferentes das

    duas variáveis dependentes (Receita e Quantidade).

    04. (SC01.04) Elaborar:

  • Capítulo 1 – Coleta e Análise dos Dados 24

    Dados: disponíveis no arquivo ExR 1.4.xls no material do curso.

    a. Um histograma para os valores vendidos diários, com os dados da planilha do exercício 1.

    b. Um Pareto com os dados de Receita da planilha do exercício 1.

    05. (SC01.05) Com base nos dados da amostragem a seguir, referente à medições de correntes elétricas (ampères)

    em um condutor metálico, elabore o diagrama Stem and Leaf para os dados e, em seguida, faça um histograma,

    considerando os dados do Bloco do Histograma como sendo os mesmos do “Ramo” adotado. Os resultados da

    análise de tendência de média dos valores, em ambos métodos, seriam os mesmos? Justifique.

    Dados: disponíveis no arquivo ExR 1.5.xls no material do curso.

    R: as médias avaliadas nos dois métodos diferem, mesmo utilizando a mesma base para trabalhar os dados. No

    Stem and Leaf indicaria uma média em torno de 0,90 ampères, enquanto o histograma indicaria uma média entre

    1 e 1,1 amperes. Se calcularmos a média aritmética dos dados fornecidos chegaríamos a 0,932 amperes, o que

    estaria entre as médias dos dois métodos. Isso comprova que graficamente não podemos admitir precisão para

    estas medições, devendo recorrer à estatística descritiva.

    0,75 0,79 0,92 1,1 1,05 1,01 0,83 0,93 0,59 0,84 1,05 1,09 0,99 0,66 0,93 0,89 0,88 0,94 1,14 1,26 0,932

    0,5 9

    0,6 6

    0,7 5 9

    0,8 3 4 9 8

    0,9 2 3 9 3 4

    1 5 1 5 9

    1,1 0 4

    1,2 6

  • Capítulo 2 – Variância nos Dados Amostrais 25

    Capítulo 2 – Variância nos Dados Amostrais

    Introdução

    Neste capítulo vamos abordar a obtenção de estimativas de variância (e

    portanto, de desvio-padrão) para os dados amostrais coletados. Usaremos

    as técnicas estatísticas para realizar esta análise, entretanto, com o auxílio

    do Excel. Muito esforço manual deve ser executado para chegar aos

    mesmos resultados possíveis de se obter rapidamente pelo Excel. Isso não

    exime o estudante de procurar entender a forma de cálculo, mas essa

    tarefa foi realizada pelos professores dos cursos de Estatística na

    academia. Partiremos do princípio com o qual o estudante já possui certa

    familiaridade com essa área do conhecimento, e que, com um foco prático

    neste curso, possam ser habilitados ao rápido exercício da técnica.

    Poderíamos aqui entrar nas explicações das fórmulas estatísticas, suas

    origens, principais estatísticos atuantes na área, mas nada disso permitirá

    no momento uma visualização prática das análises que aqui queremos

    focar.

    Entretanto, apenas como uma breve descrição, vamos relembrar apenas

    alguns conceitos, suas fórmulas e componentes principais. O primeiro

    conceito importante, é aquele relacionado à natural variação dos dados

    amostrais dos indicadores de processo. Sabemos que ao coletar dados de

    uma linha produtiva, por exemplo, haverá diferentes valores levantados,

    pois há variações naturais gerados pelas inumeráveis causas atuantes no

    processo e que influenciam no valor do indicador em estudo. Podemos

    então entender e revisar o conceito de variação.

    Aqui faremos a abordagem para os dados obtidos após realização do

    procedimento de amostragem, que é a coleta, de forma aleatória, de itens

    da produção, ou das informações disponíveis, para estudos estatísticos.

    Vamos agora rever alguns conceitos importantes para nosso estudo.

    A Estatística Descritiva no Excel

    Ao coletar a amostra de tamanho “n” com média �̅� dos valores de uma grandeza mensurável qualquer, extraída de uma população com média

    populacional e variância populacional 𝟐 em estudo, podemos calcular a

    sua variância amostral 𝑺𝟐, ou seja, estimados pela fórmula a seguir:

    𝑆2 = 1

    𝑛−1∑ (𝑛𝑖=1 𝑋𝑖 − �̅� )

    2 (eq. 1)

    A Raiz quadrada da equação 1 nos fornece o valor do desvio-padrão

    amostral “S”. Lembramos que a média �̅� é obtida pela média aritmética

    simples, ou seja, a somo de todos os valores medidos do comprimento 𝑿𝒊

    dividida pela quantidade de amostras realizadas n. Assim:

    �̅� =1

    𝑛 ∑ 𝑋𝑖

    𝑛𝑖=1 (eq. 2)

    Vamos ilustrar estas e outras variáveis de interesse estatístico, aplicando o Excel em uma amostra de dados de

    processo fornecido pelo exemplo a seguir.

    Análise de Dados Excel

    No Excel clique na seguinte

    sequência de funções:

    1. Arquivo

    2. Opções

    3. Suplementos

    4. Ferramentas de análise

    5. Ir

    6. OK

    Após executar esta sequência,

    deverá surgir no seu menu principal

    no caminho “Dados > Caixa Análise

    > Função “Análise de dados”, no

    canto superior direito do seu menu

    principal do Excel.

    É nesta opção que será gerada a

    Análise descritiva de dados do

    exemplo I.

    Caso não consiga se localizar,

    consulte o vídeo de habilitação

    dessa ferramenta disponível no

    material do Curso.

    Arquivo (Pasta Cap. 2):

    > Tutorial Suplementos Excel.mp4

  • Capítulo 2 – Variância nos Dados Amostrais 26

    Exemplo 02.01

    Uma fábrica de barras cilíndricas laminadas de aço está desejando conhecer a variação de comprimento de seus

    produtos ao final da linha de corte. Sabe-se que há uma variação natural do processo, devido à imprecisão da tesoura

    de corte, mas não se sabe o quanto ela está próxima ou distante da média visada no processo, especificado em valor

    igual a 2 metros. Para isso o engenheiro de processos de produção coletou várias amostras durante a produção destas

    barras, ao longo de um mês inteiro de produção, alternando horários, turnos e posição de amostragem das barras ao

    longo da sequência de cortes de cada lote laminado. Assim, posteriormente o engenheiro elaborou a seguinte tabela

    de dados amostrais (Tabela I – disponível em Ex 2.1.xls):

    Tabela I: Comprimentos amostrados das barras laminadas

    Uma abordagem correta para os dados da tabela I é dispô-los em gráficos sequenciais e analisar se há tendências na

    distribuição dos dados, e como está a média amostral em relação à média especificada. Essa tarefa fica muito mais

    fácil quando utilizamos os softwares estatísticos como o Minitab, por exemplo, onde os gráficos de controle estão

    disponíveis para serem obtidos a partir dos dados amostrados, como os constantes da tabela I. No Excel é também

    perfeitamente possível obtê-lo, demandando algum trabalho de preparação da planilha com os cálculos necessários.

    Por outro lado, uma análise mais simplificada através da análise descritiva dos dados já nos fornece informações

    preciosas e rápidas sobre os números constantes da tabela I. Podemos gerar automaticamente no Excel uma tabela

    que nos trará informações diversas como média, mediana, moda, quartis, variância, desvio-padrão entre outras,

    bastando executar uma rotina de modo muito fácil. Vamos ver como fazê-la, passo-a-passo.

    No Excel, você deverá possuir a função “Análise de dados” configurada na aba “Dados” do menu principal. Se seu

    Excel não exibir a imagem da figura 1.14, siga o passo a passo detalhado s seguir.

    Uma vez liberada, vamos ao método de geração da Tabela da Análise Descritiva dos Dados. Para gerar a análise,

    disponha os dados fornecidos pela tabela em duas colunas consecutivas no Excel, em uma planilha nova, sem

    formatação. Após isso, selecione na Aba Dados a ação “Análise de dados” habilitada por você no Excel. Execute os

    seguintes passos para gerar a análise descritiva:

    Passo 1:

    Clique: Dados > Análise de dados > Estatística Descritiva

    Passo 2: Selecione a área onde estão inseridos os seus dados amostrais. No meu exemplo, eles estão inseridos na

    coluna C, da célula C4 a C28, conforme a figura abaixo:

    AmostraComprim.

    (metros) Coluna1Amostra

    Comprim.

    (metros)2Amostra

    Comprim.

    (metros)

    1 2,02 11 1,98 21 2,04

    2 1,98 12 2,06 22 2,06

    3 1,97 13 2,04 23 1,99

    4 1,99 14 1,99 24 1,98

    5 1,98 15 1,98 25 2,02

    6 2,01 16 2,05

    7 2,02 17 2,09

    8 2,07 18 1,94

    9 1,95 19 1,99

    10 1,97 20 1,94

  • Capítulo 2 – Variância nos Dados Amostrais 27

    Neste passo, foram selecionados na janela de diálogo da Estatística descritiva as opções:

    • Colunas: os dados estão dispostos em uma única coluna (C).

    • Intervalo de Saída: selecionado um campo qualquer ao lado da coluna de dados para o Excel plotar os

    dados obtidos;

    • Resumo Estatístico: Selecionado para poder gerar os dados procurados (a estatística descritiva). Por

    padrão serão gerados dados com 95% de confiabilidade.

    • Após isso, clicar em OK. Aparecerá o seguinte resultado:

    Os dados obtidos informam que a média dos cortes

    estão muito próximas ao valor de 2 metros, com

    mediana de 1,99 metros, desvio-padrão de 0,041m,

    variando entre um mínimo valor de 1,94m e máximo de

    2,09m, nos 25 dados amostrados. Com isso, o

    engenheiro já pode analisar o comportamento geral dos

    dados medidos e de uma forma, ainda que incipiente,

    avaliar a qualidade do processo segundo as medições

    executadas. Obviamente, não se esgotam aqui, longe

    disso, as análises e medições do processo. Na

    metodologia Seis Sigma aprendemos a avaliar muito

    mais profundamente o processo produtivo, com

    técnicas e ferramentas estatísticas avançadas para

    explorar a capacidade do processo de gerar resultados

    estáveis e dentro das especificações dos clientes. Aqui

    apenas introduzimos uma abordagem inicial de um

    “instante do processo” obtido pela amostragem

    realizada. Em breve abordaremos aqui a questão do

    Erro-padrão e outras análises quanto ao desvio-padrão

    e variância.

    Assim pode-se concluir que o valor médio está próximo à meta visada de 2 metros, o que chamamos de centralização

    da média amostral, mas, por outro lado, não podemos de antemão assumir que a variação do processo esteja

    adequada. Isso se deve ao fato de que não foram fornecidas as especificações dos valores mínimo e máximo

    toleráveis em torno da média. Qual seria a faixa de especificação do produto? Poderíamos assumir que seria a média

    mais ou menos o desvio-padrão? Não! Veremos que o intervalo estatístico do processo, chamado intervalo de

    confiança, deve ser calculado, o que faremos em outro momento. Vamos ficar por aqui, apenas com os conceitos

    iniciais, e em outro curso abordaremos o tema estatístico do intervalo de confiança.

    Vamos abordar agora o conceito de Erro-padrão. Em estatística, a mensuração do valor da média obtida a partir da

    amostra é suscetível de erros de medição, já que em estatística, estamos no mundo não-determinístico, mas

    Estatística descritiva

    Média 2,0044

    Erro padrão 0,008227596

    Mediana 1,99

    Modo 1,98

    Desvio padrão 0,041137979

    Variância da amostra 0,001692333

    Curtose -0,668881663

    Assimetria 0,382996691

    Intervalo 0,15

    Mínimo 1,94

    Máximo 2,09

    Soma 50,11

    Contagem 25

  • Capítulo 2 – Variância nos Dados Amostrais 28

    probabilístico. Há uma probabilidade razoável de 95% de certeza de estes dados encontrados na estatística descritiva

    estarem corretos. Mas, por isso, há um erro nesse valor, que chamamos de erro-padrão amostral. Ele pode ser

    calculado dividindo-se o desvio-padrão (S) pela raiz quadrada do tamanho da amostra (n), assim:

    𝑥 =𝑆

    √𝑛 (eq. 03)

    No nosso exemplo, o erro-padrão pode ser assim determinado:

    𝑥 =𝑆

    √𝑛= =

    0,0411

    √25 = 0,008228. (Vide Estatística descritiva anterior).

    Note que pela fórmula, o erro-padrão (𝑥) é inversamente proporcional à raiz quadrada do tamanho da amostra (n),

    ou seja, quanto maior a amostra, menor será o erro em torno do valor real da média amostral. Amostras grandes

    tendem a aproximar o valor da média ao valor real da população analisada. Salvo restrições de elevados custos e

    riscos de se levantar estas amostras em maior quantidade, devemos sempre assim proceder pelo bem da precisão

    da análise, cuja quantidade mínima está atrelada ao nível de variação do processo produtivo e sua necessidade de

    precisão da medida.

    Uma outra forma de verificarmos a variação da amostra em torno da média, é determinar o seu coeficiente de

    variação (CV%), que pode ser calculado pela divisão do desvio-padrão da amostra pela média obtida, ou seja:

    𝐶𝑉 =𝑆

    �̅� . 100 (eq. 04)

    No nosso exemplo, podemos determinar o valor do coeficiente de variação, calculando:

    𝐶𝑉 =0,0411

    2,0044 . 100 = 2,05%.

    Quanto menor for o coeficiente de variação, menor é a variação dos dados em torno da média, dando maior precisão

    e confiabilidade ao processo para o nível amostral adotado. Cuidado com amostras pequenas, elas podem não ser

    representativas do processo, e amargas surpresas surgirem...

    De uma forma geral, podemos assim resumir a questão da variância (e, portanto, do desvio-padrão):

    • Se aumentar a concentração de valores amostrais em torno da média amostral (baixas amplitudes de

    variação), menor será a variância e o desvio-padrão.

    • Se os valores amostrais forem todos iguais, sem qualquer variação na medida entre eles, tanto a

    variância quanto o desvio-padrão serão nulos.

    • Não há como os valores de variância e desvio-padrão serem negativos, já que não há diferenças

    negativas na faixa de variação, que são sempre positivas para amostras diferentes de zero.

    Como a variância amostral sempre traz (n-1) graus de liberdade na sua determinação, o valor da variância amostral

    tende a ser maior do que aquela da população (supondo que as médias amostral e populacional sejam próximas). À

    medida que aumente significativamente o valor de “n”, essa diferença vai ficando cada vez menor e a variância

    amostral tende à variância populacional.

  • Capítulo 2 – Variância nos Dados Amostrais 29

    Vamos agora abordar um exemplo ilustrativo.

    Exemplo 02.02

    Considere a tabela abaixo, referente à amostragem de diâmetros internos médios de peças cilíndricas laminadas

    (tubos), sob os quais se deseja avaliar a variação dos dados obtidos no processo em determinado período de produção

    (diâmetros em mm). Para tanto, deseja-se calcular qual seria a variância e desvio-padrão da amostra e inferir sobre

    qual seria a variância da população (todos os tubos laminados nesse processo desse mesmo tipo).

    Dados: disponível em Ex 2.2.xls

    De acordo com as fórmulas disponíveis no

    Excel, podemos calcular as variâncias da

    amostra e da população:

    • Amostral (𝑆2):

    =VAR.A(intervalo dados)

    • Populacional (2):

    =VAR.P(intervalo de dados)

    O leitor deve notar que os erros de

    aproximação pelos métodos estão na

    quinta casa decimal entre os

    métodos, portanto, a escolha está

    vinculada ao rigor da análise e das

    grandezas em questão.

    Note que no campo “Fórmula de

    relação” foi executada o seguinte

    cálculo:

    2= 𝑛−1

    𝑁 x 𝑆2=

    20−1

    20 x 0,02192522

    Em termos práticos, quando o tamanho da amostra é maior do que 30, os valores das variâncias tende a se

    aproximar, a variância amostral tende a se igualar à variância populacional, por isso, recomenda-se amostras

    maiores sempre que possível, apesar de que continua ainda sendo sensível aos valores extremos da amostra (valor

    maior e valor menor amostrado).

    O Desvio-padrão

    Uma desvantagem de se usar a variância, é que sua unidade expressa uma grandeza ao quadrado, já que em sua

    fórmula, utiliza-se a elevação ao quadrado da diferença entre o valor individual da amostra e sua média. Fica

    estranho utilizar uma grandeza de variação ao quadrado, já que por vezes representará unidades de itens que melhor

    se expressam em variações por unidades e não por unidades ao quadrado. Imagine que a variância do exemplo

    anterior fosse escrita assim:

    O processo de medição dos diâmetros internos dos tubos resultou em uma média de 5,010 mm e variância de

    0,0219mm2... fica de difícil interpretação ao relativizar estas duas grandezas, em mm e em mm2...

    Para resolver isso, introduziu-se o conceito de desvio-padrão (s), que é a raiz quadrada da variância:

    = √2 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑝𝑜𝑝𝑢𝑙𝑎𝑐𝑖𝑜𝑛𝑎𝑙. (eq.06)

    𝑠 = √𝑆2 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑎𝑚𝑜𝑠𝑡𝑟𝑎𝑙. (eq.07)

    OBS: 𝐴𝑑𝑜𝑡𝑎 − 𝑠𝑒 𝑜 𝑣𝑎𝑙𝑜𝑟 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 𝑑𝑎 𝑟𝑎𝑖𝑧 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑎 𝑑𝑎 𝑣𝑎𝑟𝑖â𝑐𝑖𝑎.

    No Excel podemos calcular o desvio-padrão aplicando a fórmula da raiz ou a fórmula direta de determinação do

    desvio-padrão, como se segue:

    • fórmula =DESV.PAD.P(intervalo de dados), para desvio-padrão populacional.

    • fórmula =DESV.PAD.A(intervalo de dados), para desvio-padrão amostral.

    • Ou cálculo pela raiz: =RAIZ(seleciona célula da variância na planilha).

    Diâmetros Internos

    Amostra mm

    1 5,01

    2 5,06

    3 4,98

    4 4,92

    5 5,2

    6 4,79

    7 4,82

    8 5,24

    9 4,89

    10 4,93

    11 4,77

    12 5,2

    13 5,07

    14 5,16

    15 4,98

    16 4,81

    17 5,17

    18 5,07

    19 5,13

    20 4,93

    Média = 5,010526316

    Usando as fórmulas do Excel:

    Amostral = 0,02190816

    Populacional = 0,02081275

    Usando as fórmulas Estatísticas:

    Amostral = 0,02192522

    Populacional = 0,02082896

    Fórmula de relação = 0,020828961

  • Capítulo 2 – Variância nos Dados Amostrais 30

    Analogamente ao que foi demonstrado para a variância, podemos associar os valores de desvio-padrão amostral e

    populacional segundo a fórmula deduzida:

    2 = 𝑛−1

    𝑁 . 𝑆2 ou

    = ට𝑛−1

    𝑁 . 𝑆 (eq.8)

    Teorema de Chebyshev

    Quando se deseja conhecer como estão distribuídos os valores da amostra em torno da média encontrada, utilizando

    os valores do desvio-padrão encontrado, utilizamos o teorema de Chebyshev para determiná-lo. O teorema pode ser

    resumido em uma regra prática aplicável aos dados estatísticos conhecidos:

    • Considere uma variável X com média �̅� e desvio-padrão “s” conhecidos.

    • Intervalo expresso como �̅� ± 1 𝑠, para se ter 68% de dados contidos em ± um desvio-padrão em torno da

    média amostral.

    • Intervalo expresso como �̅� ± 2 𝑠, para se ter 95% de dados contidos em ± dois desvios-padrão em torno da

    média amostral.

    • Intervalo expresso como �̅� ± 3 𝑠, para se ter próximo a 100% de dados contidos em ± três desvios-padrão

    em torno da média amostral.

    Aplicando ao nosso exemplo dos diâmetros dos tubos, teríamos:

    �̅� ± 3 𝑠

    5,01 ±3 . 0,219

    5,01 ±0,657

    O intervalo que contêm aproximadamente 100% dos dados é (4,353 a 5,667mm). De fato, o leitor verá que o menor

    valor na tabela de diâmetro interno foi de 4,77mm e o maior igual a 5,24mm, que estão, portanto, 100% contidos

    neste intervalo.

    Exercícios Resolvidos

    Instruções:

    Para o melhor andamento dos estudos, sugere-se os seguintes passos:

    1. Identifique o código do exercício resolvido.

    2. Verifique a sua disponibilidade no material do curso, no formato de screencasting.

    3. Leia o enunciado e em seguida assista à resolução.

    4. Faça novamente usando os recursos apresentados.

    5. Em caso de dúvida, intercale a revisão do screencasting com o texto explicativo.

    OBS: Os exercícios a seguir estão com as soluções disponíveis em screencasting no material do curso (código

    relacionado no enunciado de cada exercício).

    1. (SC2.01) Um fabricante de rodas de alumínio levantou duas amostras de seus produtos, em peso – kg),

    produzidas em duas linhas de fundição, tecnologicamente iguais, mas que, devido a ajustes diversos pela

    manutenção, estão produzindo peças com médias e variações distintas, conforme mostra a tabela a seguir.

    Após uma reforma geral da máquina, o engenheiro de manutenção levantou as medições constantes da

    tabela, e afirma ter melhorado o processo. Você concorda com ele? Justifique.

  • Capítulo 2 – Variância nos Dados Amostrais 31

    Dados: Disponíveis no arquivo ExR 02.01

    Resposta: após realizar a análise descritiva dos dados pelo Excel, obtêm-se:

    • Ao observar a média, vemos que não houve alteração sensível após a reforma.

    • Os limites inferior e superior da faixa de dados amostrados são praticamente os mesmos, só

    alterando no inferior, com 0,1kg a mais em uma amostra, mantendo o mesmo intervalo,

    praticamente, de 1,2 para 1,3 kg ente a peça mais leve e a mais pesada.

    • Os pesos totais de todas as peças antes e depois são os mesmos, mantendo 120,6 kg para as 8

    peças amostradas em cada caso.

    • Houve no entanto uma redução do desvio-padrão, o que indica que os dados estão com menor

    variação, tornando o processo mais preciso que o anterior, o que pode ser visto com o intervalo

    de Chebychev para 95% de confiança, que saiu de (14,14 – 16,01) para (14,36 – 15,79), ou de

    uma média de 15,075 ± 0,9304 para 15,075 ± 0,7151 (considerando 2 sigmas).

    • Concluindo, não há evidências de uma melhora significativa do processo, dada a amostragem

    pequena, sugerindo ainda uma melhor análise dos dados após reforma.

    • Obs: posteriormente veremos este caso novamente, e o leitor irá verificar que muitas vezes as

    amostras podem estar “contaminadas” de nossos desejos ou “medos”... isso altera os dados e

    resultados, mas não a estatística, que permanece forte ao longo das décadas... outras ferramentas

    serão introduzidas para poder dar uma resposta mais segura a este problema, como os estudos

    de capacidade de processos.

    2. Calcule o coeficiente de variação do exercício 1, antes e depois da reforma. Os valores reforçam a sua

    explicação para a variação do processo no exercício 1?

    Resposta: O coeficiente de variação nos dois casos são:

    • Antes: CV = 𝑆

    �̅�=

    0,4652

    15,075= 0,0308

    • Depois CV = 0,3575

    15,075̅̅ ̅̅ ̅̅ ̅̅ ̅̅= 0,0237

    • Os CV´s confirmam o exposto anteriormente, já que a variação caiu no processo, obtendo um

    menor desvio-padrão, mas não houve mudança na média (denominador da fórmula) e nem no

    intervalo entre valores mínimos e máximos da faixa amostrada.

    Antes Depois

    15,3 14,6

    15,1 15,1

    14,9 15,2

    14,5 14,9

    15,8 15,8

    15,6 15,2

    14,8 15

    14,6 14,8

    Antes Depois

    Média 15,075 Média 15,075

    Erro padrão 0,164479699 Erro padrão 0,1264205

    Mediana 15 Mediana 15,05

    Modo #N/D Modo 15,2

    Desvio padrão 0,465218843 Desvio padrão 0,357571172

    Variância da amostra 0,216428571 Variância da amostra 0,127857143

    Curtose -1,081462602 Curtose 2,112693112

    Assimetria 0,404366278 Assimetria 1,046789298

    Intervalo 1,3 Intervalo 1,2

    Mínimo 14,5 Mínimo 14,6

    Máximo 15,8 Máximo 15,8

    Soma 120,6 Soma 120,6

    Contagem 8 Contagem 8

  • Capítulo 2 – Variância nos Dados Amostrais 32

    3. Uma amostragem do peso de 30 bags de pós metálicos resultou em um intervalo com 95% de confiança

    de 200±25 kg. Calcule o erro-padrão da média para este processo.

    Resposta: Sabemos que para um nível de confiança de 95%, temos no intervalo especificado 2 sigmas de

    variação, ou seja:

    • 2 sigmas = 25, portanto, sigma = 12,5kg.

    • Sabemos que o Erro-padrão é calculado segundo a equação 03, assim:

    • Erro-padrão = s / √𝑛

    • Erro-padrão = 12,5 / √30 = 2,282kg

    • A média está expressa em termos de 200±2,282kg.

    4. Uma empresa de seguros está analisando a variabilidade de seus preços de seguros para uma determinada

    classe de risco. Ela obteve em uma amostragem de 40 apólices, um desvio-padrão de US$15,75, e pede

    que seja estimada a variância da população. Faça os cálculos e determine-a.

    Resposta: Pelos dados fornecidos temos:

    • Desvio-padrão amostral = US$15,75

    • Amostra (n) = 40

    • Pela equação 08 temos: = ට𝑛−1

    𝑁 . 𝑆

    • Assim, = ට40−1

    40 . 15,75 = 15,55

    • A variância será então (15,55)2 = 241,80.

  • Capítulo 3 – Análise de Tendência nos Dados 33

    Capítulo 3 – Análise de Tendência nos Dados

    Imagine que você tenha coletado algumas amostras no seu processo e tenha se deparado com uma situação peculiar:

    uma disposição linear, ou sugestivamente linear, dos dados no gráfico sequencial gerado. Sabemos que uma equação

    reduzida de uma reta descrita pela equação do tipo “y = aX + b” pode ser expressa em termos de sua inclinação

    (parâmetro “a” ou coeficiente angular da reta) e pelo seu intercepto linear (parâmetro “b”, ou ponto de intercepto no

    eixo Y). Podemos calcular essas componentes pelos métodos algébricos aplicados aos sistemas lineares, bem como

    aqui detalhar o passo a passo segundo as técnicas disponíveis na literatura. Entretanto, a melhor opção para entender

    essa abordagem é a da aplicação prática.

    Nos itens seguintes serão apresentados os sistemas lineares (ou de primeira ordem) e os sistemas polinomiais

    (focaremos nos sistemas de segunda ordem). Em dois casos práticos, aplicados à contabilidade gerencial,

    conseguiremos ver como o Excel e as técnicas matemáticas nos auxiliam na obtenção de equações representativas

    do comportamento dos sistemas produtivos segundo a ótica de organização e representação gráfica dos dados.

    Equações Lineares (primeira ordem)

    Uma das aplicações mais clássicas dos sistemas lineares são aquelas em que a taxa de variação de uma grandeza

    qualquer é constante com o tempo, ou seja, seu valor permanece invariável. Dizemos nestes casos que o sistema em

    análise apresenta um comportamento linear. Para ilustrar esse comportamento, vamos abordar através de um

    exemplo o que ele significa para um administrador que esteja interessado em analisar como se comportará a receita

    de vendas em uma empresa.

    • Comportamento Linear: se considerarmos a venda de um produto, cujo valor unitário de venda seja R$50, e

    quisermos gerar um gráfico que represente a Receita de Vendas desse produto, podemos construir a

    seguinte tabela e gráfico da receita de vendas:

    • Estamos considerando nesta tabela 1 o fato de que o horizonte de planejamento da empresa estima vendas

    entre 1 e 100 unidades do produto no período considerado. (dias, por exemplo).

    • Apesar da empresa poder vender mais do que 100 unidades, ela deseja saber neste intervalo como se

    comportam as vendas diárias. Para isso, traçou um gráfico com os valores da tabela, sendo o eixo X a

    quantidade vendida (unidades) e o eixo Y a receita de vendas (R$).

    Figura 3.01 – Gráfico de dispersão para a receita de vendas.

    Unidades Receita

    1 50,00R$

    10 500,00R$

    20 1.000,00R$

    30 1.500,00R$

    40 2.000,00R$

    50 2.500,00R$

    100 5.000,00R$

  • Capítulo 3 – Análise de Tendência nos Dados 34

    Ao observar o gráfico da figura 3.01 notamos que os pontos estão alinhados em uma reta. Para ter certeza disso, e

    não apenas confiar no gráfico, cuja escala pode nos iludir quanto a isto, devemos utilizar alguns recursos matemáticos.

    Sabemos que em uma reta todos os pontos estão alinhados e são crescentes ou decrescentes à uma taxa constante,

    definida pela inclinação da reta. Recordando o que é uma equação de uma reta (primeira ordem), vejamos:

    • Uma equação reduzida da reta pode ser representada pela equação: Y = aX + b, onde:

    o a = coeficiente angular da reta;

    o b = intercepto linear da reta;

    • (X;Y) o par ordenado no plano cartesiano do ponto pertencente à reta.

    • A inclinação da reta “a” pode ser determinada fazendo uma análise gráfica ou algébrica, pois corresponde à

    tangente aos pontos pertencentes à reta, fazendo um ângulo com o eixo das abcissas (eixo X). Vamos ver

    isso graficamente:

    Figura 3.02 – Linha de Tendência aplicada para receita de vendas

    Traçando uma reta pelos pontos da figura 3.02 anterior, e escolhendo dois pontos aleatórios (X;Y), que neste nosso

    exemplo são o par (Unidades; Receita de Venda), identificados pelas setas, podemos definir a equação da reta que

    foi traçada sobre os demais pontos. Lembramos que uma reta só pode ser definida quando temos pelo menos dois

    pontos pertencentes a ela. Em um ponto podemos passar infinitas retas, por isso escolhemos dois. A figura 3.03

    demonstra as escolhas feitas.

    Figura 3.03 – Pontos e inclinação da reta definida pelo ângulo .

    Relembrando os conceitos de álgebra, uma equação de reta pode ser definida através de alguns métodos, entre eles

    citamos:

    • Aplicando a fórmula reduzida da reta nos dois pontos, teremos um sistema de duas equações e duas

    incógnitas, e com a sua resolução, encontramos os valores de “a” e de “b”. Veja:

    • Para o ponto M temos que a equação reduzida da reta pode ser escrita como:

    o 3.000 = a. 60 + b (onde sabemos os valore do ponto M(X1;Y1) ou M( 60; 3.000).

    • Para o ponto N temos que a equação reduzida da reta pode ser escrita como:

    o = a. 80 + b

  • Capítulo 3 – Análise de Tendência nos Dados 35

    (onde sabemos os valores do ponto N(X2;Y2) ou N(80; 4.000).

    Assim, temos o sistema de equações:

    60ª + b = 3.000 (equação 1)

    80ª + b = 4.000 (equação 2)

    Subtraindo a equação 2 pela equação 1, temos:

    80ª +b – (60ª +b) = 4.000 – 3.000

    20ª + 0 = 1.000

    a = 1.000 / 20

    a = 50.

    Obs: note que o valor de a foi igual a 50, ou seja, é igual ao valor do preço unitário de venda do produto em questão

    (R$50).

    Assim, podemos determinar o valor de b, basta substituir o valor de a na equação 1 ou na equação 2, tanto faz,

    obtendo:

    60ª + b = 3.000

    60 (50) + b = 3.000

    3.000 + b = 3.000

    B = 0

    ▪ A equação que representa os pontos M e N é: Y = 50.X + 0 ou somente Y = 50.X

    ▪ Como sabemos que Y é a receita de vendas e X é a quantidade vendida do produto, podemos escrever

    que: Receita = 50. Quantidade Vendida do produto, ou :

    o R = 50*Q

    ▪ Outro método é usar o sistema de determinantes, da seguinte forma:

    o Uma reta “s” que passa pelos pontos (X1; Y1) e (X2; Y2) pode ser conhecida aplicando a

    determinantes dos pontos. Para tanto devemos criar a matriz para essa determinação, sendo:

    𝑥 𝑦 1𝑥𝑎 𝑦𝑎 1𝑥𝑏 𝑦𝑏 1

    = 0

    Notar que foi inserida uma nova coluna de valor unitário, para que a matriz seja “quadrada”, ou seja, o número de

    colunas seja igual ao número de linhas.

    Iguala-se a matriz a zero e passamos a utilizar a técnica de determinantes de forma que com isso iremos obter a

    equação geral da reta definida por : aX + bY +c = 0

    A regra de resolução de determinantes é a seguinte:

  • Capítulo 3 – Análise de Tendência nos Dados 36

    • Reescrevemos as duas primeiras colunas da matriz ao lado da terceira coluna, substituindo os valores dos

    pontos, obtendo:

    𝑋 𝑌 160 3.000 180 4.000 1

    𝑋 𝑌60 3.00080 4.000

    • Multiplica-se os valores das diagonais decrescentes a partir de X da primeira coluna, passando pela diagonal

    de Y e pela diagonal do valor 1 da terceira coluna, somando os resultados, e em seguida subtrai pela soma das

    diagonais crescentes partindo dos valores 80, 4.000 e 1, respectivamente, assim:

    e

    As contas são as seguintes:

    [(X * 3.000 * 1) + (Y * 1 * 80) + (1 * 60 * 4.000)] – [(80 * 3.000 * 1) + (4.000 * 1 * X) + (1 * 60 * Y)] = 0

    3.000 X + 80Y + 240.000 – (240.000 + 4.000X + 60Y) = 0

    - 1.000X + 20Y + 0= 0

    20Y = 1.000X

    Y = 50 X. Obtemos, portanto, a mesma equação do método anterior:

    • Receita = Preço de venda * Quantidade vendida

    • R = 50 * Q

    Não importando qual foi o método utilizado para obter as equações anteriores, basta analisarmos que ambas

    chegaram ao mesmo resultado. Agora falta concluir sobre nosso questionamento. A reta traçada representa a reta

    que passa pelos pontos da nossa tabela original? Em caso positivo devemos concluir que as retas de ambos os casos

    seriam a mesma, ou seja, os pontos plotados no gráfico devem pertencer à reta encontrada. Para isso ser checado,

    basta substituir os valores de X (ou quantidades vendidas) na equação de reta obtida, e verificar se o valor de Y

    (Receita de Vendas) é aquele valor na tabela de dados. Sendo iguais, dizemos que a reta encontrada é a reta que

    passa pelos pontos especificados na tabela inicial. Vamos conferir:

    • Usando o ponto da tabela onde X=50 (vendidas 50 unidades do produto), calculamos Y (receita de vendas)

    usando a equação obtida Y = 50.X. Assim, obtemos:

    o Y = 50.X

    o Y = 50.50

    o Y = 2.500 unidades. Note que este valor é igual ao que está na tabela para X=50, ou seja, a equação da

    reta usada conseguiu representar esse comportamento de vendas para 50 unidades.

    Para checarmos apenas mais um ponto, fazendo o valor de X= 10 agora, temos que Y = 50.10 = 500, ou seja, R$ 500

    vendidos, o que também bate com o valor da tabela para a receita de vendas de 10 unidades.

    Podemos concluir assim que a reta representativa dos pontos da tabela é Y = 50.X ou Receita de Vendas = 50. Quantidade

    vendida.

    Fizemos todo esse “algebrismo” em detalhes apenas para demonstrar o conceito aplicado de equações de primeiro grau

    (as retas) em Pesquisa Operacional, que será nossa base para estudos de Programação Linear em nosso curso.

    Vamos agora interpretar o gráfico obtido à luz econômica. Podemos afirmar que: