o processo de descoberta de conhecimento em bases de dados

27
O processo de Descoberta de Conhecimento em Bases de Dados (DCBD) apoiando a Análise de Risco Agropecuário na Cadeia do Leite Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Computação Walter Coelho Pereira de Magalhães Junior Marilde Terezinha Prado Santos PPGCC/DC Setembro/ 2009

Upload: others

Post on 16-Oct-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

O processo de Descoberta de Conhecimento

em Bases de Dados (DCBD) apoiando a Análise

de Risco Agropecuário na Cadeia do Leite

Universidade Federal de São CarlosCentro de Ciências Exatas e de TecnologiaDepartamento de Computação

Walter Coelho Pereira de Magalhães JuniorMarilde Terezinha Prado Santos

PPGCC/DCSetembro/ 2009

2/27

Organização desta apresentação Introdução

Risco

Risco aplicado a alimentos

Análise de Risco

Análise de Risco aplicada ao MAPA

Características das massas de dados a serem utilizadas

Impactos no processo de Descoberta de Conhecimento em Bases de Dados

Métodos de regressão

Atividades em desenvolvimento no projeto

Referências

3/27

IntroduçãoO agronegócio constitui o maior negócio brasileiro (MAPA 2007): Gera um Produto Interno Bruto (PIB) na ordem de 524 bilhões de reais – equivalente a

34% PIB nacional 40% das exportações – aproximadamente 40 bilhões de reais 37% dos empregos no país Coloca o setor agropecuário como principal sustentador da balança comercial nacional Transforma o país em uma das maiores potências agropecuárias do planeta

O agronegócio do leite e seus derivados (CABRAL, 2008) 6 º produtor mundial: 27 bilhões de litros anuais A frente de setores importantes: siderurgia e têxtil Movimenta anualmente 65 bilhões de reais 1,3 milhões de produtores A indústria de laticínios é a mais importante no setor de alimentos no Brasil

O desempenho do leite brasileiro torna-se particularmente significativo tendo em vista que aprodução agropecuária, em todas as suas escalas e naturezas, está sujeita às diversas incertezasinerentes aos sistemas biológicos: aspectos ambientais, de manejo, econômicos, etc., as quaissão potencializadas pelo crescente trânsito nacional e internacional de insumos, sementes,animais, vegetais, seus produtos e subprodutos (BONNET, 2007).

4/27

IntroduçãoContexto das incertezas Quando não são corretamente identificadas e tratadas => processos, projeto ficam nas mãos

do destino...

Os elementos são intrinsecamente incertos e somente serão verdadeiramente conhecidos no futuro...

Estimativas confiáveis não são facilmente obtidas sem o uso de um ferramental adequado

Existem métodos, técnicas e ferramentas que permitem analisar e modelar as incertezas, conhecidas como análise e gerência de risco

Entre as disciplinas que compõem a gerência de riscos em processos ou projetos, a análise de risco é uma das mais difíceis

Posturas face às incertezas: Postura reativa (“apagando incêndios”)– a partir de um planejamento baseado em um

cenário considerado “mais provável”, vai-se tratando os fatores de risco a medida que vão acontecendo.

=> Grande estresse na equipe e grande consumo de energia em situações que, muitas vezes, a pequeno planejamento e custo adicional, teriam seu impacto eliminado ou substancialmente reduzido

Postura preditiva e pró-ativa – adota o planejamento e acompanhamento como ferramentas racionais e econômicas para enfrentar as incertezas inerentes aos processos

5/27

IntroduçãoExiste uma necessidade mundial de mitigação das incertezas e determinação de

variabilidades, particularmente com relação ao agronegócio do leite...

Neste contexto, a análise de Risco constitui poderosa ferramenta a ser aplicada visandominimizar os danos ao agronegócio, de forma a: diminuir as incertezas associadas aos mais diversos processos gerar informações dinâmicas otimizando a tomada de decisão requerida nestes processos facilitar a promoção de ajustes dinâmicos para otimização contínua destes processos

Paralelamente, os modelos para controle de alimentos atualmente adotados no paísapresentam comportamento tipicamente reativo e defensivo, em detrimento a umadesejável abordagem pró-ativa e preditiva permitida pela Análise de Risco

“As frequentes frustrações da população e autoridades em relação às questões de qualidadee segurança dos alimentos, associadas ao forte desperdício de capital intelectual, temporale financeiro, são reflexos de um “modus operandi” inadequado, tipicamente corrigindoproblemas à medida que são detectados (BONNET, 2007)”

6/27

Introdução

A adequada qualidade e segurança de alimentos, como o leite:

Jamais pode ser garantida apenas por análises laboratoriais de produtos acabados postos àvenda => conceito errôneo frequentemente observado no país.

Deve ser realizada na origem e ao longo de todo o continuum produtivo, por meio decontroles sistemáticos, preventivos e pró-ativos, segundo a implantação dos autocontroles,ou seja, as Boas Práticas Agropecuárias (BPA), Boas Práticas de Fabricação (BPF) e osistema de Análise de Perigos Pontos Críticos de Controle (APPCC)

No entendimento do especialista:

Dados Informações Inteligência

7/27

Risco“Excetuando a imutabilidade das leis fundamentais do universo, a única coisa realmente

previsível é que tudo se modifica no decorrer do tempo...”

“Nunca existiu tão pouco espaço para erros como nos dias de hoje...”

Fator de risco é qualquer evento que possa prejudicar, parcial ou totalmente, as chances de sucesso de um projeto ou processo, ou seja, realizar o que foi proposto dentro do prazo e fluxo de caixa estabelecidos

Risco é a probabilidade de um fator de risco assumir um valor que possa prejudicar parcialmente ou totalmente as chances de sucesso de um projeto

Falar sobre risco, consiste em identificar: Os fatores (de risco) que possam comprometer o sucesso do projeto A probabilidade destes fatores assumirem valores que possam prejudicar parcialmente ou

totalmente o projeto As consequências caso estes fatores assumam os valores prejudiciais

Risco refere a eventos cuja realização é incerta Eventos cuja realização é certa => empregamos bom senso em nossa análise Eventos cuja realização é incerta => requer conhecimento, método, técnicas e disciplina

8/27

Risco aplicado a alimentosCom relação aos alimentos, os analistas de riscos fazem referência a perigos...

Perigo: agente biológico, químico ou físico presente no alimento capaz de provocar efeitosadversos à saúde

Perigo biológico: bactérias que causam doenças (patógenos) Perigo químico: pesticidas, droga veterinárias (antibiótico, carrapaticidas, hormônios,..),

toxinas Perigo físicos: prego, caco de vidro, pedra, pau, plástico,...

Risco está em função da probabilidade de efeitos adversos a saúde e à severidade dos efeitoscausado por perigos no alimento

Base legal

Nacionalmente, a aplicação da Análise de Risco está contemplada no Decreto 5741/2106, que regulamenta a Lei 9712/98 e disciplina o capítulo de defesa agropecuária da Lei 8171 (Lei Agrícola).

No âmbito internacional, a aplicação da Análise de Risco é disciplinada pela comissão do CODEX ALIMENTARIUS/FAO/OMS, pela OIE (Organização Internacional de Epizoitias) e pela IPPC (Convenção Internacional de Proteção de Plantas).

9/27

Análise de Risco

Gerência de risco

Conjunto de atividades (processo) que procuram maximizar os impactos positivos e minimizar os impactos negativos de fatores de risco, mantendo-os em uma faixa de variabilidade e incerteza aceitáveis

Formado por dois sub-processos: na fase de planejamento envolve a “análise de risco” e na fase de execução o “controle de risco”

Processo de Gerência de Risco

Sub-processo Análise de Risco Sub-processo Controle de Risco

Início Análise de Risco Monitoração

Executar contingências

Final

Evento ocorreu ?

10/27

Análise de Risco

Análise de risco ou percepção da existência de riscos consiste em um conjunto de quatro atividades básicas (ALENCAR, 2006)

Identificação dos fatores de risco

Avaliação de seus impactos (nos objetivos do processo ou projeto) e probabilidades

Elaboração dos planos de contenção e contingência

Plano de contenção são ações ou procedimentos que objetivam eliminar ou reduzir as chances dos fatores de risco prejudicarem o projeto

Plano de contingência são ações ou procedimentos que objetivam minimizar o impacto sobre o projeto, caso, inevitavelmente, um ou mais fatores de risco assumam valores prejudiciais ao projeto

Estes planos devem ser realizados em desejável “compreensão perfeita do universo que abrange o projeto...” => necessidade do especialista

Redefinição do planejamento do projeto

11/27

Análise de Risco – visão agropecuária

Monitoramento

Inspeção Doméstica

Regulamento Político e Padrão

Revisão Pré-mercado

Nutrição

Educação

Assistência Técnica

Consumidor

Seguro

Indústria

Competitiva

Identificação e Tratamento dos Fatores

Base Científica

Objetivos

(bem definidos)

Comunicação

de Riscos

Controle

de Riscos

Análise

de Riscos

12/27

Análise de Risco aplicada ao MAPAUma entre as possíveis aplicações ao MAPA poderia, por exemplo, envolver os resultados de análises de

pesquisa de resíduos e/ou contaminantes no leite

Resíduos: antibióticos, carrapaticidas, hormônios, promotores de crescimento, .., etc. Contaminantes: metais pesados (chumbo, cadmio, arsenio, mercurio,..), micotoxinas

Exemplo de análise de risco em dados discretos (enumeráveis): contagem de coliformes fecais (CF)Distribuição binomial: B (n,p)

A estimativa do risco ao amostrarmos um laticínio e encontrarmos valores de CF acima do permitido é de 60%,isto é, a probabilidade de encontrarmos um laticínio “não conforme” de acordo com o parâmetro CF

Desvio associado à porcentagem 60% é de 15% (0.15492) aproximado: σ = √ P (1-P) / n

Intervalo de risco para um Desvio Padrão: 45 até 75 %

Amostra de Leite

(2 Laticínios por região)

Contagem ≤ 20 >20

1 10 (-)

2 30 (+)

3 34 (+)

4 25 (+)

5 22 (+)

6 78 (+)

7 12 (-)

8 23 (+)

9 10 (-)

10 0 (-)

Resultado 04 06

Valor limite (LMR ou Ponto de corte) fixado pelo especialista

Trabalho rápido ( 10/dia :: 1000/mês)

Gastar pouco

13/27

Análise de Risco aplicada ao MAPA

Exemplo de análise de risco em dados contínuos (assumir qualquer valor em intervalo contínuo):

Medição de promotores de crescimento no leite.

No exemplo abaixo, para que o leite esteja fisiologicamente dentro dos padrões em relação aporcentagem de promotores, deve ter uma média (μ) de 22% e um desvio (σ) de 2

σ = √ (xi – μ) / n

22 ± 2 25

x N (μ, σ2) => Z = (x – μ) / σ => Z N (0, 1) :: Tabela Normal Z ou Normal padrão

Qual é o risco de coletarmos uma amostra de leite de um mercado em São Carlos-SP e encontramosmais do que 25% de promotores de crescimento ? P (x > 25) = ?

Solução: P ((x- μ)/ σ > 25 – μ / σ) = P (Z > (25-22)/2) = P (Z > 1.5) = 0.5 – P(Z <= 1.5) = 0.5 – 0.4332 = 0,0668 7%

Resposta: A estimativa do risco de encontrar na amostra mais que 25% de promotores no leite é de 7%

Amostras Medição

01 20

02 28

03 23

04 20

05 21

06 27

. . . . . .

. . . . . .

100 23

P(x > 25)

14/27

Análise de Risco aplicada ao MAPA

Desenvolvimento matemático – um exemplo didático inicial

O exemplo abaixo considera um vetor “de risco” simples, no tempo, como modelo gerador deuma série de dados, considerando, por exemplo, os atributos ponderados frequência,intensidade, local, ..., n

Rcalc = ∫0

TEDT = (α f + β i + γ l + ... + δn + TI) DT

intervalos definidos pelo especialista:f = [0,1] , i = [0,Conc Max], l = [0,1,2,3]

variáveis:Frequencia (f) = Número de ocorrências / Tempo observado (definido)Intensidade (i) = 1 ppl / kg ou litro (partes por litro ou quilograma)Local da detecção (l) = Ordenha, pasteurização, refrigeração, ...Termo independente (TI) = Valor de risco mínimo independente às variáveisDiferencial de tempo (DT)

Níveis de severidade da medição realizada, após:

1- Ordenha2- Pasteurização3- Resfriamento

Resíduos /

Contaminantes

2006 2007 2008 2009 . . . . Ao longo

dos anos

Promotores 7% 5% 5% 5% . . . . (5.5%)

Coliformes 60% 20% 10% 5% . . . . (22.5%)

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

15/27

Análise de Risco aplicada ao MAPA

Rcalc

Série Histórica

Rtoler (Risco tolerado definido pelo especialista)

26

1, 2,..,k (desvio padrão)21

T (anos/horas/segundos/...)

Espero acertar em 95% que a curva irá operar com Rcalc entre 21 e 26 ...

Mantendo parâmetros iguais qual chance desta curva se verificar no futuro ?

Qual a variável determinante? Qual é a sua participação? Qual seu valor no futuro? , etc...

Apresentar, adicionalmente, informações estratégicas importantes à tomada de decisão descobertasdurante a etapa de mineração de dados...

Incerteza associada à medida

16/27

Características das massas de dados a serem utilizadas

A Embrapa Gado de Leite participa efetivamente em projeto de sensores ligados à pecuária leiteira.

Além da característica inovadora, justifica-se a adoção de sensores aplicados aos processos de produção leiteira, devido aos seguintes fortes atrativos:

Especificidade

Exatidão (precisão)

Agilidade

Capacidade de automação dos procedimentos de coleta e armazenamento de dados

Adicionalmente, em função da tecnologia alcançada e do tipo de sensor empregado consegue-se trabalhar com os dados apresentando: Precisão superior a algumas modernas (e extremamente caras) técnicas laboratoriais mundiais

=> Maior acurácia dos resultados, maior conhecimento, melhor contribuição científica

Precisão inferior (menor granularidade) a algumas técnicas laboratoriais ordinariamente utilizadas => Economia de capital financeiro, intelectual e temporal

Exemplo: Consegue-se evitar análises laboratoriais em cerca de 90% das amostras

A análise de risco associada aos resultados de análises de pesquisa de resíduos e/ou contaminantes no leite, pode beneficiar-se destas características...

Pode influenciar positivamente os algorítmos de classificação, predição, regressão

17/27

Características das massas de dados a serem utilizadas

O laboratório de Qualidade do Leite –LQL, da Embrapa Gado de Leite desenvolve inúmeros tipos de pesquisa e análises no leite, englobando produtores, fazendas, indústrias, laticínios, cooperativas da região sudeste

O Ministério da Agricultura, Pecuária e Abastecimento – MAPA concentra ao longo dos anos, dados específicos do Plano Nacional de Controle de Resíduos e Contaminantes –PNCRC, originados de diversos produtores de leite, associações diversas, laboratórios credenciados, em diversas regiões do país. As análises são realizadas de forma inovadora e diversificada envolvendo inúmeros analitos, sendo orientadas por assessores internos e externos (CODEX ALIMENTARIUS/FAO - Food And Agricultural Organization Of TheUnited Nations)

Em ordem prioritária ao interesse do projeto, temos:

Base de dados do Plano Nacional de Controle de Resíduos e Contaminantes – PNCRC -Ministério da Agricultura Política => dados confidenciais => restrições à liberação de dados

Base de dados formada por sensores – Embrapa Gado de Leite Inovação => segredo profissional => patentes => restrições à liberação de dados

Base de Dados do Laboratório de Qualidade do Leite – LQR – Embrapa Gado de Leite Disponibilidade imediata a partir de 2005

18/27

Impactos na Descoberta de Conhecimento em Bases de Dados

Descoberta de Conhecimento em bases de Dados – DCBD

Compreende-se a Descoberta de Conhecimento em Bases de Dados (DCBD) como a integração entre as áreas de estatística, inteligência artificial (redes neurais e sistemas simbólicos) e banco de dados

A computação encontra-se diretamente aplicada em todas as etapas do processo DCBD, participando não somente na execução de algoritmos para identificação de padrões e tendências, mas auxiliando no desenvolvimento do conjunto de métodos, técnicas e ferramentas resultantes.

Encontram-se no âmbito da DCBD as atividades de coleta, limpeza e redução de dados, seleção de parâmetros para a execução de algoritmos visando a identificação de padrões, além da representação e processamento do conhecimento.

Apresentando-se como sequência linear de etapas, o processo de DCBD, em verdade, engloba a execução interativa entre as mesmas. Neste processo, pode-se avançar nas etapas e, posteriormente, retornar a uma etapa qualquer que já tenha sido executada, sempre de acordo com as entradas e respostas fornecidas pelo usuário (Prado, 2001).

19/27

Impactos na Descoberta de Conhecimento em Bases de Dados

Etapas do processo DCBD mais fortemente impactadas devido a adoção da massade dados gerada pelo MAPA e/ou sensores aplicados à cadeia produtiva do leite

20/27

Impactos na Descoberta de Conhecimento em Bases de Dados

Análise inicial dos impactos para as bases de dados – Sensores e MAPA

A utilização da massa de dados gerada a partir de sensores, de acordo com ascaracterísticas previamente analisadas, deverá acarretar impactos no processo DCBDincidam, principalmente, sobre as etapas de Limpeza, Transformação e Mineração deDados, quais sejam:

Em função das características de maior automação e precisão (detalhamento)oferecidas pelos dados originados a partir da tecnologia de sensores, espera-se que asmesmas possam otimizar a etapa de limpeza e transformação, e adicionalmente,impactar positivamente a etapa de mineração de dados, possibilitando promover ummodelo classificatório preditivo básico (ou estendido) melhor ajustado

Em função da variabilidade observada nos tipos de dados envolvidos em umaanálise de risco, quais sejam, atributos discretos, atributos contínuos, mistos, etc.,espera-se implementar adaptações principalmente nos algorítimos de regressãodurante a etapa de mineração de dados

Esta segunda observação aplica-se diretamente tanto à massa de dados mantidapelo PNCRC em leite – MAPA , como à massa de dados gerada por sensores

21/27

Métodos de regressãoRegressão é uma técnica de modelagem preditiva dos dados onde a variável alvo a ser avaliada écontínua

D = {(xi,yi) | i = 1,2,...,n}

O objetivo é encontrar uma função alvo, modelo ou mapeamento que possa ajustar os dados deentrada (atributos xi),com um erro mínimo, em uma saída de valores contínuos (yi)

Se a resposta representa uma função linear dos atributos a regressão é dita linear

Os modelos preditivos supervisionados em mineração de dados, incluem os modelos declassificação e regressão, os quais desempenham um papel chave no processo DCBD. Essesmodelos que têm potencial para revelar estruturas ocultas.

Modelos de classificação usam variável alvo (resposta) categóricaQueremos aproximar a probabilidade de associar uma classe a uma função das

variáveis de entradaModelos de regressão usam variáveis alvo contínuas e binárias (yes/no)

Queremos aproximar a função de regressão

variável alvo, resposta, destino, dependente

(contínua)

variáveis explicativas, regressoras, entradas,

independentes ouatributos da observação(discretos ou contínuos)

22/27

Métodos de regressão

Esquema de trabalho inicial para abordar grandes massas de dados disjuntas – MAPA

Durante o processo de modelagem, sabe-se que os dados completos oferecem uma oportunidadede aprender e encontrar uma solução que identifica padrões essenciais, os quais não sãoplenamente detectados em dados de amostras...

Estratégia em função da complexidade dos dados

Monitorar cuidadosamente a variável a ser predita e os preditores em dados detreinamento (training datasets) => identificar padrões nestes Após, o modelo geral será ajustado e validado com dados completos de forma a medir suacapacidade em generalizar o que aprendeu

Resumidamente: Determinar quais variáveis predictoras estão associadas à variável resposta Determinar a forma de relacionamento entre variáveis predictoras e variável resposta Estimar o modelo preditivo melhor adaptado Estimar os parâmetros do modelo e seus intervalos de confiança Testar as hipóteses sobre os parâmetros Estimar a predição para novos casos

23/27

Métodos de regressão

Modelos preditivos supervisionados

O principal objetivo da modelagem preditiva é modelar o relacionamento (associação) entre asvárias variáveis predictoras e a variável resposta

Na maioria das situações, modelos preditivos fornecem apenas aproximações úteis paraencontrar o verdadeiro modelo desconhecido, mas se o modelo for cuidadosamente formulado apartir de um grande e representativo banco de dados, pode fornecer uma excelente equaçãopreditiva

Técnicas aplicadas

MLR : Multiple linear regression

Descreve a associação entre preditoras e resposta por meio de uma equação linear Técnica mais utilizada em todas as disciplinas Principal limitação conceitual é que somente pode-se verificar relacionamentos e nunca ter certeza sobre o mecanismo causal

“Relação de regressão não implica em relações de causa e efeito”

Quando o resultado (ou classe) é numérico e todas os preditores são numéricos, a técnica de regressão linear deve ser naturalmente considerada: Expressar a classe como uma combinaçãolinear de atributos com pesos calculados a partir dos dados de treinamento

24/27

Métodos de regressão

BLR : Binary logistic regression

Descreve a associação entre preditoras e resposta usando uma função logística não-linear Regressão logística é uma técnica de modelagem amplamente utilizada em aplicações demineração de dados. Difere basicamente da regressão linear (e outras) pelo fato da variávelexplicativa ser categórica Vantagem : Permite a construção de modelos mais complexos comparativamente aos modelos lineares de forma que as interações entre os preditores contínuos e categóricos podem ser exploradas Principal limitação: a confiabilidade das estimativas diminui quando apenas poucos casos para cada combinação de variáveis observadas (xi) estão disponíveis

No software SAS (SAS Institute Incorporation) as macros REGDIAG e LOGISTIC são utilizadaspara implementar MLR e BLR

Muitos outros métodos, a serem estudados, estão disponíveis na literatura estatística e poderãoser usados para modelagem não-linear, incluindo polynomial regression, k-nearest neighborregression, kernel regression e discriminant analysis

WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and techniques. 2. ed. San Francisco: Morgan Kaufmann, 2005.

25/27

Atividades em desenvolvimento no projeto

Solicitando formalmente o acesso aos dados brutos do PNCRC em Leite – MAPA

Aguardando o início do curso sobre análise de risco agropecuário no MAPA, ministrado por membro assessor da FAO (Food And Agricultural Organization OfThe United Nations), Período 23/11/2009 a 27/11/2009

Objetivo: estudar as diversas técnicas empregadas pelo MAPA, realizar direto contato com usuário

Realizando reuniões periódicas com estatístico contratado pelo MAPA, visandomelhor compreender alguns tipos de técnicas utilizadas em análises laboratoriaispara os analitos em estudo

Iniciando estudos práticos sobre o software Weka, com base em seu livro texto, focando os algorítmos de mineração relacionados à classificação e regressão

Buscando o diferencial técnico (novidade) que permita a aprovação desta propostano departamento de computação da UFSCar

26/27

Referências

ALENCAR, A. J.; SCHMITZ, E. A. Análise de Risco em Gerência de Projetos.Rio de Janeiro: Brasport, 2006. 196 p.

BONNET, M.; SILVA, A.E.. Núcleo de Análise de Risco Agropecuário: Projeto NARAGRO. Brasília, DF: Secretaria de Defesa Agropecuária / MAPA, 2007.

CABRAL, J. R. A.; VALENTE, M. E. R. Rastreabilidade na indústria de laticínios: relatório parcial. Viçosa: UFV, 2008. 50 p. (Projeto final de curso).

CHAKRABART, S. et al. Data Mining Know it all. Burlington, MA: Morgan Kaufmann, 2009.460 p.

PRADO, H. A. Orpheo: uma estrutura de trabalho para integração dos paradigmas de aprendizado supervisionado e não-supervisionado. 2001. 154 f. Tese (Doutorado) – Universidade Federal do Rio Grande do Sul, Porto Alegre, RS.

TAN P.; STEINBACH M.;KUMAR V. Introdução ao Data Mining Mineração de Dados. Rio de janeiro: Ciência Moderna, 2009. 900 p.

WITTEN, I. H.; FRANK, E. Data Mining: Practical machine learning tools and techniques. 2. ed. San Francisco: Morgan Kaufmann, 2005. 525 p.

27/27

Walter Coelho Pereira de Magalhães [email protected]

PPGCC/DC - UFSCar2009