grupo multidisciplinar de modelación de fluidos serea palestra/p03.pdfsistema de informação...
TRANSCRIPT
Grupo Multidisciplinar de Modelación de Fluidos
Análise de dados inteligente como uma ferramenta na gerência integrada da água
Joaquín Izquierdo
UNIVERSIDAD POLITÉCNICA DE VALENCIA
VI Seminário Ibero-americano SEREA
João Pessoa 2006
INDICE
• Motivação: quantidades enormes de dados
• Modelação baseada em dados
• O processo KDD – Data Mining (DM)
– descoberta de conhecimento das BD
– Técnicas DM
• Introdução: dimensão multidisciplinar da água
• Exemplos
INTRODUÇAO: multidisciplinaridade
• Engenheiro: conhecedor vs consumidor de conhecimento
• Ferramenta: computador vs processador de conhecimento
• Água: um problema sócio-tecnológico• Gerência do conhecimento• Integração de técnicas múltiplas• Encapsulação de conhecimento• AID como a ferramenta de integração
• IWM cobre uma ampla variedade de aspectos
• Divórcio entre • Desenvolvimento matemático e científico • Aplicações sociais
MOTIVAÇÃO: quantidades enormes de dados
• Exemplo: WDF e parâmetros que devem ser medidos - aproximação pragmática
• É o mesmo para muitas companhias, indústrias e equipes de pesquisa
• Usando toda a informação• usos básicos• é tudo que pode ser feito?• conhecimento escondido nos dados• extração de conhecimento
• A era da informação: manipulação de dados contra a extração de conhecimento
O paradigma do conhecimento baseado em dados
• Interesse para a extração semi-automática de conhecimento
• Dados no formato digital
• E onde matemática e estatística?
• Técnicas de calibração e validação: paradigma clássico baseado em dados
• A tomada de decisão necessita outros modelos baseados em dados e em habilidades específicas
• KDD: ‘O processo não trivial de identificar padrões válidos, novos, úteis e compreensíveis baseados em dados’ (Fayyad, 1996).
• Modelação híbrida!!
O processo KDD
• DM não é lavagem hidráulica
• mas minando com prospecção inteligente
• Uma vez que os dados foram recolhidos tem-se que decidir o tipo de padrão de interesse. O objetivo do conhecimento condiciona a técnica DM para usar-se.
• A maioria dos sistemas permitem que o usuário selecione a técnica contanto que o usuário forneça o tipo de padrão procurado
Sistema deinformação Conhecimento
Pre-Processo
Post-Processo
DataMining
Padrões mais comuns• Associação: dois atributos aparecem simultaneamente com
freqüência relativamente alta• Dependência: o valor absoluto ou relativo de um atributo é
determinado pelos valores de outros atributos. Às vezes, as dependências são tão óbvias que não são interessantes.
• Classificação: jogo das dependências permitindo que determinadas réguas atribuam a um parâmetro dependente um valor ou uma categoria entre diversas possibilidades.
• Clustering: identificação de grupos de indivíduos. Na classificação as categorias são previamente conhecidas . No clustering os grupos devem ser identificados. Assim, a classificação é um processo supervisionado mas clustering é no supervisionado.
• Tendências: permitem a predição do valor de uma variável contínua dependente, geralmente, do tempo.
• Réguas gerais: outros tipos de padrões mais gerais.
Técnicas. Não simbólicas.
• Técnicas Estatísticas: Confirmam a associação e a dependência. Regressão linear e não linear e redes de regressão.
• Métodos de vizinhança e seus variantes com aprendizagem por meio de exemplos. Classificação e clustering. Usam distâncias e similaridades a um protótipo ou a outros membros do grupo.
• Redes neurôniais artificiais, lógica fuzzy, algoritmos genéticos, árvores de regressão, teoria do caos, etc. e suas combinações. São técnicas populares, e já tradicionais, para a aprendizagem automática com aplicações importantes na classificação e no clustering. Discute-se razoavelmente que mesmo que permitam modelar determinados fenômenos com precisão não fornecem compreensão ao modelo. Não obstante, algumas de suas combinações permitem a extração das réguas, que são mais fáceis de compreender.
Técnicas. Simbólicas.• Árvores de decisão. Classificação e clustering
através de um teste de cascata que gera uma estrutura hierárquica nas quais cada nó interno contem um teste em um atributo, cada filial corresponde a um resultado do teste e cada folha dá uma predição para o valor da classe.
• Programação indutiva e outras técnicas de indução simbólica. Para obter testes padrões mais gerais. A chamada programação lógica dá aproximações interessantes e simples nos termos de réguas de indução. Um jogo de réguas ordenado é uma lista de decisão. As réguas na lista são consideradas em ordem descendente.
Redes neurais artificiais
(RNAs)• Modelos inspirados na estrutura nervosa
sinapsis núcleo
dendritas
corpo celular
axón
Σ
x1(t)
x2(t)
x3(t)
xn(t)…
w1
w2
w3
wn
a(t)
y y=f(a)
w0
o(t+1)a
=+ ∑
=
n
iii txwfto
1
)()1( ≥w0 (ativa)<w0 (inativa)
função de ativação
RNNs: Desempenho e aprendizagem
• O desempenho da rede depende dos pesos• Aprendizagem baseada na modificação dos pesos• Conceitos básicos
– Memória armazenada em sinapses ajustáveis– Os neurônios associaram em configurações grandes
• Algoritmos: modificação dos pesos baseada em amostras apropriadas de dados corretos
• Aprendizagem como na biologia!– Dados de treinamento etiquetados ou não: tipo de
aprendizagem: • Supervisionado: a resposta correta é conhecida (MLP) • Não Superv : a rede aprende relações, similitude,…(SOM)• Misturado (RBF, LVQ)
RNNs Multilayer feedforward
…
x1
x2
x3
xn
…
o1
o2
op
…
n valoresde input
p valoresde output
H unidadesescondidas
• Descrição: unidades distribuídas em camadas–Input (pré-processo), escondida (discriminação), output (resposta)
• Fase de aprendizagem –a saída comparada com a resposta correta produz o erro–a minimização do erro força o ajuste dos pesos (BP)
• Generaliza dados não conhecidos quando treinada por BP• Função de transferência (aproximador universal)
MLP
RNAs: características
• Modelos que são inspirados na estrutura do cérebro– executam computação complexa, não explícita– aprendem tarefas em uma maneira gradual– processam no paralelo– são flexíveis e independentes da tarefa– têm uma velocidade grande de computação– natureza robusta (tolerante às falhas) frente à degradação– respondem bem aos sinais contaminados pelo ruído
• As RNAs são uma família de modelos– usam dados de treinamento descobrir por se padrões
típicos, regularidades, clusters e outras relações– caixa preta; falta de interpretabilidade!!!
RNAs: algumas aplicações
• Monitoração e proteção ambiental (EPA 2000)– Classificação e diagnóstico da qualidade da água: Walley 2000,
Lingireddy 2005, Rowland 2004;...
• Predição e análise de séries temporais (redes dinâmicas)– predição do runoff: Anctil 2004– predição da vazão nos rios para o gerenciamento dos reservatórios:
Barati 2003, Kumar 2004– predição de valores futuros de dados ambientais para o gerenciamento
dos recursos: Panella 2003
• Abastecimento de água e saneamento– calibração ótima: Lingireddy 2005– monitoração, controle,... en SDAs: Baxter 2004, Izquierdo 2006,…– controle ótimo de bombeamento: Lingireddy 2005– dimensões de dispositivos de proteção de transitórios: Izquierdo 2006– qualidade de água: Millet 2002, Lingireddy 2005– Saneamento: El-Din 2004; Vojinovic 2003, Lingireddy 2005
Lógica Fuzzy. Motivação
• Dados exatos e precisos?– medidas médias (intervalo)– incerteza vs probabilidade (Zadeh 1995)– Lógica fuzzy (Lofti Zadeh, 1965)
• A lógica fuzzy possibilita tratar a incerteza em uma maneira intuitiva e natural– usa a ambigüidade da língua e o estilo humano de
raciocinar para resolver problemas– É uma extensão da teoria clássica dos conjuntos– Precisão vs significado
Precisão
Uma massa 1500kg está aproximando sua cabeça em 45.3m/seg
Significado
você sai de lá!
Lógica Fuzzy. Características
• Permite a granulação dos problemas– para decidir o nível de solução para um problema– para omitir ou mostrar a informação
apropriadamente
• Resolve problemas I/O apropriadamente– caixa preta??? Não!
• Baseada no sentido comum• Com opinião de peritos
– “Em quase todos os casos um produto pode ser construído sem lógica fuzzy, mas é mais fácil e mais barato com ela” (Lofti Zadeh)
Exemplo de inferência fuzzy
• SE a idade É baixa E o poder do carro É elevado o risco É elevado• SE a idade É média E o poder do carro É médio o risco É médio
0
1
0
1
0
1
0
1
0
1 highyoung
middle
high
medium
0
1 medium
0
1µrisk
age
age
power
power
fuzzyAND
fuzzyAND
a b
y
risk
risk
risk
Defuzzyfication
Lógica fuzzy. Aplicações hidráulicas e ambientais
• Modelos de deterioração para as tubulações enterradas: Kleiner 2004
• Monitoramento de SDAs: Izquierdo 2004, 2005, 2006
• Predição a curto prazo (situações com dados escassos em que a predição é baseada somente em circunstâncias rio acima): Bazartseeren 2003
• Predição e séries temporais: Juang 2003
• Agregação da informação em um modelo de consumo de água dependendo da informação disponível: Edwards 2005
• Gerenciamento, a longo prazo, dos sistemas de armazenamento /transporte/ distribuição de recursos de água: Faye 2003
• Reabilitação e renovação das tubulações: Sadiq 2004
ALGORITMOS GENÉTICOS
• Os métodos modernos de aprendizagem automática e análise de dados dependem de técnicas sofisticadas de busca.
• Cada sistema adaptável necessita algum tipo de busca a fim de explorar o espaço de todos os estados possíveis.
• Ótimas ou quase ótimas configurações são procuradas.• Espaços de elevada dimensão devem ser explorados.• A dimensão elevada gira o projeto em um problema complexo.• Encontrando o ótimo global de uma função objetivo com
muitos graus de liberdade com confinamentos no conflito e subjetividade é um problema NP-completo.
• Os AG, uma classe de computação evolucionaria, procuram pela imitação da evolução natural das espécies baseada na seleção natural e nos mecanismos genéticos das populações.
Población Inicial Población resultanteM
ayor
apt
itud
Men
or a
ptitu
d
244036
229441
173056
154449
120409
69169
61009
60516
55225
37636
32400
26896
21316
1936
441
256
Función Objetivo
1 1 1 1 0 1 1 1 0
1 1 1 1 0 1 1 1 0
1 1 1 1 0 1 1 1 0
1 1 1 0 1 1 1 1 1
1 1 1 0 1 1 1 1 1
1 1 1 0 1 1 1 1 1
1 1 0 1 0 0 0 0 0
1 1 0 1 0 0 0 0 0
1 1 0 0 0 1 0 0 1
1 1 0 0 0 1 0 0 1
1 0 1 0 1 1 0 1 1
1 0 0 0 0 0 1 1 1
0 1 1 1 1 0 1 1 1
0 1 1 1 1 0 1 1 0
0 1 1 1 0 1 0 1 1
0 1 1 0 0 0 0 1 0
1 1 1 1 0 1 1 1 0
1 1 1 0 1 1 1 1 1
1 1 0 1 0 0 0 0 0
1 1 0 0 0 1 0 0 1
1 0 1 0 1 1 0 1 1
1 0 0 0 0 0 1 1 1
0 1 1 1 1 0 1 1 1
0 1 1 1 1 0 1 1 0
0 1 1 1 0 1 0 1 1
0 1 1 0 0 0 0 1 0
0 1 0 1 1 0 1 0 0
0 1 0 1 0 0 1 0 0
0 1 0 0 1 0 0 1 0
0 0 0 1 0 1 1 0 0
0 0 0 0 1 0 1 0 1
0 0 0 0 1 0 0 0 0
Processo de seleção
Cadena j 1 0 0 0 0 0 1 1 0 1
Cadena i 1 1 1 0 1 0 1 1 1 0
Cadena i 1 1 1 0 1 0 1 1 0 1
Cadena j 1 0 0 0 0 0 1 1 1 0
Eslabón de cruce
Processo de cruzamento
Processo de mutação
Cadena i
Cadena i 1 1 1 0 1 0 1 1 0 1
1 1 1 0 1 0 1 1 1 0
Eslabón de mutación
ALGORITMOS GENÉTICOS
(aplicações)
• Calibração dos parâmetros nos modelos de qualidade de água para a contaminação em receber águas: López 2001, Nishida 2004
• Projeto ótimo das RDA incluindo a confiabilidade: Wu 2002, Matías 2004, Pérez 2005, Iglesias 2005
• Detecção e calibração de perdas de água usando a análise transiente e AGs: Vitkovsty 2001
• Combinações de RNAs, lógica fuzzy e de AGs• Modelo de emissão de NOx em uma usina elétrica:
Oh 2003
• Reabilitação de redes de saneamento: Vojinovic 2005
Árvores de decisão
• Técnicas simbólicas de aprendizagem a partir dos dados• Usado por séculos a fim de representar procedimentos em
muitos campos• Determinadas circunstâncias conduzem aos estados
mutuamente excludentes• As situações são analisadas seguindo a estrutura de árvore
até as folhas• São adequados para a classificação• Usam algoritmos com estratégias de dividir e conquistar• CART [Breiman 1984], ID3 [Quinlan 1986], M5 [Quinlan
1992], C4-5 [Quinlan 1993], ASSISTANT [Cestnik, 1987],…
Árvores de decisão
• Técnicas a aprender a partir dos dados em uma maneira simbólica usando réguas de classificação e/ou de associação.
NO
NO SI
Y>50
Y>32
T Hoja 1
X>55
Y>20
SI
SI
NO
X>80
T Hoja 7
S
Hoja 8
NO
X>20
SI
SI
X>20
S Hoja 2
NO
T Hoja 3
S Hoja 4
T Hoja 5
T Hoja 6
NO
NO
SI
SI
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
Hoja 7
Hoja 3 Hoja 2
Hoja 5
Hoja 4 Hoja 6 Hoja 1
Hoja 8
Árvores de decisão
(aplicações)
• Modelos hidrológicos: Solomatine 2003, 2004, Bhattacharya2005
• Infra-estrutura civil: Buchheit 2000
• Classificação biológica da água de rios: Dzeroski 1998
• Predição da demanda: An, 1997
• Substituição das tubulações: Babovic 2001
• Controle dos reservatórios: Bessler 2003
• Operação de RDA: Camarinha-Matos 1999
• Obtenção de dados sócio-econômico-demográficos a partir de dados de consumos em um SDA: Díaz 2005
• Os modelos baseados nos dados mostraram a aplicabilidade grande em muitas áreas.
• Existem também muitas aplicações em assuntos relacionados à água.
• Usar DM é de valor se:Ø Existe uma quantidade grande de dadosØ Não há nenhuma mudança considerávelØ Não há nenhum modelo clássico disponívelØ Há uma necessidade para a validação
• A análise e as predições de qualidade devem ser baseadas no uso de modelos diferentes
• O futuro está nos modelos híbridos
Conclusões
Grupo Multidisciplinar de Modelación de Fluidos
OBRIGADO
Joaquín Izquierdo
UNIVERSIDAD POLITÉCNICA DE VALENCIA
VI Seminário Ibero-americano SEREA
João Pessoa 2006