Transcript

Seleção de Gabaritos TBL usando Algoritmos Genéticos

Julio Cesar DuarteCícero Nogueira dos Santos

Ruy Luiz Milidiú

Pontifícia Universidade Católica do Rio de Janeiro – PUC-RioDepartamento de InformáticaLaboratório de Engenharia de Algoritmos e Redes Neurais - LEARN

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

2

Sumário

TBL – Revisão Gabaritos TBL Algoritmos Genéticos Modelagem Experimentos e Resultados

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

3

O algoritmo TBLCorpus de Treino não etiquetado

Classificador Inicial

Corpus de Treino atual

Derivação e avaliação das regras

candidatas

Seleção da regra a ser aplicada

Aplicação da regra ao corpus de treino.

Corpus de Treino etiquetado corretamente

Gabaritos

Seqüência de regras aprendidas.

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

4

O jovem esqueceu a caneta ART N V ART N

ART ADJ V ART N

Gabaritospos[-1] pos[0] word[0] pos[1]

SE pos[-1]=ART E pos[0]=ADJ EWord[0]=jovem E pos[1]=V ENTÃO pos[0]=N

Regra:

Interpretação:

pos[-1]=ART pos[0]=ADJ word[0]=jovem pos[1]=V -> pos[0]=N

Termo atômico

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

5

– Combinação de features relevantes– Construídos manualmente– Construção depende de um

especialista no domínio– Trabalho intensivo– Adaptações podem ser necessárias

quando mudamos de uma língua p/ outra.

Gabaritos

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

6

Geração de gabaritos usando GA

Motivação— Evitar o uso do especialista, ou,— Facilitar o trabalho do especialista

Proposta— Usar algoritmos genéticos— Modelagem simples visando a

eficiência— Usar varias estratégias de modelagem

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

7

Algoritmos Genéticos Modelos Computacionais inspirados no

mecanismo da evolução— Cromossomo Indivíduo (Possível

Solução)— Problema de otimização

• Codificação do problema• Função de avaliação• Heurística = Aplicação de operadores

genéticos

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Codificação do Problema (Indivíduo/Cromossomo)

Normalmente, cadeia de 0´s e 1´s Indicam a presença, ou não, de

uma característica (feature)

f1 f2 f3 f4 ... fn

1 0 1 1 0

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

9

Função de Avaliação Tem como argumento um indivíduo

e calcula a aptidão do indivíduo. Aptidão = medida de desempenho

do indivíduo no problema

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Operadores Genéticos Operadores de Seleção:

—Decidem, baseados no fitness, os

“melhores” indivíduos• Persistem na população

• Utilizados pelos outros operadores

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Operadores Genéticos Operadores de Recombinação:

—Criam “novos” indivíduos a partir de indivíduos

selecionados

• Cruzamento: Combina frações de indivíduos em novos

• Mutação: Gera uma pequena alteração em um

indivíduo

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

12

Algoritmos Genéticos - Funcionamento

Gerar população inicial Calcular aptidão de cada indivíduo Enquanto critério_de_parada ==

False:— Selecionar melhores indivíduos

(descartar demais indivíduos, menos aptos)

— Aplicar operadores de reprodução— Aplicar operadores de mutação— Calcular aptidão de cada indivíduo

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

13

Modelagem 4 abordagens para seleção de

gabaritos: Cada uma carrega uma quantidade

de conhecimento diferente

Conhecimento ( ) x Desempenho ( )

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(1) Janela de contexto fixa Gabaritos formados por TAs da forma

mais simples f[ds] Entrada:

—Lista de features, maxOffset, número de templates e tamanho esperado do template.

Saída:—Seqüências de f[ds] onde ds Є {-maxOffset,

+maxOffset}

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (FCW) Features = {f1, f2}, maxOffset = 1 2 gabaritos com tamanho esperado

3

Gabaritos gerados:—f1[-1] f1[+1] f2[-1] f2[+1]

—f2[-1] f2[0]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(2) Lista fixa de TAs É mais fácil construir TAs do que

gabaritos. Gabaritos formados por qualquer tipo de

TAs Entrada:

—Lista de TAs (L), número de gabaritos e tamanho esperado do gabarito.

Saída:—Seqüências de TA’s onde TA Є L

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (FLAT) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]} 2 gabaritos com tamanho esperado 3

Gabaritos gerados:—f1[−2] f2[0] f2[−3,−1]—f1[−1] f2[0] f1[1, 2]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(3) Gabarito com tamanho

máximo Muito similar ao anterior No lugar de um tamanho esperado, tem-se

um tamanho máximo para o gabarito Valor do cromossomo indica posição na lista

—-1 ausência de TA—Valores repetidos são descartados

Entrada:—Lista de TAs (L), número de gabaritos e tamanho

máximo do gabarito Saída:

—Seqüências de TA’s onde TA Є L

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (MTS) TAs = {f1[−1], f1[−2], f2[0], f2[1], f1[1, 2], f2[−3,−1]}

3 gabaritos com tamanho máximo 4

Gabaritos gerados:— f1[−2] f2[1] f1[−1] — f2[−3,−1] f1[−2] f2[1] f2[0] — f1[−2] f2[0] f2[1]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

(4) Lista de gabaritos Tentativa de melhorar trabalho do

especialista Nova combinação de gabaritos já

construídos—TBL é uma heurística gulosa inserir um novo

gabarito pode piorar o desempenho global Entrada:

—Lista de gabaritos (T) e número esperado de gabaritos

Saída:—Subconjunto de T

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Exemplo (TL) T = {τ00, τ01, τ02, τ03, τ04, τ05, τ06, τ07, τ08, τ09,

τ10, τ11} Número de gabaritos esperado = 7

Gabaritos gerados:—{τ00, τ02, τ05, τ06, τ08, τ09, τ10}.

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Modelagem Função de avaliação

—Um conjunto de regras TBL é gerado a partir de cada indivíduo

—Aptidão = F1-score medido num conjunto de validação• F1-score = Média Harmônica entre a

precisão e abrangência

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Modelagem Operadores:

—Cruzamento: Quebra de dois indivíduos em ponto aleatório

—Mutação: Troca aleatória de um valor no dna:• 0 1 e vice-versa• MTS: x [-1, número de termos atômicos

- 1]

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Experimentos – Tarefas English Text Chunking

[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ]

onde: NP = Noun Phrase; VP = Verb Phrase; PP = Prepositional Phrase Chunk

English Noun Phrase Chunking [NP He ] reckons [NP the current account deficit ] will narrow to

[NP only # 1.8 billion ] in [NP September ] Portuguese Named Entity Extraction

[PER Bill Gates] é, em parceria com sócio [PER Paul Allen], o fundador da [COM Microsoft].

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

25

Experimentos Divisão do corpus— Treinamento

• Pequenas frações separadas para o treinamento do genético

— Teste Resultados reportados— Medida-F no conjunto de teste — Tempo total de treinamento

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados BNP - FCW

Resultados muito bons, com tempo de treinamento compatíveis

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados BNP – MTS e FLAT

Comportamentos similares Aumento na performance e tempo de

treinamento

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados BNP - TL

Resultados um pouco melhores que o humano

Aumento no tempo de treinamento

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Resultados condensados CK e

NE

Resultados similares ao BNP NE

resultados melhores mesmo com modelagens mais simples Aumento no tempo de treinamento 1 x 100 (alto relativamente,

porém baixo em valores absolutos) Gabaritos gerados por humanos são bem específicos

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

Considerações GA TBL Construção de gabaritos é um

processo caro Método automático de

criação/seleção de gabaritos—Resultados muito melhores que BLS—Perda de desempenho aceitável—Tempo de treinamento compatíveis:

• Algumas vezes, MENOR• maior, apenas caso não se incorpore o

tempo de intervenção do especialista

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

31

Referências bibliográficasBRILL, E. Transformation-based error-driven learning and

natural language processing: A case study in part-of-speech tagging. Computational Linguistics, 21(4):543–565, 1995.

BRILL, E. Recent Advances in Parsing Technology, chapter Learning to Parse With Transformations. Kluwer Academic Publishers, 1996.

DAY, David; Aberdeen, John; Hirschman, Lynette; Kozierok, Robyn; Robinson, Patricia ; and Vilain, Marc. Mixed-Initiative Development of Language Processing Systems. In Fifth Conference on Applied Natural Language Processing, 1997, pp. 348–355. ACL

FLORIAN, R., HENDERSON, J. e NGAI, G. Coaxing confidence from an old friend: Probabilistic classifications from transformation rule lists. Em Proceedings of EMNLP/VLC-2000, Hong Kong, October 2000.

HIGGINS, Derrick. A transformation-based approach to argument labeling. CoNLL 2004.

MANGU, L. e BRILL, E. Automatic rule acquisition for spelling correction. Em Proceedings of The Fourteenth International Conference on Machine Learning, ICML 97. Morgan Kaufmann, 1997.

Transformation-Based LearningSeminário apresentado na disciplina Aprendizado de Máquina – PUC-Rio/DI – 27 de abril de 2023

32

Referências bibliográficasMEGYESI, B. Shallow parsing with pos taggers and linguistic

features. Journal of Machine Learning Research, 2:639–668, 2002.

NGAI, G. e FLORIAN, R. Transformation-based learning in the fast lane. In Proceedings of North American Chapter of the Association for Computational Linguistics, págs. 40–47, June 2001.

Projeto Lácio Web. Link: ttp://www. ilc cmc sp r acioweb RAMSHAW, L. e MARCUS, M. Text chunking using

transformation-based learning. In Proceedings of the Third Workshop on Very Large Corpora, págs. 82–94, New Jersey, USA, 1995. ACL.

SAMUEL, K., CARBERRY, S. e VIJAY-SHANKER, K. Dialogue act tagging with transformation-based learning. Em Proceedings of COLING/ACL’98, págs. 1150–1156, 1998.

SANTOS, Cícero Nogueira dos. Aprendizado de Máquina na Identificação de Sintagmas Nominais: O caso do Português Brasileiro. Dissertação de Mestrado, IME, Rio de Janeiro, 2005.

WILLIAMS, Ken; Dozier, Christopher and McCulloh, Andrew. Learning Transformation Rules for Semantic Role Labeling. CoNLL 2004.


Top Related