extração automática de candidatos a termos:

36
Extração Automática de Candidatos a Termos: Uma visão geral sobre os termos e a extração automática Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009

Upload: taariq

Post on 23-Feb-2016

37 views

Category:

Documents


4 download

DESCRIPTION

Extração Automática de Candidatos a Termos:. Uma visão geral sobre os termos e a extração automática . Leandro Henrique NILC-ICMC/USP & EMBRAPA Abril 2009. Roteiro. Um pouco de Terminologia Um breve histórico Termos e Terminologia O que é um Termo? Dimensões dos Termos - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos:

Uma visão geral sobre os termos e a extração automática

Leandro HenriqueNILC-ICMC/USP & EMBRAPA

Abril 2009

Page 2: Extração Automática de Candidatos a Termos:

Roteiro Um pouco de Terminologia

Um breve histórico Termos e Terminologia

O que é um Termo? Dimensões dos Termos

Extração Automática de Candidatos a Termos O reconhecimento terminológico Método Estatístico Método Linguístico Método Híbrido

NSP – N-Gram Statistic Package Conclusão

Page 3: Extração Automática de Candidatos a Termos:

Um pouco de Terminologia

Breve Histórico (1) Subárea do Curso de Letras

Não existe curso de Terminologia

É uma área Aplicada e Teórica Aplicada: mais antiga, ligada aos saberes técnicos e científicos (séc. XVII)

Vocabulários específicos e nomenclaturas técnico-científicas

Teórica: mais recente, estudos dos termos nas comunicações especializadas

(séc. XX) Formação dos termos técnico-científicos

Demarcação do Léxico Geral e Léxico das Ciências

Terminologia nos aspectos Disciplinar, Social e Político

Page 4: Extração Automática de Candidatos a Termos:

Um pouco de Terminologia

Breve Histórico (2) A Terminologia:

estuda os Léxicos Especializados

relação direta com os avanços da ciência

denominações das novas descobertas e invenções do homem

relação com a Globalização agente de intercâmbios culturais, científicos e tecnológicos

tradução e uso correto dos termos

interesse do Público Geral

busca e ampliação do conhecimento específico

Page 5: Extração Automática de Candidatos a Termos:

Um pouco de Terminologia

A Terminologia é fundamental na sociedade atual pois trabalha na ampliação e difusão do

conhecimento, baseando-se na linguagem especializada, sobretudo sobre os termos como veículo transmissor do conhecimento específico.

Page 6: Extração Automática de Candidatos a Termos:

Um pouco de Terminologia

Terminologia no Brasil Início em 1986 ANPOLL

Crescimento de 1990 em diante: UnB: Lexterm MCT: IBICT USP/FFLCH: Citrat PUC-Rio ABNT UFPE UFRGS: Termisul UFCE UFG UNESP: Ibilce UFSCar: GETerm UFU

Page 7: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Questões: O que é um Termo?

Qual o papel dos Termos?

O que diferencia um Termo de uma Palavra?

Termo é uma unidade lexical de significação especializada.

Expressar e transferir o conhecimento de caráter especializado

Propriedades:da dimensão conceitual e invariabilidade semântica

Page 8: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Isso quer dizer que:

Que o significado de uma determinada palavra do léxico geral está associada, na maioria das vezes, ao contexto discursivo em que está inserida, diferentemente do que ocorre com os termos, que se limitam a expressar conceitos específicos.

Page 9: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Exemplos:

1 Casa

João foi para casa depois do trabalho.

A Justiça Federal protege a casa de João.

Língua Geral

Casa Domínio Jurídico

Casa: Bem inviolável...

Page 10: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Exemplos:

2 Lençol

Joana estendeu o lençol de sua cama.

A torcida vibrou com o lençol do atacante sobre o goleiro.

Língua Geral

Lençol Domínio Futebol

Lençol: Lance no qual o jogador encobre o adversário com a bola. O mesmo que Chapéu.

Page 11: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Exemplos:

3 Letra

Ninguém consegue entender a letra do Francisco.

O Pelé fez um gol de letra.

Língua Geral

Letra Domínio Futebol

Letra: Toque na bola após a mesma passar entre as pernas do jogador .

Page 12: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Percepções:

Os Termos nascem como Palavras Antes de ser Termo ele é uma Palavra

O Termo participa o léxico geral Possui contextos linguísticos e pragmáticos

Processo da “Terminologização” Valorização terminológica de uma determinada Palavra

Avanços da Ciência

Globalização

Ampliação do Conhecimento

PALAVRA TERMOTerminologização

Page 13: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Terminologização é processo pelo qual as palavras da língua geral adquirem significados específicos, pertinentes a uma determinada área do saber científico, tornando-se então, elementos integrantes dos repertórios terminológicos. Desse ponto de vista, uma unidade lexical pode assumir o valor de termo fazendo parte da representação dos princípios e propósitos de uma área.

Page 14: Extração Automática de Candidatos a Termos:

Termos e Terminologia

Dimensões dos Termos:

Termo

Dimensão Conceitual

Dimensão Linguística

Dimensão Comunicacional

Representa a estrutura morfológica do termo e as

diferentes possibilidades de formação e combinação

lexical.

Representa a vertente comunicativa, na tarefa de comunicar e transmitir o

conhecimento especializado de forma eficiente.

Representa o conceito e o conhecimento especializado o qual se

refere.

Page 15: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

É a obtenção do conjunto terminológico que compõe a nomenclatura do produto terminológico (do glossário, dicionário ou base de dados).

Em Terminologia:

É o processo automático de reconhecer e extrair os candidatos a termos presentes em um determinado córpus de especialidade.

Em Computação:

A Extração de Termos é:

Page 16: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

Córpus

Extrator deTermos

Lista deTermos

Esquema geral

Page 17: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

A tarefa de extração de termos é crucial para várias aplicações:

Recuperação de Informação Criação (semi-)automática de ontologias

• OntoLP – dissertação de mestrado (PUC-RS - Junior, 2007)

Sumarização Automática Indexação e Classificação de Textos Alinhamento de Textos Bilíngües Tradução Recursos Básicos de Processamento de Línguas Naturais (PLN) Edição Suportada por Computador Corretores Gramaticais Geração de Língua Natural

Page 18: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos Um tema de pesquisa

área da Linguística (reconhecimento terminológico) Termos tridimensionais

área da Computação (aplicação do conhecimento)

Gargalo do Trabalho Terminológico Trabalho difícil e custoso

Exige atenção e perspicácia

Page 19: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

Córpus

Extrator deTermos

Lista deTermos

Ruído (falso positivo)

Silêncio (falso negativo)

Problemas Silêncio e Ruído

Verificação das Listas (resultado)

Page 20: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

Métodos de Extração Automática Métodos Estatísticos

Métodos Linguísticos

Métodos Híbridos

Geralmente detectam as unidades terminológicas de acordo com a freqüência em que elas ocorrem em um córpus.

Detectam padrões de formação morfossintáticos dos termos tais como “substantivo-adjetivo” e “substantivo-preposição-substantivo”.

Utilizam a estatística juntamente com o conhecimento linguístico.

Page 21: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos Método Estatístico

Puramente estatístico (sem conhecimento linguístico)

Várias medidas estatísticas• Frequência Simples• Informação Mútua• Coeficiente Dice• Log-Likelihood• C-Value• Teste X2

Trabalho mais simples/fácil

Independente de domínio

Alteração nos Valores de Corte

Gera muito Ruído

Page 22: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos Método Linguístico

Uso de conhecimento linguístico• Córpus etiquetado (POS-Tagger), informações lexicográficas, morfológicas e semânticas• Ferramentas: tokenizador, lematizador, análise sintática• Definição dos Padrões de Formação de Termos

Trabalho humano (linguísta)• Definição dos Padrões

Trabalho mais elaborado/difícil

Ajustes nos Padrões• Dependente de domínio

Gera muito Ruído ou Silêncio• Depende da quantidade de padrões aplicados

Resultados tendem a ser melhores

EXEMPLOS

N / NP / Adj / Verb

N + Adj / N + N / Adj + N / Adj + Adj / N + Adv

N + Prep + N / N + Prep + NP / N + N + Adj / N + Adj + Adj / N + Prep

+ Adj

Page 23: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

Córpus

Extrator deTermos

Lista deTermos

Aplicação do Conhecimento Linguístico

Page 24: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos Método Híbrido

Uso da estatística e de conhecimento linguístico

Tipos:• Estatístico => Linguístico (Problemas de Ruído)• Linguístico => Estatístico (Problemas de Silêncio)

Trabalho humano (linguísta)• Definição dos Padrões

Trabalho muito mais elaborado/difícil

Ajustes nos Padrões• Dependente de domínio

Melhores resultados• Linguístico => Estatístico

Page 25: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

Córpus

Extrator deTermos

Lista deTermos

Parte Linguística

Parte Estatística

Híbrido: Estatístico - Linguístico

Page 26: Extração Automática de Candidatos a Termos:

Extração Automática de Candidatos a Termos

Córpus

Extrator deTermos

Lista deTermos

Parte Estatística

Parte Linguística

Híbrido: Linguístico – Estatístico

Page 27: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics Package Pacote estatístico para manipulação de n-Grams

Ted Pedersen e colaboradores (Universidade de Minnesota)• http://www.d.umn.edu/~tpederse/nsp.html

n-Gram Unidade Lexical de tamanho n

onde n = tamanho do termo, pode ser n= (1,2,3... n) .

Exemplos: n = 1: Unigrama, n = 2: Bigramas, n = 3: Trigramas

Implementado em Perl

Possui vários programas (9 no total):count.pl statistic.pl combig.pl

huge-combine.pl huge-count.pl kocos.pl

rank.pl sort-bigrams.pl split-data.pl

Page 28: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics Package

Estatísticas para análise de tokens e córpus é o uso mais comum

Possibilidade de vários outros trabalhos Contador de Frequências

Limpeza de córpus

Análise estatística e de co-relação de termos

Extração Automática de Termos

etc.

Page 29: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics Package

COUNT.PL

Calcula a frequência de n-grams em um texto/córpus.

Textos/Córpus

COUNT.PL Frequências de n-Grams

Page 30: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics Package COUNT.PL

• count.pl –-help

• count.pl [OPCOES] <saida> <entrada>

• Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod

Exemplos:

1) Uso do count.pl (opções)1) --ngram2) --token3) --stop4) --remove5) --frequency6) --window7) --histogram

2) Lexia Simples/Complexa

Page 31: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics Package

STATISTIC.PL

Calcula as medidas de associação dos nGrams de texto/córpus.

STATISTIC.PL

Frequências de n-Grams

Medida de Associação

n-Grams com medida

Page 32: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics PackageSTATISTIC.PL – Medidas de Associação

BRIGRAMAS TRIGRAMAS

Chi-Squared• Phi Coeficient• T-score• X2

Dice Coeficient –

Jaccar Coeficient –

Fischer Test –

Mutual Information Mutual Information

True Mutual Information True Mutual Information

Pointwise Mutual Information Pointwise Mutual Information

Log-likelihood Log-likelihood

Poison-Stirling Poison-Stirling

Medidas são arquivos com extensão “ponto PM” (.pm)

Perl Module

Page 33: Extração Automática de Candidatos a Termos:

NSP – n-Gram Statistics Package STATISTIC.PL

• statistic.pl –-help

• statistic.pl [OPCOES] <medida_associacao> <saida> <resultado_count>

• Documentação Básica: http://search.cpan.org/~tpederse/Text-NSP/doc/USAGE.pod

Exemplos:

1) Uso do statistic.pl (opções)1) --ngram2) --score3) --rank4) --frequency5) --precision

Page 34: Extração Automática de Candidatos a Termos:

NSP – N-Gram Statistics Package Interface Web do NSP – Frequência Simples

Page 35: Extração Automática de Candidatos a Termos:

Conclusões Área de Pesquisa

melhorar os resultados testar novos métodos mesclar métodos conhecidos

Difícil automatização reconhecimento terminológico (Como identificar um Termo?)

• Dependente de domínio

mas tem se desenvolvido

Usado em várias aplicações e atividades Fundamental para Terminologia

O NSP pode ser uma boa opção para abordagem estatística Vários aspectos implementados

• Evita retrabalho Precisa de mais documentação oficial

Page 36: Extração Automática de Candidatos a Termos:

F I M!Muito Obrigado!

Leandro [email protected]