processamento de linguagem natural e suas aplicações em informática em saúde prof dr stefan...

70
Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Upload: internet

Post on 28-Apr-2015

131 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde

Prof Dr Stefan Schulz

Universidade Médica de Graz (Áustria)

Page 2: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)
Page 3: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)
Page 4: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Estrutura da palestra

• Conceitos básicos de lingüística

• Características da linguagem natural em medicina

e ciências biomédicas

• Cenários de processamento de texto livre

• Metodologia de lingüística computacional

• Exemplo

Page 5: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Estrutura da palestra

• Conceitos básicos de lingüística

• Características da linguagem natural em medicina

e ciências biomédicas

• Metodologia de lingüística computacional

• Cenários de processamento de texto livre

• Exemplo

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 6: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Semiótica – estudo dos signos

• Estudo dos signos

• Signos designam objetos / conceitos

• Lingüística: estudos dos signos das linguagem humana

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 7: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Signos Linguísticos

fonemas

morfemas

palavras

frases

textos

sentenças

cardio, hepat,

hepatite

hepatite tipo B

GranularidadeO vírus da hepatite tipo B é transmitido sobretudo por meio do sangue.

Os vírus da hepatite tipo B (HBV) e C (HCV) são transmitidos sobretudo por meio do sangue. Usuários de drogas injetáveis e pacientes submetidos a material cirúrgico contaminado e não-descartável estão entre as maiores vítimas

termos

O vírus da hepatite tipo B

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 8: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Conceitos básicos da lingüística (I)

Fonologia: sistema sonoro consoantes, vogais, ditongos, nasais

Morfologia: formação das palavras(radicais, prefixos, sufixos, infixos)

apendic + ectomia , anti + concepcion + aishepat + o + tomia, psico + s + somát + icoanti + ectomia

Acrônimos: AIDS, CVA, Epônimos: Doença de Parkinson

Sintaxe: regras que regem a construção de frases “Ele estava internado por apendicite”

“A irmã estavam internado por apendicite” “Parts of Speech” (POS): Verbo, substantivo, pronome, adverbios Ambuguidades sintáticas: “[plantas e animais] selvagens”

“plantas e [animais selvagens]”

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 9: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Conceitos básicos da lingüística (II)

Semântica: estudo do significado das palavras / frases

“Realizou-se uma apendicectomia”“Realizou-se uma apendicectomia no ouvido externo”

Relações semânticas:Sinonímia: “enfermo” = “doente”, “perna” = “membro inf.”

Homonímia: “são e salvo”, “São 10 hs.”, “São Paulo”Disambiguação é o processo de identificar o significado correto de uma expressão ambígua.

Pragmática: “Pode deixar de fumar?“ (quero que deixe de fumar)“Está muito quente aqui dentro.” (quero que ligue o ar)

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 10: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Tokens / formas/ lexemas (III)

“When flies fly behind flies, a fly is flying ahead”Quantas palavras?

ocorrências (tokens)

formas (types)

lexemas (unidades lexicais)

“When flies fly behind flies, a fly is flying ahead”

“When flies fly behind flies, a fly is flying ahead”

“When flies fly behind flies, a fly is flying ahead”

1 2 3 4 5 6 7 8 9 10

1 2 3 4 2 5 3 6 7 8

1 2 3 4 2 5 2 6 3 7

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 11: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Léxicos

• Termo: signo lingüístico (não só palavra)• Léxico, dicionário: lista de termos com

atributos lingüísticos e significação • Critérios de inclusão / exclusão:

• Domínio (e.g. medicina, computação)• forma básica (“neoplasia”, não “neoplasias”)• atomicidade (“Escherichia coli”, não “neoplasia

maligna do esôfago”) • freqüência de uso: “fratura de fêmur” vs.

“fratura da falange media do dedo indicador esquerdo”

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 12: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Corpora lingüísticos

• Conjunto de textos que serve como base de análise

• Tipos de analise• analise estatística (ex. listas de freqüência)• avaliação de hipóteses• validação de regras lingüísticas

• Anotação de corpora • POS (part of speech)• Anotação semântica

• Na maioria: textos jornalísticos• Em medicina: corpora importantes: MEDLINE

(inglês) • WWW como corpus

1. 1. Conceitos Básicos 2. 3. 4. 5.

Page 13: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Processamento de Linguagem Natural

• Conceitos básicos de lingüística

• Características da linguagem natural em medicina

e ciências biomédicas

• Metodologia de lingüística computacional

• Cenários de processamento de texto livre

• Exemplo

Page 14: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Linguagem Natural em biomedicina

• Recurso mais importante de informação e

comunicação em

• Medicina

• Ciências biomédicas

• Produzida em diferentes formas

• Comunicação oral

• Escritura manuscrita / datilografada

• Texto legível por computador

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 15: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Comunicação oral

Profissional - Paciente Profissional - Profissional

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 16: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Escritura manuscrita / datilografada

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 17: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Narrativa clínica em prontuário

SEQ DE MULTIPLOS AVCS , HIST DE CRISES

CONVULSIVAS PREVIAS AOS EPISODIOS DESTA NOITE ,

APRESENTANDO PIORA GERAL , DESIDRATACAO LEVE

SEM PIUORA DA FUNACAO RENAL, RX COM

ATELECTASIAS DE BASES - CONSOLIDADCEOS?? PACIENTE

SEM FEBRE MEDIDAAQUI -MAX 37,1 TEM NIVEL SERICO

EM ANDAMNETO DE FENITOINA A SER CHECADO COM

FAMILAIR EM EM 24 H RECEBE TTO ATB COM

CEFUROXIMA VO -HMG NORMAL É DM SEM

IMPORTANTE DESCOPENSACAO.

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 18: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Texto Livre em Periódico indexado em MEDLINE

40,000 registros / mês

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 19: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Observações em prontuários

• Textos produzidos sobre a pressão de tempo: • Deviação consciente da gramática normativa• Linguagem altamente compacta: sentenças incompletas,

acrônimos e abreviações, muitos contextos implícitos, muitas expressões ambíguas fora do contexto.

• Erros involuntários (gramaticais, ortográficos, por ignorar normas gramaticais e ortográficas):

“concerto”, “fraquesa”• Adicionalmente, se os textos não são gravadas e transcritas

por datilógrafos:• Erros sistemáticos e conscientes (omissão de caracteres de

pontuação, omissão de acentos, (de)capitalização“ticlopidina?contraste?infecção?” , “HIPERTENSAO”

• Lapsos de digitação“hipertemsão”

(Ana Carolina Peters et al: Análise de erros de linguagem em sumários de alta. CBIS 2010. )

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 20: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Observações em textos científicos

• Textos produzidos com cuidado e revisão editorial

• Em sumários (abstracts): Textos gramaticais mais compactos, alto índice de nomes próprios (não lexicalizados) e acrônimos, parcialmente expandidos

• Variação e ambigüidade de termos e nomes: “Tyrosine kinase with immunoglobulin and epidermal growth factor

homology domains” = “tie”

NF2 = “Neurofibromatosis 2” [disease]

“Neurofibromin 2”

[protein]

“Neurofibromatosis 2 gene” [gene]

“NF-KB” = “NF-kb”

personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt

1. 1. 2. Linguagem Médica 3. 4. 5.

Page 21: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Processamento de Linguagem Natural

• Conceitos básicos de lingüística

• Características da linguagem natural em medicina

e ciências biomédicas

• Cenários de processamento de texto livre

• Metodologia de lingüística computacional

• Exemplo

Page 22: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Gravação Transcrição Texto eletrônico

Fala vs. escrita, vs. escritura manuscrita

Sistema de Reconhecimento de fala

Sistema de Reconhecimento

de caracteres

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 23: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Princípio de Processamento de Linguagem Natural

Texto eletrônico Processamento Representação

matemática

Léxicos

Corpora

Ontologias

KB

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 24: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Tarefas

• Extração de informação

• Codificação automatizada

• Recuperação de informação

• Recuperação de documentos

• Recuperação de fatos

• Interpretação de linguagem natural

• Tradução automática

• Geração Automática de Texto

• Simplificação de texto

• Correção ortográfica

• (Reconhecimento Vocal)

• (Reconhecimento de Escritura Manuscrita)

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 25: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Recuperação de documentos1. 1. 2. 3. Cenários de PLN 4. 5.

Page 26: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Recuperação de documentos: Abordagem Básica

Uma coleção de documentosD = {d1, d2, ..., dn}

uma consulta (query) qDois métodos:

„Filtro“ divide D em dois conjuntos Drelq e Dnrelq (Drelq = conjunto de documentos relevantes para q) (Dnrelq = conjunto de documentos relevantes para q)

„Ranking“ = classificar por relevancia:D = [d‘1, d‘2, ..., d‘n]com rel (d‘i) rel (d‘i+1)

Combinações possíveis

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 27: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Resultados de busca

Coleção de documentos

Consulta ?

Recuperação de documentos

Documentos classificadoscomo relevantes

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 28: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Ranking de relevância

?

Coleção de documentos

Consulta

Recuperação de documentos

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 29: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Extração de informação1. 1. 2. 3. Cenários de PLN 4. 5.

Page 30: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Extração de informação

Template

Item 1

Item 3

Item 5

Item 2

Item 4

Item 6

Item 7

Item 8

shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a

1. 1. 2. 3. Cenários de PLN 4. 5.

Page 31: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Extração de informação

Tumor registry

Data diagnosticoprimário

Grading

Morfologia

Localizaçãoprimária

Staging

DataTerapia

Quimioterapia

Radioterapia

shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a

Extração de informação1. 1. 2. 3. Cenários de PLN 4. 5.

Page 32: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Estrutura da palestra

• Conceitos básicos de lingüística

• Características da linguagem natural em medicina

e ciências biomédicas

• Cenários de processamento de texto livre

• Metodologia de lingüística computacional

• Exemplo

Page 33: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

“Pipeline” de processamento de linguagem natural

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadorPOS

parser frases nominais

representaçãopadronizada

1. 1. 2. 3. 4. Metodologia 5.

Page 34: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

“Pipeline” de processamento de linguagem natural

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadorPOS

parser frases nominais

representaçãopadronizada

# HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica - IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava descompensação do diabetes com sindrome hiperosmlar não cetótica.

# HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava

1. 1. 2. 3. 4. Metodologia 5.

Page 35: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

“Pipeline” de processamento de linguagem natural

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadorPOS

parser frases nominais

representaçãopadronizada

seq de multiplos avcs , hist de crises convulcivas previas aos episodios desta noitw, apresentando piora geral, desidratacao leve s/ pioura da funcao renal . atelectasias de dases consolidacoes – febre medida aqui max 37,1 tem nivel seico em andamneto de fenitoina

seqüência de múltiplos AVCs , histórico de crises convulsivas previas aos episódios desta noite, apresentando piora geral, desidratação leve sem piora da função renal . Atelectasis de bases consolidações – febre medida aqui max. 37,1 tem nível sérico em andamento de fenitoina

1. 1. 2. 3. 4. Metodologia 5.

Page 36: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

“Pipeline” de processamento de linguagem natural

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadorPOS

parser frases nominais

representaçãopadronizada

Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris..

Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris..

1. 1. 2. 3. 4. Metodologia 5.

Page 37: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

“Pipeline” de processamento de linguagem natural

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadorPOS

parser (chunker)

representaçãopadronizada

Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia.Retorno com CIPED

FoiNOUNextubado VERB, SENTapresentou VERBestridor NOUNque DETcedeu VERBcom PRNBZ NOUNcom PRadrenalina NOUNe DETdexaNOUN.SENTApresentou VERBbradicardia SNOUN. SENT

1. 1. 2. 3. 4. Metodologia 5.

Page 38: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

“Pipeline” de processamento de linguagem natural

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadorPOS

parser (chunker)

representaçãopadronizada

Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia.Retorno com CIPED

FoiNOUNextubado VERB, SENTapresentou VERBestridor NOUNque DETcedeu VERBcom PRNBZ NOUNcom PRadrenalina NOUNe DETdexaNOUN.SENTApresentou VERBbradicardia SNOUN. SENT

1. 1. 2. 3. 4. Metodologia 5.

Page 39: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Mudança de paradigma em Lingüística Computacional

Racionalismo Empiricismo

1990 2000 2010

processamento simbólico processamento probabilístico

síntese

1. 1. 2. 3. 4. Metodologia 5.

Page 40: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Metodologias:

• Processamento simbólico (domínios bem delineados, sem muita IA)• regras de produção• expressões regulares• léxicos, gazeteers (listas com nomes)

• Processamento probabilístico• Corpora

• com anotações manuais: treinamento supervisionado• sem anotações: treinamento não supervisionado

• Modelos• Naive Bayes• MaxEnt• Support Vector Machines (SVN)• Conditional Random Fields (CRF)

1. 1. 2. 3. 4. Metodologia 5.

Page 41: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Problemas do processamento simbólico (“crise de AI”)

• Complexidade computacional• gramáticas

• finite state automata / linear grammars O(n)• pushdown automata / context-free grammars O(n3)• unification grammars, dependency grammars

NP-complete• lógicas

• propositional logic, monadic first-order predicate logic decidable• first-order predicate logic

semi-decidable• nth-order predicate logic (n > 1), modal logics

undecidable

• Manutenção• grandes léxicos, ontologias, bases de conhecimento

1. 1. 2. 3. 4. Metodologia 5.

Page 42: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Desafios (I)

• Processamento simbólico (domínios bem delineados, sem muita IA)• regras de produção• expressões regulares• léxicos, gazeteers (listas com nomes)

• Processamento probabilístico• Corpora

• com anotações manuais: treinamento supervisionado• sem anotações: treinamento não supervisionado

• Modelos• Naive Bayes• MaxEnt• Support Vector Machines (SVN)• Conditional Random Fields (CRF)

1. 1. 2. 3. 4. Metodologia 5.

Page 43: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Desafios (II)

• Dinamica da linguagem real • Produtividade morfológica (“aidético”)• Neologismos , abreviações (“pct”)• entradas erradas e não especificadas

(“CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1”)

• ambiguidade• importância do contexto

• negação (“não foi conformada a hipótese que...”)• incertidão (“neoplasia de comportamento duvidoso”)

• expressões temporais (“nas primeiras duas semanas”)• coordinações complexas (“invasive and metastatic, highly differentiated

carcinoma invasor e matastático, pouco diferenciado”)

1. 1. 2. 3. 4. Metodologia 5.

Page 44: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Recursos

• Ananiadou: Text mining in biomedicine: Techniques and Toolspersonalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt

• openNLP: http://opennlp.sourceforge.net/• UIMA (Unstructured Information Management applications)

http://uima.apache.org/• Association of Computational Linguistics: ACL wiki

http://aclweb.org/aclwiki/index.php?title=Main_Page• Foundation of Statistical Natural Language Processing

http://nlp.stanford.edu/fsnlp/• Livros:

• Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999

• Ananiadou, Mcnaught: Text Mining for Biology And Biomedicine • Hersh: Information Retrieval. A Health and Biomedical Perspective.

1. 1. 2. 3. 4. Metodologia 5.

Page 45: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Processamento de Linguagem Natural

• Conceitos básicos de lingüística

• Características da linguagem natural em medicina

e ciências biomédicas

• Cenários de processamento de texto livre

• Metodologia de lingüística computacional

• Exemplo

Page 46: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Estudo: codificação automatizada

• Fonte:

– sumários de alta do departmento

de cardiologia do Hospital de

Clínicas de Porto Alegre, Brasil

• Destino

• SNOMED Clinical Terms, 01/2009

• Linguagens: Inglês, Espanhol

1. 1. 2. 3. 4. 5. Exemplo

Page 47: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

SNOMED CT

Termos médicos (inclusive sinônimos e

traduções) são conectados com

conceitos (portadores de significado)

311 000conceitos

~750 000 termos em Inglês,

~400 000 em Espanhol

1. 2. 3. 4. 5. Exemplo

Page 48: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

PLN (processamento de linguagem natural)

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadortipo de palavra

extraçãofrases nominais

deteção de contexto

abstraçãomorfo-semântica

SCT - EN

SCT - SP

criaçãosubconjunto

abstraçãomorfo-semântica

MID-representaçãoSNOMED CT

MID-representação

candidatos a termo

1. 2. 3. 4. 5. Exemplo

Page 49: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Mapeamento de termos médicos

Problema:

highbloodpressure

hipertensãoarterial

meningoencefalite

Bluthochdruck

Entzündung

von Hirnhäuten

Gehirn

und

meningocerebral inflammation hipertensiónarterialmeningoencefaliti

s

Aborgagem MorphoSaurus: construir equivalências semánticas a nivel de fragmentos de palavras

1. 2. 3. 4. 5. Exemplo

Page 50: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Átomos semânticos ou „subwords“

• Definição: sequência de caracteres cujo

significado não decorre dos significados dos

componentes, exemplo: diafise mas não dia +

fisediáfise = haste do osso, fise (gr. physis) = natureza

neur + ite, mas neurose, não neur + oseneur… = nervo, -ite = inflamação, -ose = doença:

Uma neurite é uma inflamação de nervo(s), mas neurose não é

uma doença de nervo(s)

• Subwords podem ser morfemas assim como

combinações de morfemas, inclusive palavras

inteiras

1. 2. 3. 4. 5. Exemplo

Page 51: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Sistema MorphoSaurus

• Sistema de indexação morfo-semântica

• Traduz texto para interlíngua

• Domínio: Linguagem Clínica

• Idiomas: Inglês, Alemão, Português, Espanhol, Sueco, Francês

• Componentes:

Léxico de subwords

Tesauro

Parser morfossintático

Indexador

1. 2. 3. 4. 5. Exemplo

Page 52: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Modelo do Léxico

String of characters

Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}

Language = {English, German, Spanish, Portuguese, French, Swedish}

Lexeme(e.g. „anticoncepcionais“)

[anti, prefix, portuguese][concepc, stem, portuguese][ionais, terminal suffix, portuguese]

(e.g. „partnership“)

[partner, stem, english][ship, suffix, english]

(e.g. „ship“)

[ship, invariant, english]

1. 2. 3. 4. 5. Exemplo

Page 53: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Modelo do Léxico

String of characters

Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}

Language = {English, German, Spanish, Portuguese, French,Swedish}

Lexeme

MID1..n 1

MID42= ([muscle, stem, english], [muscul, stem,

english], [myo, prefix,

english], [muscul, stem,

portuguese], [mio, prefix,

portuguese], [muskel, stem,

german], [muskul, stem,

german], [myo, prefix,

german])

MIDs identificam grupos de lexemas sinônimos

1. 2. 3. 4. 5. Exemplo

Page 54: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Modelo do Léxico

String of characters

Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}

Language = {English, German, Spanish, Portuguese, French,Swedish}

Lexeme

MID1..n 1

1

12…n

2…n

has-sense

expands-to

associa um MID ambíguo com dois ou mais MID nãoambíguos

(expansão paradigmática)

associa um MID de sentido não atômico com dois ou mais MID atômicos

(expansão sintagmática)

1. 2. 3. 4. 5. Exemplo

Page 55: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Modelo do Léxico

MID

1

12…n

2…n

has-sense

expands-to

associa um MID ambíguo com dois ou mais MID nãoambíguos

(expansão paradigmática)

associa um MID de sentido não atômico com dois ou mais MID atômicos

(expansão sintagmática)

MID16: ([head, stem, english])- has-sense MID12:

([caput, stem, english], [capit, stem, english], [cephal, stem, english], [cefal, stem, portuguese], [cabec, stem, portuguese])

- has-sense MID34: ( [chief, stem, english], [chef, stem, portuguese])

MID26: ([myalg, stem, english], [mialg, stem, portuguese])

-expands-to MID42: ([muscle, stem, english],

[muscul, stem, english], [muscul, stem, portuguese])

-expands-to MID88: ([pain, stem, english],

[dor, invariant, portuguese], [algia, suffix, portuguese])

1. 2. 3. 4. 5. Exemplo

Page 56: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

1. 2. 3. 4. 5. Exemplo

Page 57: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Hahn, Schulz et al., RIAO 2004

Queries: German, Documents: English(OHSUMED collection)

Baseline: English / English

Morphosaurus Indexing

Automated Query Translation+Dictionary Lookup

Sistema MorphoSaurus : resultados experimentais em cenário CLIR

1. 2. 3. 4. 5. Exemplo

Page 58: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

PLN (processamento de linguagem natural)

identificarsentenças

verificarortografia

expansãoacrônimos

identificaçãode nomes

etiquetadortipo de palavra

extraçãofrases nominais

deteção de contexto

abstraçãomorfo-semântica

SCT - EN

SCT - SP

criaçãosubconjunto

abstraçãomorfo-semântica

MID-representaçãoSNOMED CT

MID-representação

candidatos a termo

Heurística deMapeamento

1. 2. 3. 4. 5. Exemplo

Page 59: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Heurística de mapeamento: Exemplo

SNOMED CTConcept Description

MIDs

ENG: Congestive heart failure #abund #cardiac #deficien

ENG: Congestive cardiac failure #abund #cardiac #disorder

POR: Insuficiência cardíaca #insuff #cardiac

SPA: Insuficiencia cardíaca  #insuff #cardiac

SPA: Insuficiencia cardíaca congestiva #insuff #cardiac #abund

1. 2. 3. 4. 5. Exemplo

Page 60: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Heurística de mapeamento

• Para cada “candidato a termo” no documento

• decida se existem um termo SNOMED correspondentes

• caso sim, seleccione o melhor termo SNOMED

• Critérios de preferência:

• Sequências “típicas” de etiquetas POS, ex:

“Infarto agudo do miocárdio”

substantivo – adjetivo – DE – substantivo

• coincidência de MIDs

• threshold: 60%

• Em caso de falha: verifique se “candidato a termo”

corresponde para dois conceitos da SNOMED , usando

relacionamentos da SNOMED para preselecção

1. 2. 3. 4. 5. Exemplo

Page 61: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Padrão ouro (kappa = 0.89)

1. 2. 3. 4. 5. Exemplo

Page 62: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Resultados preliminares

Number of tokens (MIDs) Correct Mappings2 66%3 71%4 80%5 89%6 79%7 80%8 75%9 45%10 25%

1. 2. 3. 4. 5. Exemplo

Page 63: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Próximo passo: identificar contextos

• Problema: nem toda ocorrência de um termo em um

documento refere a uma instância concreta de um conceito

terminológico ou ontológico

• Contextos alternativos:

• planos

• hipóteses

• negação

• Ignorar contextos: dados não confiáveis

1. 2. 3. 4. 5. Exemplo

Page 64: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

acute abdomen

CTabdomen

aortal aneurysm

aneurysm-ectomy

vascular prosthesis

deathsystemicinfection

multiple organ failure

vasoactive drug

hemodialysis

Paciente interna por quadro de abdome agudo. TC de abdome mostrou aneurisma de aorta com evidencia de extravasamento de contraste. Levado a cirurgia de urgência, sendo realizada aneurismectomia com colocação de prótese. No pós-operatório evoluiu com síndrome da resposta inflamatória sistêmica, com disfunção de múltiplos órgãos e instabilidade hemodinâmica. Apesar do manejo com drogas vasoativas, reposição hídrica e hemodiálise veno-venosa crônica, o paciente apresentou piora progressiva, evoluindo para óbito.

Ontology

Contextos: Exemplo 1

1. 2. 3. 4. 5. Exemplo

Page 65: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

incisionalhernia herniorrhaphy

operation room

liver transplant

operation

• instance • not instantiated• reference to a

plan

operation

• reference to a suspendedplan

• instance • referenceto a plan

• NOT referringto the samepatient

• reference to a new plan

• not yet executed

PACIENTE COM HÉRNIA INCISIONAL INTERNOU PARA REALIZAÇÃO DE HERNIOPLASTIA PORÉM A CIRURGIA FOI SUSPENSA DEVIDO A NECESSIDADE DE SALA COM URGÊNCIA PARA TRANSPLANTE HEPÁTICO. RECEBE ALTA COM ORIENTAÇÕES E CIRURGIA REMARCADA.

Ontology

Contextos: Exemplo 2

1. 2. 3. 4. 5. Exemplo

Page 66: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

ConclusãoConclusão

• Trabalho ainda não concluído– primeiros resultados mostram que o mapeamento para

SNOMED funciona através de idiomas

• Trabalho futuro– completar o “pipeline”

– Avaliar impacto de cada elemento do pipeline

– Identificar contextos

– Uso da estrutura ontológica da SNOMED

– Publicação em preparação (IEEE Transactions on Information Technology in Biomedicine)

Page 67: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

ConclusãoTeste de conhecimento (i)

S1: “O cachorro estão latindo”

S2: “A lua está latindo”

__ S1 viola uma regra morfológica

__ S2 viola uma regra pragmática

__ S1 está sintáticamente correta

__ “latindo” é uma palavra lexicalmente ambígua

Page 68: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

ConclusãoTeste de conhecimento (ii)

__ codificação automatizada é um exemplo de extração de informação

__ reconhecimento automatizado é um recurso imprescindível para PLN em medicina

__ Em PLN, a metodologia probabilística está sendo

substituída por metodologias baseadas em IA

__ Um parser identifica a estrutura hierárquica de uma sentença

Page 69: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

ConclusãoTeste de conhecimento (iii)

__ um corretor ortográfico é um elemento importante de um pipeline de PLN quando é utilizado para processar textos científicos

__ na tradução de termos médicos o número de tokens fica constante

__ No processamento de linguagem clínica a identificação de frases com negação é importante

__ Todos os motores de recuperação de documentos produzem um ranking por relevância

Page 70: Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde Prof Dr Stefan Schulz Universidade Médica de Graz (Áustria)

Acknowledgements

• German Research Foundation (DFG)

• International Bureau of the

German Ministry of Research (BMBF-IB)

• Brazilian National Research Council (CNPq)

• Paraná Catholic University (PUCPR), Curitiba

• Hospital de Clínicas de Porto Alegre (HCPA)

• Averbis GmbH, Freiburg