processamento de linguagem natural e suas aplicações em informática em saúde prof dr stefan...
Post on 28-Apr-2015
132 Views
Preview:
TRANSCRIPT
Processamento de Linguagem Natural e Suas Aplicações em Informática em Saúde
Prof Dr Stefan Schulz
Universidade Médica de Graz (Áustria)
Estrutura da palestra
• Conceitos básicos de lingüística
• Características da linguagem natural em medicina
e ciências biomédicas
• Cenários de processamento de texto livre
• Metodologia de lingüística computacional
• Exemplo
Estrutura da palestra
• Conceitos básicos de lingüística
• Características da linguagem natural em medicina
e ciências biomédicas
• Metodologia de lingüística computacional
• Cenários de processamento de texto livre
• Exemplo
1. 1. Conceitos Básicos 2. 3. 4. 5.
Semiótica – estudo dos signos
• Estudo dos signos
• Signos designam objetos / conceitos
• Lingüística: estudos dos signos das linguagem humana
1. 1. Conceitos Básicos 2. 3. 4. 5.
Signos Linguísticos
fonemas
morfemas
palavras
frases
textos
sentenças
cardio, hepat,
hepatite
hepatite tipo B
GranularidadeO vírus da hepatite tipo B é transmitido sobretudo por meio do sangue.
Os vírus da hepatite tipo B (HBV) e C (HCV) são transmitidos sobretudo por meio do sangue. Usuários de drogas injetáveis e pacientes submetidos a material cirúrgico contaminado e não-descartável estão entre as maiores vítimas
termos
O vírus da hepatite tipo B
1. 1. Conceitos Básicos 2. 3. 4. 5.
Conceitos básicos da lingüística (I)
Fonologia: sistema sonoro consoantes, vogais, ditongos, nasais
Morfologia: formação das palavras(radicais, prefixos, sufixos, infixos)
apendic + ectomia , anti + concepcion + aishepat + o + tomia, psico + s + somát + icoanti + ectomia
Acrônimos: AIDS, CVA, Epônimos: Doença de Parkinson
Sintaxe: regras que regem a construção de frases “Ele estava internado por apendicite”
“A irmã estavam internado por apendicite” “Parts of Speech” (POS): Verbo, substantivo, pronome, adverbios Ambuguidades sintáticas: “[plantas e animais] selvagens”
“plantas e [animais selvagens]”
1. 1. Conceitos Básicos 2. 3. 4. 5.
Conceitos básicos da lingüística (II)
Semântica: estudo do significado das palavras / frases
“Realizou-se uma apendicectomia”“Realizou-se uma apendicectomia no ouvido externo”
Relações semânticas:Sinonímia: “enfermo” = “doente”, “perna” = “membro inf.”
Homonímia: “são e salvo”, “São 10 hs.”, “São Paulo”Disambiguação é o processo de identificar o significado correto de uma expressão ambígua.
Pragmática: “Pode deixar de fumar?“ (quero que deixe de fumar)“Está muito quente aqui dentro.” (quero que ligue o ar)
1. 1. Conceitos Básicos 2. 3. 4. 5.
Tokens / formas/ lexemas (III)
“When flies fly behind flies, a fly is flying ahead”Quantas palavras?
ocorrências (tokens)
formas (types)
lexemas (unidades lexicais)
“When flies fly behind flies, a fly is flying ahead”
“When flies fly behind flies, a fly is flying ahead”
“When flies fly behind flies, a fly is flying ahead”
1 2 3 4 5 6 7 8 9 10
1 2 3 4 2 5 3 6 7 8
1 2 3 4 2 5 2 6 3 7
1. 1. Conceitos Básicos 2. 3. 4. 5.
Léxicos
• Termo: signo lingüístico (não só palavra)• Léxico, dicionário: lista de termos com
atributos lingüísticos e significação • Critérios de inclusão / exclusão:
• Domínio (e.g. medicina, computação)• forma básica (“neoplasia”, não “neoplasias”)• atomicidade (“Escherichia coli”, não “neoplasia
maligna do esôfago”) • freqüência de uso: “fratura de fêmur” vs.
“fratura da falange media do dedo indicador esquerdo”
1. 1. Conceitos Básicos 2. 3. 4. 5.
Corpora lingüísticos
• Conjunto de textos que serve como base de análise
• Tipos de analise• analise estatística (ex. listas de freqüência)• avaliação de hipóteses• validação de regras lingüísticas
• Anotação de corpora • POS (part of speech)• Anotação semântica
• Na maioria: textos jornalísticos• Em medicina: corpora importantes: MEDLINE
(inglês) • WWW como corpus
1. 1. Conceitos Básicos 2. 3. 4. 5.
Processamento de Linguagem Natural
• Conceitos básicos de lingüística
• Características da linguagem natural em medicina
e ciências biomédicas
• Metodologia de lingüística computacional
• Cenários de processamento de texto livre
• Exemplo
Linguagem Natural em biomedicina
• Recurso mais importante de informação e
comunicação em
• Medicina
• Ciências biomédicas
• Produzida em diferentes formas
• Comunicação oral
• Escritura manuscrita / datilografada
• Texto legível por computador
1. 1. 2. Linguagem Médica 3. 4. 5.
Comunicação oral
Profissional - Paciente Profissional - Profissional
1. 1. 2. Linguagem Médica 3. 4. 5.
Escritura manuscrita / datilografada
1. 1. 2. Linguagem Médica 3. 4. 5.
Narrativa clínica em prontuário
SEQ DE MULTIPLOS AVCS , HIST DE CRISES
CONVULSIVAS PREVIAS AOS EPISODIOS DESTA NOITE ,
APRESENTANDO PIORA GERAL , DESIDRATACAO LEVE
SEM PIUORA DA FUNACAO RENAL, RX COM
ATELECTASIAS DE BASES - CONSOLIDADCEOS?? PACIENTE
SEM FEBRE MEDIDAAQUI -MAX 37,1 TEM NIVEL SERICO
EM ANDAMNETO DE FENITOINA A SER CHECADO COM
FAMILAIR EM EM 24 H RECEBE TTO ATB COM
CEFUROXIMA VO -HMG NORMAL É DM SEM
IMPORTANTE DESCOPENSACAO.
1. 1. 2. Linguagem Médica 3. 4. 5.
Texto Livre em Periódico indexado em MEDLINE
40,000 registros / mês
1. 1. 2. Linguagem Médica 3. 4. 5.
Observações em prontuários
• Textos produzidos sobre a pressão de tempo: • Deviação consciente da gramática normativa• Linguagem altamente compacta: sentenças incompletas,
acrônimos e abreviações, muitos contextos implícitos, muitas expressões ambíguas fora do contexto.
• Erros involuntários (gramaticais, ortográficos, por ignorar normas gramaticais e ortográficas):
“concerto”, “fraquesa”• Adicionalmente, se os textos não são gravadas e transcritas
por datilógrafos:• Erros sistemáticos e conscientes (omissão de caracteres de
pontuação, omissão de acentos, (de)capitalização“ticlopidina?contraste?infecção?” , “HIPERTENSAO”
• Lapsos de digitação“hipertemsão”
(Ana Carolina Peters et al: Análise de erros de linguagem em sumários de alta. CBIS 2010. )
1. 1. 2. Linguagem Médica 3. 4. 5.
Observações em textos científicos
• Textos produzidos com cuidado e revisão editorial
• Em sumários (abstracts): Textos gramaticais mais compactos, alto índice de nomes próprios (não lexicalizados) e acrônimos, parcialmente expandidos
• Variação e ambigüidade de termos e nomes: “Tyrosine kinase with immunoglobulin and epidermal growth factor
homology domains” = “tie”
NF2 = “Neurofibromatosis 2” [disease]
“Neurofibromin 2”
[protein]
“Neurofibromatosis 2 gene” [gene]
“NF-KB” = “NF-kb”
personalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt
1. 1. 2. Linguagem Médica 3. 4. 5.
Processamento de Linguagem Natural
• Conceitos básicos de lingüística
• Características da linguagem natural em medicina
e ciências biomédicas
• Cenários de processamento de texto livre
• Metodologia de lingüística computacional
• Exemplo
Gravação Transcrição Texto eletrônico
Fala vs. escrita, vs. escritura manuscrita
Sistema de Reconhecimento de fala
Sistema de Reconhecimento
de caracteres
1. 1. 2. 3. Cenários de PLN 4. 5.
Princípio de Processamento de Linguagem Natural
Texto eletrônico Processamento Representação
matemática
Léxicos
Corpora
Ontologias
KB
1. 1. 2. 3. Cenários de PLN 4. 5.
Tarefas
• Extração de informação
• Codificação automatizada
• Recuperação de informação
• Recuperação de documentos
• Recuperação de fatos
• Interpretação de linguagem natural
• Tradução automática
• Geração Automática de Texto
• Simplificação de texto
• Correção ortográfica
• (Reconhecimento Vocal)
• (Reconhecimento de Escritura Manuscrita)
1. 1. 2. 3. Cenários de PLN 4. 5.
Recuperação de documentos1. 1. 2. 3. Cenários de PLN 4. 5.
Recuperação de documentos: Abordagem Básica
Uma coleção de documentosD = {d1, d2, ..., dn}
uma consulta (query) qDois métodos:
„Filtro“ divide D em dois conjuntos Drelq e Dnrelq (Drelq = conjunto de documentos relevantes para q) (Dnrelq = conjunto de documentos relevantes para q)
„Ranking“ = classificar por relevancia:D = [d‘1, d‘2, ..., d‘n]com rel (d‘i) rel (d‘i+1)
Combinações possíveis
1. 1. 2. 3. Cenários de PLN 4. 5.
Resultados de busca
Coleção de documentos
Consulta ?
Recuperação de documentos
Documentos classificadoscomo relevantes
1. 1. 2. 3. Cenários de PLN 4. 5.
Ranking de relevância
?
Coleção de documentos
Consulta
Recuperação de documentos
1. 1. 2. 3. Cenários de PLN 4. 5.
Extração de informação1. 1. 2. 3. Cenários de PLN 4. 5.
Extração de informação
Template
Item 1
Item 3
Item 5
Item 2
Item 4
Item 6
Item 7
Item 8
shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a
1. 1. 2. 3. Cenários de PLN 4. 5.
Extração de informação
Tumor registry
Data diagnosticoprimário
Grading
Morfologia
Localizaçãoprimária
Staging
DataTerapia
Quimioterapia
Radioterapia
shadow was pointed out on a routine chest X-ray film, but she had no further examination. Physical examination on admission revealed purpura of the upper and lower extremities, swelling of the gums and tonsils, but no symptoms showing the complication of myasthenia gravis. Hematological tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) and a platelet count of 9.1 × 104/µl. Further laboratory examination revealed elevated serum lactic dehydrogenase (589 U/l), vitamin B12 (2010 pg/ml) and ferritin (650. 0 ng/ml). Human chorionic gonadotropin and [alpha]-fetoprotein levels were normal. A bone marrow aspiration revealed hypercelllar bone marrow with a decreased number of erythroblasts and megakaryocytes and an increased number of monoblasts that were positive for staining by [alpha]-naphthyl butyrate esterase and negative for staining by naphthol ASD chloroacetate esterase. Chest X-ray upon admission revealed a mediastinal mass and an elevated left diaphragm . Computed tomography (CT) of the chest showed a
Extração de informação1. 1. 2. 3. Cenários de PLN 4. 5.
Estrutura da palestra
• Conceitos básicos de lingüística
• Características da linguagem natural em medicina
e ciências biomédicas
• Cenários de processamento de texto livre
• Metodologia de lingüística computacional
• Exemplo
“Pipeline” de processamento de linguagem natural
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadorPOS
parser frases nominais
representaçãopadronizada
1. 1. 2. 3. 4. Metodologia 5.
“Pipeline” de processamento de linguagem natural
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadorPOS
parser frases nominais
representaçãopadronizada
# HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica - IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava descompensação do diabetes com sindrome hiperosmlar não cetótica.
# HAS # DM # Miocardiopatia dilatada chagásica (FE 35%) # Ca de prostata - orquiectomia (2004) # Cardiopatia isquêmica IAM em 2005, com colocação de stent em DA e lesão severa inoperável em CD Pct. vem a emergência em 20/03 com quadro de dor torácica típica, sem elevação enzimática, com diagnóstico de angina instável e fibrilação atrial não identificada em avaliações prévias. Adicionalmente, apresentava
1. 1. 2. 3. 4. Metodologia 5.
“Pipeline” de processamento de linguagem natural
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadorPOS
parser frases nominais
representaçãopadronizada
seq de multiplos avcs , hist de crises convulcivas previas aos episodios desta noitw, apresentando piora geral, desidratacao leve s/ pioura da funcao renal . atelectasias de dases consolidacoes – febre medida aqui max 37,1 tem nivel seico em andamneto de fenitoina
seqüência de múltiplos AVCs , histórico de crises convulsivas previas aos episódios desta noite, apresentando piora geral, desidratação leve sem piora da função renal . Atelectasis de bases consolidações – febre medida aqui max. 37,1 tem nível sérico em andamento de fenitoina
1. 1. 2. 3. 4. Metodologia 5.
“Pipeline” de processamento de linguagem natural
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadorPOS
parser frases nominais
representaçãopadronizada
Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris..
Maria das Dores Azevedo procedente do Hospital de Alvorada onde estava internado desde 28/05 por broncoespasmo e disfunção respiratória, recebendo ampi-sulbactam e beta 2 agonista de 2/2h, com boa evolução. Encaminhado ao HCPA em 01/06 por ter iniciado dia 31/05 com distensão e dor abdominal importantes, acompanhado de vômitos fecalóides, sendo iniciado metronidazol e gentamicina. Havia recebido albendazol durante a internação, sem eliminar vermes. Avaliado pela CIPED: provável obstrução intestinal por áscaris..
1. 1. 2. 3. 4. Metodologia 5.
“Pipeline” de processamento de linguagem natural
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadorPOS
parser (chunker)
representaçãopadronizada
Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia.Retorno com CIPED
FoiNOUNextubado VERB, SENTapresentou VERBestridor NOUNque DETcedeu VERBcom PRNBZ NOUNcom PRadrenalina NOUNe DETdexaNOUN.SENTApresentou VERBbradicardia SNOUN. SENT
1. 1. 2. 3. 4. Metodologia 5.
“Pipeline” de processamento de linguagem natural
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadorPOS
parser (chunker)
representaçãopadronizada
Foi extubado, apresentou estridor que cedeu com NBZ com adrenalina e dexa. Apresentou bradicardia. Suspenso fentanil, permaneceu bradicárdico, necessitou atropina. Avaliado pela cardiologia sem particularidades. Após alta da UTI, recebeu óleo mineral e permaneceu eliminando áscaris. Após retirada do óleo mineral foi iniciado dieta, com boa aceitação, e albendazol. Recebe alta em bom estado geral, aceitando dieta VO, SV estáveis, apresentando hiperemia ao redor da ileostomia.Retorno com CIPED
FoiNOUNextubado VERB, SENTapresentou VERBestridor NOUNque DETcedeu VERBcom PRNBZ NOUNcom PRadrenalina NOUNe DETdexaNOUN.SENTApresentou VERBbradicardia SNOUN. SENT
1. 1. 2. 3. 4. Metodologia 5.
Mudança de paradigma em Lingüística Computacional
Racionalismo Empiricismo
1990 2000 2010
processamento simbólico processamento probabilístico
síntese
1. 1. 2. 3. 4. Metodologia 5.
Metodologias:
• Processamento simbólico (domínios bem delineados, sem muita IA)• regras de produção• expressões regulares• léxicos, gazeteers (listas com nomes)
• Processamento probabilístico• Corpora
• com anotações manuais: treinamento supervisionado• sem anotações: treinamento não supervisionado
• Modelos• Naive Bayes• MaxEnt• Support Vector Machines (SVN)• Conditional Random Fields (CRF)
1. 1. 2. 3. 4. Metodologia 5.
Problemas do processamento simbólico (“crise de AI”)
• Complexidade computacional• gramáticas
• finite state automata / linear grammars O(n)• pushdown automata / context-free grammars O(n3)• unification grammars, dependency grammars
NP-complete• lógicas
• propositional logic, monadic first-order predicate logic decidable• first-order predicate logic
semi-decidable• nth-order predicate logic (n > 1), modal logics
undecidable
• Manutenção• grandes léxicos, ontologias, bases de conhecimento
1. 1. 2. 3. 4. Metodologia 5.
Desafios (I)
• Processamento simbólico (domínios bem delineados, sem muita IA)• regras de produção• expressões regulares• léxicos, gazeteers (listas com nomes)
• Processamento probabilístico• Corpora
• com anotações manuais: treinamento supervisionado• sem anotações: treinamento não supervisionado
• Modelos• Naive Bayes• MaxEnt• Support Vector Machines (SVN)• Conditional Random Fields (CRF)
1. 1. 2. 3. 4. Metodologia 5.
Desafios (II)
• Dinamica da linguagem real • Produtividade morfológica (“aidético”)• Neologismos , abreviações (“pct”)• entradas erradas e não especificadas
(“CONSOLIDADCEOS?? PACIENTE SEM FEBRE MEDIDAAQUI -MAX 37,1”)
• ambiguidade• importância do contexto
• negação (“não foi conformada a hipótese que...”)• incertidão (“neoplasia de comportamento duvidoso”)
• expressões temporais (“nas primeiras duas semanas”)• coordinações complexas (“invasive and metastatic, highly differentiated
carcinoma invasor e matastático, pouco diferenciado”)
1. 1. 2. 3. 4. Metodologia 5.
Recursos
• Ananiadou: Text mining in biomedicine: Techniques and Toolspersonalpages.manchester.ac.uk/staff/sophia.ananiadou/DTCI.ppt
• openNLP: http://opennlp.sourceforge.net/• UIMA (Unstructured Information Management applications)
http://uima.apache.org/• Association of Computational Linguistics: ACL wiki
http://aclweb.org/aclwiki/index.php?title=Main_Page• Foundation of Statistical Natural Language Processing
http://nlp.stanford.edu/fsnlp/• Livros:
• Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999
• Ananiadou, Mcnaught: Text Mining for Biology And Biomedicine • Hersh: Information Retrieval. A Health and Biomedical Perspective.
1. 1. 2. 3. 4. Metodologia 5.
Processamento de Linguagem Natural
• Conceitos básicos de lingüística
• Características da linguagem natural em medicina
e ciências biomédicas
• Cenários de processamento de texto livre
• Metodologia de lingüística computacional
• Exemplo
Estudo: codificação automatizada
• Fonte:
– sumários de alta do departmento
de cardiologia do Hospital de
Clínicas de Porto Alegre, Brasil
• Destino
• SNOMED Clinical Terms, 01/2009
• Linguagens: Inglês, Espanhol
1. 1. 2. 3. 4. 5. Exemplo
SNOMED CT
Termos médicos (inclusive sinônimos e
traduções) são conectados com
conceitos (portadores de significado)
311 000conceitos
~750 000 termos em Inglês,
~400 000 em Espanhol
1. 2. 3. 4. 5. Exemplo
PLN (processamento de linguagem natural)
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadortipo de palavra
extraçãofrases nominais
deteção de contexto
abstraçãomorfo-semântica
SCT - EN
SCT - SP
criaçãosubconjunto
abstraçãomorfo-semântica
MID-representaçãoSNOMED CT
MID-representação
candidatos a termo
1. 2. 3. 4. 5. Exemplo
Mapeamento de termos médicos
Problema:
highbloodpressure
hipertensãoarterial
meningoencefalite
Bluthochdruck
Entzündung
von Hirnhäuten
Gehirn
und
meningocerebral inflammation hipertensiónarterialmeningoencefaliti
s
Aborgagem MorphoSaurus: construir equivalências semánticas a nivel de fragmentos de palavras
1. 2. 3. 4. 5. Exemplo
Átomos semânticos ou „subwords“
• Definição: sequência de caracteres cujo
significado não decorre dos significados dos
componentes, exemplo: diafise mas não dia +
fisediáfise = haste do osso, fise (gr. physis) = natureza
neur + ite, mas neurose, não neur + oseneur… = nervo, -ite = inflamação, -ose = doença:
Uma neurite é uma inflamação de nervo(s), mas neurose não é
uma doença de nervo(s)
• Subwords podem ser morfemas assim como
combinações de morfemas, inclusive palavras
inteiras
1. 2. 3. 4. 5. Exemplo
Sistema MorphoSaurus
• Sistema de indexação morfo-semântica
• Traduz texto para interlíngua
• Domínio: Linguagem Clínica
• Idiomas: Inglês, Alemão, Português, Espanhol, Sueco, Francês
• Componentes:
Léxico de subwords
Tesauro
Parser morfossintático
Indexador
1. 2. 3. 4. 5. Exemplo
Modelo do Léxico
String of characters
Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}
Language = {English, German, Spanish, Portuguese, French, Swedish}
Lexeme(e.g. „anticoncepcionais“)
[anti, prefix, portuguese][concepc, stem, portuguese][ionais, terminal suffix, portuguese]
(e.g. „partnership“)
[partner, stem, english][ship, suffix, english]
(e.g. „ship“)
[ship, invariant, english]
1. 2. 3. 4. 5. Exemplo
Modelo do Léxico
String of characters
Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}
Language = {English, German, Spanish, Portuguese, French,Swedish}
Lexeme
MID1..n 1
MID42= ([muscle, stem, english], [muscul, stem,
english], [myo, prefix,
english], [muscul, stem,
portuguese], [mio, prefix,
portuguese], [muskel, stem,
german], [muskul, stem,
german], [myo, prefix,
german])
MIDs identificam grupos de lexemas sinônimos
1. 2. 3. 4. 5. Exemplo
Modelo do Léxico
String of characters
Type = {stem, invariant, prefix, infix, suffix, initial prefix, terminal suffix}
Language = {English, German, Spanish, Portuguese, French,Swedish}
Lexeme
MID1..n 1
1
12…n
2…n
has-sense
expands-to
associa um MID ambíguo com dois ou mais MID nãoambíguos
(expansão paradigmática)
associa um MID de sentido não atômico com dois ou mais MID atômicos
(expansão sintagmática)
1. 2. 3. 4. 5. Exemplo
Modelo do Léxico
MID
1
12…n
2…n
has-sense
expands-to
associa um MID ambíguo com dois ou mais MID nãoambíguos
(expansão paradigmática)
associa um MID de sentido não atômico com dois ou mais MID atômicos
(expansão sintagmática)
MID16: ([head, stem, english])- has-sense MID12:
([caput, stem, english], [capit, stem, english], [cephal, stem, english], [cefal, stem, portuguese], [cabec, stem, portuguese])
- has-sense MID34: ( [chief, stem, english], [chef, stem, portuguese])
MID26: ([myalg, stem, english], [mialg, stem, portuguese])
-expands-to MID42: ([muscle, stem, english],
[muscul, stem, english], [muscul, stem, portuguese])
-expands-to MID88: ([pain, stem, english],
[dor, invariant, portuguese], [algia, suffix, portuguese])
1. 2. 3. 4. 5. Exemplo
1. 2. 3. 4. 5. Exemplo
Hahn, Schulz et al., RIAO 2004
Queries: German, Documents: English(OHSUMED collection)
Baseline: English / English
Morphosaurus Indexing
Automated Query Translation+Dictionary Lookup
Sistema MorphoSaurus : resultados experimentais em cenário CLIR
1. 2. 3. 4. 5. Exemplo
PLN (processamento de linguagem natural)
identificarsentenças
verificarortografia
expansãoacrônimos
identificaçãode nomes
etiquetadortipo de palavra
extraçãofrases nominais
deteção de contexto
abstraçãomorfo-semântica
SCT - EN
SCT - SP
criaçãosubconjunto
abstraçãomorfo-semântica
MID-representaçãoSNOMED CT
MID-representação
candidatos a termo
Heurística deMapeamento
1. 2. 3. 4. 5. Exemplo
Heurística de mapeamento: Exemplo
SNOMED CTConcept Description
MIDs
ENG: Congestive heart failure #abund #cardiac #deficien
ENG: Congestive cardiac failure #abund #cardiac #disorder
POR: Insuficiência cardíaca #insuff #cardiac
SPA: Insuficiencia cardíaca #insuff #cardiac
SPA: Insuficiencia cardíaca congestiva #insuff #cardiac #abund
1. 2. 3. 4. 5. Exemplo
Heurística de mapeamento
• Para cada “candidato a termo” no documento
• decida se existem um termo SNOMED correspondentes
• caso sim, seleccione o melhor termo SNOMED
• Critérios de preferência:
• Sequências “típicas” de etiquetas POS, ex:
“Infarto agudo do miocárdio”
substantivo – adjetivo – DE – substantivo
• coincidência de MIDs
• threshold: 60%
• Em caso de falha: verifique se “candidato a termo”
corresponde para dois conceitos da SNOMED , usando
relacionamentos da SNOMED para preselecção
1. 2. 3. 4. 5. Exemplo
Padrão ouro (kappa = 0.89)
1. 2. 3. 4. 5. Exemplo
Resultados preliminares
Number of tokens (MIDs) Correct Mappings2 66%3 71%4 80%5 89%6 79%7 80%8 75%9 45%10 25%
1. 2. 3. 4. 5. Exemplo
Próximo passo: identificar contextos
• Problema: nem toda ocorrência de um termo em um
documento refere a uma instância concreta de um conceito
terminológico ou ontológico
• Contextos alternativos:
• planos
• hipóteses
• negação
• Ignorar contextos: dados não confiáveis
1. 2. 3. 4. 5. Exemplo
acute abdomen
CTabdomen
aortal aneurysm
aneurysm-ectomy
vascular prosthesis
deathsystemicinfection
multiple organ failure
vasoactive drug
hemodialysis
Paciente interna por quadro de abdome agudo. TC de abdome mostrou aneurisma de aorta com evidencia de extravasamento de contraste. Levado a cirurgia de urgência, sendo realizada aneurismectomia com colocação de prótese. No pós-operatório evoluiu com síndrome da resposta inflamatória sistêmica, com disfunção de múltiplos órgãos e instabilidade hemodinâmica. Apesar do manejo com drogas vasoativas, reposição hídrica e hemodiálise veno-venosa crônica, o paciente apresentou piora progressiva, evoluindo para óbito.
Ontology
Contextos: Exemplo 1
1. 2. 3. 4. 5. Exemplo
incisionalhernia herniorrhaphy
operation room
liver transplant
operation
• instance • not instantiated• reference to a
plan
operation
• reference to a suspendedplan
• instance • referenceto a plan
• NOT referringto the samepatient
• reference to a new plan
• not yet executed
PACIENTE COM HÉRNIA INCISIONAL INTERNOU PARA REALIZAÇÃO DE HERNIOPLASTIA PORÉM A CIRURGIA FOI SUSPENSA DEVIDO A NECESSIDADE DE SALA COM URGÊNCIA PARA TRANSPLANTE HEPÁTICO. RECEBE ALTA COM ORIENTAÇÕES E CIRURGIA REMARCADA.
Ontology
Contextos: Exemplo 2
1. 2. 3. 4. 5. Exemplo
ConclusãoConclusão
• Trabalho ainda não concluído– primeiros resultados mostram que o mapeamento para
SNOMED funciona através de idiomas
• Trabalho futuro– completar o “pipeline”
– Avaliar impacto de cada elemento do pipeline
– Identificar contextos
– Uso da estrutura ontológica da SNOMED
– Publicação em preparação (IEEE Transactions on Information Technology in Biomedicine)
ConclusãoTeste de conhecimento (i)
S1: “O cachorro estão latindo”
S2: “A lua está latindo”
__ S1 viola uma regra morfológica
__ S2 viola uma regra pragmática
__ S1 está sintáticamente correta
__ “latindo” é uma palavra lexicalmente ambígua
ConclusãoTeste de conhecimento (ii)
__ codificação automatizada é um exemplo de extração de informação
__ reconhecimento automatizado é um recurso imprescindível para PLN em medicina
__ Em PLN, a metodologia probabilística está sendo
substituída por metodologias baseadas em IA
__ Um parser identifica a estrutura hierárquica de uma sentença
ConclusãoTeste de conhecimento (iii)
__ um corretor ortográfico é um elemento importante de um pipeline de PLN quando é utilizado para processar textos científicos
__ na tradução de termos médicos o número de tokens fica constante
__ No processamento de linguagem clínica a identificação de frases com negação é importante
__ Todos os motores de recuperação de documentos produzem um ranking por relevância
Acknowledgements
• German Research Foundation (DFG)
• International Bureau of the
German Ministry of Research (BMBF-IB)
• Brazilian National Research Council (CNPq)
• Paraná Catholic University (PUCPR), Curitiba
• Hospital de Clínicas de Porto Alegre (HCPA)
• Averbis GmbH, Freiburg
top related