doctorolap: ambiente para análise multifacetada de ... › f693 › ca9f78ce842fc134e807e71f… ·...
Post on 03-Jul-2020
2 Views
Preview:
TRANSCRIPT
DoctorOLAP: Ambiente para análise multifacetada de prontuários médicos
João Luiz Moreira1, Kelli de Faria Cordeiro
2, Maria Luiza M. Campos
1
1Programa de Pósgraduação em InformáticaDepartamento de Ciência da Computação/NCE � Universidade Federal do Rio de
Janeiro (UFRJ) Rio de Janeiro � RJ � Brasil
2Diretoria de Finanças da Marinha (DFM) � Marinha do Brasil (MB)
jonimoreira@gmail.com, kelli@dfm.mar.mil.br, mluiza@ufrj.br
Abstract. The environments where medical records are explored for historical analysis of clinical scenes, in general, have focus on integration of data that
are, essentially, structured. However, they face difficulties to handle other types of information present, e.g. on anamnesis, due to their unstructured
nature. This paper presents an environment for multifaceted analysis of medical records allowing joint exploration of heterogeneous data. To do so,
the terms found on several unstructured sources are associated with categories of a faceted taxonomy. These facets are modeled as dimensions ona data mart and used as perspectives for data analysis.
Keywords: faceted taxonomy, data warehouse, data mart, unstructured data, medical records
Resumo. Os ambientes para análise histórica de quadros clínicos a partir da exploração de prontuários médicos se concentram, de forma geral, na
integração de dados essencialmente estruturados. No entanto, enfrentam dificuldades na inclusão de outros tipos de informaç�es presentes, por
exemplo, nas anamneses, devido a sua natureza não estruturada. Este artigo apresenta um ambiente para análise multifacetada de prontuários médicos
que permite a exploração conjunta de dados heterogêneos. Para isso, os termos encontrados nas diversas fontes de dados não estruturados são
associados a categorias de uma taxionomia facetada, sendo as facetas modeladas como dimens�es em um data mart e utilizadas como perspectivas
para análise dos dados.
Palavraschave: taxonomia facetada, data warehouse, data mart, dados não
estruturados, prontuário eletrônico
1. Introdução
Os dados não estruturados1 produzidos nas empresas crescem em volume diariamente através de atividades rotineiras como a escrita de relatórios, emails, contratos e mensagens instantâneas [Russom 2007]. Esses dados contêm informações valiosas que podem ser exploradas em conjunto com os dados estruturados em um ambiente analítico[Pérez 2007][Inmon e Nesavich 2008]. No entanto, de maneira geral, o
1 No contexto deste trabalho, dados não estruturados referemse aos dados de natureza textual.
XXIV Simp�sio Brasileiro de Banco de Dados
211
desenvolvimento de soluções do tipo Data Warehousing tem contemplado quase que exclusivamente dados oriundos dos bancos de dados de sistemas transacionais corporativos e outras fontes de dados tipicamente estruturadas.
Na área médica, a análise histórica de quadros clínicos de pacientes a partir da exploração de dados de prontuários tem sido empregada para atender demandas da área de gestão do negócio [Manfré e Scalabrin 2008][Dallora 2004] e da área de pesquisa científica [STRIDE 2009][CDR 2009][Spitzer 2008][Einbinder e Scully 2002].Contudo, de forma geral, essas aplicações se concentram na integração dos dados oriundos de vários sistemas, com dados essencialmente estruturados, e enfrentam dificuldades na inclusão de outros tipos de informação presentes, por exemplo, nos exames, relatórios de diagnósticos associados e nas HDA (História da Doença Atual) das anamneses2. A construção de um ambiente analítico sobre dados clínicos (Data Warehouse Clínico DWC) possui desafios próprios [Gray 2004][Pedersen et al. 1998],que têm sido abordados em várias propostas de arquitetura [Sahama e Croll 2007][Szirbik et al. 2006][Banek et al. 2006]. Porém, a análise de dados não estruturados em DWC ainda é uma questão pouca explorada.
Este artigo descreve uma abordagem para representação e acesso multidimensional a casos clínicos, para que os dados de natureza não estruturada,típicos desse ambiente, possam também ser explorados e analisados. Nessa abordagem,os termos encontrados nas diversas fontes de informação não estruturada são associados a categorias de uma taxonomia, que por sua vez são sintetizadas em um nível mais alto de classificação conceitual, chamado facetas [Tzitzikas e Analyti 2007]. Segundo PrietoDíaz (2002), as facetas de uma taxonomia podem ser construídas como perspectivas (pontos de vista ou dimensões) de um domínio particular. Dessa forma, asfacetas, suas categorias e termos, são modeladas como dimensões em um data mart eusadas como perspectivas de análise das ocorrências dos termos nos prontuários médicos.
Este trabalho tem como alvo análises sobre o prontuário eletrônico de um consultório médico, que possui informações sobre os pacientes armazenadas em um banco de dados de forma estruturada, semiestruturada e em textos livres redigidos pelos médicos contendo anotações importantes sobre o tratamento. O DoctorOLAP foi construído para atender questões analíticas dos médicos, como: quais são os sintomas mais comuns em pacientes que apresentam determinada doença. Com este ambiente é possível (i) analisar os prontuários médicos também considerando os dados não estruturados, (ii) explorar de forma conjunta todos os dados disponíveis sobre os pacientes por meio do compartilhamento de dimensões entre data marts sobre dados de natureza não estruturada e estruturada, e (iii) navegar do nível mais alto de análise comdados agregados até o detalhe de uma anotação em um relatório de diagnóstico feito por um médico.
Este artigo, além desta seção, inclui outras 5 seções. Na seção 2 são apresentadas as iniciativas e abordagens encontradas na literatura para a construção de DW Clínicos epara o tratamento de dados não estruturados. Na seção 3, é descrita a fonte dos dados estruturados, semiestruturados e não estruturados utilizada pelo DoctorOLAP, sendo
2 Entrevista realizada na primeira consulta médica para obter informações da história clínica do paciente, com a intenção de auxiliar na definição dos procedimentos médicos a serem adotados [Porto 2004].
XXIV Simp�sio Brasileiro de Banco de Dados
212
este apresentado e discutido na seção 4. Na seção 5 são relacionados os resultados de algumas análises multifacetadas sobre os prontuários médicos. E, finalmente, as conclusões e trabalhos futuros são discutidos na seção 6.
2. Data Warehouses Clínicos e tratamento de dados não estruturados
O acompanhamento de casos clínicos geralmente é feito através de prontuários eletrônicos que armazenam informações sobre os pacientes, como seus dados biográficos, o histórico de suas doenças e tratamentos. Muitas vezes esses dados estão espalhados em vários ambientes, o que impossibilita a análise histórica do quadro clínico dos pacientes. Os DWC integram essas diversas fontes de informação contidas nos ambientes operacionais, o que possibilita a realização de pesquisas médicas através da análise histórica das doenças e tratamentos realizados nos pacientes.
Os DWC, em sua maioria, integram dados para atender demandas como:controle de doenças [Scully et al. 2004][Wisniewski et al. 2003], estudo dos efeitos colaterais de tratamentos [Einbinder e Scully 2002], priorização da alocação do centro cirúrgico baseado na análise do quadro clínico dos pacientes [Dallora 2004] e gestão estratégica do negócio [Manfré e Scalabrin 2008]. Esses DW têm problemas específicos como o tratamento temporal [Gray 2004][Pedersen et al. 1998] e problemas de integração que têm sido tratados em algumas propostas de arquitetura. Em sua maioria, essas arquiteturas de DWC focam na integração dos dados de natureza estruturada [Banek et al. 2006][Sahama e Croll 2007][Szirbik et al. 2006]. Contudo, a arquitetura proposta por Zhou et al. (2008) tem o foco no processamento de dados não estruturados através da extração de termos com uma ferramenta própria e a criação de um data mart para cada conjunto de termos com a mesma classificação.
Fora do contexto de DW, a extração e o tratamento de textos de registros médicos são abordados em diversos trabalhos na literatura [Honorato 2008][Cherman et al. 2007][Harkema et al. 2005], constituindose prérequisitos essenciais para o emprego das técnicas de exploração de dados textuais [Zhou et al. 2006]. Essas atividades são realizadas em várias etapas, dentre as mais gerais estão: limpeza, extração de termos, remoção de stopwords, radicalização (stemming) e tratamento de sinônimos [Feldman e
Sanger 2007]. Para apoiar sua execução, ferramentas foram desenvolvidas atendendo todo o processo de tratamento do texto, como o TPDiscover, de Honorato (2008); oMedIE, de Zhou et al. (2006); e o Forrest Rim de Inmon e Nesavich (2008), ou para atender etapas específicas, como o PTStemmer3 que faz o tratamento de radicalizaçãode palavras em português, e o Wvtool4 que faz limpeza de pontuação. Essas atividades,apesar de não utilizadas com a finalidade de alimentar um DW, são essenciais para a
incorporação dos dados de natureza não estruturada em um ambiente analítico, o que de
fato constitui um processo de ETL (sigla em Inglês para Extract, Transform and Load)
Textual.
Inmon e Nesavich (2008) abordaram o tratamento de textos na arquitetura do DW 2.0TM onde os dados não estruturados são tratados, analisados visualmente e integrados ao DW através de ligações específicas. Essas ligações associam uma dimensão do DW a um documento por meio de um atributo identificador, tal como oemail de um cliente, que está presente tanto no seu cadastro como nos documentos
3 http://code.google.com/p/ptstemmer/4 The Word & Web Vector Tool http://wvtool.sourceforge.net/
XXIV Simp�sio Brasileiro de Banco de Dados
213
relacionados a ele. Pérez (2007) também aborda o tratamento de documentos em ambientes de DW através de uma proposta de framework para integrar documentos XML com o DW sobre dados estruturados, chamado warehouse contextualizado. Além dessas propostas de integração de dados heterogêneos no DW, McCabe et al. (2000) propõem uma abordagem para recuperação de informação através de um modelo multidimensional sobre as ocorrências dos termos em documentos.
Este trabalho complementa vários aspectos dos trabalhos encontrados na literatura, como: a abordagem de Zhou et al. (2008) que usa a categoria de termos da área médica como uma dimensão em um data mart; a abordagem de McCabe (2008) que analisa as ocorrências dos termos nos documentos pela perspectiva dos próprios termos e de suas categorias; o mecanismo chamado linkage do DW 2.0TM do Inmon (2008) que usa identificadores comum aos ambientes de dados não estruturado e estruturado para viabilizar a exploração conjunta de dados heterogêneos; e o conceito de PrietoDíaz (2002) sobre a utilização de facetas como perspectivas de análise de um domínio. Porém, este trabalho tem como foco a análise de dados heterogêneos visando à exploração conjunta de dados estruturados e textuais utilizando facetas de uma taxonomia como perspectiva de análise de casos clínicos.
3. Sistema de Prontuário eDoctor
A aplicação alvo deste trabalho teve como fonte de dados a base de um sistema de prontuário eletrônico, chamado eDoctor, onde os médicos registram informações sobre seus pacientes, com a inclusão de dados sobre as consultas, exames médicos, agendamento, cadastro, convênios, prontuários médicos, anamneses e faturas.
As informações são cadastradas, de forma estruturada, em tabelas próprias no banco de dados, e, de forma não estruturada, em campos do tipo texto, nos quais omédico registra, de forma livre, alguns tópicos das anamneses, informações das consultas e retornos, e outros tipos de informação, como, por exemplo, atestadosmédico, pedidos de exames, receituários e laudos. É registrado, também, o resultado dos exames, porém de forma semiestruturada, onde são usadas marcações padronizadas.Por exemplo: a pressão arterial e freq�ência cardíaca são sempre registradas juntas e da seguinte forma: PA 999x999 FC 99 bpm. A Figura 1 ilustra a interface do eDoctor para o cadastramento das informações das anamneses, consultas e textos sobre o paciente.
Figura 1. Anamneses do eDoctor
O processo de realizar exames é feito pelo médico com o apoio de equipamentos apropriados. Antes do exame existe uma pequena consulta onde o médico verifica prérequisitos e detalhes como a última vez que o paciente comeu ou a indicação. Essas
XXIV Simp�sio Brasileiro de Banco de Dados
214
informações são armazenadas no prontuário do paciente, junto com o laudo do exame.Da mesma forma funciona a consulta, porém com a utilização da funcionalidade de consultas e retornos provida pelo sistema. A Figura 2 ilustra exemplos dessas informações.
Figura 2. Textos e consultas do eDoctor
Com o crescimento do fluxo de pacientes na clínica, algumas questões foram levantadas pelos médicos e administradores, como quantos pacientes usam certoconvênio ou quais são os médicos que encaminham pacientes para a clínica. Muitas dessas questões podem ser respondidas com as informações contidas na base de dados do eDoctor, entretanto o sistema não oferece facilidades analíticas. Surgiu, assim, anecessidade de um projeto de Data Warehouse sobre a base original.
4. DoctorOLAP
A partir dos requisitos analíticos levantados com os médicos, o DoctorOLAP foi desenvolvido tendo como fonte de dados as tabelas do eDoctor. Porém, com o refinamento das análises, começaram a surgir consultas que não poderiam ser respondidas tendo como fonte de informação apenas os dados de natureza estruturada. As respostas das novas análises estão contidas nas anotações escritas, de forma livre,pelos médicos.
Para atender as novas demandas de análises, o DoctorOLAP passou a ser alimentado através de dois processos de ETL (Figura 3) com focos distintos: um natransformação de dados e o outro na classificação de termos, apesar de terem como fonte a mesma base de dados e alimentarem o mesmo cubo. Outro aspecto do ambiente é a disponibilidade dos documentos dos prontuários médicos para serem acessados a qualquer momento durante as análises.
Figura 3. Ambiente para análise multifacetada de dados heterogêneos
XXIV Simp�sio Brasileiro de Banco de Dados
215
As seções seguintes discutem os detalhes desta solução, que foi desenvolvida utilizando o sistema de gerenciamento de banco de dados MS SQL Server, a ferramenta para extração de termos IDSFoundation5, o ambiente de desenvolvimento MS Visual Studio Development Kit com os serviços Analysis Service e Integration Service, e aferramenta OLAP Dundas para a navegação nos cubos construídos.
4.1 Ambiente analítico para os dados estruturados
Inicialmente, o DoctorOLAP foi projetado para atender às demandas de análise sobre o faturamento e consultas da clínica ao longo do tempo, tendo como perspectivas de análise o paciente, o serviço e o convênio. Nesse cenário, a modelagem representada na Figura 4 foi utilizada.
Figura 4. Modelagem Multidimensional para os dados estruturados do DoctorOLAP
A partir desse modelo e de um processo de ETL, os dados do eDoctor foram carregados no DoctorOLAP. Com o cubo gerado nesse ambiente, várias perguntas analíticas puderam ser respondidas, por exemplo: convênios mais lucrativos e serviço mais executado na clínica.
4.2 Ambiente analítico incorporando dados não estruturados
Para incorporar os dados não estruturados no ambiente analítico do DoctorOLAP, foinecessária a extensão do seu modelo multidimensional para acomodar os termos encontrados nos prontuários. Essa extensão envolve a criação de novas dimensões e fatos. Estes fatos compartilham dimensões com os fatos que já existiam no modelo.Assim é possível a exploração conjunta de dados heterogêneos.
4.2.1 Modelagem multidimensional das facetas
Uma taxonomia facetada se constitui em um vocabulário controlado organizado em uma estrutura hierárquica conceitual, onde as categorias da taxonomia são sintetizadas em um nível mais alto de classificação, chamado facetas [Tzitzikas e Analyti 2007].
As facetas de uma taxonomia podem ser construídas como perspectivas, pontos de vista ou dimensões de um domínio particular, provendo uma organização sistemática dos termos de um vocabulário controlado [PrietoDíaz 2002]. Assim, as facetas foram modeladas como dimensões no DoctorOLAP para que os dados oriundos de diversas
5 http://www.inmondatasystems.com/foundation.html
�����������������
PacienteID
Nome
DataNascimento
Sexo
���������
���������
<pk>
Fato Consulta
PacienteID
TempoID
Contador
<pk,fk1>
<pk,fk2>
Fato Faturamento
���������
����������
PacienteID
TempoID
ValorFatura
Contador
<pk,fk1>
<pk,fk2>
<pk,fk3>
<pk,fk4>
��������������
TempoID
Ano
���
Dia
<pk>
����������������
���������
�������
<pk>
�����������������
����������
��������
<pk>
XXIV Simp�sio Brasileiro de Banco de Dados
216
fontes de informação não estruturadas pudessem ser explorados nas análises. Com isso, o modelo representado na Figura 5 foi elaborado, no qual os termos, suas categorias e facetas são representadas como uma dimensão hierárquica [Kimball et al. 1998], e a ocorrência dos termos nos documentos é representada em um fato. Esse fato écorrelacionado com o documento onde o termo aparece. Dessa forma, a ocorrência dos termos nos documentos pode ser analisada sob a perspectiva das facetas e dos documentos.
Figura 5. Modelagem Multidimensional de Facetas
No contexto do DoctorOLAP, o modelo multidimensional de facetas foi usado para acomodar a ocorrência dos termos das consultas, anamneses e textos dos pacientes,como será visto a seguir.
4.2.2 Modelo multidimensional do DoctorOLAP
O modelo multidimensional utilizado, inicialmente, pelo DoctorOLAP foi estendido com novos fatos e dimensões para incorporar os dados de natureza não estruturada,como mostra a Figura 6. Foram acrescidas as dimensões Termo, Categoria, Facetas, e um fato com as ocorrências dos termos dos prontuários. Para acomodar o prontuário dopaciente, uma dimensão Prontuário foi criada com um atributo que indica o local onde o documento do paciente está localizado fisicamente, o que permitirá seu acesso a qualquer momento durante uma análise. A dimensão Paciente foi compartilhada entre os fatos Ocorrência e os fatos que já existiam no modelo, com isso os dados de natureza estruturada e não estruturada podem ser analisados de forma conjunta.
A modelagem ilustrada na Figura 6 contempla apenas alguns fatos, dimensões, métricas e atributos do modelo do DoctorOLAP. Esse extrato contém as entidades necessárias para o apoio à exploração analítica multifacetada descrita neste trabalho.
��������������
TermoID
CategoriaID
FacetaID
Termo
<pk>
<pk,fk>
<pk,fk>������������������
CategoriaID
FacetaID
Categoria
<pk>
<pk,fk>
���������������
TermoID
CategoriaID
FacetaID
DocumentoID
TempoID
����������
<fk1>
<fk1>
<fk1>
<fk2>
<fk3>
������������������
DocumentoID
�����������������
<pk>
���������������
FacetaID
Faceta
<pk>
��������������
TempoID
Ano
���
<pk>
XXIV Simp�sio Brasileiro de Banco de Dados
217
Figura 6. Modelagem Multifacetada de Prontuários Médicos
4.3 Construção das Facetas do DoctorOLAP
O processo de construção da taxonomia facetada do DoctorOLAP foi realizado através de um ETL Textual composto por três etapas: extração dos prontuários médicos do eDoctor, classificação dos termos em categorias e facetas, e carga dos fatos e dimensões no DoctorOLAP, conforme ilustrado na Figura 7 e detalhado a seguir.
Figura 7. Processo de Construção das Facetas do DoctorOLAP
Na primeira etapa, os documentos com os prontuários médicos dos pacientes foram gerados a partir das anamneses, consultas e textos do eDoctor. Todas as palavras desses documentos foram extraídas, as stopwords foram excluídas, e os termos foram obtidos por um processo de radicalização. Essa etapa foi executada com o IDS
Foundation, que utiliza um cadastro prévio das stopwords e uma engine para a extração dos radicais das palavras, que, entre outras coisas, elimina o plural e o gênero. Qualquer outro ferramental ou biblioteca poderiam ter sido utilizados, conforme discutido na Seção 2. O resultado desta etapa foi uma lista de 210.798 termos contidos nos 506
Data Mart Multifacetado
sobre os dados
����������������
������������������������
entre os Data Marts
Data Mart sobre
os dados estruturados
������������������
CategoriaID
FacetaID
Categoria
<pk>
<pk,fk> ���������������
FacetaID
Faceta
<pk>
��������������
TermoID
CategoriaID
FacetaID
Termo
<pk>
<pk,fk>
<pk,fk>
�������������������
������������
�����������������
<pk>
���������������
������������
TermoID
CategoriaID
FacetaID
PacienteID
TempoID
����������
<pk,fk2>
<pk,fk3>
<pk,fk3>
<pk,fk3>
<pk,fk4>
<pk,fk1>
�����������������
PacienteID
Nome
DataNascimento
Sexo
���������
���������
<pk>
Fato Consulta
PacienteID
TempoID
Contador
<pk,fk1>
<pk,fk2>
Fato Faturamento
���������
����������
PacienteID
TempoID
ValorFatura
Contador
<pk,fk1>
<pk,fk2>
<pk,fk3>
<pk,fk4>
��������������
TempoID
Ano
���
Dia
<pk>
����������������
���������
�������
<pk>
�����������������
����������
��������
<pk>
��������������
ExameID
Exame
<pk>
�����������������������
ValorExameID
Valor1
Valor2
<pk>
Fato Resultado
ValorExameID
ExameID
PacienteID
TempoID
Contador
<pk,fk1>
<pk,fk2>
<pk,fk3>
<pk,fk4>
Data Mart sobre
os dados semiestruturados
XXIV Simp�sio Brasileiro de Banco de Dados
218
documentos. A Figura 8 mostra a tabela do banco de dados com as palavras encontradas, o seu radical e a sua localização dentro do documento. Notase que tanto as palavras quanto os documentos possuem uma identificação única no banco, que seráutilizada para relacionar o documento ao termo.
Figura 8. Relação dos termos extraídos dos prontuários
Na segunda etapa, os termos foram classificados em categorias, e estas sintetizadas em facetas com o apoio dos médicos que utilizam o eDoctor. Apenas os termos empregados nas análises foram classificados. Essa tarefa foi a que mais demandou tempo de interação com os médicos, tendo em vista o volume dos termosobtidos dos prontuários. O tempo gasto poderia ter sido abreviado com a utilização de glossários da área médica, onde os termos mais relevantes para o negócio já estão previamente selecionados. Ao final deste processo, a seguinte classificação foi gerada emantida em tabelas do banco de dados (Tabela 1).
Tabela 1. Facetas do DoctorOLAP
Na terceira e última etapa do ETL Textual, os documentos dos prontuários,termos, categorias e facetas geradas nas etapas anteriores foram carregados no DoctorOLAP. Nesta etapa, os termos classificados e os documentos dos prontuários foram relacionados para alimentar o fato Ocorrência (Seção 4.2.2), que contém a quantidade de vezes que cada termo aparece em cada documento.
Durante o processo de ETL textual, a localização de cada um dos termos nos documentos foi mantida em uma tabela na área de transporte (staging) do banco dedados e depois carregada no data mart. Desta forma, o usuário pode navegar pelas facetas e categorias, selecionar o termo desejado, e explorar os prontuários que contêm aquele termo. Tornase possível, assim, analisar os prontuários de pacientes que apresentaram determinado sintoma.
XXIV Simp�sio Brasileiro de Banco de Dados
219
5. Análise multifacetada de prontuários médicos
No DoctorOLAP, os dados heterogêneos clínicos podem ser explorados de forma conjunta, os prontuários médicos podem ser analisados sob a perspectiva das facetas e acessados pontualmente ao longo de todo o processo de análise, conforme ilustrado nos exemplos a seguir.
5.1. Exploração conjunta de dados heterogêneos clínicos
Para fazer uma análise, por exemplo, sobre os pacientes que reclamaram de dores epigástricas e que realizaram o serviço de Endoscopia, é necessária uma análise conjunta dos dados estruturados e não estruturados, pois as queixas dos pacientes estãoanotadas de forma livre nas anamneses e consultas, e o serviço realizado está armazenado em uma tabela de atendimentos. Com o DoctorOLAP, é possível responder esta pergunta com o acesso à Dimensão Serviço (data mart sobre dados estruturados) e àDimensão Termo (data mart sobre os dados não estruturados) conforme ilustrado na tela de interface da ferramenta OLAP apresentada na Figura 9.
Figura 9. Pacientes com dor epigástrica (Dimensão Termo) que fizeram endoscopia no consultório (Dimensão Serviço)
Da mesma forma, e evidenciando o enriquecimento das análises sobre os dados estruturados, para explorar os sintomas mais comuns nos pacientes que fazem endoscopia, é necessário acessar a dimensão Serviço e a dimensão Categoria, esta filtrada por Sintomas. Neste caso, foi observado que o sintoma mais comum é Diarréia. A partir daí, é possível fazer o drill down para ter acesso à lista dos 22 pacientes que atendem a esses critérios (Figura 10).
Figura 10. Sintomas (Dimensão Categoria) mais comuns nos pacientes que fazem endoscopia (Dimensão Serviço)
XXIV Simp�sio Brasileiro de Banco de Dados
220
As ferramentas OLAP, de forma geral, são dotadas de funcionalidades para a geração de gráficos que permitem a análise de dados agregados. No DoctorOLAP, esta funcionalidade foi empregada para a análise das ocorrências dos termos sob a perspectiva dos serviços prestados e do sexo do paciente. Para isso, as dimensõesTermo, Categoria, Paciente e Serviço, e os fatos Ocorrência e Faturamento foram usadas para a construção do gráfico ilustrado na Figura 11.
Figura 11. Termos mais freqüentes por sexo e Sintomas mais comuns nos pacientes que fazem endoscopia por sexo
A partir do gráfico gerado, observase que cirurgia é o termo mais freq�ente nos prontuários e que o principal sintoma dos pacientes que fazem endoscopia é a dor.
5.2. Análise e navegação sobre os prontuários médicos a partir de facetas
Para identificar os pacientes que já tomaram um determinado medicamento (no caso,Omeprazol) examinando seu prontuário, o fato Ocorrência foi analisado sob a perspectiva de uma faceta. Neste caso, foi aplicado um filtro para mostrar apenas a faceta Tratamento. A partir dela, foi feito um drill down para a categoria Medicamento e finalmente para o termo Omeprazol. Depois das operações de slice e drill down no cubo das Ocorrências de termos, a lista de documentos de prontuários que tomaram Omeprazol foi exibida, conforme ilustrado na Figura 12.
Figura 12. Lista dos prontuários de pacientes que já tomaram Omeprazol
É possível navegar pelos prontuários dos pacientes que já tomaram Omeprazol, tendo um contador de quantas vezes o termo aparece em seu prontuário. Uma vez selecionado o registro, é possível acessar o prontuário escolhido (Figura 13 e 14).
XXIV Simp�sio Brasileiro de Banco de Dados
221
Figura 13. Prontuário médico do paciente acessado pela análise multifacetada
Os resultados mostram, também, novos aspectos sobre o negócio, que foram descobertos durante a análise dos prontuários sob a perspectiva das facetas. Nesse caso, foi observado que a maior parte das anotações dos médicos sobre seus pacientes falam sobre os tratamentos realizados. Os termos dessa faceta aparecem 5.020 vezes nos prontuários, que por sua vez, aparecem 2.783 na categoria Cirurgia (Figura 14).
Figura 14: Análise dos prontuários sob a perspectiva das facetas e categorias
Outro requisito dos médicos é a análise dos pacientes que apresentam um determinado quadro clínico, no caso um Tumor. Para isso, a dimensão Termo foi consultada e filtrada por Tumor, o atributo Nome da dimensão Paciente e o fato Ocorrência foram selecionados. O resultado da análise está ilustrado na Figura 15.
XXIV Simp�sio Brasileiro de Banco de Dados
222
Figura 15: Pacientes com mais ocorrências de tumor em seus prontuários
A partir deste resultado, o médico pode acessar os prontuários e analisar pontualmente os casos que estão sendo objeto de seu estudo naquele momento, além de poder adicionar novas perspectivas como a idade e a etnia dos pacientes que têm tumor, assim enriquecendo a sua análise.
6. Conclusões e Trabalhos Futuros
Os dados de natureza não estruturada contidos nos prontuários eletrônicos possuem informações valiosas para análise clínica. Este artigo apresenta uma solução de ambiente analítico para a exploração desses dados em conjunto com os dados estruturados extraídos do ambiente operacional. Para isso, o DoctorOLAP foi desenvolvido utilizando um modelo multidimensional que contempla uma taxonomiafacetada, construída a partir dos termos encontrados nos prontuários médicos,caracterizando uma das maiores contribuições deste trabalho. Para implementar essa aplicação, além do ETL tradicional sobre os dados estruturados, um ETL Textual foi utilizado para a extração e limpeza desses termos, que foram classificados em categorias e depois sintetizados em facetas, para serem utilizados como perspectivas de análise dos dados.
Com a análise multifacetada dos prontuários médicos, novos aspectos sobre o negócio puderam ser descobertos, como o assunto mais freq�ente nas anotações dosmédicos ou os pacientes que apresentam determinado quadro clínico. Outra contribuição do DoctorOLAP é oferecer um ambiente que permite a análise clínica de um escopo mais amplo até o detalhe de uma anotação feita sobre um paciente, onde odocumento do prontuário pode ser acessado a qualquer momento durante a exploração.Essas descobertas e facilidades foram obtidas devido à abordagem utilizada na implementação da aplicação onde é possível a análise integrada de dados heterogêneos.
Para o aprimoramento da abordagem do DoctorOLAP, é necessário umtratamento terminológico com a aplicação de técnicas e metodologias mais elaboradas de construção de taxonomias facetadas, como em [Stewart 2008]. Assim como um ETLTextual mais sofisticado para a limpeza, radicalização e tratamento de sinônimos, o que já vem sendo estudado em [Louvisse e Silva 2009]. Outro importante aspecto a ser refinado é a análise dos quadros clínicos sob uma perspectiva temporal, pois estes
XXIV Simp�sio Brasileiro de Banco de Dados
223
evoluem a cada dia à medida que o tratamento assume novos rumos devido às reações clínicas do paciente.
Apesar do foco deste trabalho ter sido o de Data Warehouses Clínicos, o ambiente proposto pode ser aplicado em outras áreas de negócio, trazendo novas perspectivas e aumentando significativamente o potencial das soluções analíticas nas organizações. Isso é possível com a construção ou utilização de taxonomias facetadasdo domínio em questão, servindo como base para classificação dos termos das diversas fontes de dados disponíveis. Esta questão é investigada em mais detalhes em projeto de pesquisa [Heuseler 2009], ainda em andamento, que generaliza a abordagem aqui apresentada.
Referências
Banek, M., Tjoa A. M. e Stolba N. (2006) Integrating different grain levels in a medical data warehouse federation. Data Warehousing and Knowledge Discovery, 8th International
Conference, DaWaK, Krakow, Polônia, páginas 185194, Setembro.
CDR (2009) Waban Clinical Data Repository, Waban Software.
Cherman, E. A., Lee, H. D., Honorato, D. F., Fagundes, J. J., Goes, J. R. N., Coy, C. S. R., Wu, F.C. (2007) Metodologia de Mapeamento de Laudos Médicos para Bases de Dados:
Aplicação em Laudos Colonoscópicos. II Congresso Trinacional de Ciências, Foz do Iguaçu,
páginas 19.
����������������������������������������������������������������������������������������
��������������������������������������������������������������������������������
Einbinder, J. e Scully, K. (2002) Using a Clinical Data Repository to Estimate the Frequency
and Costs of Adverse Drug Events. Journal of the American Medical Informatics Association, páginas 3438.
Feldman, R. e Sanger, J. (2007) The Text Mining Handbook Advanced Approaches In
Analyzing Unstructured Data, Cambridge University Press.
������ ��� ������� ������������ ��� ��������� ��������� ����� ��������� ���������� ����� ��������
������������������Massachusetts, USA, Elsevier Inc.
Harkema, H., Roberts, I., Gaizauskas, R. e Hepple, M. (2005). Information Extraction from Clinical Records. In Proceedings of the 4th UK e-Science All Hands Meeting, Nottingham,
UK.
Heuseler, F. (2009) Uma abordagem multifacetada para exploração integrada de dados estruturados e não estruturados em ambientes OLAP, Dissertação de Mestrado, DCC/NCE, UFRJ, Em andamento.
Honorato, D. F. (2008) Metodologia para mapeamento de informaç�es não estruturadas
descritas em laudos médicos para uma representação atributovalor, Dissertação de Mestrado, Instituto de Ciências Matemáticas e de Computação (ICMC), USP.
Inmon, W. e Nesavich, A. (2008), Tapping into Unstructured Data: Integrating Unstructured
and Textual Analytics into Business Intelligence, Prentice Hall.
Kimball, R., Reeves, L., Ross, M. e Thornthwaite, W. (1998), �The Data Warehouse Lifecycle
Toolkit���Wiley.
Manfré, P. N. e Scalabrin, E. E. (2008) Uma Proposta de Sistema Integrado de Informação para
uma Clínica de Estética, Anais do XI Congresso Brasileiro de Informática em Sáude CBIS, Campos do Jordão, São Paulo. Dezembro.
XXIV Simp�sio Brasileiro de Banco de Dados
224
McCabe, M. C., Lee, J., Chowdhury, A., Grossman, D., Frieder, O. (2000) On the design and evaluation of a multidimensional approach to information retrieval. In Proceedings of the
23rd Annual International ACM SIGIR Conference on Research and Development in
Information Retrieval, páginas 363365.
Louvisse, D e Silva, T. L. (2009) Estratégias e mecanismos para ETL Textual, Trabalho de Conclusão de Curso (Bacharelado em Informática) Universidade Federal do Rio de Janeiro
Pedersen, T. B., Vej, P. O. e Jensen, C. S. (1998). ���������� ������� in Clinical ������������������ ���Proceedings of the 10th International Conference on Scientific and
Statistical Database Management.
������� ��� ������� ����������������� �� ����� ���������� ����� ������������ Ph. D. Thesis.
Universitat Jaume I, Castell´on, Fevereiro.
Porto, C. C. (2009) �����������������������������������������������������������
Prieto��������������������������������������������������������������������
����������� �������������������������������������������������������� ��� ������������������S�����������������������������������The Data Warehousing Institute.
���������������������������������������������������������������������������������������������
1th Australasian Workshop on Health Knowledge Management and Discovery (HKMD),
Ballarat, Australia. Vol. 68.
Scully, K.W., Riddle, R.K., Nadkarni, M., Lyman, J.A (2004) Defining Diabetes in a Clinical
Data Warehouse, MEDINFO, Amsterdam: IOS Press.
Spitzer, A. (2008) The electronic medical record and the Data warehouse: evidencebased Medicine for improving patient Outcomes, The Center for Research and Education, Pediatrix
Medical Group.
STRIDE (2009) Stanford Translational Research Integrated Database Environment, Stanford Center for Clinical Informatics, Stanford University Medical Center.
http://stride.stanford.edu
Stewart, D. L. (2008) Building Enterprise Taxonomies, 1a. Edição, Mokita Press.
������������������������������������������������������������������������������������������������������������������������������������������������������������ical Informatics, 683691.
����������� ��� �� ��������� ��� ������� ��������� �������������� ������������ �������������
Database and Expert Systems Applications. DEXA. In Proceedings of the 18th International Conference on Database and Expert Systems Applications, páginas 207211, Setembro.
Wisniewski, M.F., Kieszkowski, P., Zagorski, B.M., Trick, W.E., Sommers, M. e Weinstein,
R.A. (2003) Development of a Clinical Data Warehouse for Hospital Infection Control,Journal of the American Medical Informatics Association, páginas 45562.
Zhou, X., Han, H., Chankai, I., Prestrud, A. e Brooks, A. (2006). Approaches to text mining for
clinical medical records. In Proceedings of the ACM Symposium on Applied Computing,
Dijon, França, páginas 235239.
Zhou, X., Liu, B., Wang, Y., Zhang, R., Li, P., Chen, S., Guo, Y., Gao, Z. e Zhang , H. (2008)
���������� ��������� ����� ���������� ���� ������������ �������� ��������� ����������
������������ �������������� ����������� ��� ����������� ������������ ���� �����������,Washington, DC, USA, páginas 615620.
XXIV Simp�sio Brasileiro de Banco de Dados
225
top related