categorizacao automatica de documentos de texto

Categorização Automática de Documentos de Texto Utilizando Lógica Difusa A recuperação de informações textuais tem sido alvo de muitas pesquisas. A necessidade de métodos de recuperação mais eficientes e precisos, capazes de atuar sobre grandes bases, é uma realidade. Como a maioria dos métodos de recuperação trabalha sobre bases classificadas, a categorização automática de documentos também tem despertado o interesse dos pesquisadores. Com o advento dos computadores, muita informação, hoje, é armazenada e disponibilizada na forma de documentos-texto. Constantemente, tais informações precisam ser recuperadas. No entanto, à medida que a quantidade de documentos aumenta, mais dispendioso computacionalmente torna-se o processo de busca e recuperação das informações. A internet é um exemplo disso, visto que ela pode ser interpretada como um grande repositório de informações heterogêneas, especialmente em formato de texto. O seu grande e crescente volume de documentos, bem como a sua popularidade, tornam evidente a necessidade de métodos de recuperação cada vez mais eficientes e rápidos. Atualmente, os mecanismos de busca mais utilizados na rede selecionam, ainda, uma grande quantidade de documentos irrelevantes que precisam ser filtrados pelo usuário.

Upload: biblio-2010

Post on 21-Dec-2014

317 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

DESCRIPTION

TRANSCRIPT

Page 1: Categorizacao automatica de documentos de texto

Categorização Automática de Documentos de Texto Utilizando Lógica Difusa

A recuperação de informações textuais tem sido alvo de muitas pesquisas. A necessidade de métodos de recuperação mais eficientes e precisos, capazes de atuar sobre grandes bases, é uma realidade. Como a maioria dos métodos de recuperação trabalha sobre bases classificadas, a categorização automática de documentos também tem despertado o interesse dos pesquisadores.

Com o advento dos computadores, muita informação, hoje, é armazenada e disponibilizada na forma de documentos-texto. Constantemente, tais informações precisam ser recuperadas. No entanto, à medida que a quantidade de documentos aumenta, mais dispendioso computacionalmente torna-se o processo de busca e recuperação das informações. A internet é um exemplo disso, visto que ela pode ser interpretada como um grande repositório de informações heterogêneas, especialmente em formato de texto. O seu grande e crescente volume de documentos, bem como a sua popularidade, tornam evidente a necessidade de métodos de recuperação cada vez mais eficientes e rápidos.

Atualmente, os mecanismos de busca mais utilizados na rede selecionam, ainda, uma grande quantidade de documentos irrelevantes que precisam ser filtrados pelo usuário.

O processo de Recuperação de Informações também é importante para as empresas, visto que elas precisam obter o máximo possível de informações pertinentes a sua área de atuação para garantir sua permanência no mercado. Tão importante quanto a captação de informações, muitas vezes, é a sua distribuição. O direcionamento de informações às pessoas “certas” dentro de uma corporação também pode ser importante para assegurar a sua competitividade. O encaminhamento automático da correspondência eletrônica de clientes aos setores adequados de uma empresa pode ser a diferença entre um bom e um mau atendimento. Sabe-se que recuperar documentos em bases devidamente classificadas é sempre mais eficaz. Embora o homem ainda seja o melhor classificador, a enorme quantidade de documentos torna a classificação manual impraticável.