sql server data quality services túlio de souza (tss2)
TRANSCRIPT
SQL Server Data
Quality ServicesTúlio de Souza
(tss2)
Roteiro1. Motivação
1. Visão geral sobre qualidade de dados2. Qualidade de dados nas organizações
2. Objetivo
3. Conceitos do Data Quality Services do SQL Server1. Componentes do DQS2. Bases de conhecimento3. Domínio4. Projetos de qualidade de dados5. Limpeza de dados
4. Estado da arte do DQS5. Demonstração prática dos conceitos apresentados6. Referências
Motivação• Informação tem se tornado um dos principais ativos de uma empresa
• Dados de má qualidade podem gerar:
• Falhas em processos de negócios
• Custos relacionados a áreas organizacionais
• Perda total ou parcial de clientes
• Qualidade de dados em DW
• 80% das Empresas empresas afirmam que lidam com a má qualidade dos dados
• Menos de 52% das empresas consideram fazer uma auditoria de qualidade dos dados.
Motivação• Qualidade de dados é um conceito complexo pois possui
significados diversos para diferentes negócios e pessoas
• É preciso identificar as necessidades da empresa, quando lidamos com a qualidade dos dados• Custos adicionais
• Perdas financeiras
• Nível de dependência em processos automatizados de tomada de decisões
• Data Quality Services do SQL Server ainda é pouco difundido nas organizações.
Objetivo• Apresentar a importância da qualidade de dados nas organizações
• Explicar os principais conceitos do DQS• Base de conhecimento
• Projeto de qualidade de dados
• Limpeza de dados
• Serviços de dados de referência
• Demonstrar como o DQS funciona na prática
• Apresentar as vantagens do uso do DQS
Conceitos• Data Quality Services (DQS) é uma solução de limpeza de dados
baseada em uma base de dados de conhecimentos lançada no SQL Server 2012.
• Permite a criação de bases de conhecimento na qual nos baseamos para fazer a limpeza e desduplicação de dados.
• Os conhecimentos de uma base de dados podem melhorar com o tempo e ser reusada em outras soluções.
Conceitos• Gerenciamento do conhecimento e dados de referência
• Criar e gerenciar bases de conhecimento no DQS
• Descobrir os conhecimentos baseados nos dados da organização
• Explorar e integrar dados de referências de outras organizações
• Limpeza e correspondência de dados• Corrigir, desduplicar e padronizar dados
• Administração• Monitorar os processos de qualidade de dados
Conceitos
Conceitos• Componentes do DQS
• O QDS consiste de um Data Quality Server e o Data Quality Client
• O Data Quality Server é uma das funcionalidade da instância do SQL Server
• O Data Quality Client é uma aplicação windows que permite aos administradores de dados e profissionais de TI fazer operações de qualidade de dados
• Criação e gerenciamento da base de dados
• Criar e manter projetos de qualidade de dados
• Monitorar processos de qualidade de dados
• Gerenciar configurações do sistema
Conceitos
ConceitosBases de conhecimento
• Para tratar os dados é preciso conhecimento sobre eles
• É um reposiótio de dados que permite aos profissionais entender seus dados e manter sua integridade
• Os conhecimentos em uma base de conhecimentos é mantida em domínios, cada um específico para um campo de dados.
ConceitosDominios• Domínios tratam da semântica dos dados• Podem ser usados com dados de referências online
• Online DataMarketReference Data Service• Serviços de referência de dados de terceiros
• Os processos incluem:• Gerenciamento de domínios - Definir os domínios• Descobrimento de conhecimento - Definir valores para os domínios• Políticas de correspondência - Para identificar possíveis dados
duplicados
Conceitos
ConceitosProjeto de qualidade de dados• Um projeto de qualidade de dados é a maneira de usar a base de dados de
conhecimento criada anteriormente para executar os processos de limpeza e correspondência de dados.
• Criado e gerenciado no Data Quality Client• Os resultados podem ser exportados para uma tabela do SQL Server, arquivo de excel
ou arquivo CSV.• Dois tipos:
• Atividade de limpeza - Os dados processados são categorizados como novos, inválidos, corrigidos e corretos.
• Atividade de correspondência - Usado para prevenir duplicação de dados identificando repetições e repetições aproximadas.
ConceitosO processo de limpeza de dados
• As configurações do processo envolvem:• Definição da conexão a um servidor de Qualidade de dados• Seleção da base de conhecimentos• Mapeamento das colunas da fonte com os domínios
• Os resultados incluem os dados originais e os dados corrgidos juntamente com o status da atividade.
Estado da Arte• DQS presente na instalação do SQL Server 2014• Data Quality Services Client - v12.0.2000.8• Data Quality Services Server - v12.0.4100.1• Ferramenta ainda pouco difundida e utilizada nas organizações• Tendência de crescimento e desenvolvimento da ferramenta muito
alta, tendo em vista o presente valor dos dados em uma organização. A preocupação com a qualidade dos mesmos tem sido crescido nos últimos anos.
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicações
Exemplos de aplicaçõesDados exportados após processamento pelo DQS
Dúvidas?
Referências1. Presentation: Introducing SQL Server 2012 Data Quality Services. Disponível em
https://channel9.msdn.com/posts/SQL11UPD05-REC-05 acessado em 21/11/2015.2. Introduction to Data Quality Services. Disponível em
https://msdn.microsoft.com/pt-br/library/ff877917(v=sql.120).aspx , acessado em 21/11/2015.
3. Uma visão sobre a qualidade de dados. Disponível em http://www.devmedia.com.br/uma-visao-sobre-a-qualidade-dos-dados/6973 , acessado em 21/11/2015.
4. A qualidade de seus dados é boa o suficiente para o seu projeto de Business Intelligence? Disponível em http://www.sparkbs.com.br/blog/archives/category/qualidade-dos-dados , acessado em 21/11/2015.
5. SQL SERVER – Step by Step Guide to Beginning Data Quality Services in SQL Server 2012 – Introduction to DQS. Disponível em http://blog.sqlauthority.com/2012/09/04/sql-server-step-by-step-guide-to-beginning-data-quality-services-in-sql-server-2012-introduction-to-dqs/ , acessado em 21/11/2015.