apresentação apache tajo

24
Universidade Federal de Alagoas (UFAL) Instituto de Computação (IC) Apache Tajo Michel de S. Miranda E-mail: [email protected] 10/06/2014

Upload: michel-miranda

Post on 13-Jul-2015

133 views

Category:

Technology


0 download

TRANSCRIPT

Universidade Federal de Alagoas (UFAL)

Instituto de Computação (IC)

Apache Tajo

Michel de S. Miranda

E-mail: [email protected]

10/06/2014

Roteiro …

o O que é o Apache Tajo;

o Quem Utiliza;

o Instalação;

o Linguagem de Manipulação de Dados;

o Apresentação e;

o Demonstração em uma Base de Dados.

2

Apache Tajo ...

• É um sistema de armazenamento de dados relacional e distribuídos para

Hadoop;

• Projetado permite a consultas de baixa latência e escaláveis;

• Agregação on-line;

• ETL (extract-processo de transformar-carga) em conjuntos de dados

armazenados no HDFS (Hadoop Distributed File System) e outras fontes

de dados.

3

Apache Tajo ...

• Características:

1. Rápido e Eficiente;

2. Escalável;

3. Compatível e;

4. Fácil.

4

Apache Tajo ...

• Características: Rápido e Eficiente:

Totalmente distribuído em mecanismo de processamento de consulta SQL;

Otimização de consulta avançada e;

Análise interativa em conjunto de dados razoável.

5

Apache Tajo ...

• Características: Escalável

A tolerância a falhas e programação dinâmica para consultas de longa

duração e;

Possui algoritmos para conjuntos de dados maior do que a memória

principal.

6

Apache Tajo ...

• Características: Compatível

Conformidade com os padrões (ANSI / ISO SQL);

Suporte de acesso Hive MetaStore;

Suporte de driver JDBC e;

Vários formatos de arquivo de apoio, tais como CSV, rcfile, RowFile,

SequenceFile e Parquet.

7

Apache Tajo ...

• Características: Fácil

Funções definidas pelo usuário;

Shell interativo;

Backup e;

Asynchronous / Synchronous Java API.

8

Apache Tajo ...

• História....

Começou em 2010 no Laboratório de Banco de Dados da Universidade da

Coreia;

Entrou no Apache Incubator em Março de 2013 e;

Apache Tajo está em uso em Gruter, Universidade da Coreia, e SK

Telecom.

9

Apache Tajo ...

• História....

Software Apache Tajo é distribuído sobre a licença Apache v2.0;

O software encontra-se na Apache Tajo™. 0.8.0

10

Apache Tajo ...

• Quem utiliza ......

11

Apache Tajo ...

• Aplicações

o Podemos aplicar o Tajo para analisar grandes conjuntos de

dados em tempo real.

Controle de trafego aéreo;

Telecomunicações;

Sistemas Financeiros;

Entre outros.

12

Apache Tajo ...

• Linguagem de Manipulação de

Dado

13

Apache Tajo ...

• Instalação

o Realizada em 2 PARTES

14

Apache Tajo ...

• Instalação Parte I – Downloads e Instalação dos Softwares

1. VM;

2. Maven 3.1;

3. Java 1.6

4. Make

5. Protocol buffer 2.5.0

6. Versão 2.4 do Radoop;

7. Tajo 0.8.0;

15

Apache Tajo ...

• Instalação Parte II – Configuração

1. TAJO_HOME;

2. JAVA_HOME e;

3. HADOOP_HOME.

16

Apache Tajo ...

• Apresentação

• Criação do arquivo “data.csv”

17

Apache Tajo ...

• Apresentação

• Acessando o Tajo SQL “tsql”

18

Apache Tajo ...

• Apresentação

• Criando tabela e inserindo os dados do arquivo “data.csv”

19

Apache Tajo ...

• Apresentação

• Apresentado os atributo da tabela “ \d ”

20

Apache Tajo ...

• Apresentação

• Realizando uma consulta SQL

21

Apache Tajo ...

• Demonstração em uma Base da Dados

o Dados Abertos do Brasil

o Unidade Básica de Saúde

o Atualizada em 04/2013

o A base possui 37691 linhas

o Disponível em: ABD

22

Referências

• Apache Tajo. Disponível em:<http://tajo.apache.org/>. Acessado

em 06 de Junho de 2014.

• The Apache Software Foundation Announces Apache™ Tajo™

as a Top-Level Project. Disponível em: <http://citrix.ulitzer.com/no

de/3036803>. Acessado em 06 de Junho de 2014.

• Máquina Virtual Linux com o Apache Tajo instalado e

configurado para uso. Disponível em:<https://www.dropbox.com/s/

10i401f54vxrfrb/micheldefault140214158885393776.rar>.