relatório sobre os pontos críticos em rodovias federais

Upload: gilmar-correa-dos-santos

Post on 09-Mar-2016

214 views

Category:

Documents


0 download

DESCRIPTION

Relatório sobre pontos críticos em rodovias federais Brasileiras

TRANSCRIPT

  • 2015

    Gilmar Correa dos Santos

    Consultor Ministrio da Justia

    9/11/2015

    Relatrio sobre Pontos Crticos - PRF

  • 2RESUMO

    Este documento apresenta avaliao sobre o ambiente de dados da Polcia

    Rodoviria Federal (PRF) no que diz respeito a qualidade dos dados de localizao

    geogrfica disponvel no contexto BrBrasil em relao as ocorrncias de Acidentes

    Graves, ou seja, acidentes que tenha resultado em, pelo menos, um ferido grave ou

    morto. Sendo o objetivo da consultoria gerar extrao de dados dessas ocorrncias

    e disponibiliz-las sociedade sob o ttulo de dados abertos.

  • 3NDICE

    I. INTRODUO ........................................................................................................................ 4II. DESENVOLVIMENTO .......................................................................................................... 5III. ANLISE DOS RESULTADOS ......................................................................................... 10IV. CONCLUSO ...................................................................................................................... 11

  • 4I. INTRODUO

    A administrao do conhecimento, para lana mo da definio utilizada por

    (DAVENPORT e PRUSAK, 1998), requer domnio na organizao e operao com

    grandes volumes de dados procedentes de diversas origens e com diferentes

    formatos. Lidar com a diversidade de origens e formatos, alm dos grandes volumes

    um dos maiores desafios da ltima dcada (DAVENPORT, BARTH e BEAN, 2012).

    Isso ocorre devido ao crescimento exponencial na gerao de dados pela sociedade

    e a necessidade de abstrair informaes por meio de anlises consistentes

    (ISOTANI e BITTENCOURT, 2008).

    Outro desafio importante, alm da administrao do conhecimento e

    associado a administrao do conhecimento, fazer com que a informao seja

    espacializada, ou seja, posicionada no espao geogrfico. Nesse contexto, de

    fundamental importncia para divulgao sociedade de dados consistentes que os

    dados da ocorrncia estejam incorporados da informao geogrfica (CMARA,

    DAVIS e MONTEIRO, 2014).

    O objetivo geral dessa consultoria foi construir um modelo de integrao

    entre a PRF e o Ministrio da Justia (MJ). O objetivo imediato integrar os dados

    sobre ocorrncias classificadas como acidentes graves e distribuir essa informao

    sob o ttulo de dados abertos afim de auxiliar no processo de reduo de mortes em

    estradas brasileiras pelo alerta preciso ao cidado sobre os pontos crticos em

    quantidade de acidentes.

    Nesse processo encontramos alguns percalos que so relatados nesse

    documento e, no obstante, registramos as aes de contorno adotadas para que se

    possa alcanar sucesso nesta tarefa.

    Para extrao dos dados se utilizou das metodologias de minerao de

    dados (BRAGA, 2005). Desta forma, prospectou-se da base de dados BrBrasil os

    dados referentes a ocorrncias de acidentes graves em rodovias federais brasileiras.

  • 5II. DESENVOLVIMENTO

    Anlise Inicial

    Para a construo do processo de minerao de dados procurou-se

    entender as relaes dos dados armazenados na tabela ocorrencia, entidade que

    armazena os dados referentes a ocorrncias em Rodovias Federais Brasileiras, do

    banco de dados do contexto BrBrasil. Identificou-se as relaes dessa entidade de

    dados com outras entidades que pudessem complementar o entendimento dos

    requisitos necessrios para gerar as sadas esperadas pelo requisito de negcio. As

    tabelas encontradas, para o relacionamento foram:

    1 ocorrenciapessoa entidade de relacionamento entre a entidade

    ocorrencia e a entidade pessoa;

    2 pessoa entidade que armazena as pessoas envolvidas na ocorrncia;

    3 ocorrenciaveiculo entidade de relacionamento entre a entidade

    ocorrencia e a entidade veiculo;

    4 veiculo entidade que armazena os veculos envolvidos na ocorrncia;

    5 localbr entidade que armazena o local da BR (Rodovia) que ocorreu o

    acidente;

    6 pnv entidade que armazena os trechos, segundo a definio do DNIT,

    publicados no SNV;

    7 municpio entidade que armazena os municpios brasileiros.

    Identificadas as relaes, construiu-se consulta que recuperasse as

    seguintes informaes:

    1. ocorrencia.ocoid (Identificador da ocorrncia);

    2. localbr.lbruf (UF do local do acidente);

    3. localbr.lbrbr (BR do local do acidente);

    4. localbr.lbrkm (KM do acidente na Rodovia);

  • 65. pnv.codigo (Cdigo do trecho do local do acidente,

    segundo o SNV);

    6. municipio.tmudenominacao (Municpio do Acidente);

    7. pnv.descricao_dprf (Descrio do trecho segundo a

    PRF);

    8. pnv.km_inicial (KM inicial do trecho do acidente

    segundo o PNV);

    9. pnv.km_fim (KM final do trecho do acidente segundo o

    PNV);

    10. pnv.extensao (Extenso do trecho segundo o PNV).

    Regras aplicadas na minerao:

    a. O primeiro tratamento aplicado para a minerao dos dados foi

    aplicar a diviso na extenso dos trechos em comprimentos

    regulares de 10 km. Esse tratamento se deu pela razo de que o

    DNIT trata os trechos pelas caractersticas de uniformidade de

    paisagem, obras de artes e outros qualificadores da rodovia.

    Enquanto, a PRF distribui os trechos em intervalos regulares de 10

    km. Tabela apresentando tratamento estatstico sobre a extenso

    dos trechos segundo definio do DNIT:

    Tabela 1: Extenses de trechos definidos pelo DNIT, segundo

    SNV 2015.

    Tipo de dimenso Extenso (KM)

    Trecho mais extenso 99,00

    Trecho menos extenso 0,10

    Extenso mdia 19,32

    Extenso mediana 13,00

    Extenso mais frequente (moda) 12,00

  • 7Ao analisar esses resultados conclui-se que a extenso mediana

    (desconsiderando-se os extremos), adotada pelo DNIT, de 13 KM

    e a moda (extenso mais frequente) de 12 KM. Isso bem

    prximo da extenso de 10 km adotados pela PRF. Desta feita,

    procurou-se adotar os registros de latitude e longitude vlidas

    cadastrados na entidade localbr referentes ao incio e fim de cada

    trecho de 10 km. Para as latitudes e longitudes que, nesta entidade,

    esto sem referncia ou pontos que no esto sobre rodovias,

    foram adotadas as latitudes e longitudes registradas no SNV do

    DNIT;

    b. A prospeco dos dados considera o intervalo de um ano a partir do

    ms anterior ao atual at o mesmo ms do ano anterior;

    c. Selecionou-se pessoas cujo estado fsico atributo identificador na

    entidade pessoa.pesestadofisico correspondesse aos valores 3 e 4,

    ou seja, estado fsico da vtima (Feridos Graves ou Mortos);

    d. Desprezou-se registro cujo identificador na entidade de dados pnv

    correspondesse a 1, ou seja, no definidos.

    Prospeco de dados via IBM/DataStage

    Para o processo de integrao dos dados originrios do contexto BrBrasil, foi

    necessria a construo de um job de extrao e transformao de dados utilizando

    a ferramenta IBM/DataStage (BALLARD, BHAT, et al., 2012).

  • 8Figura 1: Imagem do Job de Extrao de Pontos Crticos

    Durante o processo de integrao, observou a necessidade de integrao

    entre o repositrio de dados abertos da PRF com o portal de dados aberto do MJ,

    por intermdio da API de upload da ferramenta CKAN (SOURCE WIKIPEDIA, 2013).

    Para esse fim foi construdo um script em linguagem de programao python

    (LANGTANGEN, 2004) que acessa o WebDAV (DUSSEAULT, 2004) owncloud da

    PRF e transfere os arquivos encontrados para o repositrio de dados abertos do MJ.

    Durante a construo do processo de extrao e tratamento de dados

    referentes a acidentes graves, foi observado que os dados recuperados

    apresentavam inconsistncia com relao a informao de localizao geogrfica do

    local de ocorrncia dos acidentes classificados como graves registradas na entidade

    de dados localbr. A razo da inconsistncia era que a informao armazenada nesta

    entidade de dados do contexto de dados BRBrasil, apresentava menos de 40% do

    registro com valores vlidos para latitude e longitude. Conforme tabela abaixo:

    Tabela 2 Quantidade de registros de ocorrncia de acidentesgraves no ano 2015, extrados do contexto BRBrasil da PRF

    Tipo de extrao Quantidade Percentual

    Ocorrncias registradas com

    valores nulos ou em branco

    para latitude e longitude

    22.117 60%

    Quantidade de valores com

    valores vlidos para latitude e

    14.745 40%

  • 9longitude

    Total de ocorrnciasregistradas

    36.862 100%

    Essa inconsistncia compromete em muito a qualidade da informao

    divulgada. Para contornar esse obstculo adotou-se as seguintes estratgias:

    i. Utilizou-se o conceito adotado pela PRF, onde os trechos so padronizados

    em extenso mxima de 10 km. Porm, no existe, no contexto BrBrasil, informao

    posicional na delimitao desses trechos. Utilizando esse conceito possvel

    identificar a ocorrncia de acidentes graves agrupados por extenso de 10 km e

    levantar as maiores ocorrncias num perodo. Por outro lado, mediante a anlise

    estatstica apresentada na tabela 1, se nota que possvel compartilhar as

    informaes de localizao do DNIT com os dados de ocorrncia extrados do

    contexto BrBrasil considerando trechos de 10 km.

    Registro do mecanismo de publicao de dados

    O processo de publicao dos arquivos no diretrio pontosCriticos na

    owncloud, que se encontra em https://www1.prf.gov.br/arquivos/ em que o usurio de

    acesso dtstage e a senha do usurio: dtstage123 (desconsiderar as aspas).

    Quando os arquivos so gerados pela ferramenta IBM/DataStage esses so

    depositados em link de compartilhamento endereado a pasta webdav do owncloud

    a partir do servidor que hospeda o IBM/DataStage.

    O job denominado JOB_PONTOS_CRITICOS do IBM/DataStage no projeto

    IntegraoMJ tem execuo agendada para o primeiro dia de cada ms e a

    periodicidade vai do ms anterior ao atual at um ano atrs. So recuperados os

    primeiros 1.000 registros de ocorrncia classificadas como acidentes graves.

  • 10

    I. ANLISE DOS RESULTADOS

    Os resultados, obtidos neste processo de integrao, foram os seguintes:

    i. Construo de um processo de extrao, via IBM/DataStage,

    que recupere os dados do contexto BrBrasil e gere arquivos

    de sada em formato (.xml) e (.json);

    ii. Configurao de soluo webdav owncloud para permitir a

    integrao entre PRF e MJ;

  • 11

    II. CONCLUSO

    Durante processo de minerao e integrao para acidentes graves

    deparamos com obstculos relacionados a qualidade dos dados posicionais

    registrados no contexto BrBrasil. Notamos que o maior problema reside na qualidade

    dos dados das entidades de dados localbr, municipio e pnv.

    Anlise dessas entidades de dados:

    a) Com relao a localbr o problema consiste na qualidade dos dados de

    localizao geogrfica. No contexto BrBrasil no se tem forma de

    desprezar as informaes contidas nessa entidade, pois ela

    responsvel por uma relao forte com a entidade ocorrencia. Observa-

    se que os problemas de qualidade nos dados residem sobre latitude e

    longitude que conta com muitos registros nulos ou em branco, ou

    informao de localizao imprecisa. Foi aventada a possibilidade de

    cruzamento com o contexto SERVO, em que as informaes estariam

    mais slidas. Porm, esse cruzamento teria que passar pela entidade

    localbr, que nesta entidade que se armazena uf, br, km. Sugere-se

    atualizar a tabela com as referncias de localizao dos trechos com

    extenso de 10 km;

    b) A entidade de dados municipio est desatualizada em relao ao arquivo

    de municpios divulgado, com atualizao at maro de 2015, pelo IBGE.

    Para essa entidade uma simples atualizao preservando o atributo

    tmucodigo que um cdigo prprio do sistema e no o cdigo do IBGE

    que seria a melhor opo em termos corporativos. Porm, os sistemas

    existentes tm esse cdigo (tmucodigo) como referncia. Observa-se,

    que na estrutura atual da tabela no se tem o cdigo IBGE;

    c) A entidade pnv tambm apresenta desatualizao com relao ao

    arquivo SNV 2015 divulgado pelo DNIT, seria necessria a atualizao

    dessa entidade, adaptando-a para guardar um histrico de evoluo do

    SNV de acordo com as publicaes do DNIT. Dever-se-ia adotar o

  • 12

    conceito de fotografias para cada publicao do DNIT, tendo como

    referncia a anlise temporal dos dados.

    Desta feita, sugere a atualizao dessas entidades de dados que, pelo

    menos, em relao a preciso das informaes de acidentes em rodovias federais

    tero os impactos minorados. Refletindo tambm impactos positivos sobre os

    resultados obtidos pelo servio de Business Intelligence (BI).

  • 13

    BIBLIOGRAFIA

    BALLARD, C. et al. Infosphere DataStage for Entreprise XML Data Integration. 1. ed. Charlotte, NC, USA: IBM, Redbooks, 2012.

    BRAGA, L. P. V. Introduo Minerao de Dados. 2. ed. Rio de Janeiro, Brasil: E-papers, 2005.

    CMARA, G.; DAVIS, C.; MONTEIRO, A. M. V. Introduo Cincia da Geoinformao. 1. ed. So Paulo, SP: INPE, 2014.

    DAVENPORT, T. H.; BARTH, P.; BEAN, R. How 'Big Data' Is Different. Fall 2012 - Opinion & Analysis, July 2012.

    DAVENPORT, T. H.; PRUSAK, L. Ecologia da Informao: por que s a tecnologia no basta para o sucesso na era da informao. So Paulo: Futura, 1998.

    DUSSEAULT, L. WebDAV Next-Generation Collaborative Web Authoring. 1. ed. New Jerssey, USA: Prentice Hall, 2004.

    ISOTANI, S.; BITTENCOURT, I. I. Dados Abertos Conectados. [S.l.]: Novatec, 2008. 155-159 p.

    LANGTANGEN, H. P. Python Scripting for Computational Science. 1. ed. New York, USA: Spring-Verlang Heidekberg, 2004.

    SOURCE WIKIPEDIA. Open Data: Ckan, Data. Gov, Data. Gov. Uk, Factual, Freedb, Linkedgov, Opencorporates, Openei, Openstreetmap, Open Data in Canada, Open Data in the Unite. [S.l.]: University-Press Org, 2013.

  • 14

    NDICES DE TABELAS, MAPAS E FIGURA

    Tabela 1: Extenses de trechos definidos pelo DNIT, segundo SNV2015................06

    Figura 1: Imagem do Job de Extrao de PontosCrticos...........................................07

    Tabela 2 Quantidade de registros de ocorrncia de acidentes graves no ano 2015,extrados do contexto BRBrasil daPRF......................................................................08

  • 15

    GLOSSRIO DE ABREVIAES E ACRNIMOS (SIGLAS)

    TERMO TIPO SIGNIFICADO

    BRBrasil Sigla de sistema Sistema da PRF que registra ocorrncias em rodovias

    brasileiras.

    CKAN Nome de Plataforma Plataforma de dados abertos para cadastramento e manuteno

    de dados e arquivos.

    CSV Tipo de extenso de arquivo Formato de arquivo texto separado por ponto e virgula

    DNIT Sigla Departamento Nacional de Infraestrutura Rodoviria

    GIS Sigla Geographical Information System Sistema de Informao

    Geogrfica

    IBGE Sigla Instituto Brasileiro de Geografia e Estatstica

    JSON Tipo de tecnologia - Sigla Java Script Object Notation Notao de Objetos em Java

    Script

    MJ Sigla Ministrio da Justia

    PF Sigla Polcia Federal

    PRF Sigla Polcia Rodoviria Federal

    SNV Sigla Sistema Nacional de Viao

    WebDAV Tipo de tecnologia Tecnologia de publicao de arquivos

    XML Tipo de tecnologia - Sigla eXtensible Markup Language Linguagem de Marcao

    Extensvel

    RESUMONDICEBIBLIOGRAFIANDICES DE TABELAS, MAPAS E FIGURAGLOSSRIO DE ABREVIAES E ACRNIMOS (SIGLAS)