projeto de aplicação - passagens federais

14

Click here to load reader

Upload: ufmg

Post on 07-Jul-2015

628 views

Category:

Education


0 download

DESCRIPTION

Projeto de Aplicação como requisito final para a disciplina Mineração de Dados - Prof. Wagner Meira Jr - Doutorado em Bioinformática

TRANSCRIPT

Page 1: Projeto de Aplicação - Passagens Federais

Projeto de Aplicação – Análise do uso de Passagens Aéreas

Federais

Rodrigo da Silva Soares

Rondon Pessoa de Mendonça Neto

Page 2: Projeto de Aplicação - Passagens Federais

ObjetivoVerificar o uso de passagens aéreas federais através de mineração de padrões frequentes.

Hipóteses:1 - Existem associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem.

2 - Qual a relação entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida.

3 - A relação entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro.

Page 3: Projeto de Aplicação - Passagens Federais

Base de Dados

Passagens Aéreas Federais 2007

Atributos

•Código do órgão

•Nome do órgão

•Número PCDP

•Tipo de passageiro

•Data de partida

•Turno da partida

•Tipo de viagem

•Companhia

•V12

•Custo da tarifa

•Tarifa praticada

•Trecho

•Dia da semana

•Trajeto

•Data e hora de partida

Page 4: Projeto de Aplicação - Passagens Federais

Pré-ProcessamentoFiltros: Redução e Limpeza dos

dados

RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos

constantes (nme/nml).

Discretize: Discretiza um intervalo de atributos numéricos utilizando a técnica MDL.

Page 5: Projeto de Aplicação - Passagens Federais

• 2 etapas:• Um método de avaliação

• Um método de busca

• Utilizamos dois métodos:• InfoGainAttributeEval - Ranker

• ChiSquare - Ranker

Pré-Processamento - Seleção de Atributos

Page 6: Projeto de Aplicação - Passagens Federais

InfoGainAttributeEval - Ranker

• === Attribute Selection on all input data ===

• Search Method:• Attribute ranking.

• Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto):• Information Gain Ranking Filter

• Ranked attributes:• 1.106828 3 Num_PCDP• 1.033605 8 Data_Hora_Partida• 0.670534 5 Data_Inicio• 0.379512 7 Trajeto• 0.379512 12 Trecho• 0.292108 2 Nome_Orgao• 0.26584 1 Cod_Orgao• 0.118241 10 Companhia• 0.097476 13 Dia_Semana• 0.013819 9 Turno_Partirda• 0.005139 11 Tarifa_Praticada• 0.005113 14 Custo_Tarifa• 0.000581 6 Internacional

• Selected attributes: 3,8,5,7,12,2,1,10,13,9,11,14,6 : 13

ChiSquaredAttributeEval - Ranker

• === Attribute Selection on all input data ===

• Search Method:• Attribute ranking.

• Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto):• Chi-squared Ranking Filter

• Ranked attributes:• 7780.123 3 Num_PCDP• 7182.115 8 Data_Hora_Partida• 2656.849 5 Data_Inicio• 1078.49 7 Trajeto• 1078.49 12 Trecho• 965.474 2 Nome_Orgao• 658.226 1 Cod_Orgao• 320.807 10 Companhia• 260.794 13 Dia_Semana• 36.345 9 Turno_Partirda• 16.905 14 Custo_Tarifa• 11.549 11 Tarifa_Praticada• 0.973 6 Internacional

• Selected attributes: 3,8,5,7,12,2,1,10,13,9,14,11,6 : 13

Page 7: Projeto de Aplicação - Passagens Federais

Algoritmos

• 3 algoritmos para aprender Associações:– Apriori;

– PredictiveApriori;

– Tertius;

• Trabalham somente com dados nominais;

• Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.

• 2 algoritmos para Classificação:– BFTree;

– REPTree;

• Modelos para a previsão de classes (nominal ou númerica):

Page 8: Projeto de Aplicação - Passagens Federais

Resultados

Hipótese 1 - Associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem.

=== Run information ===

Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1Relation: BasePassagensDiscretizada-weka.filters.unsupervised.attribute.RemoveUseless-M99.0-weka.filters.unsupervised.attribute.Remove-R1,3,5-13Instances: 74262Attributes: 3 Nome_Orgao tipo_proposto Custo_TarifaTest mode: split 99.0% train, remainder test

Page 9: Projeto de Aplicação - Passagens Federais

Resultados

Hipótese 1 - Associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem.

PredictiveApriori===================

Best rules found:

1. Custo_Tarifa=BAIXO 156 ==> Internacional=NAO 156 acc:(0.99497) 2. tipo_proposto=Colaborador Eventual Internacional=SIM 7 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=ALTO 3 acc:(0.46999) 3. Custo_Tarifa=INCOMUM 12 ==> tipo_proposto=Servidor Internacional=SIM 9 acc:(0.72776) 4. Custo_Tarifa=ALTO 214 ==> tipo_proposto=Servidor 123 acc:(0.58724) 5. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 acc:(0.58268) 6. tipo_proposto=Colaborador Eventual Internacional=NAO Custo_Tarifa=ALTO 80 ==> Nome_Orgao=Gabinete do Ministro 45 acc:(0.58026) 7. Custo_Tarifa=NAO AVALIADO 14 ==> tipo_proposto=Colaborador Eventual Internacional=NAO 8 acc:(0.57539) 8. Internacional=SIM 21 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=INCOMUM 12 acc:(0.5747)

Page 10: Projeto de Aplicação - Passagens Federais

ResultadosHipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida.

Apriori=======

Minimum support: 0.35 (700 instances)Minimum metric <confidence>: 0.9Number of cycles performed: 13

Best rules found:

1. Companhia=GOL Custo_Tarifa=NORMAL 752 ==> Internacional=NAO 752 conf:(1) 2. Companhia=TAM Custo_Tarifa=NORMAL 708 ==> Internacional=NAO 708 conf:(1) 3. Turno_Partirda=MANHA Custo_Tarifa=NORMAL 889 ==> Internacional=NAO 888 conf:(1) 4. Custo_Tarifa=NORMAL 1604 ==> Internacional=NAO 1602 conf:(1) 5. tipo_proposto=Servidor Custo_Tarifa=NORMAL 945 ==> Internacional=NAO 943 conf:(1) 6. Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=NORMAL 936 ==>

Internacional=NAO 934 conf:(1) 7. Companhia=TAM 898 ==> Internacional=NAO 895 conf:(1) 8. Companhia=GOL 888 ==> Internacional=NAO 882 conf:(0.99) 9. Turno_Partirda=MANHA 1076 ==> Internacional=NAO 1068 conf:(0.99)10. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 conf:(0.99)

Page 11: Projeto de Aplicação - Passagens Federais

ResultadosHipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida.

PredictiveApriori===================

Best rules found:

1. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=GOL Custo_Tarifa=NORMAL 299 ==> Internacional=NAO 299 acc:(0.99484)

2. Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Turno_Partirda=MANHA Dia_Semana=Segunda-Feira Custo_Tarifa=NORMAL 280 ==> Internacional=NAO 280 acc:(0.9948)

3. Companhia=TAM Dia_Semana=Segunda-Feira 275 ==> Internacional=NAO 275 acc:(0.99479) 4. Dia_Semana=Terca-Feira Custo_Tarifa=NORMAL 271 ==> Internacional=NAO 271 acc:(0.99478)

Tertius=======

1. /* 0,343644 0,082384 */ tipo_proposto = Colaborador Eventual ==> Nome_Orgao = Secretaria Nacional de Seguranca Publica

2. /* 0,338121 0,081495 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = NAO AVALIADO or Nome_Orgao = Secretaria Nacional de Seguranca Publica

3. /* 0,329954 0,082249 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = INCOMUM or Nome_Orgao = Secretaria Nacional de Seguranca Publica

4. /* 0,318858 0,073160 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = ALTO or Nome_Orgao = Secretaria Nacional de Seguranca Publica

Page 12: Projeto de Aplicação - Passagens Federais

Hipótese 3 –Relações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro

Resultados

2)Trajeto=(Recife-Brasilia)|(Florianopolis-Brasilia)| Turno_Partirda=(TARDE): Servidor(8.0/0.0)

1) Turno_Partirda=(NOITE)| Trajeto=(Brasilia-Belem)|(Brasilia-Fortaleza)| | Trajeto=(Brasilia-Fortaleza): Servidor(1.0/1.0)

Trajeto=(Brasilia-Goiania): Servidor(5.0/2.0)Trajeto=(Brasilia-Florianopolis): Servidor(10.0/7.0)Trajeto=(Brasilia-Belo Horizonte): Colaborador Eventual(30.0/12.0)Trajeto!=(Brasilia-Curitiba): Colaborador Eventual(24.0/16.0)

=== Classifier model (full training set) ===

Best-First Decision Tree=== Evaluation on training set ====== Summary ===

Correctly Classified Instances 1568 78.4 %Incorrectly Classified Instances 432 21.6 %

Exemplos da Árvore:

3)

Page 13: Projeto de Aplicação - Passagens Federais

Hipótese 3 –Relações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro

Resultados

Apriori=======Minimum support: 0.2 (400 instances)

Minimum metric <lift>: 1.1

Best rules found:

1. tipo_proposto=Colaborador Eventual Internacional=NAO 751 ==> Companhia=TAM 460 conf:(0.61) < lift:(1.36)> lev:(0.06) [122] conv:(1.42)

2. tipo_proposto=Servidor Internacional=NAO 1167 ==> Companhia=GOL 684 conf:(0.59) < lift:(1.32)> lev:(0.08) [165] conv:(1.34)

3. tipo_proposto=Servidor 1181 ==> Companhia=GOL 690 conf:(0.58) < lift:(1.32)> lev:(0.08) [165] conv:(1.33)

PredictiveApriori===================

Best rules found:

1. Turno_Partirda=NOITE Companhia=GOL 224 ==> Internacional=NAO 224 acc:(0.995)2. Turno_Partirda=TARDE Companhia=TAM 210 ==> Internacional=NAO 210 acc:(0.995)3. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=TAM 188 ==> Internacional=NAO 188 acc:(0.99499)4. Companhia=NHT 24 ==> Internacional=NAO 24 acc:(0.99466)5. tipo_proposto=Colaborador Eventual Trajeto=Porto Alegre-Brasilia 24 ==> Internacional=NAO Companhia=TAM 24 acc:(0.99466)6. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Internacional=NAO 9 acc:(0.99129)7. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Turno_Partirda=NOITE 9 acc:(0.99129)8. Internacional=NAO Trajeto=Brasilia-Rio de Janeiro Turno_Partirda=MANHA Companhia=GOL 23 ==> tipo_proposto=Servidor 22 acc:(0.98756)

Page 14: Projeto de Aplicação - Passagens Federais

Referências

• Agrawal R, Imielinski T, Swami AN. "Mining Association Rules between Sets of Items in Large Databases." SIGMOD. June 1993, 22(2):207-16.

• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1.

• Peter A. Flach and Nicolas Lachiche. Confirmation-Guided Discovery of First-Order Rules with Tertius. Machine Learning,volume 42 (1/2): 61--95, January 2001.

• S. Kotsiantis, D. Kanellopoulos, Association Rules Mining: A Recent Overview, GESTS International Transactions on Computer Science and Engineering, Vol.32 (1), 2006, pp. 71–82

[email protected]@yahoo.com.br