atas do xxiii congresso · 2020. 10. 14. · jos e dias curto, iscte - instituto universit ario de...

289
ATAS DO XXIII CONGRESSO Da Sociedade Portuguesa de Estatística Editores: Maria de Fátima Salgueiro Paula Vicente Teresa Calapez Catarina Marques Maria Eduarda Silva

Upload: others

Post on 01-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • ATAS DO XXIII CONGRESSODa Sociedade Portuguesa de Estatística

    Editores: Maria de Fátima Salgueiro Paula Vicente Teresa CalapezCatarina Marques Maria Eduarda Silva

  • ATAS DO XXIII CONGRESSO

    DA SOCIEDADE PORTUGUESA

    DE ESTATÍSTICA

    Lisboa, 18 a 21 de outubro de 2017

    EditoresMaria de Fátima Salgueiro

    Paula VicenteTeresa Calapez

    Catarina MarquesMaria Eduarda Silva

    Janeiro, 2020Edições SPE

  • c© 2020, Sociedade Portuguesa de Estat́ısticaEditores: Maria de Fátima Salgueiro, Paula Vicente, Teresa Calapez,Catarina Marques e Maria Eduarda Silva

    T́ıtulo: Atas do XXIII Congresso da Sociedade Portuguesa de Estat́ıstica

    Editora: Sociedade Portuguesa de Estat́ıstica

    Conceção Gráfica da Capa: Andreia Garcia (Iscte - Instituto Universitáriode Lisboa)

    ISBN: 978-972-8890-46-9

  • Prefácio

    Este é o Livro de Atas do XXIII Congresso da Sociedade Portuguesade Estat́ıstica (SPE), que se realizou em Lisboa entre 18 e 21 de Ou-tubro de 2017, nas instalações do ISCTE-Instituto Universitário deLisboa.Lisboa foi desta feita escolhida pela Sociedade Portuguesa de Esta-t́ıstica (SPE) para acolher o seu Congresso de 2017.

    Lisboa, Janeiro de 2020Os Editores

  • Agradecimentos

    Aos seguintes colegas, pelo generoso trabalho de revisão dos artigossubmetidos a este Livro de Atas, que em muito valorizou o conteúdodesta publicação:

    • Ana Paula Amorim, Universidade do Minho

    • Ana Sousa Ferreira, Universidade de Lisboa

    • Antónia Turkman, Universidade de Lisboa

    • Carlos Tenreiro, Universidade de Coimbra

    • Cláudia Silvestre, Instituto Politécnico de Lisboa

    • Conceição Amado, IST, Universidade de Lisboa

    • Cristina Miranda, Universidade de Aveiro

    • Esmeralda Gonçalves, Universidade de Coimbra

    • Graça Trindade, Iscte - Instituto Universitário de Lisboa

    • Helena Ferreira, Universidade da Beira Interior

    • Helena Mouriño, Universidade de Lisboa

    • Isabel Alves Rodrigues, IST, Universidade de Lisboa

    • Isabel Barão, Universidade de Lisboa

    • Isabel Pereira, Universidade de Aveiro

    • Isabel Silva Magalhães, Universidade do Porto

    • Joana Leite, Instituto Politécnico de Coimbra

    • José Dias Curto, Iscte - Instituto Universitário de Lisboa

    • José Manuel G.Dias, Iscte - Instituto Universitário de Lisboa

  • v

    • Lisete Sousa, Universidade de Lisboa

    • Lúıs Antunes, Universidade do Porto

    • Lúıs Machado, Universidade do Minho

    • Manuel Scotto, IST, Universidade de Lisboa

    • Manuela Neves, ISA, Universidade de Lisboa

    • Margarida Cardoso, Iscte - Instituto Universitário de Lisboa

    • Maria Almeida Silva, Universidade de Lisboa

    • Maria da Graça Temido, Universidade de Coimbra

    • Maria do Carmo Botelho, Iscte - Instituto Universitário deLisboa

    • Helena Carvalho, Iscte - Instituto Universitário de Lisboa

    • Maŕılia Antunes, Universidade de Lisboa

    • Miguel Pereira, Imperial College, London

    • Nazaré Mendes-Lopes, Universidade de Coimbra

    • Paula Milheiro-Oliveira, Universidade do Porto

    • Rui Menezes, Iscte - Instituto Universitário de Lisboa

    • Sandra Dias, Universidade de Trás-os-Montes e Alto Douro

    • Sebestyan Szabolcs, Iscte - Instituto Universitário de Lisboa

    • Sofia Azevedo, Faculdade de Ciências, Universidade de Lisboa

  • Um agradecimento especial é também devido aos colegas da Di-reção da Sociedade Portuguesa de Estat́ıstica que colabora-ram diretamente na realização deste congresso e aos colegas das Co-missões Cient́ıfica e Organizadora do XXIII Congresso da SociedadePortuguesa de Estat́ıstica.

    Comissão Cient́ıfica

    • Maria Eduarda Silva, Presidente da Sociedade Portuguesade Estat́ıstica, Faculdade de Economia, Universidade do Porto

    • Maria de Fátima Salgueiro, Iscte - Instituto Universitáriode Lisboa

    • Nazaré Mendes–Lopes, Universidade de Coimbra

    • Conceição Amado, Instituto Superior Técnico

    • Paulo M.M. Rodrigues, Nova School of Business and Eco-nomics

    • José Manuel G. Dias, Iscte - Instituto Universitário de Lis-boa

    Comissão Organizadora

    • Maria de Fátima Salgueiro

    • Paula Vicente

    • Teresa Calapez

    • Catarina Marques

    • Elizabeth Reis

    Iscte - Instituto Universitário de Lisboae Business Research Unit (BRU - Iscte)

  • vii

    Agradecimentos

    Agradecemos às seguintes entidades o valioso apoio concedido paraa realização do XXIII Congresso da SPE

    • Banco de Portugal

    • Edições Śılabo

    • EPAL - Grupo Águas de Portugal

    • Escolar Editora

    • Fundação para a Ciência e a Tecnologia

    • Instituto Nacional de Estat́ıstica

    • Iscte - Executive Education

    • Iscte - Instituto Universitário de Lisboa

    • Produtos e Serviços de Estat́ıstica, PSE

    • Sociedade Portuguesa de Estat́ıstica

    • Turismo de Lisboa

  • Índice

    Comparing Cox regression, parametric and flexible parame-

    tric models in the study of time to non-persistence in a

    chronic disease treatment 1

    Ana Rita Godinho, Cristina Rocha e Zilda Mendes

    Avaliação de resultados em classificação supervisionada 13

    Ana Sousa Ferreira e Anabela Marques

    Comparação bayesiana de testes de diagnóstico com dados

    densamente omissos ao acaso 31

    Carlos Daniel Paulino e Giovani L. Silva

    O critério Minimum Message Lenght na estimação de mode-

    los de mistura sobre dados mistos 45

    Cláudia Silvestre, Margarida G.M.S. Cardoso e Mário A.T. Figuei-

    redo

    Método das maiores observações anuais: Aplicação ao triplo-

    salto masculino 59

    Domingos Silva, Frederico Caeiro e Manuela Oliveira

    Taxas de erros de tipos I e II de procedimentos não para-

    métricos alternativos à ANOVA com dois fatores para dados

    discretos 75

    Dulce G. Pereira e Anabela Afonso

    Uma nova abordagem na avaliação da interacção genótipo ×ambiente em espécies lenhosas de propagação vegetativa: o

    caso de clones de videira 89

    Elsa Gonçalves e Antero Martins

    Propriedade de Taylor e curtose em modelos MA 105

    Esmeralda Gonçalves, Cristina Martins e Nazaré Mendes–Lopes

  • xi

    Números de clientes servidos e bloqueados em peŕıodos de

    ocupação cont́ınua de filas M/M/1/n com bloqueio 117

    Fátima Ferreira, António Pacheco e Helena Ribeiro

    Generalização do estimador de Hill, baseada na média de

    Lehmer: Resultados adicionais 129

    Ivanilda Cabral, Frederico Caeiro e M. Ivette Gomes

    Modelos de sobrevivência aplicados à análise de aconteci-

    mentos múltiplos 145

    Ivo Sousa-Ferreira, Ana Maria Abreu e Cristina Simões Rocha

    Modelagem de capturas em peso inflacionadas de zeros no

    Baixo Rio Amazonas 161

    Júlio César Pereira, Giovani L. Silva e Victória Isaac

    Optimal re-sampled efficient frontier and examples 175

    Marcus Huber Mendes, Reinaldo Castro Sousa e Marco Aurélio San-

    fins

    Modelling (and forecasting) extremes in time series: A naive

    approach 189

    M. Manuela Neves e Clara Cordeiro

    A importância dos conceitos e das classificações nas Estat́ıs-

    ticas da Educação 203

    Nuno Rodrigues, Joaquim Santos, Carlos Malaca e Lúısa Canto e Cas-

    tro Loura

    Omissões e dimensão da amostra: Impacto sobre medidas

    de qualidade do ajustamento em modelos de análise fatorial

    confirmatória 221

    Paula C.R. Vicente e Maria de Fátima Salgueiro

    Os sindicatos no feminino: Um ensaio sobre diferentes formas

    de visualização 235

    Paulo Marques Alves e Maria do Carmo Botelho

  • xii

    Distribuição limite conjunta da soma e do máximo de variá-

    veis inteiras 249

    Sandra Dias e Maria da Graça Temido

    Estat́ısticas ordinais de uma amostra aleatória: O caso de

    dimensão de amostra com distribuição binomial negativa 263

    Sandra Mendonça e Délia Gouveia–Reis

    Autores 275

  • Comparing Cox regression, parametricand flexible parametric models in thestudy of time to non-persistence in achronic disease treatment

    Ana Rita GodinhoCentro de estudos e avaliação em saúde (CEFAR), Associação Na-cional das Farmácias (ANF), [email protected]

    Cristina RochaDepartamento de Estat́ıstica e Investigação Operacional, Faculdadede Ciências, Universidade de Lisboa, 1749-016 Lisboa, Portugal eCentro de Estat́ıstica e Aplicações, Faculdade de Ciências, Univer-sidade de Lisboa, 1749-016 Lisboa, Portugal, [email protected]

    Zilda MendesCentro de estudos e avaliação em saúde (CEFAR), Associação Na-cional das Farmácias (ANF), [email protected]

    Keywords: Chronic Disease Treatment Persistence; Survival Anal-ysis; Royston and Parmar Flexible Models; Parametric Models; CoxModel.

    Abstract: The Cox model is the most frequently used procedurefor the analysis of survival data, due to its not very restrictive as-sumptions. However, if found to be adequate, a parametric modelwould lead to more precise estimates of the regression parameters.Yet, sometimes, the parametric models may not be sufficiently flex-ible to adequately represent the baseline hazard function. Recently,a new class of flexible parametric models has become available. Thestudy aims to compare the Cox model, traditional parametric mod-els (Weibull and log-logistic) and flexible parametric models in theanalysis of time to non-persistence in a chronic disease treatment.

  • 2 Godinho, Rocha & Mendes

    1 Introduction

    Due to population ageing, there has been an increase in the incidenceof chronic diseases usually associated with debilitating or physicallypainful conditions [1], leading to a reduction in the patient’s qualityof life. Although developed countries have the oldest population pro-files, less developed countries have a rapidly aging population. Thus,quality of life specially associated with chronic diseases, becomes in-creasingly a matter of public health [2]. Several studies show thatmedication persistence (i.e. the act of continuing treatment for theprescribed period) play a crucial role in improving health outcomes[3]. Therefore, it is essential to understand the factors that influencepersistence in a treatment.

    The Cox regression model [4] is the most frequently used methodfor analysing survival data. This model is semiparametric, since theunderlying distribution of survival time is unspecified, which makesit so popular in medical sciences. On the other hand, if found to beadequate, a parametric regression model would lead to more preciseestimates than the Cox model [5]. Nonetheless, even though thetraditional parametric models offer advantages over the Cox model,they may not be sufficiently flexible to adequately represent the haz-ard function of each group of patients.

    The flexible parametric models, proposed by Royston and Parmar[6, 7], are generalizations of the traditional parametric models, whichintroduce more flexibility in the form of the survival distributionthey can model. The aim of this study is to use the Cox model, twoparametric models (Weibull and log-logistic) and flexible parametricmodels (proportional hazards and proportional odds) to evaluatethe effect of the patient’s age, whether the patient lives alone ornot and the type of treatment to which the patient is subjected, onthe time to non-persistence in a chronic disease treatment. Anothergoal is to identify the model that best describes the hazard functionassociated with each group of patients and, thus, produces moreprecise estimates of the adjusted hazard ratios.

  • Atas do XXIII Congresso da SPE 3

    2 Methods

    2.1 Data source

    Data were obtained from an observational prospective cohort study,involving 360 individuals with a specific chronic disease. The pa-tients were recruited in the Portuguese community pharmacies wheretheir medication was purchased and were followed for a maximumperiod of 18 months (from January 2011). The event of interest wasthe non-persistence in the treatment of a chronic disease, i.e., theuntimely discontinuation of the treatment. Therefore, the responsevariable was the time to non-persistence, defined as the time (indays) from initiation to discontinuation of the treatment. Duringrecruitment, several sociodemographic and health-related variableswere collected. According to the method for variable selection pro-posed by Collett [8], the only variables that showed significant influ-ence on time to non-persistence were: Age, Living alone and Treat-ment (monthly or weekly treatment), and therefore, those were theonly ones that were included in the analysis.

    2.2 Cox proportional hazards model

    The Cox PH model is the most widely used procedure in survivalanalysis. In this model, the hazard function for a vector of covariates,x = (x1,...,xp), is:

    h(t;x) = h0(t)eβ′x

    where β = (β1,...,βp) is the vector of regression coeficients.

    This model is semiparametric, which means that the baseline hazardfunction, h0(t), is not specified. Through the hazard ratio (HR), itis possible to compare two individuals with covariate patterns x1and x2, for which only the value of one covariate differs, xj :

    h(t;x1)h(t;x2)

    = exp(βj(x1j − x2j))

  • 4 Godinho, Rocha & Mendes

    One constraint of the Cox PH model is its proportional hazardsassumption. It means that the hazard ratio between two individualswith different vectors of covariates is constant over time, so, if thisassumption is violated, the results may not be reliable.

    2.3 Parametric models

    Unlike the Cox PH model, in parametric models the response vari-able (survival time) is assumed to follow a distribution with unknownparameters that are estimated from the data. When there are strongindications that a certain distribution is appropriate, it is preferableto use these models, as they are more efficient and yield results moreconsistent with the theoretical survival curve. In addition, not allparametric models satisfy a proportional hazards assumption, in-stead many parametric models are accelerated failure time (AFT)models or even proportional odds (PO) models.

    In the AFT models, the covariates have a multiplicative effect onthe survival time. In this case, the survival function for a vector ofcovariates, x, is expressed as follows:

    S(t;x) = S0(t exp(α′x))

    On the other hand, the PO models satisfy a proportional odds as-sumption and the covariates have a multiplicative effect on the sur-vival odds. The odds of survival beyond time t for a vector of co-variates x is given by:

    S(t;x)1−S(t;x) = e

    η S0(t)1−S0(t)

    where η = β′x.

    2.4 Royston and Parmar flexible models

    In this paper, we compare Cox PH and traditional parametric (Weibulland log-logistic) models with an alternative class of models proposedby Royston and Parmar, the flexible parametric models [6, 7]. To

  • Atas do XXIII Congresso da SPE 5

    obtain the flexible parametric models the approach taken by theauthors is to model a transformation of the survival function as anatural cubic spline function of log time:

    g[S(t;x)] = s(ln(t),γ) + β′x

    The natural cubic spline is constrained to be linear beyond its bound-ary knots kmin, kmax and can have m internal knots k1,...km (withk1 > kmin and km < kmax). A natural cubic spline for z is given by:

    s(z,γ) = γ0 + γ1z + γ2v1(z) + ...+ γm+1vm(z)

    where vj(z) = (z− kj)3+− λj(z− kmin)3+− (1− λj)(z− kmax)3+ and

    λj = (kmax − kj)/(kmax − kmin) and (z − a)+ = max(0,z − a).

    In this study, we focus in the flexible parametric models with pro-portional hazards (PH) and proportional odds assumptions (PO),which are generalizations of the Weibull and log-logistic models, re-spectively. To find the optimal number of internal knots, we usedthe Akaike information criterion (AIC). As for their location, we se-lected the centile-based positions, as suggested by the authors, i.e.,the centiles of the distribution of the uncensored log-survival times.

    All statistical analysis was performed using R statistical softwarev3.0.1. The flexsurv package was used for the flexible parametricanalysis.

    3 Results

    A total number of 360 patients with a specific chronic disease wereincluded in this study. Of the complete cohort, 80 patients (22.3%)lived by themselves and 242 patients (67.2%) were under a weeklytreatment. About 36.9% of the patients were aged between 60 and70 years and 27.8% were aged above 70 years. The patient char-acteristics are summarized in Table 1. At the end of the follow-up

  • 6 Godinho, Rocha & Mendes

    period, the event of interest was observed for 275 (76.9%) patients.Of the 85 patients for whom the event was not observed, 6 were lostto follow-up, consequently 79 patients remained persistent until theend of the study.

    Table 1: Patients characteristics

    Variable Category No. of patients (%)

    Age

    ≤ 60 years 127 (35.3%)60 to 70 years 133 (36.9%)

    > 70 years 100 (27.8%)

    Lives aloneNo 280 (77.7%)

    Yes 80 (22.3%)

    TreatmentMonthly 118 (32.8%)

    Weekly 242 (67.2%)

    3.1 Traditional parametric and Flexible paramet-ric models

    Table 2 compares the AIC value for the multivariable PH and POflexible parametric models with up to four internal knots. The mod-els with no internal knots (m = 0) are equivalents of the Weibulland the log-logistic model, in PH and PO modelling respectively.The increase in the number of internal knots, up to three, leads toa decrease in the AIC value associated with each model, the low-est AIC values were found under the PH flexible parametric modelswith two and three internal knots (respectively, AIC = 3576.56 andAIC = 3574.67). For these two models not only are the AIC val-ues close but also the parameters estimates remain unchanged asshown in Table 3, thus, the inclusion of a third knot results in anunnecessary increase of the curve’s complexity. On this account, theoptimal number of internal knots was found to be m = 2 under the

  • Atas do XXIII Congresso da SPE 7

    PH flexible parametric model.

    Table 2: AIC values for multivariable flexible parametric models

    No. of knots PH PO

    0 3653.99 3623.74

    1 3593.00 3594.60

    2 3576.56 3578.99

    3 3574.67 3578.73

    4 3576.06 3580.38

    Table 3: Parameters estimates in the PH multivariable flexible para-metric models

    Variable m = 0 m = 1 m = 2 m = 3

    Age – 60 to 70 years -0,382 -0,360 -0,364 -0,363

    Age – >70 years -0,013 -0,022 -0,015 -0,016

    Lives alone 0,440 0,373 0,390 0,387

    Treatment 0,262 0,261 0,260 0,259

    γ0 -4,784 -8,205 -11,189 -14,184

    γ1 0,820 1,788 2,738 3,778

    γ2 - 0,097 0,374 0,580

    γ3 - - -0,276 -0,250

    γ4 - - - -0,067

    The survival curves estimated with the univariable PH flexible para-metric models with up to three internal knots are shown in Figure 1.The inclusion of one internal knot (m = 1) produces a clear changein the estimate of the survival curves associated with each level of

  • 8 Godinho, Rocha & Mendes

    the three variables under analysis. For all groups, the curves becomemore flexible at the beginning of the follow-up and get closer to theKaplan-Meier estimates. The addition of a second knot affects thecurvature of the estimates which, although in a less evident way,improves its fit in relation to the models with only one knot, leadingto an overlapping of this curves and the respective Kaplan-Meierestimate.

    Figure 1: Survival curves: comparison between Kaplan-Meier esti-mates and the curves obtain from the PH flexible parametric modelswith m internal knots

  • Atas do XXIII Congresso da SPE 9

    In turn, the models with three internal knots do not change signif-icantly the form of the survival functions estimates when comparedto the previous models. This result is consistent with the earlieranalysis of the AIC values in the multivariable analysis, suggestingthe inclusion of the third knot to be unnecessary.

    3.2 Cox and Flexible parametric models

    The results of Cox PH model and PH flexible parametric modelswith two internal knots are shown in Table 4. In general, the hazardratios are very similar for the two models.

    Table 4: Multivariable analysis of Cox and PH flexible parametricmodel with 2 knots (RP model)

    Variable CategoryCox model RP model

    HR[95% CI] HR[95% CI]

    Age

    ≤ 60 years 1 160 to 70 years 0.697 [0.522; 0.930] 0.695 [0.521; 0.928]

    > 70 years 0.979 [0.722; 1.327] 0.985 [0.727; 1.335]

    Lives aloneNo 1 1

    Yes 1.474 [1.110; 1.957] 1.478 [1.113; 1.962]

    TreatmentMonthly 1 1

    Weekly 1.331 [1.026; 1.727] 1.297 [1.000; 1.683]

    According to the results, with the selected PH flexible paramet-ric model we found that for patients with the same values in theremaining variables, a patient with 60 to 70 years has a smallerrisk of becoming non-persistent (less 30.5%), than a patient with60 years or younger (HR 0.695; 95% CI [0.521; 0.928]). A patientwith more than 70 years has roughly the same risk as a patientwith 60 years or younger (HR 0.985; 95% CI [0.727; 1.335]). Liv-ing alone increases the risk of non-persistence by 47.8% (HR 1.478;

  • 10 Godinho, Rocha & Mendes

    95% CI [1.113; 1.962]). A patient under weekly treatment has a29.7% greater risk of becoming non-persistent than a patient with amonthly treatment (HR 1.297; 95% CI [1.000; 1.683]).

    4 Discussion

    Our goal was to compare Cox, traditional parametric and flexibleparametric models applied to the study of time to non-persistencein a chronic disease treatment. Upon finding the model that bestdescribed the data, we intended to evaluate the impact of the pa-tient’s age, the fact that the patient lives alone or not and the typeof treatment on survival time, i.e., on time to non-persistence inthe treatment. Researchers in the field of life sciences are usuallymore interested in the Cox proportional hazards model rather thanparametric models. However, if the Cox model’s assumptions donot hold, the model can lead to biased estimates, thus, this modelmight not be appropriate in some situations. Besides, when a certaindistribution is found to be adequate, the corresponding parametricregression model provides more acurate estimates. As mentionedby Kleinbaum [5], although it may be preferable to use a parametricmodel, most of the time we are not sure which is the proper distribu-tion and since the Cox model is robust, generating results very closeto the adequate parametric model, it becomes greatly popular. Evenwhen we are sure about which parametric model to use, it may notbe flexible enough to describe the data adequately. In recent years,a new family of models was proposed and developed, the flexibleparametric models. These models introduce a greater flexibility tothe shape of the survival distribution. According to the results, theinclusion of internal knots improves the estimation process of thesurvival functions in both the PH and the PO flexible parametricmodels, when compared to the models without internal knots (whichare equivalent to the Weibull and log-logistic, respectively). The in-crease in the number of knots, to a maximum of three, resulted inthe decrease of the AIC value and in the increase of flexibility of

  • Atas do XXIII Congresso da SPE 11

    the estimated survival curves, which got closer to the Kaplan-Meierestimates. The PH flexible parametric models with two and threeinternal knots seem to be the most adequate and the ones that bestdescribe the data. Since the parameters estimates and AIC valuesof both models are very similar, we opted for the most parsimoniousmodel, which is the PH flexible parametric model with two internalknots. Thus, based on this model, for individuals with the samevalue in the remaining variables, it is estimated that a patient agedbetween 60 and 70 years has a lower risk and a patient with morethan 70 years has around the same risk of becoming non-persistentthan a patient with 60 years or younger. When comparing patientsin the same age group and under the same treatment, a patient wholives alone has a higher risk of discontinuing the treatment than apatient who lives with someone else. Lastly, it is estimated that apatient under a weekly treatment has a higher risk of becoming non-persistent than a patient under a monthly treatment, for patients inthe same age group and living in the same conditions. Overall, thehazard ratios estimated with the selected flexible parametric modeland with the Cox model are close, as expected. Nevertheless, us-ing flexible modelling to analyse the effect of a set of covariates ontime to non-persistence in the treatment of a chronic disease, leadsto more precise estimates than by using other families of models.Thus, this methodology contributes for a better understanding ofthe phenomenon in study over time.

    Acknowledgements

    Ana Rita Godinho and Zilda Mendes’s work was partially supportedby CEFAR. Cristina Rocha’s work was partially supported by FCTPortugal UID/MAT/00006/2013.

  • 12 Godinho, Rocha & Mendes

    References

    [1] Ferreira, L.N., Ferreira, P.L., Pereira, L.N., et al.(2014). EQ-5D Por-tuguese population norms.Quality of Life Research 23, 425–430.

    [2] World Health Organization, National Institute of Health, NationalInstitute on Aging, et al. (2011) Global Health and Aging. 11–7737.

    [3] Cramer, J.A., Roy, A., Burrell, A., et al. (2008). Medication Compli-ance and Persistence: Terminology and Definitions. Value in Health11, 44–47.

    [4] Cox, D.R. (1972). Regression Models and Life-Tables.Journal of theRoyal Statistical Society Series B (Methodological) 34(2), 187–220.

    [5] Kleinbaum, D.G., Klein, M. (2005). Survival Analysis: A Self-Learning Text 2nd ed. Springer, New York.

    [6] Royston, P., Parmar, M.K.B. (2002) Flexible parametricproportional-hazards and proportional-odds models for censored sur-vival data, with application to prognostic modelling and estimationof treatment effects. Statistics in Medicine 21, 2175–22197.

    [7] Royston, P., Lambert, P.C. (2011) Flexible Parametric Survival Anal-ysis Using Stata: Beyond the Cox Model 1st ed. Stata Press, Texas.

    [8] Collett, D. (2003) Modelling Survival Data in Medical Research 2nded. Boca Raton: Chapman and Hall/CRC.

  • Avaliação de resultados em classificaçãosupervisionadaAna Sousa FerreiraFaculdade de Psicologia, Universidade de Lisboa, Business ResearchUnit (BRU-IUL), Lisboa, Portugal,[email protected]

    Anabela MarquesEscola Superior de Tecnologia do Barreiro, IPS, CIIAS, Barreiro,Portugal,[email protected]

    Palavras–chave: Avaliação de resultados; Classificação Supervi-sionada; Combinação de modelos.

    Resumo: Em problemas discretos de classificação supervisionadaobserva-se, frequentemente, que as observações mal classificadas sãodiferentes para diferentes modelos. Deste modo, a abordagem pelacombinação de modelos tem vindo a ser considerada uma mais valianeste domı́nio. A avaliação de resultados em classificação baseia-se,habitualmente, na taxa de casos bem classificados. No entanto, al-guns autores têm vindo a advertir que esta medida pode não analisarcorretamente a qualidade de um modelo. Neste trabalho, pretende-mos explorar a avaliação de desempenho de novos modelos combi-nados, comparando a medida de avaliação mais usual com outrostipos de medidas como a Sensibilidade, Especificidade ou Precisão,Medidas de associação ou concordância ou o Índice de Huberty.

    1 Introdução

    Em Estat́ıstica, fala-se de um problema de classificação supervisio-nada quando se pretende identificar qual a classe, entre várias defi-nidas a priori, a que pertence uma nova observação, baseando-se na

  • 14 Ferreira & Marques

    informação fornecida por uma amostra, onde a classe de cada ob-servação é conhecida. Por exemplo, quando se pretende atribuir umdiagnóstico a um certo paciente, descrito por um conjunto de carac-teŕısticas observadas (sexo, pressão arterial, presença ou ausência dealguns sintomas, . . . ), entre meningite viral ou bacteriana ou quandose precisa de decidir se um dado email pertence à classe de emails“spam” ou “não spam”. Em qualquer dos exemplos referidos, paraidentificar a classe a que pertence a nova observação, utiliza-se a in-formação de uma amostra, denominada habitualmente amostra detreino, tentando perceber se o “perfil” da nova observação, será maisprovável de ocorrer na Classe 1 ou na Classe 2.No caso discreto, os resultados que podem ser observados são de-nominados por estados. Exemplificando, no caso mais simples deapenas duas variáveis binárias (0 - ausência do sintoma e 1 - pre-sença do sintoma) podem ocorrer os estados seguintes: 00, 01, 10 e11. Então, os resultados observados numa amostra de treino podemser apresentados como na Tabela 1:

    Tabela 1: Exemplo de estados observados numa amostra de treino

    Estados Classe 1 Classe 21 00 4 02 01 5 13 10 0 44 11 1 5Total 10 10

    No caso discreto, o modelo mais natural é o Modelo MultinomialCompleto (MMC) onde a probabilidade de ocorrer um certo es-tado se a observação pertencer a uma determinada classe é esti-mada pela frequência relativa observada na amostra-treino, em cadaclasse ([5]). Contudo, quando o número de variáveis consideradasaumenta um pouco, o número de estados posśıveis sofre, de ime-diato, um enorme incremento. Note-se, por exemplo que, no caso

  • Atas do XXIII Congresso da SPE 15

    mais simples de variáveis binárias, se forem consideradas 10 variá-veis, teremos 2p = 210 = 1024 estados posśıveis, exigindo amostrasde grandes dimensões para permitir a estimação de todos os parâ-metros do modelo.

    Deste modo, em classificação supervisionada, no caso discreto, existefrequentemente um problema de dimensionalidade, denominado mesmona literatura como “a maldição da dimensionalidade”:

    • Na generalidade dos modelos, o número de parâmetros a serestimado é demasiado grande;

    • Em Ciências Sociais e Humanas, onde o caso discreto temgrande prevalência, não raramente as amostras têm pequenadimensão.

    Consequentemente, gera-se facilmente um número elevado de esta-dos não observados, dificultando a estimação de todos os parâmetros.Este problema conduz a que a maior parte dos métodos revelem umfraco desempenho, especialmente quando as classes são pouco sepa-radas e não balanceadas ([6]). Deste modo, em problemas de clas-sificação discretos, a abordagem pela combinação de modelos temvindo a ser referida como uma mais-valia, resultante de os erros demá classificação observados em diferentes modelos tenderem a ocor-rer em objetos diferentes ([2], [7], [11]).Quando se compara o desempenho destes novos modelos combina-dos com os modelos originais, usa-se geralmente a Taxa de casosbem classificados ou de casos mal classificados. No entanto, estamedida de avaliação pode não analisar corretamente a qualidade deum modelo, particularmente quando as classes são não balanceadas.Neste trabalho, pretendemos explorar a avaliação de resultados emclassificação supervisionada, comparando a taxa de casos bem clas-sificados com outros tipos de medidas ([4], [9]).

  • 16 Ferreira & Marques

    2 Combinação de modelos

    Geralmente, em face de um problema de classificação complexo,estimam-se diversos modelos e, posteriormente, um único modeloé selecionado, baseado num determinado critério de validação. Con-tudo, os modelos descartados contêm frequentemente alguma infor-mação importante sobre o problema de classificação, que se perdepelo facto de se considerar um único modelo ([2]). Por outro lado,verifica-se muitas vezes que as observações mal classificadas são di-ferentes para diferentes modelos. Este conhecimento tem conduzidoa um número crescente de publicações sobre abordagens de combi-nação de modelos, ainda que referenciadas sob nomes diversos comoBlending, Bagging e Arcing entre outros ([8]).

    Em problemas de classificação discretos, consideram-se dois modelosde referência: o já referido Modelo Multinomial Completo (MMC)e o Modelo de Independência Condicional de ordem um (MIC) queconsidera as variáveis independentes dentro de cada classe, redu-zindo assim o número de parâmetros a estimar de 2p− 1 para p, emcada classe.

    Na abordagem de combinação de modelos proposta por Sousa Fer-reira ([11]) e continuada por Marques ([7]) consideraram-se com-binações lineares de dois modelos de referência no campo discreto.Inicialmente, Sousa Ferreira ([11]) propôs uma combinação linearentre os modelos de referência acima mencionados, MMC e MIC.Esperava-se, naturalmente, que esses dois modelos conduzissem aclassificadores diferentes em muitas circunstâncias, dado que o pri-meiro pressupõe a existência de relações entre as p variáveis bináriase o segundo, considera que dentro de cada classe as p variáveis sãoindependentes. O modelo combinado MMC-MIC resulta da combi-nação linear entre os dois modelos usando um único coeficiente β,0 ≤ β ≤ 1, conduzindo a um modelo intermédio entre MMC e MIC.As várias estratégias adoptadas para estimar β produzem diferen-tes modelos combinados ([2]). Num segundo momento, verificandoque o modelo MMC revela grande dificuldade em estimar todos osparâmetros do modelo quando as amostras têm pequena dimensão,

  • Atas do XXIII Congresso da SPE 17

    Marques ([7]) desenvolveu uma combinação linear entre o ModeloGráfico Decompońıvel (MGD) ([3]) e o modelo MIC, usando tam-bém um único coeficiente β, com valores no intervalo [0,1]. O modeloMGD considera as interações mais importantes entre pares de va-riáveis para estimar a função de probabilidade por classe, utilizandouma estrutura de árvore (grafo), que se baseia na informação mú-tua. O algoritmo considerado foi o proposto por Chow e Liu ([3]).Também neste caso se esperava que estes dois modelos conduzis-sem a classificadores diferentes, uma vez que o primeiro pressupõea existência de interações entre as p variáveis binárias e o segundo,considera que dentro de cada classe as p variáveis são independentes.No caso de múltiplas classes a priori, ambos os modelos combinados,MMC-MIC e MGD-MIC, consideram o Modelo de EmparelhamentoHierárquico (MHIERM) que decompõe um problema de múltiplasclasses em múltiplos problemas de duas classes ([2], [11]).A abordagem de combinação de modelos proposta por Sousa Fer-reira e continuada por Marques foi avaliada comparativamente comoutros algoritmos existentes quer sobre dados reais quer simulados([7],[8],[11]) revelando uma boa capacidade preditiva em casos deamostras de pequena ou moderada dimensão.Neste trabalho, pretendemos continuar a explorar os resultados destaabordagem de combinação de modelos, usando outras medidas deavaliação da qualidade dos modelos ([4], [9]).

    3 Medidas de avaliação

    Na literatura de Estat́ıstica, a avaliação do desempenho de qualquermodelo de classificação supervisionada baseia-se, genericamente, nadiagonal da matriz de confusão que confronta as classes preditas pelomodelo com as classes originais.Diversas medidas de desempenho de um modelo podem ser defini-das a partir dessa matriz, sendo tradicionalmente usadas a Taxa decasos bem classificados ou de casos mal classificados, estimadas porresubstituição, amostra-teste ou validação cruzada. Diferentes auto-

  • 18 Ferreira & Marques

    res têm vindo a referir, contudo, que estas estat́ısticas tradicionaisde avaliação de resultados em classificação podem não analisar cor-retamente a qualidade de um algoritmo ou modelo ([4], [9], [10]).

    Num problema de classificação discreto, com duas classes, tem-sea matriz de confusão apresentada na Tabela 2:

    Tabela 2: Matriz de Confusão

    Classes preditas1 2

    Classes verdadeiras1 a b2 c d

    onde:a - no de casos bem classificados na classe 1b - no de casos da classe 1 classificados na classe 2c - no de casos da classe 2 classificados na classe 1d - no de casos bem classificados na classe 2

    Em Medicina, os valores de a, b, c e d são denominados habitual-mente por Verdadeiros Positivos, Falsos Negativos, Falsos Positivose Verdadeiros Negativos, respetivamente. Esta terminologia, que segeneralizou a muitos outros campos de aplicação, deriva de, porexemplo, se constatar que um exame complementar de diagnósticoindica que um certo sujeito está doente mas, na realidade, o sujeitoestá saudável. Teremos, então, um caso de Falso Positivo. Algumasmedidas de avaliação em classificação estão associadas a este tipo deproblemas de classificação.Na Tabela 3 apresentam-se algumas medidas de avaliação baseadasna matriz de confusão. A Taxa de casos bem classificados ou Acu-racia (Ac) é a medida mais comummente usada e mede a eficiênciaglobal do modelo. Na verdade, a Acuracia pretende responder àquestão: “Globalmente, com que frequência o modelo de classifica-ção decide corretamente?”

  • Atas do XXIII Congresso da SPE 19

    Tabela 3: Medidas de avaliação baseadas na matriz de confusão

    Medidas Definição

    Taxa de casos bem classificados ou Acuracia a+da+b+c+d

    Taxa de casos bem classificados na classe 1ou Sensibilidade a

    a+b

    Taxa de casos bem classificados na classe 2ou Especificidade d

    c+d

    Precisão aa+c

    A Taxa de casos bem classificados na classe 1 é também denominadapor Sensibilidade e mede a eficiência na classe 1 e a Taxa de casosbem classificados na classe 2 é também denominada por Especifici-dade e mede a eficiência na classe 2. Como referido anteriormente, seum exame complementar de diagnóstico indicar que um certo sujeitoestá doente mas, na realidade, esse sujeito estiver saudável, temosum caso de Falso Positivo, pelo contrário, se esse sujeito estivermesmo doente, temos um caso de Verdadeiro Positivo. Do mesmomodo, se o exame complementar de diagnóstico indicar que o sujeitonão está doente e, de facto, esse sujeito estiver saudável, estamosperante um caso Verdadeiro Negativo. Naturalmente, um bom mo-delo de classificação deverá ser capaz de identificar quer os casos deVerdadeiro Positivo quer os de Verdadeiro Negativo.A Sensibilidade é, exatamente, a taxa de casos Verdadeiro Positivoe a Especificidade a taxa de casos Verdadeiro Negativo, respondendorespetivamente às questões “Se um sujeito pertence à Classe 1, quala frequência com que o modelo de classificação consegue identificarcorretamente a classe desse sujeito?”, e, “Se um sujeito pertence àClasse 2, qual a frequência com que o modelo de classificação con-

  • 20 Ferreira & Marques

    segue identificar corretamente a classe desse sujeito?”. Finalmente,a Precisão, também denominada por valor preditivo positivo, medea exatidão do modelo respondendo a outra questão: “Entre os casosque o modelo classificou como Positivos, isto é, pertencentes à Classe1, quantos efetivamente o são?”. Um valor de Precisão elevado re-vela, pois, um modelo que é um bom preditor.

    As medidas de avaliação usadas, em geral, não fornecem um equiĺı-brio entre os casos falsos positivos (c) e os falsos negativos (b). Asmedidas de avaliação combinadas, apresentadas na Tabela 4, tentamobter uma melhor paridade entre eles.

    Tabela 4: Medidas de avaliação combinadas

    Medidas Definição

    Taxa de casos bem

    classificados balanceada Sensibilidade+Especificidade2

    Média Geométrica entreSensibilidade e Especificidade

    √Sensibilidade× Especificidade

    Medida F 2×Sensibilidade×PrecisãoSensibilidade+Precisão

    A Taxa de casos bem classificados balanceada ou Acuracia balance-ada é a média aritmética entre a Sensibilidade e a Especificidade e,comparada com a Acuracia global, tenderá a ser menor quando omodelo não consegue classificar igualmente bem as duas classes. AMédia Geométrica entre as duas medidas mede o equiĺıbrio entre aclassificação nas duas classes. Um valor de Média Geométrica baixoindica um desempenho fraco na classe dita positiva (geralmente, con-siderada como classe de maior interesse). A Medida F combina asmedidas Sensibilidade e Precisão, mesmo quando as classes de da-

  • Atas do XXIII Congresso da SPE 21

    dos são verdadeiramente desiquilibradas. As medidas de avaliaçãojá apresentadas anteriormente, sendo genericamente taxas, simplesou combinadas, variam naturalmente no intervalo [0,1].

    Um outro tipo de medidas de avaliação, que indicam a associação ouo acordo entre classes verdadeiras e preditas têm vindo a ser referi-das por alguns autores. Por outro lado, parece ser relevante avaliara melhoria efetiva que um modelo introduz relativamente à regra damaioria. Estas medidas de avaliação menos tradicionais em classifi-cação supervisionada são apresentadas na Tabela 5.

    Tabela 5: Outro tipo de medidas de avaliação

    Medidas Definição

    Coeficiente φ ad−bc√(a+b)(c+d)(a+c)(b+d)

    Estat́ıstica K de Cohen Ac−Pacaso1−Pacaso , onde

    Pacaso = (a+bN× a+c

    N) + ( c+d

    N× b+d

    N)

    e N = a + b + c + d

    Índice de Huberty Pcc−Pm1−Pm , onde

    Pcc - % casos corretamente classificados ePm - % casos corretamente classificados de

    acordo com a regra da maioria

    O Coeficiente φ é uma conhecida medida de associação entre duas va-riáveis binárias, podendo tomar valores no intervalo [−1,1]. O sinalpositivo deste coeficiente indica um maior número de casos em queo modelo de classificação decidiu corretamente e, o sinal negativo,pelo contrário, revela que existem mais casos de decisão incorreta.Por outro lado, a Estat́ıstica K de Cohen pode ser definida como

  • 22 Ferreira & Marques

    a proporção de acordo entre duas classificações após ser retirada aproporção de acordo devida ao acaso, podendo também tomar va-lores no intervalo [−1,1]. Por último, o Índice de Huberty avalia odesempenho de um modelo como o grau de correção da classificaçãorealizada, comparando com a percentagem de casos bem classificadospela regra da maioria, sendo definido como a razão entre a melho-ria efectiva e a melhoria posśıvel na classificação. Este ı́ndice é aúnica medida de avaliação apresentada que pode tomar valores forado intervalo [−1,1].

    4 Resultados Numéricos

    Neste estudo, analisaram-se dados simulados, com duas classes equatro variáveis binárias e consideraram-se três importantes fatoresque influenciam o desempenho dos modelos: dados balanceados ounão balanceados, separabilidade das classes (baixa ou elevada) e di-mensão das amostras (pequena ou grande). Considerando os oitocenários referidos, especificam-se seguidamente os valores conside-rados para cada fator: i. Equiĺıbrio - Classes balanceadas quandon1 = n2 e não balanceadas quando n1 =

    19 × n2; ii. Separabilidade

    - sendo medida pelo Coeficiente de Afinidade ([1]) definido no inter-valo [0,1]. Este coeficiente mede a afinidade ou semelhança entre asclasses pelo que, quanto mais pequeno for o seu valor, mais separadassão as classes consideradas e, por isso, a tarefa do modelo de classi-ficação fica simplificada. Deste modo, considerou-se separabilidadebaixa quando o coeficiente de afinidade toma valores superiores a 0,7e elevada quando este coeficiente toma valores inferiores a 0,3; iii.Dimensão das amostras - pequena quando n=60 e grande quandon=400.Considerando os dois graus de separabilidade das classes (Baixa ouElevada), os dados em análise foram simulados segundo a Distri-buição Multinomial com os parâmetros, isto é, as probabilidades deocorrência das quatro variáveis preditoras binárias, apresentados naTabela 6.

  • Atas do XXIII Congresso da SPE 23

    Tabela 6: Parâmetros da Distribuição Multinomial usados na simu-lação dos dados, de acordo com o grau de separabilidade (Baixa ouElevada) entre as duas classes consideradas

    Separab. C1 C2Baixa (0,5;0,5;0,5;0,5;0,5;0,5;0,5;0,5) (0,5;0,5;0,5;0,5;0,5;0,5;0,5;0,5)Elevada (0,1;0,9;0,7;0,3;0,2;0,8;0,6;0,4) (0,9;0,1;0,3;0,7;0,8;0,2;0,4;0,6)

    No estudo apresentado, para cada um dos oito cenários considera-dos, geraram-se 10 réplicas. Baseados nos 80 conjuntos de dadosgerados, pretendemos averiguar a vantagem comparativa do modelocombinado MGD-MIC, usando diversas medidas de avaliação do de-sempenho. As medidas de avaliação de desempenho dos modelosforam todas estimadas por 2-fold cross validation. O desempenhodos modelos, simples ou combinados, são apresentados nas Tabelas7, 8, 9 e 10, onde se mostram os resultados médios intra-cenários (erespetivo desvio-padrão), destacando-se a negrito o melhor resultadoobtido em cada cenário.

    Na Tabela 7, podemos notar que, no caso de maior complexidade,quase todas as medidas elegem o modelo combinado como o melhormodelo, embora a sua capacidade preditiva seja apenas ligeiramentesuperior à dos modelos originais. Note-se, ainda, que neste caso declasses balanceadas, φ = Kappa = I.Huberty. Quando a separabi-lidade é elevada, o modelo combinado revela um desempenho muitosemelhante ao do modelo MIC, ambos demonstrando uma excelentecapacidade preditiva. As outras medidas de avaliação mostram tam-bém resultados elevados, podendo pois dizer-se que os modelos MICe MGD-MIC obtêm uma melhoria efectiva na classificação.

    Na Tabela 8, quando a separabilidade é baixa, observa-se a seleçãodo modelo MGD ou MGD-MIC como o melhor modelo, e tambémneste caso, de classes balanceadas φ = Kappa = I.Huberty, reve-

  • 24 Ferreira & Marques

    Tabela 7: Avaliação do desempenho do modelo combinado no casode classes balanceadas e amostras de pequena dimensão (resultadosmédios e desvios padrão intra-cenários)

    n1 = n2 = 30Separabilidade Baixa Separabilidade Elevada

    Medidas MIC MGD MGD-MIC MIC MGD MGD-MIC

    Tx. Bem Class.0,60 0,61 0,62 0,94 0,89 0,94

    (0,03) (0,09) (0,07) (0,04) (0,04) (0,04)

    Sensibilidade0,60 0,62 0,66 0,94 0,90 0,96

    (0,07) (0,07) (0,10) (0,04) (0,07) (0,07)

    Especificidade0,60 0,59 0,59 0,94 0,88 0,92(0,08) (0,11) (0,09) (0,05) (0,05) (0,04)

    Precisão0,60 0,62 0,63 0,94 0,89 0,93

    (0,03) (0,09) (0,07) (0,04) (0,04) (0,04)

    Média Geométrica0,59 0,60 0,61 0,94 0,89 0,94

    (0,03) (0,09) (0,08) (0,04) (0,04) (0,04)

    Medida F0,60 0,61 0,64 0,94 0,89 0,94

    (0,04) (0,08) (0,08) (0,04) (0,04) (0,05)

    Tx. Bem Clas. Bal.0,60 0,61 0,62 0,94 0,89 0,94

    (0,03) (0,09) (0,07) (0,04) (0,04) (0,04)

    Coeficiente φ0,20 0,21 0,25 0,88 0,79 0,89

    (0,05) (0,18) (0,15) (0,08) (0,07) (0,09)

    Estat́ıstica Kappa0,20 0,21 0,25 0,87 0,78 0,88

    (0,05) (0,17) (0,15) (0,08) (0,07) (0,09)

    Índice de Huberty0,20 0,21 0,25 0,87 0,78 0,88

    (0,05) (0,17) (0,15) (0,08) (0,07) (0,09)

    lando embora uma melhoria efectiva muito baixa. Quando as classessão bem separadas, o modelo MIC obtém resultados muito semelhan-tes aos de MGD-MIC mas ainda superiores para algumas medidas.

    Na Tabela 9, quando se apresentam os resultados para classes não ba-lanceadas e pouco separadas, sobressai, para a maioria das medidas,o modelo combinado. Neste caso, não balanceado, φ 6= Kappa 6=

  • Atas do XXIII Congresso da SPE 25

    Tabela 8: Avaliação do desempenho do modelo combinado no casode classes balanceadas e amostras de grande dimensão (resultadosmédios e desvios padrão intra-cenários)

    n1 = n2 = 200Separabilidade Baixa Separabilidade Elevada

    Medidas MIC MGD MGD-MIC MIC MGD MGD-MIC

    Tx. Bem Class.0,52 0,54 0,54 0,93 0,90 0,92

    (0,02) (0,02) (0,02) (0,02) (0,02) (0,02)

    Sensibilidade0,51 0,51 0,56 0,91 0,88 0,91

    (0,03) (0,05) (0,04) (0,03) (0,05) (0,03)

    Especificidade0,54 0,56 0,51 0,94 0,92 0,92

    (0,02) (0,04) (0,05) (0,02) (0,02) (0,01)

    Precisão0,52 0,53 0,53 0,94 0,91 0,92

    (0,02) (0,02) (0,02) (0,02) (0,02) (0,01)

    Média Geométrica0,52 0,53 0,53 0,93 0,90 0,92

    (0,02) (0,02) (0,02) (0,02) (0,03) (0,02)

    Medida F0,52 0,52 0,54 0,92 0,90 0,92

    (0,02) (0,03) (0,03) (0,02) (0,03) (0,02)

    Tx. Bem Clas. Bal.0,52 0,54 0,54 0,93 0,90 0,92

    (0,02) (0,02) (0,02) (0,02) (0,02) (0,02)

    Coeficiente φ0,05 0,07 0,07 0,85 0,80 0,84

    (0,03) (0,04) (0,04) (0,04) (0,05) (0,04)

    Estat́ıstica Kappa0,05 0,07 0,07 0,85 0,80 0,84

    (0,03) (0,04) (0,04) (0,04) (0,05) (0,04)

    Índice de Huberty0,05 0,07 0,07 0,85 0,80 0,84

    (0,03) (0,04) (0,04) (0,04) (0,05) (0,04)

    I.Huberty, e os valores obtidos pelo ı́ndice de Huberty revelam umpior desempenho do modelo do que se observaria pela aplicação daregra da maioria. Quando as classes são bem separadas, só a Sensi-bilidade não elege o modelo combinado como o melhor modelo.

    A análise das classes não balanceadas e amostras de grande dimen-são (ver Tabela 10), mostra que, quando pouco separadas, o modeloMGD é eleito por todas as medidas como o melhor modelo, embora

  • 26 Ferreira & Marques

    Tabela 9: Avaliação do desempenho do modelo combinado no caso declasses não balanceadas e amostras de pequena dimensão (resultadosmédios e desvios padrão intra-cenários)

    n1 = 6;n2 = 54Separabilidade Baixa Separabilidade Elevada

    Medidas MIC MGD MGD-MIC MIC MGD MGD-MIC

    Tx. Bem Class.0,67 0,62 0,76 0,90 0,80 0,92

    (0,09) (0,09) (0,07) (0,03) (0,12) (0,02)

    Sensibilidade0,67 0,70 0,63 0,85 0,90 0,85

    (0,19) (0,15) (0,11) (0,17) (0,12) (0,12)

    Especificidade0,67 0,62 0,78 0,91 0,79 0,93

    (0,10) (0,10) (0,09) (0,04) (0,14) (0,03)

    Precisão0,20 0,17 0,24 0,54 0,40 0,61

    (0,07) (0,05) (0,05) (0,09) (0,13) (0,10)

    Média Geométrica0,65 0,59 0,63 0,85 0,83 0,88(0,10) (0,13) (0,12) (0,14) (0,08) (0,06)

    Medida F0,30 0,29 0,35 0,66 0,52 0,69

    (0,09) (0,06) (0,07) (0,08) (0,12) (0,06)

    Tx. Bem Clas. Bal.0,67 0,66 0,71 0,88 0,85 0,89

    (0,10) (0,08) (0,06) (0,09) (0,07) (0,05)

    Coeficiente φ0,22 0,19 0,28 0,64 0,51 0,67

    (0,13) (0,10) (0,08) (0,09) (0,13) (0,07)

    Estat́ıstica Kappa0,17 0,13 0,24 0,58 0,44 0,65

    (0,10) (0,08) (0,08) (0,12) (0,15) (0,07)

    Índice de Huberty-2,33 -2,77 -1,37 0,02 -0,98 0,22(0,85) (0,88) (0,74) (0,34) (1,17) (0,19)

    com resultados quase sempre iguais aos do modelo combinado. OÍndice de Huberty volta a revelar um pior desempenho do que seobteria pela regra da maioria. Quando a separabilidade é elevada,o modelo combinado é eleito como o melhor modelo por todas asmedidas.Em qualquer das tabelas de resultados pode notar-se que, o desviopadrão relativo a todas as medidas apresentadas, é sempre extrema-

  • Atas do XXIII Congresso da SPE 27

    Tabela 10: Avaliação do desempenho do modelo combinado no casode classes não balanceadas e amostras de grande dimensão (resulta-dos médios e desvios padrão intra-cenários)

    n1 = 40;n2 = 360Separabilidade Baixa Separabilidade Elevada

    Medidas MIC MGD MGD-MIC MIC MGD MGD-MIC

    Tx. Bem Class.0,54 0,56 0,56 0,90 0,89 0,91

    (0,04) (0,03) (0,04) (0,03) (0,05) (0,03)

    Sensibilidade0,54 0,58 0,57 0,90 0,89 0,91

    (0,06) (0,07) (0,07) (0,06) (0,04) (0,04)

    Especificidade0,54 0,55 0,55 0,90 0,89 0,91

    (0,05) (0,03) (0,05) (0,03) (0,05) (0,03)

    Precisão0,12 0,13 0,13 0,52 0,52 0,54

    (0,02) (0,02 (0,02) (0,08) (0,12) (0,10)

    Média Geométrica0,53 0,56 0,56 0,90 0,89 0,91

    (0,04) (0,05) (0,04) (0,04) (0,03) (0,03)

    Medida F0,19 0,21 0,21 0,66 0,64 0,67

    (0,03) (0,11) (0,03) (0,08) (0,10) (0,08)

    Tx. Bem Clas. Bal.0,54 0,57 0,56 0,90 0,89 0,91

    (0,04) (0,06) (0,04) (0,04) (0,03) (0,03)

    Coeficiente φ0,05 0,08 0,08 0,64 0,62 0,65

    (0,05) (0,07) (0,05) (0,08) (0,12) (0,08)

    Estat́ıstica Kappa0,03 0,05 0,05 0,61 0,59 0,62

    (0,03) (0,08) (0,03) (0,09) (0,12) (0,08)

    Índice de Huberty-3,59 -3,44 -3,44 0,04 -0,09 0,08(0,45) (0,72) (0,45) (0,32) (0,46) (0,31)

    mente baixo, próximo de zero, exceto no caso do Índice de Hubertyem classes não balanceadas.

    5 Conclusões

    Pensando no objetivo de avaliar o desempenho do modelo combi-nado comparativamente aos modelos originais, a medida de avaliação

  • 28 Ferreira & Marques

    usada não parece influenciar a decisão, revelando o modelo combi-nado particular interesse em situações com ńıvel de complexidadeelevado, nomeadamente com amostras de pequena dimensão. Nocaso balanceado, o modelo eleito como o melhor é o mesmo quercom a medida tradicional quer com outra medida como a Taxa deBem Classificados Balanceada. No caso não balanceado, com grandedesequiĺıbrio entre a dimensão das classes, o modelo combinado mos-tra também o seu interesse, mesmo quando a separabilidade é ele-vada. O modelo MIC revela um bom desempenho quando o ńıvel decomplexidade não é demasiado elevado e o modelo MGD só conse-gue revelar-se superior aos outros dois modelos quando as amostrasnão têm pequena dimensão e o ńıvel de complexidade não é demasi-ado elevado. Como esperado, relativamente à comparação entre asmedidas de avaliação, as medidas mais usuais e as combinadas mos-tram resultados muito semelhantes quando as classes têm dimensõespouco desiquilibradas. Quando se regista um forte desiquiĺıbrio en-tre a dimensão das classes, as medidas combinadas revelam, então,o seu interesse. Por outro lado, o Coeficiente φ, a Estat́ıstica Kappae o Índice de Huberty fornecem claramente uma informação de ca-rácter diferente sobre o classificador, cuja interpretação precisa deser mais explorada, provavelmente em aplicações com dados reais.As medidas Sensibilidade e Especificidade só revelam particular in-teresse quando, num certo campo de aplicação como, por exemplo,em Medicina, um dos erros de classificação é considerado particular-mente importante.A avaliação dos resultados em Classificação Supervisionada conti-nuará a ser explorada recorrendo quer a dados simulados (conside-rando um maior número de réplicas em cada cenário e um maiornúmero de cenários) quer a dados reais, particularmente no casode classes não balanceadas, procurando compreender melhor o inte-resse de outras medidas de avaliação menos tradicionais, como porexemplo, o Índice de Huberty.

  • Atas do XXIII Congresso da SPE 29

    Referências

    [1] Bacelar-Nicolau, H. (1985). The affinity coefficient in cluster analysis.Methods of Operations Research, 53, 507–512.

    [2] Brito, I., Celeux, G., Sousa Ferreira, A. (2006). Combining methodsin supervised classification: A comparative study on discrete andcontinuous problems. REVSTAT - Statistical Journal, 4, 201–225.

    [3] Celeux, G., Nakache, J. P. (1994). Analyse Discriminante sur Vari-ables Qualitatives. Celeux,G., Nakache, J.P.( eds.), Polytechnica.

    [4] Ferreira, A. S., Cardoso, M. G. (2013). Evaluating DiscriminantAnalysis Results. In: Lita da Silva J., Caeiro F., Natário I., Brau-mann C. (eds.): Advances in Regression, Survival Analysis, ExtremeValues, Markov Processes and and Other Statistical Applications.Studies in Theoretical and Applied Statistics, 155–162, Springer, Ber-lin, Heidelberg.

    [5] Goldstein, M., Dillon, W.R. (1978). Discrete Discriminant Analysis.Wiley and Sons.

    [6] Ho, T.K., Basu, M. (2002). Complexity measures of supervised clas-sification problems. IEEE Transactions on Pattern Analysis and Ma-chine Intelligence, 24, 289–300.

    [7] Marques, A. (2014). Análise Discriminante sobre Variáveis Quali-tativas. Tese de Doutoramento, ISCTE - Instituto Universitário deLisboa.

    [8] Marques, A., Sousa Ferreira, A., Cardoso, M. (2017). Performanceof Combined Models in Discrete Binary Classification. Methodology13(1), 23–37.

    [9] Paik, H. (1998). The effect of prior probability on skill in two-groupdiscriminant analysis. Quality and Quantity, 32(2), 201–211.

    [10] Santafe, G., Inza, I., Lozano, J.A. (2015). Dealing with the evaluationof supervised classification algorithms. Artificial Intelligence Review,44(4), 467–508.

    [11] Sousa Ferreira, A. (2000). Combinação de Modelos em Análise Dis-criminante sobre Variáveis Qualitativas. Tese de Doutoramento, Uni-versidade Nova de Lisboa.

  • 30 Ferreira & Marques

  • Comparação bayesiana de testes de diag-nóstico com dados densamente omissos aoacaso

    Carlos Daniel PaulinoCentro de Estat́ıstica e Aplicações & IST, Universidade de Lisboa,[email protected]

    Giovani L. SilvaDep. Matemática, Instituto Superior Técnico & CEAUL, Universi-dade de Lisboa, [email protected]

    Palavras–chave: Dados categorizados omissos ao acaso; Medidasde acurácia; Metodologia bayesiana; Método MCMC; DistribuiçãoDirichlet generalizada.

    Resumo: Este trabalho é uma sequela de um artigo (Poleto et al.[7]) sobre comparação de testes, assente num conhecido padrão deouro, através das usuais medidas de acurácia, por meio de métodosfrequencistas num quadro de substancial omissão de dados segundoum processo não informativo. Este artigo passa a adotar uma abor-dagem bayesiana por se entender mais adequada para lidar com aescassez da subamostra completa e a incompletude do grosso dosdados, sem recorrer a argumentos válidos para grandes amostras.Computacionalmente propõe-se que a análise recorra a um métodode Monte Carlo com ampliação de dados, reduzindo tanto quantoposśıvel a fase de imputação. Em cada passo a posteriori, após fácilsimulação de apropriadas variáveis latentes, o parâmetro de interesseé simulado diretamente à custa de distribuições Dirichlet.

  • 32 Paulino & Silva

    1 Introdução

    Poleto et al. [7] procedem a uma comparação prática de testes dediagnóstico binário na presença de dados faltantes através de abor-dagens frequencistas apoiadas em resultados para grandes amostras.Nelas se incluem análises simplistas de subconjuntos mais ou menosrestritivos dos dados observados e que se mostra serem inferiores àanálise integral de todos os dados baseada num processo geradorda omissão consistente com as causas desta. Esta última análiseradicada num mecanismo de omissão não informativa pode ser exe-cutada no software ACD elaborada pelos autores supracitados e dis-ponibilizada no repositório CRAN (vide Poleto et al. [8]). A suafundamentação teórica é descrita designadamente em Poleto et al.[9].

    Neste trabalho usa-se um conjunto de dados do mesmo estudo anali-sado no artigo acima referido que envolveu N=219 pacientes, subme-tidas para deteção de endometriose (retrocervical) ao procedimento(D) de laparoscopia (considerado como padrão de ouro) e com re-sultado devidamente registado. Os testes de natureza não invasiva acomparar aqui respeitam apenas a ressonância magnética retrocer-vical (MR) e a ecocolonoscopia (EC) e os seus resultados não foramobservados para um número significativo de pacientes – apenas seconheceu o resultado de ambos os testes para cerca de 6% das pa-cientes. A ocorrência de omissão deveu-se à indisponibilidade dosequipamentos no momento da comparência das unidades amostrais.Os dados observados são reproduzidos na Tabela 1.

    Dada a substancial incompletude classificativa na amostra selecio-nada e a exiguidade da subamostra completamente observada, o ob-jetivo aqui é proceder a uma abordagem bayesiana da totalidade doque foi observado, propondo uma estratégia computacional eficientepara a realização das inferências de interesse. Estas dizem respeitoàs usuais medidas de acurácia dos testes em comparação conheci-das como sensibilidade, especificidade e valores preditivos positivo enegativo.

  • Atas do XXIII Congresso da SPE 33

    Tabela 1: Frequências observadas de pacientes

    Ressonância Ecocolonos- Endometriose (D)magnética (MR) copia (EC) − +

    − 6 1− + 1 2

    omisso 51 22− 0 1

    + + 0 2omisso 5 13− 3 5

    omisso + 3 6omisso 53 45

    2 Modelação estat́ıstica

    O facto de a ocorrência de falhas em unidades amostrais não se devera qualquer delineamento prefixado conduz a que se deva introduziruma variável qualitativa adicional, diga-se W, que indique os distin-tos padrões de omissão que se verificaram. Por exemplo, tomandoW=1 para a não omissão, W=2(3) para a omissão do resultado ape-nas do teste EC(MR) e W=4 para a omissão do resultado de ambosos testes.A tabela ampliada 23 × 4 para (MR,EC,D,W) está naturalmenterecheada de frequências desconhecidas. Denotando por M o vetordas frequências mijkr, r = 1,2,3,4; i,j,k = 1,2 com 1(2) indicandoresultado positivo (negativo), admite-se para ele uma distribuiçãoMultinomial com parâmetro probabiĺıstico γ = (γijkr) que se podefatorizar do seguinte modo:

    γijkr = P (MR= i,EC=j,D=k) P (W =r|MR= i,EC=j,D=k)≡ θijk × λr(ijk).

    O parâmetro θ = (θijk), com∑i,j,k θijk = 1, carateriza o processo

  • 34 Paulino & Silva

    marginal de classificação segundo (MR,EC,D) e λ = (λr(ijk)), com∑r λr(ijk) = 1,∀i,j,k, o processo condicional de omissão. Note-se

    que a situação trivial de ausência sistemática de omissão resulta dese fazer λr(ijk) = 0, r 6= 1, originando para M = (mijk1) o modelopadrão Multinomial, M7(N,θ), em que o ı́ndice 7 neste seu śımboloindica a dimensionalidade do respetivo vetor aleatório.Os dados realmente observados são facilmente expressos em termosde componentes de M por D0 = {nijk,sik,qjk,pk}, com nijk = mijk1,sik = mi•k2, qjk = mCjk3 e pk = m••k4 (vide nota

    1). A previśıvelsobreparametrização do modelo para os dados completados M cos-tuma ser erradicada por restrições sobre λ decorrentes de informação(ou suposição) sobre causas posśıveis da omissão.Impondo a condição de {λr(ijk)} não dependerem do que não foiobservado, obtém-se o chamado processo de omissão ao acaso (MAR)definido por

    λ4(ijk) = δk, λ3(ijk) = βjk, λ2(ijk) = αik, λ1(ijk) = ηijk,∀i,j,k,

    o qual conduz a um modelo saturado para o vetor de frequênciasobservadas com a verosimilhança Multinomial fatorizável do seguintemodo

    L(θ,λ∗|D0) ∝

    ∏i,j,k

    θijknijk

    ∏i,k

    θsiki•k

    ∏j,k

    θqjk•jk

    ∏k

    θpk••k

    ××

    ∏i,j,k

    ηmijk1ijk

    ∏i,k

    αsikik

    ∏j,k

    βqjkjk

    ∏k

    δpkk

    ≡ L(θ|D0)× L(λ∗|D0),em que λ∗ denota os elementos distintos de λ sob MAR.Um caso especial deste processo é obtido quando {λr(ijk)} não de-pendem também do que foi observado, ou seja ∀i,j,k,

    λ4(ijk) = δ, λ3(ijk) = β, λ2(ijk) = α, λ1(ijk) = η = 1−(α+β+δ),1Em conformidade com uma notação usual, as quantidades indexadas com

    algum śımbolo • indicam ser somas para todos os valores do ı́ndice substitúıdopor tal śımbolo. A t́ıtulo exemplificativo, a tabela das frequências observadasindica que s11 = 13, s12 = 5, s21 = 22 e s22 = 51.

  • Atas do XXIII Congresso da SPE 35

    sendo conhecido como o processo de omissão completamente ao acaso(MCAR). Aqui, sendo λ∗ = (α,β,δ), tem-se L(θ,λ∗|D0) = L(θ|D0)×L(λ∗|D0), em que o 2o fator é o núcleo da distribuição Multino-mial amostral de {Nr ≡ m•••r}. Isto implica que L(θ|D0) passea ser interpretado como o núcleo de uma distribuição Produto deMultinomiais condicional para as frequências observadas dados ostotais dos padrões de omissão Nr. Este mecanismo de omissão éconsistente com a informação de que a omissão por não realizaçãode testes foi devida à indisponibilidade do equipamento aquando dacomparência de algumas pacientes.Como os parâmetros de interesse são função de θ, não há diferençaentre os dois processos de omissão no que concerne às inferênciasbayesianas pretendidas, desde que a priori θ seja independente doparâmetro perturbador (probabilidades condicionais de omissão).Note-se que as funções paramétricas de interesse são definidas por

    Sens(MR) = P (MR=+|D=+) =θ1•1

    θ••1, Sens(EC) = P (EC=+|D=+) =

    θ•11

    θ••1,

    Spec(MR) = P (MR=−|D=−) =θ2•2

    θ••2, Spec(EC) = P (EC=−|D=−) =

    θ•22

    θ••2,

    PPV (MR) = P (D=+|MR=+) =θ1•1

    θ1••, PPV(EC) = P (D=+|EC=+) =

    θ•11

    θ•1•,

    NPV (MR) = P (D=−|MR=−) =θ2•2

    θ2••, NPV(EC) = P (D=−|EC=−) =

    θ•22

    θ•2•.

    Para os objetivos inferenciais vai considerar-se para distribuição apriori de θ um membro da famı́lia Dirichlet denotada pelo śımboloD7(b), b = (bijk) com bijk > 0, que represente de algum modo o graude vaguidade da informação a priori que se pretende considerar naanálise. Na Secção 4 usou-se a distribuição Uniforme no simplexheptadimensional.Dada a expressão de L(θ|D0), a distribuição a posteriori de θ apre-senta o núcleo

    h(θ|D0) ∝∏i,j,k

    (θijk)nijk+bijk−1

    ∏i,k

    θsiki•k

    ∏j,k

    θqjk•jk

    ∏k

    θpk••k.

    A forma deste núcleo evidencia que se trata de uma distribuição

  • 36 Paulino & Silva

    Dirichlet generalizada estudada em Dickey[2]. A sua constante nor-malizadora, definida em termos do valor esperado sob D7(n+b), n =(nijk), de produtos de várias potências de somas de elementos de θagrupados em três fatores, não é expressável em forma fechada.Note-se que esses três fatores são potências de probabilidades daspartes de três partições do conjunto {(i,j.k), i,j,k = 1,2} de cate-gorias correspondentes à omissão separada de EC (P2) e de MR(P3) e simultânea dos dois testes (P4). Nelas é posśıvel visualizardois pares de partições sucessivamente encaixadas na partição maisfina, P1 = {{(i,j.k)}, i,j,k = 1,2}, que está associada à ausência deomissão.A forma distribucional do modelo bayesiano para θ dadas as frequên-cias observadas2 deixa antever que a aplicação direta de métodosMCMC pelo software bayesiano mais difundido (BUGS) está longede surtir os desejáveis efeitos.

    3 Método computacional

    A forma de L(θ|D0) mostra que a redução do número de fatoresenvolvendo as frequências ligadas às unidades que sofreram omissãopode conduzir a uma verosimilhança analiticamente mais tratável.É o que acontece em qualquer das seguintes situações: ausência dequalquer omissão, omissão ligada à classificação numa única partiçãode categorias ou numa sequência de duas partições encaixadas.A obtenção de uma verosimilhança com tal estrutura no atual qua-dro de registo de quatro padrões de omissão consegue-se ampliandoD0 a um apropriado vetor z de frequências hipotéticas mijkr parar 6= 1. Optando por reduzir o número dessas variáveis não obser-vadas, tome-se por exemplo z = (zijk) relativo à discriminação dasfrequências das unidades com omissão em MR, i.e. zijk = mijk3.Pelas propriedades da distribuição Multinomial de M , tem-se sob

    2No caso de se pretender inferir também sobre as probabilidades condicionaisde omissão, o uso no quadro MCAR de uma distribuição a priori Dirichlet paraλ∗ conduz a uma distribuição a posteriori da mesma famı́lia para ele.

  • Atas do XXIII Congresso da SPE 37

    MAR que

    L(θ,λ∗|D0,z) = L(θ|D0,z)× L(λ∗|D0),

    em que

    L(θ|D0,z) ∝∏i,j,k

    (θijk)nijk+zijk

    ∏i,k

    θsiki•k

    ∏k

    θpk••k

    já tem uma estrutura envolvendo os padrões de omissão nas partiçõessucessivamente encaixadas P4, P2 e P1.Note-se ainda que L(θ|D0,z) = L(θ|D0) f(z|q,θ), em que o 2o fatortraduz o produto das distribuições

    z1jk|qjk,θ ∼ind

    M1(qjk,θ1jk/θ•jk), j,k = 1,2,

    como consequência de se verificar z|θ,λ ∼ M8(N,{θijkβjk}) e q =(qjk ≡ z•jk)|θ,λ ∼M4(N,{θ•jkβjk}).A distribuição a posteriori conjunta das quantidades não observadasθ e z é então dada por

    h(θ,z|D0) ∝ h(θ) L(θ|D0,z) = h(θ|D0) f(z|q,θ),

    traduzindo a desmarginalização da distribuição a posteriori de inte-resse h(θ|D0).A distribuição a posteriori de θ condicional aos dados ampliados(D0,z),

    h(θ|D0,z) ∝∏i,j,k

    (θijk)bijk+nijk+zijk−1

    ∏i,k

    θsiki•k

    ∏k

    θpk••k

    é uma outra distribuição Dirichlet generalizada mas com os fatoresrelativos às frequências observadas s = (sik) e p = (pk) agrupadossegundo a sequência das partições encaixadas P4 e P2, o que implicauma expressão expĺıcita da constante normalizadora em termos defunções Beta completas (Dickey et al. [3], Jiang et al. [4]). A

  • 38 Paulino & Silva

    estrutura desta distribuição permite que ela apresente uma carateri-zação simpática em termos de distribuições Dirichlet independentes,tomando em consideração a seguinte reparametrização de θ:

    θijk =θijkθi•k× θi•kθ••k

    × θ••k ≡ ρikj × εki × φk.

    A referida caraterização de h(θ|D0,z) é tal que condicionalmente a(D0,z)

    {θijk} :

    ρik = (ρikj , j = 1,2) ∼ D1(bijk + nijk + zijk, j = 1,2)εk = (εki , i = 1,2) ∼ D1(bi•k + ni•k + zi•k + sik, i = 1,2)φ = (φk, k = 1,2) ∼ D1(b••k + n••k + z••k + s•k + pk, k = 1,2).

    A fácil simulação pelas rotinas dispońıveis das distribuições condi-cionais de θ|D0,z e de z|q,θ em ciclos de dois passos permite obteruma amostra simulada da distribuição-alvo h(θ|D0), após conver-gência do denominado algoritmo de ampliação de dados em cadeia(Tanner e Wong [10]), com base na qual se determinam as inferênciasde interesse. Este algoritmo é descrito como segue:

    • Passo de imputação: Partindo de θ(t) simula-se {z(t+1)ijk } de

    z1jk|qjk,θ(t) ∼M1(qjk,θ1jk

    θ(t+1)•jk

    ), z2jk = qjk − z1jk, j,k = 1,2;

    • Passo a posteriori : Calcula-se θ(t+1) das equações θijk =ρikj ε

    ki φk com os seus fatores simulados das distribuições Beta

    acima usando z(t+1)ijk ,∀i,j,k.

    Repetindo o esquema ćıclico, a amostra retida de θ, bem comode qualquer função ψ(θ), após convergência respeita às suas dis-tribuições a posteriori dado D0. A natureza das fontes simuladoraspermite visualizar este amostrador como um algoritmo Gibbs para

  • Atas do XXIII Congresso da SPE 39

    amostragem da distribuição ampliada h(θ,z|D0). Para mais deta-lhes, veja-se e.g. Amaral Turkman e Paulino [1] ou Paulino et al.[6].

    Tendo em conta que a distribuição a posteriori para θ do tipo da deh(θ|D0,z) apresenta momentos (e outros resumos pontuais) em formafechada, um bom valor para iniciar o algoritmo é tomar por exemploθ(0) como a média a posteriori da distribuição Dirichlet generalizadapara θ dado D0−{qjk}, denotada por θ̄ijk e dada explicitamente por

    (bijk+nijk+sik

    bijk + nijkbi•k + ni•k

    +pkbijk + nijkbi•k + ni•k

    bi•k + ni•k + sikb••k + n••k + s•k

    )(b•+N−)

    −1

    com b• =∑i,j,k bijk e N− = N − q•• = 202.

    4 Análise de resultados

    A implementação computacional do algoritmo atrás descrito fez-seatravés da criação de um programa ad-hoc no software R. A conver-gência das cadeias dos elementos de θ atingiu-se rapidamente comose revela pelos resultados dos testes de convergência e dos gráficos,omitidos por motivos de espaço, de traços e das autocorrelações (es-tas desaparecem num ápice).

    O gráfico de evolução das médias emṕıricas mostra que a estabili-dade é atingida ao fim de poucas centenas de iterações, indepen-dentemente do valor inicial – veja-se para exemplificação a Figura1 exibindo os gráficos correspondentes a θ112, θ211 e θ222 e a duasmedidas de acurácia de testes, quando a cadeia se iniciou com equi-probabilidade no seio de θ.3 A amostra simulada para base dasinferências reuniu 4000 iteradas escolhidas sem qualquer desbasteapós um peŕıodo de aquecimento de tamanho 1000.

    3O comportamento eficiente desta cadeia está em completa dissonânciaquando se compara com o obtido por Metropolis-Hastings (JAGS) diretamentedo modelo h(θ|D0).

  • 40 Paulino & Silva

    Figura 1: Gráficos das médias ergódicas para {θijk} (esquerda) epara especificidade (MR) e NPV (EC) (direita).

    A Tabela 2 exibe as médias a posteriori dos elementos de θ, bemcomo os valores iniciais propostos, calculados como se sugeriu ante-riormente, cuja proximidade com as estimativas finais era expectável.

    Tabela 2: Médias a posteriori (valores iniciais) de {θijk}

    DMR EC k = 1 k = 2i = 1 j = 1 0.105 (0.103) 0.033 (0.030)

    j = 2 0.074 (0.069) 0.026 (0.030)i = 2 j = 1 0.150 (0.154) 0.153 (0.114)

    j = 2 0.116 (0.103) 0.342 (0.398)

    A Figura 2 apresenta as densidades das diferenças entre os testesMR e EC da especificidade e da valor preditivo negativo. Elas evi-denciam, por um lado, uma superioridade razoável de MR sobre ECem termos da especificidade e, por outro, a equivalência dos doistestes no que respeita ao NPV.

  • Atas do XXIII Congresso da SPE 41

    Figura 2: Densidades a posteriori de DIF(Espec) e DIF(NPV).

    Estas conclusões também são patentes na Tabela 3 ao olhar paraas estimativas pontuais e intervalares das diferenças das medidas deacurácia entre os dois testes, juntamente com os respetivos ńıveisde plausibilidade relativa a posteriori4 de uma diferença nula. Combase nestes dados, no global não parece que os dois testes e, emespecial o EC, sejam concorrentes à altura do teste perfeito.

    Tabela 3: Médias a posteriori (IC HPD 95%) de funções de interesse

    Sens Spec PPV NPVMR 0.40 0.89 0.75 0.65EC 0.57 0.66 0.58 0.66DIF -0.17 0.23 0.17 -0.008

    (-0.42,0.06) (0.02,0.46) (-0.07,0.39) (-0.15,0.15)0.1958* 0.0372* 0.1566* 0.8402*

    (*) Nı́vel de plausibilidade relativa a posteriori para DIF=0

    4Para definição deste conceito veja-se e.g. Paulino et al. [6], Sec. 3.4.2.

  • 42 Paulino & Silva

    5 Conclusões

    Este artigo sobre testes de diagnóstico debruça-se sobre um pro-blema espećıfico de dados categorizados referentes ao cruzamento detrês variáveis respostas binárias, onde a larga maioria das unidadesamostrais apresenta uma classificação incompleta. Devido aos diver-sos padrões registados de omissão não informativa, a distribuição aposteriori do vetor de probabilidades de categorização não é expres-sável inteiramente em forma fechada nem facilmente simulável.

    O método computacional proposto configura um esquema de MonteCarlo iterativo com ampliação de dados, onde as frequências latentessão convenientemente escolhidas de modo que as decorrentes distri-buições a posteriori para os dados ampliados propiciam uma simu-lação direta. As vantagens deste método residem na sua assinalá-vel eficiência, demonstrada na aplicação ao caso em estudo, e nasua adaptabilidade a problemas análogos de tabelas de contingênciamultidimensionais com padrões variáveis de incompletude ao acaso.

    Agradecimentos

    Este trabalho foi parcialmente financiado por intermédio do CEAULpela FCT através do projeto UID/MAT/UI0006/2013. Estamos gra-tos ao colega Paulo Soares pela cedência da sua rotina R para cál-culo dos ńıveis de plausibilidade relativa a posteriori de hipótesesparamétricas. Agradecemos ainda aos dois avaliadores do trabalhosubmetido pelas sugestões formuladas que redundaram numa versãomelhorada do artigo.

    Referências

    [1] Amaral Turkman, M.A. e Paulino, C.D. (2015). Estat́ıstica BayesianaComputacional – uma introdução. Edições SPE, Lisboa.

  • Atas do XXIII Congresso da SPE 43

    [2] Dickey, J.M. (1983). Multiple hypergeometric functions: Probabilis-tic interpretations and statistical uses. J. Amer. Statist. Assoc., 78,628-637.

    [3] Dickey, J.M., Jiang, J.M. e Kadane, J.B. (1987). Bayesian methodsfor censored categorical data. J. Amer. Statist. Assoc., 82, 773-781.

    [4] Jiang, J.M., Kadane, J.B. e Dickey, J.M. (1992). Computation ofCarlson’s multiple hypergeometric functions R for Bayesian applica-tions. J. Statist. and Comput. Graphics, 1, 231-251.

    [5] Paulino, C.D. (1988). Análise de Dados Categorizados Incompletos:Fundamentos, Métodos e Aplicações. Tese de doutoramento, IME-Universidade de São Paulo.

    [6] Paulino, C.D., Amaral Turkman, M.A., Murteira, B. e Silva, G.L.(2018). Estat́ıstica Bayesiana, 2aed.. Fundação Calouste Gulbenkian,Lisboa.

    [7] Poleto, F.Z., Singer, J.M. e Paulino, C.D. (2011). Comparing diag-nostic tests with missing data. J. Applied Statistics, 38, 1207-1222.

    [8] Poleto, F., Singer, J., Paulino, C.D., Correa, F. e Jelihovschi, E.(2013). Package ACD: Categorical data analysis with complete ormissing responses. Version 1.5. CRAN (Comprehensive R ArchiveNetwork).

    [9] Poleto, F.Z., Singer, J.M. e Paulino, C.D. (2014). A product-multinomial framework for categorical data analysis with missing res-ponses. Brazilian Journal of Probability and Statistics 28, 1, 109-139.

    [10] Tanner, M.A. e Wong, W.H. (1987). The calculation of posterior dis-tributions by data augmentation (with discussion). J. Amer. Statist.Assoc., 82, 528-550.

  • 44 Paulino & Silva

  • O critério Minimum Message Lenght naestimação de modelos de mistura sobredados mistos

    Cláudia SilvestreEscola Superior de Comunicação Social-Instituto Politécnico deLisboa, [email protected]

    Margarida G. M. S. CardosoInstituto Universitário de Lisboa (ISCTE-IUL), Business ResearchUnit (BRU-IUL), Lisboa, Portugal, [email protected]

    Mário A. T. FigueiredoInstituto de Telecomunicações, Instituto Superior Técnico,Universidade de Lisboa, Portugal, [email protected]

    Palavras–chave: Classificação não supervisionada; Análise de Agru-pamento; Modelos de Mistura Finita; Dados Mistos; Minimum Mes-sage Lenght.

    Resumo: Neste trabalho propomos uma nova variante do algoritmoExpectation-Maximization para agrupar dados mistos que simulta-neamente estima o número de grupos. Recorremos aos modelos demistura finita, pressupondo que os dados categoriais são modeladospor distribuições multinomiais e os métricos por distribuições gaus-sianas. Para estimar o número de componentes de mistura baseamo-nos no critério Minimum Message Lenght. O desempenho do algo-ritmo proposto, designado por EM-MML-mix, é comparado com ode outros critérios usados frequentemente para a seleção de modelosde mistura. Desta análise comparativa, realizada sobre dados simu-lados e sobre um conjunto de dados reais provenientes do EuropeanSocial Survey, salienta-se o reduzido tempo de computação para aobtenção da solução mediante a metodologia proposta.

  • 46 Sivestre, Cardoso & Figueiredo

    1 Introdução

    O agrupamento sobre dados mistos é um problema prático comum,nomeadamente no âmbito das ciências sociais. Este pode referir-se,por exemplo, à constituição de segmentos homogéneos de indiv́ıduos,considerando as suas caracteŕısticas métricas ou qualitativas. Asabordagens metodológicas a este problema têm sido diversas. Porexemplo, Chiu et al. [8] propõem um algoritmo incremental e Ahmade Dey [1] propõem um novo algoritmo K-Médias, ambos capazes delidar com dados métricos e categoriais.No âmbito do agrupamento com modelos de mistura finita, uma pri-meira proposta considerando dados mistos deve-se a Everitt [10]. Avantagem desta abordagem para segmentação, reside na sua capaci-dade de analisar diversos tipos de variáveis, de modelar relações entreelas, de integrar diversos critérios de seleção dos modelos e ainda deselecionar o número de segmentos (componentes da mistura).Um modelo de mistura finita considera uma distribuição conjuntapara as variáveis base de segmentação como uma soma ponderadade distribuições intra-segmentos, atendendo à natureza diversa dosatributos. A sua estimação viabiliza a construção de uma estruturaprobabiĺıstica de segmentos e, em simultâneo, a obtenção de estima-tivas dos parâmetros distribucionais intra-segmentos. Neste âmbito,Hunt e Jorgensen [13] modelam a distribuição conjunta de uma va-riável categorial e de multinormais, permitindo, nestas últimas, queas médias dependam das categorias da variável qualitativa (sendoas covariâncias comuns). Outros trabalhos integram, nos modelosde mistura finita, a modelação conjunta de variáveis mistas conside-rando diversas distribuições, admitindo correlações intra-grupos devariáveis métricas ou mesmo de variáveis métricas cont́ınuas (porexemplo, [20] e [15]). O critério que habitualmente orienta a esti-mação destes modelos é o da máxima verosimilhança. No entanto,incorporando informação a priori, podem também adotar-se méto-dos bayesianos.Neste trabalho, consideramos o agrupamento de dados mistos, usandoum modelo de mistura e propondo o uso do critério Minimum Mes-

  • Atas do XXIII Congresso da SPE 47

    sage Lenght (MML) [21] para a sua estimação. Este critério advémda teoria da informação, considerando como modelo mais adequadoaquele que permite uma descrição mais sucinta das observações. Fi-gueiredo e Jain [11] foram pioneiros na utilização deste critério paraestimação de misturas de gaussianas e uma primeira proposta paraa utilização do MML em misturas de multinomiais foi proposta porSilvestre et al. [19]. Este critério também foi usado em agrupamentode dados fuzzy em [16], onde os autores consideraram misturas degaussianas e usaram o MML para estimar as variáveis relevantes eidentificar o número de componentes de mistura.

    A presente análise integra dados mistos considerando uma misturade gaussianas e multinomiais, bem como um algoritmo que é umavariante do conhecido Expectation-Maximization (EM). A metodolo-gia é testada comparativamente com critérios comuns para a seleçãode modelos de mistura, nomeadamente o Integrated Completed Li-lelihood, o qual é particularmente adequado neste contexto [12]. Aanálise é efetuada sobre dados sintéticos e um conjunto de dadosreais (provenientes do European Social Survey). São feitas análisescomparativas quanto ao tempo de computação, à qualidade do agru-pamento obtido e à robustez, relativamente a diferentes processos deinicialização.

    2 Metodologia

    Em muitos dos trabalhos propostos a escolha do número de gruposé feita a posteriori. Por exemplo, nos métodos hierárquicos, a es-colha do número de grupos é feita após o agrupamento, recorrendoaos correspondentes dendrogramas. Os critérios baseados na vero-similhança, habitualmente combinados com a estimação de modelosde mistura finita, também necessitam que o agrupamento seja feitopreviamente. Entre estes critérios, são comuns os seguintes: Baye-sian Information Criterion (BIC) [17], Akaike Information Criterion(AIC) [2] e suas variantes [5, 6] e Integrated Complete Likelihood(ICL)[4]. No uso destes critérios, o agrupamento é feito para dife-

  • 48 Sivestre, Cardoso & Figueiredo

    rentes números de grupos e escolhe-se a solução que corresponde aomelhor valor do critério usado. A metodologia que se propõe incor-pora a determinação do número de grupos na estimação do modelode mistura.

    2.1 Modelos de mistura finita

    Os modelos de mistura finita têm uma longa tradição em agrupa-mento; e.g., Wedel e Kamakura [22] referem o seu uso no âmbito deaplicações em marketing. A sua natureza probabiĺıstica/estat́ısticatem várias vantagens importantes. Nomeadamente, a possibilidadede se modelar dados de diferentes naturezas e de se abordar formal-mente a estimação do número de grupos.

    Seja Y = {yi, i = 1, . . . , n} uma amostra aleatória de n observa-

    ções independentes de Y = [Y1, . . . , YD]′. A ideia base dos modelos

    de mistura finita é considerar a distribuição conjunta para as variá-veis base de segmentação Y como sendo uma soma ponderada dedistribuições intra-segmentos,

    f(y|Θ) =K∑k=1

    αkf(y|θk),

    onde Θ = {θ1, . . . ,θK ,α1, . . . ,αK} é o conjunto de todos os parâme-tros do modelo, K o número total de segmentos e θk representa oconjunto dos parâmetros distribucionais do k-ésimo segmento (com-ponente de mistura). Os pesos α1,...,αK são as probabilidades de

    cada segmento, pelo que αk ≥ 0, para k = 1, . . . ,K e∑Kk=1 αk = 1.

    Em agrupamento, a componente de mistura de onde provém cadauma das observações é desconhecida, por isso, pode dizer-se queos dados observados, Y, são dados incompletos. Essa informa-ção em falta é usualmente designada por Z: Z = {z1,...,zn} ondezi = [zi1,...,ziK ]

    ′ e zik é um indicador binário que toma o valor 1 sea observação y

    ifoi gerada pela k-ésima componente e 0 caso con-

    trário. É habitual assumir-se que {zi, i = 1, . . . , n} são i.i.d. e

  • Atas do XXIII Congresso da SPE 49

    que seguem uma distribuição multinomial com K categorias e pro-babilidades {α1, . . . ,αK}. Assim, o logaritmo da verosimilhança dosdados completos,(Y,Z), é dado por

    log f(Y,Z|Θ) =n∑i=1

    K∑k=1

    zik log[αkf(yi|θk)

    ].

    Neste trabalho pretendemos agrupar/segmentar dados mistos, ouseja, de natureza categorial e métrica. Consideremos que Y tem Mvariáveis categoriais que serão modeladas por distribuições multino-miais e G variáveis métricas que serão modeladas por distribuiçõesgaussianas, tal que M+G = D. Assumindo que as variáveis são con-dicionalmente independentes, o logaritmo da verosimilhança para osdados completos é dado por:

    log f(Y,Z|Θ) =n∑i=1

    K∑k=1

    zik log

    [αk

    M∏m=1

    f(yim|θkm)

    G∏g=1

    f(yig|θkg)

    ].

    Para se obter as estimativas de máxima verosimilhança é habitualrecorrer-se ao algoritmo Expectation Maximization (EM) [9].

    2.2 O algoritmo EM

    O algoritmo EM é um algoritmo iterativo que é frequentementeusado quando se pretende obter as estimativas de máxima verosi-milhança (ML) ou o máximo a posteriori (MAP) na presença dedados incompletos. Um problema be