SmartMail| Entidade Promotora: Parceiros:
1/2 Projeto em curso com o apoio de:
Processos Estatísticos Descritivos e Inferenciais Análise do Estado da Arte
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Índice Introdução ............................................................................................................................................ 2
Processos Estatísticos Descritivos ........................................................................................................ 3
Definição ........................................................................................................................................... 3
Construtores Matemáticos .............................................................................................................. 3
Análise Univariada ........................................................................................................................ 3
Análise Bivariada .......................................................................................................................... 6
Processos Estatísticos Inferenciais ....................................................................................................... 8
Definição ........................................................................................................................................... 8
Construtores Matemáticos .............................................................................................................. 8
Estimação ..................................................................................................................................... 9
Teste de Hipótese ......................................................................................................................... 9
Estado da Arte .................................................................................................................................... 11
Aplicabilidade ao domínio do email ................................................................................................... 12
Aplicabilidade da estatística descritiva .......................................................................................... 12
Mecanismos de sugestão dos contactos mais relevantes ......................................................... 12
Taxas de distribuição de email ................................................................................................... 12
Deteção de relevância de conversações .................................................................................... 13
Aplicabilidade da estatística inferencial ......................................................................................... 13
Classificação de organizações .................................................................................................... 13
Deteção de eventos .................................................................................................................... 14
Monitorização e gestão de contactos ........................................................................................ 14
Adequação ao negócio ....................................................................................................................... 16
Comunicação com empresas ......................................................................................................... 16
Comunicação com consumidores .................................................................................................. 16
Referências ......................................................................................................................................... 17
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Introdução O nome do projeto SMART Mail encontra-se profundamente ligado ao seu objetivo principal; uma
utilização ágil, produtiva e sobretudo mais inteligente do email, enquanto canal privilegiado de
comunicação corporativa ou em lazer.
Para atingir tais benefícios será necessário conceptualizar e desenvolver novas ferramentas e
interfaces que agilizem todo este processo de gestão, assim como, acrescentem mais-valias, sob a
forma de métricas ou gráficos para o utilizador ser auxiliado numa utilização e gestão eficiente do
seu email.
O presente documento enquadra-se na atividade “Linha investigação 1: Processos estatísticos
descritivos e inferenciais” do projeto SMART Mail, constituindo resultado documental das tarefas
“Investigação do estado da arte sobre a linha de investigação de processos estatísticos
descritivos”, “Investigação do estado da arte sobre a linha de investigação de processos
estatísticos inferenciais” e “Experimentação e teste de abordagens atuais de processos estatísticos
declarativos e inferenciais”.
Utilizadores habituais de email deparam-se frequentemente com situações em que os seus emails,
por si só, oferecem pouca informação. Sistemas de gestão de email por vezes oferecem dados
adicionais mas estes tendem a evidenciar informação superficial ou imediatamente aparente.
Através de determinados cálculos estatísticos, torna-se possível encontrar relações e conclusões
que de outro modo não seriam visíveis, encontrando-se implícita (i) nas mensagens, (ii)
intervenientes, (iii) organizações, (iv) eixo temporal e / ou (v) combinação destas variáveis
envolvidas no envio de emails. Incluído no âmbito do projeto SMART Mail, este documento vai
apresentar dois tipos de estatísticas (descritiva e inferencial), os conceitos necessários à sua
compreensão e exemplos de aplicações destes no domínio do email, de passível futura aplicação
no decurso das atividades de “Conceção” e “Desenvolvimento” do protótipo SMART Mail.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Processos Estatísticos Descritivos
Definição A estatística descritiva é o domínio da matemática que permite descrever e resumir dados através
de parâmetros para obter tendências superficiais. No entanto, superficiais não implica que os
resultados obtidos não sejam valiosos. Quando deparado com grandes quantidades de dados em
bruto, um estaticista pode usar técnicas e processos para ordenar e classificá-los, permitindo a
extração de informação que de outro modo não seria fácil, ou de todo possível, obter. [1] [2]
Construtores Matemáticos Para estudar a estatística de dados, é necessário analisar, compreender e classificar a natureza dos
dados. Com esse fim, são utilizadas variáveis. Uma variável representa um único aspeto de um
conjunto de dados e é necessária para transformar conceitos, por vezes abstratos ou difusos, em
valores discretos e fáceis de estudar. Por exemplo, pode-se definir a variável “Hora de envio de
email” para estabelecer a que horas um contacto envia emails a um recipiente.
Análise Univariada A base da estatística descritiva baseia-se em estudar apenas uma variável. Uma variável pode ser
estudada de forma a conhecer os seus três aspetos principais: a distribuição, a tendência central e
a dispersão dos dados.
Distribuição
A distribuição consiste na lista de pontos de dados ou categorias de uma variável. Continuando o
exemplo que foi iniciado na introdução desta secção, podemos tomar a nossa variável “Hora de
envio de email” e criar uma categoria por cada hora do dia. Assim, torna-se possível associar cada
email recebido a uma hora e ficar a conhecer em que períodos de tempo um certo contacto envia
mais ou menos emails. A Figura 1 mostra um gráfico de barras duplo. O eixo das abcissas (X)
representa as horas do dia e o eixo das ordenadas (Y) refere-se ao volume de emails recebidos. As
barras com um tom mais claro mostram os emails recebidos de todos os contactos e as barras
mais escuras referem-se aos emails recebidos de um contacto específico. A partir deste gráfico
podemos ver como os dados encontram-se dispersos, ou por outras palavras, o volume de emails
recebidos a cada hora.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Figura 1 – Comparação da dispersão diária de emails de um contacto com todos os emails recebidos
Tendência Central
Quando se estudam dados, é frequente querer conhecer onde se situa o “centro” dos dados.
Todavia, não existe um único centro mas sim três: a moda, a mediana e a média. A Figura 1 será
usada para melhor dar a conhecer cada uma das medidas. A moda é a mais simples das três,
referindo-se apenas ao valor / categoria com maior frequência. Na Figura 1 esta seria a categoria
das 16h, quando o maior número de emails foi recebido.
A mediana refere-se ao valor / categoria que tem um número igual de outros valores / categorias,
respetivamente, de cada um dos seus lados, ou seja, o valor / categoria que esteja exatamente no
meio do conjunto ordenado de todos os valores. No caso de o conjunto de dados ter um número
par de elementos, levando a que existam dois elementos válidos, a mediana será o resultado do
cálculo da média dos dois elementos.
O cálculo da média não é utilizado só nessas circunstâncias, contudo. A média é frequentemente a
mais valiosa das três medidas de tendência central já que esta permite conhecer o conjunto de
dados com um único número. Ao somar a frequência de todos os valores / categorias e dividir a
soma obtida pelo tamanho do conjunto de dados obtém-se um valor que representa todos os
dados. Esta medida é valiosa porque permite conhecer factos como quantos emails se podem
esperar a uma certa hora ou aumentos / diminuições na frequência de trocas de emails com um
contacto ao longo do tempo, por exemplo. No entanto, a média pode ser fortemente influenciada
por outliers, valores drasticamente diferentes da maioria dos outros valores, o que leva a que
médias calculadas não representem com precisão a maioria dos dados, ou os dados relevantes. Há
que notar que um outlier não é inerentemente disruptivo e pode conter informação
extremamente importante, o que significa que estes não devem ser automaticamente ignorados
ou rejeitados. É mais importante que se entenda o significado de outliers para que não haja perdas
de informação.
No exemplo corrente, utilizando a Figura 1 como suporte, temos o volume de emails recebidos de
um contacto específico e a soma dos emails de todos os contactos. Ao calcular a média de cada
um destes conjuntos de dados podemos comparar os volumes de emails de forma mais direta e
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
objetiva e saber empiricamente por quantos emails um contacto é responsável (envio e receção).
Alternativamente, ao dividir o volume de emails de cada hora pelo número de dias decorridos
num intervalo temporal, pode-se descobrir a média de emails trocados num determinado período
de tempo. Se for mantido um registo destas médias torna-se possível quantificar crescimentos e
diminuições de tráfego de um contacto.
Dispersão
As medidas de dispersão contemplam as variações das frequências registadas e não as frequências
em si. A amplitude dos dados é por vezes valiosa já que permite fazer comparações entre valores /
categorias ou até conjuntos de dados diferentes. Para melhor exemplificar a amplitude pode-se
definir uma variável “Número de emails recebidos por dia”. Ao observar dois contactos, um
utilizador de email pode determinar o comportamento de cada um e adaptar a sua forma de
interação / comunicação.
Neste exemplo, a amplitude de emails recebidos do primeiro contacto é reduzida e, por isso, o
utilizador espera receber sempre um número semelhante de emails todos os dias e planeia o seu
dia de acordo com essa informação. O segundo contacto, por contraste, pode passar dias sem
enviar emails mas também é capaz de enviar grandes quantidades num só dia e assim a sua
amplitude no âmbito desta variável é muito alta e o utilizador de email pode preparar a sua caixa
de correio para filtrar automaticamente os emails enviados por esse contacto no caso de ser
recebido um grande volume de mensagens. Devido ao facto da amplitude ser extremamente
sensível a outliers, este cálculo tem de ser executado com cuidado para que o resultado seja válido
e minimamente interessante para o contexto a que pertence.
A medida de dispersão mais comum, no entanto, é o desvio padrão. Para falar desta medida
também se deve falar da variância, já que o desvio padrão se obtém de calcular a raiz quadrada da
variância. [3]
Figura 2 - Fórmula da Variância
A Figura 2 contém a fórmula para calcular a variância. A fórmula consiste em calcular uma média
com os quadrados das diferenças de cada valor e a média dos valores. Ao calcular a raiz quadrada
do valor obtido obtém-se o desvio padrão, um valor que permite estabelecer intervalos ou
subgrupos de dados. Em distribuições de dados (aproximadamente) normais, em que os dados
estão distribuídos de forma (aproximadamente) simétrica, criam-se intervalos partindo da média e
subtraindo ou somando o desvio padrão, uma ou mais vezes, para obter os limites mínimos e
máximos, respetivamente. Continuando com distribuições de dados normais, 68% dos dados está
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
contido no intervalo de um desvio padrão e 99.7% dos dados está no intervalo entre três desvios
padrões, [2] [4] [5] como ilustrado na Figura 3.
Figura 3 - A regra de 68-95-99.7
Análise Bivariada Por vezes torna-se necessário estudar a relação entre duas variáveis e nesses casos as medidas
apresentadas na secção anterior não são suficientes. Para estudar relações de variáveis utilizam-se
a correlação e a covariância, muitas vezes apresentadas graficamente de modo a entender
intuitivamente as diferenças gerais, tipicamente através de scatterplots ou tabelas de distribuição
de probabilidade conjunta. Os resultados deste tipo de análises permitem encontrar ligações entre
os dados mas é importante salientar que a correlação não implica causalidade, ou seja, o facto de
existir uma relação não implica que uma das variáveis dependa da outra.
Concretamente, se numa caixa de email hipotética as variáveis “tempo de resposta” e “qualidade
de resposta” mostrarem uma correlação positiva, ou seja, se respostas mais rápidas tendem a ser
mais bem compostas, não se pode assumir que respostas rápidas sejam mais bem compostas.
Antes de se poder calcular a correlação, no entanto, é necessário calcular a covariância. Existem
algumas variações mas a Figura 4 contem a fórmula base que consiste em calcular a média dos
produtos da diferença entre cada valor de uma variável e da média dessa mesma variável. É
semelhante ao cálculo da variância com a diferença de o produto ser entre os dados de ambas as
variáveis em vez de com os dados da mesma variável (ou o quadrado da diferença dos valores e da
média).
Figura 4 - Fórmula base da Covariância
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
O cálculo de correlação de Pearson abaixo utiliza a covariância calculada e divide-a pelo produto
dos desvios padrão de cada variável, ou seja, o resultado da variância é normalizado para tornar os
resultados mais simples de analisar e comparar.
Figura 5 - Formula de Correlação de Pearson
Ambos os cálculos indicam a existência ou ausência de ligação entre as duas variáveis mas a
correlação tende a ser mais usada já que os resultados da covariância não são facilmente
entendidos, de forma análoga à preferência de utilização do desvio padrão sobre a utilização da
variância.
Também é importante notar que existem cálculos de correlação que não usam a fórmula de
Pearson. Por exemplo, um teste de correlação inferencial baseia-se no conceito de distribuição
condicional.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Processos Estatísticos Inferenciais
Definição A estatística inferencial trata de permitir conhecer o mesmo tipo de informação que a estatística
descritiva dá a conhecer mas em contextos em que não temos toda a informação ou a garantia da
qualidade dos dados. Quando só se possui uma porção da totalidade dos dados que se pretendem
estudar, torna-se necessário formular hipóteses consoante essa porção, ou amostra, e extrapolar
para a totalidade dos dados, ou população. Aplicar a uma população os resultados obtidos de
estudar uma amostra acarreta algum risco, valores aproximados e uma quantidade não nula de
erro, o que significa que os resultados obtidos com estes processos não serão idênticos aos reais.
Contudo, com alguma margem de tolerância de variações como estas, os resultados obtidos com
estes processos são valiosos e podem revelar informação importante, informação não contida nos
dados iniciais mas nas relações entre si [1] [2]
Construtores Matemáticos Na secção de construtores matemáticos dos processos de estatística descritiva, os aspetos
essenciais foram mencionados e explicados de forma a dar a entender o tipo de resultados que se
podem obter e como estes podem ser interpretados. Todos os cálculos feitos nesse domínio têm
como pressuposto que o conjunto de dados a ser estudado contém a totalidade dos dados
relevantes ao estudo, ou seja, que um estaticista que estude o problema tenha acesso a todos os
dados do estudo e não apenas a uma subsecção destes. A estatística inferencial é um domínio da
estatística que se aplica aos casos onde a estatística descritiva não se pode aplicar, por outras
palavras, a casos onde só existe acesso a uma amostra da população.
Em casos como estes, como o acesso aos dados é limitado, os cálculos têm acesso somente aos
dados da amostra e posteriormente é necessário extrapolar resultados que sejam aproximados
dos valores reais da população, ou seja, os dados da população são inferidos. Para que estes
cálculos sejam possíveis, dado o grau de incerteza nos cálculos, é necessário recorrer a intervalos
de confiança. Estes intervalos são definidos por um conjunto de valores candidatos e por um nível
de confiança, uma percentagem tipicamente igual a 90%, 95% ou 99%, que indica a confiança de o
valor alvo estar dentro do intervalo. É importante realçar que a confiança nunca chega a 100%, o
que significa que um intervalo de confiança poderá não conter o valor verdadeiro do parâmetro
em questão num dado problema.
A inferência estatística engloba duas principais tarefas: estimativas e testes de hipótese. [3] [6]
Ambas partilham objetivos, servindo dois propósitos diferentes, e ambas são valiosas em vários
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
domínios. Em particular no domínio do email, estas técnicas podem ser utilizadas para inferir
relações e encontrar informação que de outra forma não seria evidente. Por exemplo, ao longo de
um período de tempo um utilizador de email pode trocar mensagens com dois contactos
importantes. Com alguns cálculos é possível determinar se as trocas de mensagens com o primeiro
contacto influenciam a frequência de envio de mensagens para o segundo contacto.
Como brevemente mencionado na secção de Análise Bivariada dos Processos Estatísticos
Descritivos, a correlação também pode ser calculada no contexto da estatística inferencial. A
informação crucial da correlação dada na secção mencionada também se aplica neste contexto,
por isso a correlação não será explorada com muita profundidade nesta secção.
Estimação Quando a lidar com amostras, não é possível obter resultados para a população diretamente a
partir dos dados da amostra. Tal como referido anteriormente, é feita uma extrapolação para ter
informação sobre a população mas este processo pode resultar em resultados incorretos. Assim,
são utilizados estimadores para obter valores próximos dos corretos, ou estimativas, e conseguir
completar quaisquer cálculos necessários.
Um estimador é normalmente representado com o caracter do parâmetro desejado marcado com
um acento circunflexo, tal como , e pode ser tanto pontual ou intervalar, ou seja, pode oferecer
um único valor ou um intervalo de valores, na forma de um intervalo de confiança.
Nem todos os emails trocados entre um utilizador e um contacto podem estar acessíveis num
determinado momento. À medida que o tempo passa emails podem ser apagados e diferentes
contas de email podem ser utilizadas, o que leva a que nem todas as mensagens possam ser
acedidas para ter o conjunto completo de dados. Todas essas mensagens tiveram um efeito na
relação das duas pessoas, e potencialmente noutras relações, e seria vantajoso poder contar com
a totalidade das mensagens, apesar de algumas estarem indisponíveis. Recuperar esse tipo de
informação não é uma opção válida mas deduzir alguma da informação de um utilizador permite
executar cálculos que produzam resultados relevantes.
Teste de Hipótese Quando é necessário conhecer um aspeto da população, por vezes informação que nem está
diretamente acessível como a média ou o desvio padrão, um teste de hipótese apresenta-se como
apropriado. [7] Um teste de hipótese começa com um ambiente, e.g. como a caixa de correio de
um CEO onde cada contacto tem um certo grau de importância, e com uma pergunta, tal como “O
contacto mais importante é o que envia mais emails?”.
Para ter uma resposta a essa pergunta é formulada uma ideia para ser testada, neste caso seria
“Um contacto é importante se enviar 10 mensagens por dia.”. Posteriormente é proposta a
hipótese nula e a hipótese alternativa. A hipótese nula assume o oposto da ideia enquanto a
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
hipótese alternativa propõe uma alternativa, esta sendo a própria ideia. Com ambas as hipóteses
formuladas, assume-se que a hipótese nula é verdadeira e adota-se uma estratégia de redução ao
absurdo. Se a hipótese nula for rejeitada, a ideia inicial é aceite e é dado um resultado que
consiste de um intervalo de confiança que indica a hipótese aceite e o grau de confiança
associado.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Estado da Arte Na área de estatística descritiva não existe nenhuma descoberta ou teoria recente que altere a
forma em como se descrevem e analisam conjuntos de dados de forma superficial. As
metodologias não têm sofrido alterações e continuam a ser pilares essenciais em investigações e
análises de diversos domínios, tal como em análises de desempenho em vários desportos,
comparações de estado de saúde de pacientes, estudo de hábitos sociais / culturais, entre outros.
Na área da estatística inferencial, no entanto, existem bastantes esforços de estaticistas para
expandir o conjunto de ferramentas de inferência estatística. Advances in Statistics [8] é um
journal que publica artigos de investigação de qualquer área da estatística. Neste journal é
possível encontrar artigos recentes (desde 2014) com algumas das abordagens mais inovadoras no
domínio da estatística.
Especificamente, Zhenmin Chen e Tieyong Hu desenvolveram um teste [9] que oferece melhores
resultados do que o teste de Kolmogorov–Smirnov (o teste mais usado até hoje para comparar
duas amostras de dados) em distribuições de dados em V ou para amostras pequenas.
No entanto, muitos aspetos mantém-se constantes. Não têm sido feitos muitos desenvolvimentos
matemáticos na base da estatística descritiva mas usos da estatística descritiva têm vindo a
aumentar em número. [10] Nomeadamente, no tratamento de pacientes de cancro nos Estados
Unidos da América, usos inovadores de estatísticas auxiliam na escolha de abordagens ao nível da
personalização dos tratamentos deste grave problema de saúde. [11]
Em 2013 foi levado a cabo o International Year of Statistics, um evento cujo propósito era
promover a importância do cálculo estatístico a outras comunidades, tal como outras
comunidades científicas, organizações e governos. [12] Esse evento levou à criação do World of
Statistics [13], uma rede global de organizações que visa continuar os esforços do evento de 2013
e continuamente investir no crescimento da estatística como área de estudo e emprego, orientada
especialmente para pessoas mais novas.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Aplicabilidade ao domínio do email
Aplicabilidade da estatística descritiva Apesar de já terem sido utilizados exemplos relativos a email neste documento, nesta secção vão
ser discutidas com mais detalhe algumas possíveis aplicações mais concretas das técnicas
mencionadas anteriormente. Cada uma destas aplicações, por si só, não é suficiente para
classificar corretamente os emails recebidos por um utilizador, mas em conjunto permitem
determinar quão importante um email é e mostrar a um utilizador de email quais mensagens
requerem mais atenção em cada momento.
Mecanismos de sugestão dos contactos mais relevantes Decidir qual o mais valioso de dois contactos pode ser uma tarefa difícil e dispendiosa ao tentar
comparar os atributos de cada, dificuldade que aumenta drasticamente quando se deseja
comparar dez, cinquenta ou cem contactos. Como referido na definição de estatística descritiva, o
propósito deste tipo de estatística é descrever e resumir grandes quantidades de dados.
Certos elementos de um contacto, por si só, podem ser resumidos de forma simples, tal como o
tempo médio de resposta. Um contacto com que um utilizador tenha conversas de hora a hora é
potencialmente um contacto mais importante do que outro cujas conversas podem ter pausas de
dias ou semanas. Outro elemento que pode ser resumido de forma simples é o intervalo de horas
de contacto. Um contacto que envie a maioria dos seus emails depois do horário normal de
trabalho pode ter requisitos diferentes de outros contactos e necessitar de respostas céleres,
tornando-o num contacto de alta prioridade.
Com esses e outros fatores considerados, é possível transformar todos os dados de um contacto
num único número que resume a sua relevância e a forma em como emails por este enviados
devem ser tratados. Ao realçar emails enviados por contactos com um alto nível de importância,
um utilizador pode rápida e facilmente determinar quais os emails com maior probabilidade de
serem importantes. Permitir a um utilizador distinguir um pedido urgente de um gerente e uma
newsletter mensal de um serviço que utiliza, imediatamente e sem confusão, pode ajudá-lo a
poupar muito tempo a longo prazo.
Taxas de distribuição de email À medida que progressivamente mais emails são recebidos, padrões começam a surgir. Estes
padrões permitem determinar quais os intervalos de tempo onde é mais provável que novos
emails cheguem. Assim é possível criar expectativas sobre quando novos emails poderão chegar e
delinear períodos onde se espera que novos emails sejam, ou não, recebidos.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Assim, emails cuja hora de receção seja muito diferente das médias esperadas podem-se
considerar importantes e receber exposição adicional de modo a que não sejam perdidos no
conjunto de todos os emails recebidos diariamente.
Deteção de relevância de conversações O grau de relevância de uma conversa depende da frequência e volume de emails trocados e pode
ser medido com o número médio de emails trocados por semana. À medida que progressivamente
mais emails são adicionados a uma conversa num período de tempo, mais ativa esta se torna.
Consequentemente, emails recebidos pertencentes a uma conversa de email muito ativa podem-
se considerar muito importantes.
Isto significa que emails pertencentes a uma conversa importante podem ser realçados de forma a
que um utilizador de email nunca perca informação crítica relativamente a um tópico relevante
atualmente. De forma relacionada, novos emails associados a uma conversa inativa podem
confundir um utilizador que pode nem se recordar do tema da conversação. Aí seria vantajoso
oferecer notas informativas ao utilizador para contextualizar o email e permitir ao utilizador
rapidamente tomar uma decisão sobre como lidar com o novo email.
Aplicabilidade da estatística inferencial A estatística inferencial é usada atualmente em inúmeros domínios, projetos e tarefas, devido às
deduções que permite tirar. No domínio do email é possível conceptualizar algumas formas de
utilização de estatística inferencial para auxiliar com a gestão inteligente de emails.
Este tipo de cálculos é incerto por natureza, até certo ponto. Isto significa que existe um risco
inerente de quaisquer resultados obtidos com processos estatísticos inferenciais serem incorretos.
Por isso, quaisquer sistemas que incluam estatística inferencial nos seus processos de tomadas de
decisão devem ser construídos de forma a tolerar erros e de aprender com o tempo de modo a
melhorar.
Classificação de organizações Na secção dos testes de hipótese, a determinação da importância de um contacto foi o foco do
exemplo dado. Nesse exemplo falou-se de um teste de hipótese que tentava encontrar uma
ligação entre tempo de resposta e importância do contacto. Através de testes como esse,
deduções sobre diversos aspetos de um contacto podem ser tiradas. O mesmo se pode fazer com
organizações.
O valor de uma organização pode depender de vários fatores, tal como o número de conversas
ativas, o tempo decorrido desde o primeiro contacto e o valor dos contactos associados. Se o valor
de uma organização fosse simplesmente igual à soma do valor dos contactos associados,
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
organizações compostas por muitos contactos de pouco valor poderiam potencialmente tornar-se
mais valiosas do que organizações com um pequeno número de contactos valiosos.
Classificar uma organização requer testar as suas propriedades, e as propriedades dos seus
membros, e comparar os resultados recebidos com os obtidos de outras organizações. Isto
significa aplicar testes de hipótese e analisar correlações. O mesmo teste de hipótese aplicado a
duas organizações de valor aparentemente semelhante, mas amostras de dados
significativamente diferentes, pode levar a resultados diferentes, ou seja, a conclusões e
classificações diferentes. E mesmo que os resultados sejam semelhantes, pode existir suficiente
número de diferenças para que as classificações atribuídas não devam ser iguais, o que significa
que a correlação não pode ser ignorada.
Declarar uma organização como muito ou pouco valiosa é uma tarefa complexa, especialmente
porque o valor pode mudar à medida que o tempo passa. Simultaneamente, caso um utilizador de
email adicione um novo contacto e o associe a uma organização previamente conhecida, o grau de
importância desse contacto pode ser automaticamente ajustado de modo a refletir a importância
da organização a que pertence.
Deteção de eventos Num ambiente empresarial, um gestor de projetos tem habitualmente de lidar com problemas e
questões que surgem à medida que diferentes equipas desenvolvem o seu trabalho e comunicam
entre si. No entanto, de entre as centenas de emails trocados que podem incluir o gestor, é
possível que apenas um pequeno número seja realmente importante e exija toda sua atenção. Por
exemplo, no caso de surgir um evento que requeira uma solução de forma urgente, emails que
mencionem esse novo problema deveriam ser realçados.
Diferenciar os emails importantes dos restantes requer análise de vários dados tal como o próprio
corpo do email, os contactos associados e a conversa a que pertence. A frequência com que certas
palavras surgem entre várias mensagens ou a existência de palavras chave pré determinadas
podem ser provas da existência de um evento importante. À medida que progressivamente mais
provas são adquiridas, mais robusta se torna a decisão de alertar ou não o utilizador da existência
de algum evento que requer a sua atenção.
Monitorização e gestão de contactos Contactos duplicados são um problema comum com caixas de email. Com o tempo, um utilizador
tende a acumular muitos diferentes contactos de email, e por vezes vários contactos podem-se
referir à mesma pessoa. Isto leva a que haja desorganização e informação desnecessariamente
espalhada ou repetida. Uma sequência de testes de hipótese podem revelar contactos
potencialmente duplicados e sugerir a um utilizador que sejam feitas alterações / ações de
convergência.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Com os mesmos testes é possível também sugerir grupos de contactos. Quando vários contactos
mostram ter atributos idênticos ou semelhantes, pode ser sugerido ao utilizador que seja criado
um grupo que os inclua. Grupos podem ser tão simples como membros da mesma família ou co
fundadores de uma empresa. Ao agrupar contactos desta forma, um utilizador pode mais
facilmente reconhecer contactos, mais facilmente enviar emails para múltiplos recipientes ou
manter registo da composição de equipas dinâmicas, como os colaboradores associados a um
novo projeto dentro da sua empresa.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Adequação ao negócio Os benefícios de cálculo estatístico no funcionamento interno de empresas já foram mencionados
neste documento. Mas com acesso a estes cálculos, empresas podem melhorar a sua
comunicação externa também, seja ela com empresas ou consumidores.
Comunicação com empresas Uma boa comunicação entre empresas pode ser difícil de manter, especialmente quando
consideradas todas as peças móveis numa única empresa. Equipas dentro de uma mesma
empresa podem ser criadas ou dissolvidas, colaboradores podem mudar de equipa, a gestão pode
mudar e até as prioridades da empresa podem sofrer alterações. Outras empresas podem não
acompanhar as mudanças que acontecem na empresa em questão e podem desejar mudar a
forma como interagem com esta.
Assim, um serviço que automatize parte da classificação de outras empresas, e de contactos que aí
pertençam, torna-se valioso por libertar utilizadores de email de ter de atribuir muito tempo a
gerir contactos e emails. Deste modo, os colaboradores de cada uma das empresas envolvidas
numa transação de negócios podem-se concentrar em garantir que o trabalho que realizam é bem
executado e não em gerir a sua caixa de correio.
Comunicação com consumidores Uma empresa que lide com consumidores diretamente tende a desejar reconhecer quais os seus
clientes mais valiosos, seja em que domínio for. Clientes recorrentes, com uma subscrição a um
serviço ou potenciais novos clientes têm valores diferentes e isto significa que poderão pedir ou
merecer tratamento especializado ou prioritário. As técnicas mencionadas ao longo deste
documento podem ser usadas para rápida e facilmente distinguir os diferentes tipos de clientes.
A secção de apoio técnico de uma empresa de telecomunicações, por exemplo, poderá decidir
atribuir um valor de relevância a diferentes clientes e encaminhar pedidos de clientes mais
importantes para técnicos de apoio mais experientes de forma a aumentar a probabilidade de o
cliente terminar o pedido de apoio satisfeito. Novos clientes podem ser classificados como tal de
modo a que qualquer técnico que os atenda assim o saiba e se prepare para assistir de forma
apropriada.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
Referências
[1] “Descriptive and Inferential Statistics,” Laerd Statistics, [Online]. Available:
https://statistics.laerd.com/statistical-guides/descriptive-inferential-statistics.php.
[2] W. M. Trochim, “Descriptive Statistics,” Research Methods Knowledge Base, 2006. [Online].
Available: http://www.socialresearchmethods.net/kb/statdesc.php.
[3] P. L. Ferreira, “Estatística Descritiva e Inferencial,” Faculdade de Economia da Universidade de
Coimbra, 2005. [Online]. Available:
https://estudogeral.sib.uc.pt/bitstream/10316/9961/1/AP200501.pdf.
[4] B. Narasimhan, “The Normal Distribution,” Department of Statistics of Stanford University, 22
07 1996. [Online]. Available:
http://statweb.stanford.edu/~naras/jsm/NormalDensity/NormalDensity.html.
[5] “The 68-95-99.7 Rule For Normal Distributions,” State University of New York, [Online].
Available: http://www.oswego.edu/~srp/stats/6895997.htm.
[6] D. Lane, “Inferential Statistics,” [Online]. Available:
http://davidmlane.com/hyperstat/A29136.html.
[7] S. Khan, “Hypothesis testing and p-values,” Khan Academy, 2 11 2010. [Online]. Available:
https://www.khanacademy.org/math/probability/statistics-inferential/hypothesis-
testing/v/hypothesis-testing-and-p-values.
[8] “Advances in Statistics,” Hindawi, [Online]. Available:
http://www.hindawi.com/journals/as/contents/.
[9] T. H. Zhenmin Chen, “Statistical Test for Bivariate Uniformity,” Hindawi, 19 10 2014. [Online].
Available: http://www.hindawi.com/journals/as/2014/740831/.
[10] “ABC Statistics,” [Online]. Available: http://studymore.org.uk/glonumst.htm.
[11] W. N. R. Marie Davidian, “Strength in Numbers: How Statistics Are Driving Personalized
Cancer Care,” North Carolina State University, [Online]. Available:
http://www.futureofpersonalhealth.com/prevention-and-treatment/strength-in-numbers-
how-statistics-are-driving-personalized-cancer-care.
SmartMail| Entidade Promotora: Parceiros:
2/2 Projeto em curso com o apoio de:
[12] “2013: Social Science History: Time line for the history of society, science and social science,”
[Online]. Available: http://studymore.org.uk/sshtim.htm#2013.
[13] "The World of Statistics Homepage," The World of Statistics, [Online]. Available:
http://www.worldofstatistics.org/.
[14] “New England Symposium on Statistics in Sports,” NESSIS, 2012. [Online]. Available:
http://www.nessis.org/index.html.