detecÇÃo de fuga ao tema em redaÇÕes na lÍngua …siaibib01.univali.br/pdf/guilherme...
TRANSCRIPT
GUILHERME PASSERO
DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA
PORTUGUESA
Itajaí (SC), março de 2018
UNIVERSIDADE DO VALE DO ITAJAÍ
CURSO DE MESTRADO ACADÊMICO EM
COMPUTAÇÃO APLICADA
DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA
PORTUGUESA
por
Guilherme Passero
Dissertação apresentada como requisito parcial à
obtenção do grau de Mestre em Computação
Aplicada.
Orientador: Rudimar Luís Scaranto Dazzi, Dr.
Itajaí (SC), março de 2018
The analysis of student writing seems one of the major educational contributions which the
computer is destined to make. Such essay analysis has always been an important job for the
teacher, demanding his best dedication and intelligence. Therefore it is not surprising that
mechanical "dedication" and artificial "intelligence" should assume some of the responsibility, in
our increasingly computerized world.
Ellis Page, 1968.
DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA
PORTUGUESA
Guilherme Passero
Março / 2018
Orientador: Rudimar Luís Scaranto Dazzi, Dr.
Área de Concentração: Computação Aplicada
Linha de Pesquisa: Inteligência Aplicada
Palavras-chave: Processamento de linguagem natural, Análise semântica, Classificação de textos,
Avaliação automática de redações.
Número de páginas: 106
RESUMO
Os avanços alcançados nos últimos 60 anos em sistemas de correção automática de redações
possibilitaram a sua aplicação em cenários reais, como salas de aula e exames de médio e grande
porte. Uma das tarefas tratadas na correção automática de redações é a identificação de redações com
fuga ao tema. A fuga ao tema acontece quando o aluno não desenvolve conceitos relacionados à
proposta temática, por vezes de modo proposital, e causa a anulação da redação em alguns exames.
Um mecanismo de detecção de fuga ao tema pode ser utilizado em paralelo ou embutido em um
sistema de correção automática de redações para melhorar seu desempenho. Nesse contexto, esta
pesquisa visa avaliar as abordagens existentes na literatura para detecção automática de redações com
fuga ao tema. Uma revisão sistemática da literatura foi realizada para identificar as técnicas, recursos,
métricas e corpora atualmente utilizados na tarefa de detecção de fuga ao tema. Os resultados dessa
revisão mostraram algumas deficiências no estado da arte, entre elas: a baixa acurácia das abordagens
existentes, o uso de conjuntos artificiais para validação e a ausência de trabalhos voltados à língua
portuguesa. Nesta pesquisa, as abordagens identificadas na literatura, originalmente propostas para a
língua inglesa, foram adaptadas para a língua portuguesa e comparadas em dois experimentos com
um corpus público de 2.164 redações relacionadas a 111 propostas temáticas. O primeiro experimento
utilizou um conjunto próprio de exemplos reais de fuga ao tema identificados no corpus de pesquisa.
Esse experimento não produziu resultados conclusivos devido a limitações no conjunto de exemplos
reais utilizado. O segundo experimento utilizou um conjunto com exemplos artificiais de fuga ao
tema e o algoritmo com melhor desempenho obteve acurácia superior à encontrada na literatura para
a língua inglesa (96,76% contra 94,75%). Os resultados apresentados sugerem a aplicação de
mecanismos de detecção de fuga ao tema em redações no contexto educacional brasileiro de modo a
beneficiar o estudante, quando visada a geração de feedback, e as instituições educacionais, quando
visada a automatização do processo de correção de redações. Algumas sugestões de trabalhos futuros
são apresentadas, entre elas o tratamento da detecção de fuga ao tema em redações como um problema
multiclasse e a reprodução do experimento em um corpus de redações com um conjunto maior e
representativo de exemplos reais de fuga ao tema.
OFF-TOPIC ESSAY DETECTION FOR PORTUGUESE
LANGUAGE
Guilherme Passero
March / 2018
Advisor: Rudimar Luís Scaranto Dazzi, Dr.
Area of Concentration: Applied Computing
Research Line: Applied Intelligence
Keywords: Natural Language Processing, Semantic analysis, Text classification, Automated essay
evaluation.
Number of pages: 106
ABSTRACT
Advances in automated essay grading over the last sixty years enabled its application in real
scenarios, such as classrooms and medium- to large-scale tests. The recognition of off-topic essays is
one of the tasks addressed in automated essay grading. An essay is regarded as off-topic when the
student does not develop the expected prompt-related concepts, sometimes purposely. Off-topic
essays may receive a zero score in high-stake tests. An off-topic essay detection mechanism may be
used in parallel or embedded in an automated essay grading system to improve its performance. In
this context, the main goal of this study is to evaluate the existing approaches for automated off-topic
essay detection. A systematic review of the literature was performed to identify the techniques,
resources, measures and corpora applied in the task of off-topic essay detection. The results of this
review showed some deficiencies, including: the low accuracy of current approaches, the use of
artificial validation sets, and the lack of studies focused on the Portuguese language. In this study, the
approaches found in the literature, originally proposed for the English language, were adapted for the
Portuguese language and compared in two experiments using a public corpus of 2164 essays related
to 111 prompts. The first experiment used an own dataset of real off-topic examples found in the
research corpus. This experiment did not yield conclusive results due to limitations in the set of real
examples. The second experiment used a set of artificial off-topic examples, and the best performing
algorithm achieved higher accuracy than that found in the literature for the English language (96.76%
vs. 94.75%). The results presented suggest the application of off-topic essay detection mechanisms
in the Brazilian educational context in order to benefit the student, with computer generated feedback,
and educational institutions, regarding automated essay grading. Some suggestions for future research
are presented, including the need to address the task of off-topic essay detection as a multiclass
problem, and to reproduce the experiment with a larger and more representative set of real off-topic
essay examples.
LISTA DE ILUSTRAÇÕES
Figura 1. Custo geral estimado da correção das redações do ENEM (custo por redação) ............... 16
Figura 2. Custo médio da correção das redações do ENEM por nível de correção.......................... 17 Figura 3. Conceito “cachorro” e alguns de seus relacionamentos no WordNet ............................... 29
Figura 4. Arquitetura das redes Word2Vec tipos CBOW e Skip-gram ........................................... 36 Figura 5. Hierarquia de aprendizado .............................................................................................. 39
Figura 6. Indução de classificador em aprendizado supervisionado ............................................... 40 Figura 7. Exemplo de regressão linear para predição do grau de adequação ao tema ...................... 41
Figura 8. Conjunto de treinamento binário e três diferentes hipóteses ............................................ 43 Figura 9. Exemplo da utilização de regressão linear e SVR para predição do grau de adequação ao
tema em um conjunto com exemplos anômalos ..................................................................... 45
Quadro 1. Critérios avaliados na prova de redação do ENEM ........................................................ 24
Quadro 2. Exemplos de analogias avaliadas por um modelo Word2Vec Skip-gram treinado em 783M
de palavras com 300 dimensões ............................................................................................. 35
Quadro 3. Relação de artigos selecionados na revisão sistemática da literatura .............................. 49 Quadro 4. Técnicas de análise textual utilizadas nos trabalhos relacionados .................................. 62
Quadro 5. Técnicas e recursos de análise semântica utilizados nos trabalhos relacionados ............. 63 Quadro 6. Composição do corpus de treino utilizado nos trabalhos relacionados ........................... 63
Quadro 7. Tamanho dos corpora utilizados nos trabalhos relacionados .......................................... 64 Quadro 8. Métricas de desempenho utilizadas em pesquisas sobre detecção automática de fuga ao
tema ...................................................................................................................................... 65 Quadro 9. Resultados alcançados em pesquisas sobre detecção automática de fuga ao tema .......... 66
Quadro 10. Identificação dos algoritmos implementados ............................................................... 71 Quadro 11. Corpora utilizados pelos algoritmos ............................................................................ 72
Quadro 12. Exemplos de derivações, sinônimos e palavras associadas .......................................... 75
LISTA DE TABELAS
Tabela 1. Exemplo de matriz de coocorrências .............................................................................. 31
Tabela 2. Índice de similaridade médio obtido pelo algoritmo KFG-A para temas diversos ........... 84 Tabela 3. Resultados obtidos usando conjuntos artificiais .............................................................. 85
LISTA DE ABREVIATURAS E SIGLAS
ASST Análise de Similaridade Semântica Textual
CBOW Continous Bag-of-Words
CET College English Test
CVA Análise de Vetor de Conteúdo (Content Vector Analysis)
ENEM Exame Nacional do Ensino Médio
GRE Graduate Record Examination
GMAT Graduate Management Admission Test
LSA Análise de Semântica Latente (Latent Semantic Analysis)
LDA Latent Dirichlet Allocation
MEC Ministério da Educação
OpenWN-PT OpenWordNet-PT, uma wordnet da língua portuguesa
PEG Project Essay Grader
PLN Processamento de Linguagem Natural
PMI Pointwise Mutual Information
RI Random Indexing
TOEFL Teste de Inglês como uma Língua Estrangeira (Test of English as a Foreign
Language)
TF–IDF Term Frequency – Inverse Document Frequency
SVD Decomposição em Valores Singulares (Singular Value Decomposition)
SVM Máquina de Vetores de Suporte (Support Vector Machine)
SVR Regressão por Vetores de Suporte (Support Vector Regression)
UNIVALI Universidade do Vale do Itajaí
SUMÁRIO
1 INTRODUÇÃO ................................................................................. 11
1.1 PROBLEMA DE PESQUISA ........................................................................ 12
1.1.1 Solução Proposta .......................................................................................... 13
1.1.2 Delimitação de Escopo ................................................................................. 14
1.1.3 Justificativa .................................................................................................. 15
1.2 OBJETIVOS ................................................................................................... 19
1.2.1 Objetivo Geral .............................................................................................. 19
1.2.2 Objetivos Específicos ................................................................................... 19
1.3 METODOLOGIA ........................................................................................... 19
1.3.1 Metodologia da Pesquisa.............................................................................. 19
1.3.2 Procedimentos Metodológicos ..................................................................... 20
1.4 ESTRUTURA DA DISSERTAÇÃO .............................................................. 21
2 FUNDAMENTAÇÃO TEÓRICA .................................................... 22
2.1 A REDAÇÃO .................................................................................................. 22
2.1.1 Adequação ao Tema ..................................................................................... 24
2.1.2 Banco de Redações do Portal UOL Educação ............................................ 26
2.2 SIMILARIDADE SEMÂNTICA TEXTUAL ............................................... 27
2.2.1 Modelos Baseados em Tesauro .................................................................... 28
2.2.2 Modelos Baseados em Corpus ..................................................................... 30
2.3 APRENDIZADO DE MÁQUINA.................................................................. 38
2.3.1 Regressão Linear .......................................................................................... 40
2.3.2 Máquinas de Vetores de Suporte ................................................................. 42
2.3.3 Métricas de Avaliação .................................................................................. 45
3 ESTADO DA ARTE .......................................................................... 49
3.1 REVISÃO SISTEMÁTICA DA LITERATURA .......................................... 49
3.1.1 Higgins, Burstein e Attali (2006) ................................................................. 50
3.1.2 Louis e Higgins (2010) .................................................................................. 52
3.1.3 Li e Yan (2012) ............................................................................................. 54
3.1.4 Persing e Ng (2014)....................................................................................... 54
3.1.5 Chen e Zhang (2016) .................................................................................... 57
3.2 TRABALHOS SIMILARES .......................................................................... 58
3.2.1 Klebanov, Flor e Gyawali (2016) ................................................................. 59
3.2.2 Rei e Cummins (2016) .................................................................................. 61
3.3 ANÁLISE COMPARATIVA ......................................................................... 62
3.4 CONSIDERAÇÕES ....................................................................................... 67
4 DESENVOLVIMENTO ................................................................... 68
4.1 COLETA DOS DADOS ................................................................................. 68
4.2 IMPLEMENTAÇÃO DOS ALGORITMOS ................................................ 70
4.3 MÉTODO DE VALIDAÇÃO ........................................................................ 78
4.4 CONSIDERAÇÕES ....................................................................................... 79
5 RESULTADOS .................................................................................. 81
5.1 IDENTIFICAÇÃO DE REDAÇÕES COM FUGA AO TEMA .................. 81
5.2 EXPERIMENTO 1 – EXEMPLOS REAIS DE FUGA AO TEMA ............. 83
5.3 EXPERIMENTO 2 – EXEMPLOS ARTIFICIAIS DE FUGA AO TEMA 85
5.4 CONSIDERAÇÕES ....................................................................................... 88
6 CONCLUSÕES ................................................................................. 90
6.1 CONTRIBUIÇÕES DA DISSERTAÇÃO ..................................................... 91
6.2 LIMITAÇÕES ................................................................................................ 92
6.3 TRABALHOS FUTUROS ............................................................................. 92
REFERÊNCIAS..................................................................................... 94
APÊNDICE A – Protocolo de Revisão Sistemática da Literatura ..... 98
APÊNDICE B – Artigos Excluídos na Revisão Sistemática da
Literatura ..............................................................................................100
APÊNDICE C – Análise Comparativa do Estado da Arte ................101
APÊNDICE D – Redações Identificadas como Casos Reais de Fuga ao
Tema .......................................................................................................102
APÊNDICE E – Comparação dos Resultados Obtidos no Experimento
2 com Experimentos Anteriores ...........................................................104
APÊNDICE F – Publicações nas Áreas de Avaliação Automática de
Escrita e Tecnologias Educacionais .....................................................105
11
1 INTRODUÇÃO
A avaliação é parte fundamental do processo de ensino e aprendizagem, pois propicia um
momento de reflexão sobre conquistas e dificuldades tanto do aluno quanto do professor. No contexto
educacional, a redação é amplamente usada como instrumento de avaliação das habilidades e
competências adquiridas pelo aluno. Em atividades avaliativas com redação, apresenta-se ao aluno
um enunciado que o solicita elaborar uma resposta textual descritiva, narrativa ou dissertativa, cuja
análise não é uma tarefa trivial. O processo de correção manual de redações costuma apresentar
dificuldades relacionadas ao tempo, custo, confiabilidade e subjetividade do avaliador. Essas
dificuldades motivaram pesquisas em busca de soluções para automatizar o processo de correção
(DIKLI, 2006).
A correção automática de redações não é uma novidade. Em 1966, Page apresentou a primeira
abordagem para o problema, o PEG − Project Essay Grader (HEARST, 2000). A proposta de Page
utilizava características superficiais do texto (ex. número de palavras, de vírgulas, de preposições)
com regressão linear múltipla e, em um estudo comparativo de 1968, conseguiu prever com precisão
razoável a nota atribuída por humanos a redações (PAGE, 1968). Com os avanços na área de
Inteligência Artificial, principalmente na linha de PLN − Processamento de Linguagem Natural −,
novas ferramentas têm sido criadas para a análise automática da escrita. Entre as soluções disponíveis,
Dikli (2006) destaca as mais usadas: Intelligent Essay AssessorTM, E-rater® e CriterionSM,
IntelliMetricTM, MY Assessor!® e Bayesian Essay Test Scoring SystemTM. Algumas dessas
ferramentas já são aplicadas em exames internacionais importantes, como o GMAT − Graduate
Management Admission Test −, usado por muitas universidades como requisito de entrada em
programas acadêmicos, inclusive cursos de MBA (HEARST, 2000).
Apesar de muitas pesquisas estarem sendo desenvolvidas no campo de avaliação automática
da escrita, na revisão da literatura realizada no decorrer desta pesquisa, assim como na revisão de
Amorim e Veloso (2017), não foi encontrada nenhuma solução para correção automática de redações
na língua portuguesa. Na revisão de Dikli (2006), o software IntelliMetricTM é o único descrito como
apto a avaliar redações em português, mas em contato com a empresa fornecedora se obteve
informação de que essa funcionalidade ainda não foi desenvolvida.
12
Um dos critérios utilizados na avaliação de redações é a pertinência ao tema (ou adequação
ao tema). Para atender a esse critério, uma redação precisa desenvolver conceitos de várias áreas do
conhecimento e que se relacionam à temática levantada na proposta de redação (BRASIL, 2017a).
Redações que fogem ao tema proposto são comumente anuladas em exames de médio e grande porte,
como vestibulares, concursos públicos e exames nacionais. Uma ferramenta de detecção automática
de redações que fogem ao tema poderia reduzir o esforço humano empreendido na correção, além de
gerar feedback útil ao aluno – quando numa avaliação formativa.
Dentro desse contexto, esta pesquisa realizou uma avaliação das abordagens existentes na
literatura para detecção de fuga ao tema em redações, com enfoque na língua portuguesa. Para isso,
foi realizado um estudo comparativo das abordagens existentes considerando um conjunto de 2.164
redações extraídas do portal UOL Educação. Este trabalho visa apoiar o desenvolvimento de sistemas
para a correção de redações tanto em exames de médio e grande porte, quanto em atividades
avaliativas em sala de aula.
1.1 PROBLEMA DE PESQUISA
Em exames de médio e grande porte que incluem a redação como meio de avaliação existe
um grande custo envolvido com a capacitação e contratação de avaliadores (DIKLI, 2006).
Normalmente, nesses exames, cada redação é avaliada por duas pessoas, que atribuem nota a algumas
competências pré-definidas. Caso dois avaliadores discordem significativamente em uma
competência ou na nota total da redação, essa é novamente verificada por um terceiro avaliador ou
uma comissão avaliadora.
No contexto brasileiro, vale citar o ENEM − Exame Nacional do Ensino Médio −, um exame
de grande porte aplicado pelo MEC − Ministério da Educação − para verificar o domínio de
competências e habilidades dos estudantes que concluíram o ensino médio. Na edição de 2016, o
ENEM teve 84.236 redações anuladas por algum dos seguintes motivos: fuga ao tema; cópia de texto
motivador; texto insuficiente; não atendimento ao tipo textual; parte desconectada; e ofensa aos
direitos humanos. A maior parte das anulações foi devido à fuga ao tema (46.874 ou 55,6%)
(BRASIL, 2017b).
Outro cenário que demanda atenção quanto à avaliação da escrita são as escolas de educação
básica, universidades e outras instituições de ensino presencial e à distância. As habilidades de escrita
13
são fundamentais ao estudante e, com isso, as estratégias de ensino devem enfatizar o
desenvolvimento dessa competência (WILSON; ANDRADA, 2016). Um dos meios de incentivar o
aperfeiçoamento da escrita é a realização de atividades em sala de aula que exijam do aluno a
produção de redações. Na realização dessas atividades, além das tradicionais notas holísticas, é
importante fornecer ao aluno uma análise criteriosa do seu texto (PERSING; NG, 2014). O uso do
computador na geração desse feedback pode trazer melhorias significativas nas habilidades de escrita
do aluno, como observado no estudo de Wilson e Andrada (2016). Nesse cenário, a adequação ao
tema também é um dos critérios a serem considerados na geração de feedback sobre a redação do
aluno.
Apesar de já existirem trabalhos que tratam do problema de detecção de fuga ao tema, ainda
existem algumas lacunas e deficiências. Entre elas, podem ser citadas: (i) as altas taxas de erros
encontradas para as propostas existentes, com taxas de falsos positivos no intervalo de 1,39% a 7,03%
e taxas de falsos negativos de 9,02% a 38%; (ii) o uso de conjuntos artificiais para validação; e (iii) a
ausência de trabalhos aplicados a redações na língua portuguesa (PASSERO et al., 2017).
Nesse contexto, este trabalho busca tratar o problema de detecção de fuga ao tema em redações
escritas na língua portuguesa, tendo em vista as lacunas (ii) e (iii) encontradas na literatura. Pretende-
se responder à seguinte pergunta: as abordagens existentes na literatura para detecção de fuga ao tema
em redações, originalmente desenvolvidas e aplicadas na língua inglesa, podem ser adaptadas e
aplicadas à língua portuguesa?1
1.1.1 Solução Proposta
Algumas abordagens para a detecção automática de fuga ao tema têm sido propostas na
literatura, como as apresentadas em (HIGGINS; BURSTEIN; ATTALI, 2006; KLEBANOV; FLOR;
GYAWALI, 2016; LOUIS; HIGGINS, 2010; PERSING; NG, 2014) Essas abordagens se baseiam
principalmente na relação léxica e semântica entre o texto da redação e o enunciado (descrição da
1 A verificação da aplicabilidade das abordagens existentes será realizada nesta pesquisa adaptando as abordagens
existentes para a língua portuguesa e à tarefa de classificação binária e verificando se os resultados de desempenho obtidos
em um conjunto de redações experimental – na língua portuguesa – são equivalentes ou superiores aos observados na
literatura – para a língua inglesa – considerando a medida de acurácia.
14
proposta temática); entre o texto da redação e outras redações do mesmo tema; e entre o texto da
redação e um conjunto externo de redações de referência.
Pretende-se com esta pesquisa avaliar abordagens para detecção de fuga ao tema considerando
um conjunto de redações escritas na língua portuguesa. Para isso, uma revisão sistemática foi
realizada com objetivo de identificar e caracterizar as abordagens existentes. As técnicas e recursos
utilizados em trabalhos relacionados foram então adaptados à língua portuguesa e à tarefa de
classificação binária tendo em vista viabilizar um estudo comparativo.
O banco de redações do portal UOL Educação2 foi usado na validação do desempenho das
abordagens estudadas. Esse banco vem sendo periodicamente incrementado com novas redações
desde 2007 e, em março de 2017, continha 2.164 redações quase uniformemente distribuídas em 111
propostas temáticas, isto é, cerca de 20 redações por tema.
Assim, esta pesquisa procura verificar a seguinte hipótese: “É possível, considerando um
conjunto de redações na língua portuguesa, detectar redações com fuga ao tema com acurácia
equivalente ou superior à observada na literatura para a língua inglesa”.
1.1.2 Delimitação de Escopo
Neste trabalho pretende-se avaliar técnicas de detecção de fuga ao tema em redações escritas
na língua portuguesa. A fuga ao tema pode ser total, quando todo o texto se desenvolve em desacordo
com a proposta, ou parcial, quando apenas parte da redação desvia do tema proposto. Nesta pesquisa
é tratada a fuga total ao tema, que costuma anular redações em exames de médio e grande porte –
como o ENEM. Não obstante, as abordagens discutidas podem apoiar também a detecção de fuga
parcial ao tema e de partes deliberadamente desconexas (ex. inserção de excerto de música ou livro
não pertinente ao tema) em trabalhos futuros.
Além disso, o estudo comparativo contemplado nesta pesquisa trata um cenário onde o
número de redações é reduzido (20 por tema). Esse número reduzido de exemplos de redação por
tema representa um desafio para a detecção automática de fuga ao tema, pois uma amostra tão
pequena pode não apresentar todos os conceitos e palavras pertinentes à proposta temática, o que é
2 https://educacao.uol.com.br/bancoderedacoes/
15
desejável em uma abordagem que analisa a relação entre o texto da redação e outras redações do
mesmo tema. Em situações com grande número de redações sobre um mesmo tema em um conjunto
de treino, outras técnicas podem ser utilizadas para melhorar os resultados, por exemplo a priorização
da presença de palavras e composições exatas (n-gramas) no lugar de conceitos matematicamente
inferidos (ex. modelos de análise semântica distribucionais), como sugerido por Higgins, Burstein e
Attali (2006).
1.1.3 Justificativa
Em 2015 o ENEM envolveu mais de 10 mil avaliadores e teve custo estimado de R$15,88 por
redação corrigida. Esse valor engloba aparatos físicos e tecnológicos, capacitação de corretores,
serviço de correção e outros custos relacionados ao processo de correção (G1, 2016)3. Considerando
o total de 6,54 milhões de redações submetidas em 2015 (G1, 2016), pode-se estimar um custo total
de mais de 100 milhões de reais com a correção de redações. Tendo em conta o aumento no custo
médio da correção observado nos últimos anos, como pode ser visto na Figura 1, o governo tem
buscado meios de reduzir o custo do ENEM usando aparatos tecnológicos, como com a eliminação
do boletim impresso, que passou a ser entregue exclusivamente por meio virtual. Além disso, uma
das metas do MEC é realizar a prova do ENEM através da internet (MATOSO, 2015), o que facilitará
a realização de futuras pesquisas para a correção automática das redações.
3 As informações sobre o custo geral da correção de redações no ENEM foram obtidas pelo portal de notícias G1 através
da Lei de Acesso à Informação. Não foi possível encontrar essas informações em relatórios oficiais do MEC ou INEP.
16
Figura 1. Custo geral estimado da correção das redações do ENEM (custo por redação)
Fonte: G1 (2016).
A Figura 2 mostra o valor médio pago ao corretor de acordo com o nível da correção. A 1ª e
a 2ª correção são realizadas para todas as redações, enquanto que a 3ª correção demanda mais tempo
e é realizada apenas quando há divergência entre as notas atribuídas pelos dois primeiros corretores.
A 4ª correção é realizada por uma banca avaliadora quando os três primeiros corretores divergem
entre si. Pode-se observar na Figura 2 que o custo do corretor humano tem aumentado nos últimos
anos. Ainda, considerando as informações apresentadas na Figura 1, pode-se constatar que o custo do
corretor humano representa grande parte do custo total do processo de correção. Vale destacar que
nas edições de 2014, 2015 e 2016 do ENEM, mais de 7 milhões das cerca de 15,5 milhões de redações
corrigidas foram submetidas à terceira avaliação (45,87%), e 8,7% dessas foram submetidas à banca
avaliadora (623.013)4. Esses dados evidenciam uma falta de padronização no processo atual de
correção do ENEM e a subjetividade da correção humana.
4 Informações obtidas pelo autor através do pedido de informação nº 23480.004970/2017-81, registrado no Sistema
Eletrônico do Serviço de Informação ao Cidadão (e-SIC) do governo federal e em acordo com a Lei de Acesso à
Informação.
17
Figura 2. Custo médio da correção das redações do ENEM por nível de correção
Fonte: Pedido de informação nº 23480.004970/2017-81, registrado no SIC – INEP.
Exames de médio e grande porte, como o ENEM, poderiam se beneficiar de uma ferramenta
de detecção de fuga ao tema pela redução do esforço humano empregado na correção de redações.
Para isso, redações com suspeita de fuga ao tema – detectadas pelo computador – seriam
encaminhadas a um avaliador humano para confirmação. Confirmado o desvio, não haveria
necessidade de contratação de um segundo avaliador humano para a correção. No caso de o
computador ou avaliador humano não detectar fuga ao tema, a redação seria normalmente corrigida
por um segundo avaliador humano. Essa sistemática já vem sendo adotada em outros cenários, como
na correção automática de redações (DIKLI, 2006).
Com base nas informações obtidas por meio do pedido de informação nº 23480.004970/2017-
81, registrado no SIC – INEP, pode-se verificar que a aplicação de uma ferramenta de detecção de
redações com fuga ao tema com 100% de recall nas edições de 2014, 2015 e 2016 do ENEM,
utilizando o procedimento descrito, permitiria ao governo federal economizar cerca de 1,2 milhões
de reais, desconsiderando os custos de construção da ferramenta e migração das redações para o meio
digital.
R$26,84
R$5,85
R$4,47
R$25,09
R$5,47
R$4,18
R$23,01
R$5,02
R$3,84
R$- R$5,00 R$10,00 R$15,00 R$20,00 R$25,00 R$30,00
4ª CORREÇÃO
3ª CORREÇÃO
1ª E 2ª CORREÇÃO
2014 2015 2016
18
Em atividades avaliativas com redação realizadas em sala de aula, a geração automática e
contínua de feedback pode apoiar o desenvolvimento das habilidades de escrita dos alunos, como
observado no estudo de Wilson e Andrada (2016). Um mecanismo de detecção de fuga ao tema
poderia ser usado nesse contexto a fim de auxiliar o aluno a focar em conceitos relacionados ao tema
proposto pelo professor durante a elaboração de sua redação.
Algumas soluções comerciais para correção automática de redações têm se apresentado
viáveis para aplicação em exames de médio e grande porte. Em vários estudos, pôde-se observar
correlação significativa entre as notas atribuídas pelo computador e pelos avaliadores humanos, como
(ATTALI, 2007; RUDNER; GARCIA; WELCH, 2006). Apesar dos resultados promissores, os
sistemas de correção automática de redação ainda são criticados pela comunidade científica,
principalmente quanto à falta de interação humana, a vulnerabilidade a fraudes e a necessidade de um
corpus grande de exemplos para treino (DIKLI, 2006; HIGGINS; HEILMAN, 2014). Visando
minimizar a vulnerabilidade a fraudes, um mecanismo de detecção de fuga ao tema pode ser usado
em paralelo ou embutido em um sistema de correção de redações para melhorar seu desempenho
(CHEN; ZHANG, 2016; HIGGINS; BURSTEIN; ATTALI, 2006).
Por fim, uma das contribuições desta pesquisa é a avaliação de técnicas de detecção de fuga
ao tema em um cenário onde o número de redações no conjunto de treino é bastante limitado (20
redações). Outra contribuição desta pesquisa é uma revisão sistemática da literatura sobre o tema,
apresentando as técnicas, recursos, métricas e corpora atualmente empregados na detecção de
redações com fuga ao tema. Na revisão da literatura realizada durante esta pesquisa, não foi
encontrado nenhum trabalho aplicado à detecção de fuga ao tema em redações na língua portuguesa.
Com isso, no cenário brasileiro, esta pesquisa faz uma contribuição para o avanço das pesquisas em
correção automática de redações, apresentando uma proposta de adaptação das abordagens existentes
para detecção de fuga ao tema tendo em vista sua aplicação na língua portuguesa.
19
1.2 OBJETIVOS
Esta seção formaliza os objetivos do trabalho, conforme descritos nas seções seguintes.
1.2.1 Objetivo Geral
O objetivo geral desta pesquisa é avaliar as abordagens existentes para detecção automática
de fuga ao tema em redações tendo em vista a língua portuguesa.
1.2.2 Objetivos Específicos
Os objetivos específicos desta pesquisa são:
1. Compor um corpus público de redações escritas na língua portuguesa;
2. Criar um conjunto público de exemplos reais de redações com fuga ao tema;
3. Identificar na literatura as abordagens que são utilizadas na tarefa de detecção de fuga ao tema
em redações;
4. Adaptar à língua portuguesa as abordagens existentes para detecção de fuga ao tema em
redações;
5. Analisar o desempenho das abordagens existentes, com adaptações à língua portuguesa, tendo
como conjunto de validação as redações obtidas do portal UOL Educação.
1.3 METODOLOGIA
Nas seções seguintes a metodologia a ser utilizada nesta pesquisa é classificada e uma síntese
dos procedimentos metodológicos utilizados é apresentada.
1.3.1 Metodologia da Pesquisa
Neste projeto será aplicado o método hipotético-dedutivo. O método hipotético-dedutivo
caracteriza-se pela presença de uma hipótese a respeito de um problema e o procedimento de coleta
de dados para sua verificação.
Esta pesquisa terá uma abordagem quantitativa. As pesquisas quantitativas usam ferramentas
estatísticas para medir a relação existente entre variáveis. Esta pesquisa pretende verificar índices de
20
desempenho como a taxa de erros e acurácia na execução das técnicas de detecção de fuga ao tema
avaliadas.
Sob o ponto de vista da natureza da pesquisa, esta é uma pesquisa aplicada. A pesquisa
aplicada objetiva gerar produtos e/ou processos com finalidades imediatas, a partir de conhecimentos
prévios. Ainda, sob o ponto de vista do objetivo da pesquisa, esta é uma pesquisa exploratória. As
pesquisas exploratórias examinam um conjunto de fenômenos, identificando padrões e anomalias, e,
com isso, buscam criar fundamento para pesquisas mais aprofundadas. Nesse sentido, esta pesquisa
visa aplicar conhecimentos e técnicas existentes através de estudos de caso, onde serão confirmadas
ou refutadas as hipóteses formuladas.
1.3.2 Procedimentos Metodológicos
Esta seção apresenta os procedimentos metodológicos adotados nesta pesquisa.
Revisão bibliográfica: Esta etapa tem como objetivo proporcionar a fundamentação teórica
necessária ao desenvolvimento da pesquisa.
Revisão sistemática da literatura: Esta etapa tem como objetivo realizar uma revisão
sistemática da literatura sobre o tema de pesquisa para identificar as técnicas de análise textual
atualmente utilizadas na tarefa de detecção de fuga ao tema em redações.
Preparação do corpus de pesquisa: Esta etapa tem como objetivo encapsular o corpus de
pesquisa (banco de redações do portal UOL Educação) em um formato estruturado e criar conjuntos
de redações de exemplos negativos (sem fuga ao tema) e de exemplos positivos (com fuga ao tema).
Implementação dos algoritmos: Esta etapa tem como objetivo implementar modelos de
detecção automática de fuga ao tema considerando as técnicas de análise textual encontradas na
literatura, adaptando-as à língua portuguesa e à tarefa de classificação binária.
Comparação de algoritmos: Esta etapa tem como objetivo comparar as soluções candidatas
previamente implementadas em um estudo de caso utilizando o banco de redações do portal UOL
Educação para verificação do desempenho.
Análise dos resultados: Esta etapa tem como objetivo analisar os resultados obtidos no
estudo comparativo, contrastando-os com os encontrados na literatura, reconhecendo e explanando
21
possíveis limitações relacionadas aos resultados e identificando os algoritmos com melhor
desempenho considerando os possíveis contextos de aplicação (ex. presença de conjunto de treino).
Conclusão: Esta etapa tem como objetivo analisar as contribuições da pesquisa e apresentar
sugestões de trabalhos futuros relevantes.
1.4 ESTRUTURA DA DISSERTAÇÃO
O trabalho está organizado em seis capítulos. O Capítulo 1, Introdução, apresenta uma
contextualização do tema abordado, o problema a ser resolvido e os resultados esperados. Além disso,
esse capítulo apresenta a justificativa, metodologia e a delimitação do escopo proposto. O Capítulo 2
apresenta a fundamentação teórica sobre (i) o uso da redação como instrumento de avaliação do
aprendizado; (ii) análise de similaridade semântica textual; e (iii) aprendizado de máquina. No
Capítulo 3 são apresentados trabalhos relacionados e o estado da arte sobre detecção de fuga ao tema
em redações. O Capítulo 4 detalha a abordagem proposta para coleta de dados, implementação dos
algoritmos, detalhando as adaptações ao contexto da pesquisa, e o método de validação dos
algoritmos. O Capítulo 5 apresenta e discute os resultados obtidos no estudo comparativo realizado
com o banco de redações do portal UOL Educação. Por fim, no Capítulo 6, são tecidas as conclusões
do trabalho, relacionando os objetivos identificados inicialmente com os resultados alcançados. São
ainda propostas possibilidades de continuação da pesquisa desenvolvida a partir das experiências
adquiridas com a execução do trabalho.
22
2 FUNDAMENTAÇÃO TEÓRICA
Este capítulo apresenta a fundamentação teórica sobre conceitos relevantes à tarefa de
detecção automática de fuga ao tema, incluindo o uso educacional de redações, similaridade
semântica textual e aprendizado de máquina, introduzidos respectivamente nas Seções 2.1, 2.2 e 2.3.
Por fim, na Seção 2.4, são apresentadas as considerações finais sobre o capítulo.
2.1 A REDAÇÃO
Segundo o Dicionário Aurélio, as duas definições mais comuns para a palavra redação são
“ato ou efeito de redigir” e “trabalho ou exercício escolar que versa sobre um assunto dado, ou de
livre escolha, e se destina a ensinar o aluno a redigir corretamente, com seguimento lógico de ideias”.
Enquanto a primeira definição trata de uma visão mais genérica e abstrata do conceito de redação, a
segunda definição aborda a redação como instrumento de ensino e avaliação no ambiente
educacional. No escopo desta dissertação, ambas definições são oportunas, no entanto se destaca a
segunda definição como mais pertinente.
Segundo Lima (2011), redação é um nome genérico que pode ser atribuído a qualquer forma
de escrita. A redação pode ser classificada em três tipos principais (LIMA, 2011):
• Descrição: quando o autor aponta características que compõem uma paisagem, um ambiente,
um objeto ou um ser.
• Narração: quando o autor conta um fato ocorrido em determinado lugar e tempo.
• Dissertação: quando o autor apresenta ou discute uma ideia, expondo, explicando e
argumentando a fim de comprovar o que se afirma.
A habilidade de escrita é essencial para o sucesso escolar, acadêmico e profissional
(WILSON; ANDRADA, 2016). A redação tem sido utilizada em sala de aula tanto para estimular as
habilidades de interpretação e escrita, quanto como um instrumento robusto de avaliação. Apesar da
importância do desenvolvimento das habilidades de escrita na educação básica, as instituições de
ensino não têm conseguido estimular essa capacidade adequadamente, dado que nos últimos anos
pôde-se observar uma grande deficiência na produção textual dos jovens. Essa deficiência é
constatada e discutida no trabalho de Maria Thereza Fraga Rocco (2011) e nos levantamentos
23
realizados pelo órgão estadunidense de estatísticas educacionais (NATIONAL CENTER FOR
EDUCATION STATISTICS, 2012) e no ENEM do Brasil (2017b), apresentados a seguir.
Em um estudo brasileiro, Rocco (2011) analisou minuciosamente 1.500 redações manuscritas
submetidas a um vestibular em 1978. A autora constatou que apenas 116 casos (7,7% da amostra)
não apresentavam os problemas de textualidade analisados, entre eles a coerência, a coesão e a
correspondência ao tema. Vale destacar ainda que a autora procurou pela presença de linguagem
criativa nas redações analisadas, que só encontrou em 40 casos (2,7% da amostra). Desses 40 casos,
apenas quatro estavam providos de criatividade e originalidade no todo, segundo os critérios definidos
pela autora. Tais resultados levaram a autora a concluir uma possível crise na linguagem, sobretudo
marcada pela incapacidade dos estudantes brasileiros em produzir textos criativos, originais e que
obedeçam aos princípios da textualidade.
Em um estudo mais recente de 2011, realizou-se uma avaliação nacional da escrita dos
estudantes estadunidenses, onde se pôde constatar que apenas um quarto desses estudantes atinge o
nível de proficiência esperado para o seu ano escolar (NATIONAL CENTER FOR EDUCATION
STATISTICS, 2012).
No cenário brasileiro, vale citar também resultados recentes sobre a produção de redações por
estudantes concluintes do ensino médio. No ENEM 2016, as redações submetidas receberam nota
média de 543, onde apenas 77 de cerca de 6 milhões de redações atingiram a nota máxima (1000) e
55.869 (menos de 1%) atingiram nota entre 901 e 999 (BRASIL, 2017b).
Uma das questões de maior interesse da linguística textual é a discussão sobre o que faz de
um texto um texto, isto é, “em que consiste a essência de um texto” e “que propriedade distingue um
texto de um não texto” (VAL, 2009, p.17). Entre as características centrais para identificação da
textualidade, Beaugrand e Dressler (1983 apud VAL, 2009) citam a coerência e coesão, a
intencionalidade, a aceitabilidade, a situacionalidade, a informatividade e a intertextualidade.
A avaliação de uma redação compreende a análise do atendimento aos princípios de
textualidade, que incluem as características mencionadas por Beaugrand e Dressler. No Exame
Nacional do Ensino Médio (ENEM), realizado anualmente no Brasil, o desempenho de um aluno na
prova de redação é avaliado por professores de acordo com os critérios apresentados no Quadro 1.
Uma nota entre 0 a 200 pontos é atribuída pelos avaliadores a cada um dos critérios, podendo a
24
redação receber, no máximo, 1000 pontos. Ainda, o avaliador atribui nota 0 à redação em algumas
situações: fuga total ao tema; não atendimento do tipo textual; cópia do texto motivador; etc.
Quadro 1. Critérios avaliados na prova de redação do ENEM
Competência 1 Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.
Competência 2
Compreender a proposta de redação e aplicar conceitos das várias áreas de
conhecimento para desenvolver o tema, dentro dos limites estruturais do texto
dissertativo-argumentativo em prosa.
Competência 3 Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e
argumentos em defesa de um ponto de vista.
Competência 4 Demonstrar conhecimento dos mecanismos linguísticos necessários para a
construção da argumentação.
Competência 5 Elaborar proposta de intervenção para o problema abordado, respeitando os
direitos humanos.
Fonte: Brasil (2017a).
No contexto desta pesquisa, trata-se a adequação ao tema de um texto, um critério comumente
utilizado na avaliação de redações. Em relação ao critério de adequação ao tema, destacam-se os
princípios de Beaugrand e Dressler (1983 apud VAL, 2009) de aceitabilidade, isto é, o quanto o texto
atende as expectativas do avaliador, e de situacionalidade, relacionado ao grau de pertinência e
relevância do texto ao contexto de avaliação. Ainda, vale mencionar a relação existente entre o critério
de adequação ao tema e a Competência 2 do ENEM, que abrange tanto o desenvolvimento do tema
quanto o atendimento do tipo textual.
2.1.1 Adequação ao Tema
A adequação ou pertinência ao tema se refere a quanto o conteúdo de uma redação está
relacionado à proposta temática a qual a redação foi submetida. Uma redação com boa adequação ao
tema mantém consistentemente o tema introduzido na proposta temática e está livre de disgressões
irrelevantes (PERSING; NG, 2014).
Segundo Klebanov, Flor e Gyawali (2016), a instrução de “focar no tema” frequentemente
dada aos novos escritores parece problemática, pois ainda não se sabe exatamente qual a melhor
forma de medir tal propriedade textual. Segundo os autores, um modo razoável de identificar a
pertinência de uma palavra p a um tema T é verificar a ocorrência de p mais em textos do tema T que
25
em textos de outros temas. Logo, analisando-se cada palavra de uma redação, poder-se-ia estimar a
sua adequação ao tema.
Redações que não atendem ao critério de adequação ao tema são ditas como casos de fuga ao
tema. Na correção de redações do ENEM, a fuga ao tema pode ser vista em dois níveis: (i) parcial,
quando algumas partes da redação não abordam o tema de modo adequado ou quando a redação
apenas tangencia o tema, limitando-se ao assunto mais amplo proposto; ou (ii) total, quando o autor
não desenvolve o assunto relacionado ao tema, anulando a redação (BRASIL, 2017a).
Higgins, Burstein e Attali (2006) apresentam a seguinte tipologia para classificação de
redações com fuga ao tema:
• tema inesperado: redações possivelmente bem escritas que não desenvolvem o tema proposto:
• tentativa deliberada de fraude/má-fé: redações que na maior parte consistem de partes
copiadas do enunciado ou trechos irrelevantes, tais como excertos de textos não relacionados
ao tema e à própria redação.
No escopo desta pesquisa, trata-se o caso das redações com fuga ao tema que se enquadram
na classificação “tema inesperado”.
A fuga ao tema em redações é um problema comum em processos avaliativos. No estudo de
Maria Thereza Fraga Rocco (2011), 765 (51%) das 1.500 redações avaliadas tinham algum problema
quanto à correspondência ao tema. Dessas, 217 (14,6%) apresentavam falta de correspondência total
ao tema e 548 (36,9%) falta parcial.
No ENEM 2016, em relação ao total de redações submetidas, cerca de 6 milhões, a fuga total
ao tema esteve presente em 0,8% delas (BRASIL, 2017b). Contudo, vale destacar que na edição de
2014 desse mesmo exame a taxa de anulação de redações por fuga ao tema foi significativamente
superior, cerca de 4,5%5. A grande diferença entre as estatísticas do ENEM e do estudo de Maria
Thereza Fraga Rocco (2011) pode ser devido a diferenças no público alvo e no método de avaliação.
5 Informação obtida pelo autor através do pedido de informação nº 23480.004970/2017-81, registrado no Sistema
Eletrônico do Serviço de Informação ao Cidadão (e-SIC) do governo federal e em acordo com a Lei de Acesso à
Informação.
26
Haja vista a grande deficiência na produção textual de jovens observada nos últimos anos, são
necessárias iniciativas que auxiliem o desenvolvimento dessa capacidade no ambiente educacional.
A geração de feedback para o aluno sobre suas produções textuais é importante e pode trazer
melhorias nas suas habilidades de escrita (WILSON; ANDRADA, 2016). Com isso, algumas
ferramentas para análise de escrita têm sido desenvolvidas tendo como objetivo apoiar o processo de
avaliação da aprendizagem (DIKLI, 2006; PERSING; NG, 2014).
Em um estudo comparativo de análise automática de escrita é necessário um corpus de
pesquisa representativo do problema a ser estudado. De preferência, o corpus de pesquisa deve ser
público, a fim de possibilitar a comparação com trabalhos paralelos, e estar disponível em meio
digital. Em uma pesquisa na literatura realizada por Júnior, Spalenza e Oliveira (2017), foram
encontradas plataformas privadas de correção de redações como forma de orientação de estudantes,
como Redação Online6, Mais Correções7 e Imaginie8. Nessas plataformas, o estudante pode obter
feedback personalizado sobre a sua redação, fornecido por um ou mais avaliadores (humanos).
Também foram encontradas duas plataformas públicas disponibilizadas pela UOL, o banco de
redações do portal UOL Educação9 e o banco de redações do portal Brasil Escola10. Desses, o primeiro
foi selecionado para compor o corpus desta pesquisa.
2.1.2 Banco de Redações do Portal UOL Educação
O banco de redações do portal UOL Educação é um serviço online que tem como objetivo
principal auxiliar estudantes a desenvolver habilidades de produção textual. A cada mês é apresentada
uma nova proposta temática aos usuários do portal, que são convidados a submeterem suas redações.
De todas as redações enviadas, 20 são selecionadas aleatoriamente para serem corrigidas e
comentadas por especialistas da UOL com base nos critéiros adotados pelo MEC para o ENEM e que
são amplamente usados em vestibulares, incluindo “o domínio da norma culta do idioma, a
compreensão do tema e a capacidade de redigir um texto de caráter argumentativo-dissertativo” (UOL
EDUCAÇÃO, 2017).
6 http://www.redacaonline.com.br/ 7 https://maiscorrecoes.com.br/ 8 http://www.imaginie.com/ 9 https://educacao.uol.com.br/bancoderedacoes/ 10 http://vestibular.brasilescola.uol.com.br/banco-de-redacoes/
27
Os responsáveis pelo banco de redações esperam que esse serviço possa esclarecer aos
estudantes “o que é esperado de sua redação e evidenciar as características que levam um texto a ter
bom conceito no Enem e nas provas de vestibular” (UOL EDUCAÇÃO, 2017). O banco de redações
da UOL começou em 2007 e contém atualmente mais de 2.100 redações corrigidas e comentadas.
Esse banco de redações foi selecionado para compor o corpus dessa pesquisa por estar
disponível publicamente e ter um grande número de redações de variados temas. As informações do
banco de redações foram extraídas com apoio de um web crawler, haja vista que, em contato com os
responsáveis pelo banco, não foi possível obter os dados em um formato estruturado.
Entre as técnicas aplicadas para a avaliação automática de redações no contexto de detecção
de fuga ao tema, destaca-se a análise de similaridade semântica textual, descrita na seção seguinte.
2.2 SIMILARIDADE SEMÂNTICA TEXTUAL
A semântica é um ramo da linguística que estuda o significado e a sua relação com o
significante, tais como palavras, frases, sinais e símbolos. Enquanto a semântica lexical se preocupa
com o significado de palavras individuais, a semântica composicional estuda o significado da
composição de palavras na formação de sintagmas e frases (JURAFSKY; MARTIN, 2008).
No contexto computacional, a análise de similaridade semântica textual (ASST) busca medir
o grau de equivalência semântica entre textos, normalmente usando um intervalo de valores
representativos da equivalência à total ausência de relação semântica (AGIRRE et al., 2016). Os
estudos na linha de ASST auxiliam em diversas tarefas de PLN e compreensão textual, entre elas a
tradução de textos, sumarização, geração de textos e sistemas de resposta automática (AGIRRE et al.,
2016), além de tarefas de classificação de textos, como avaliação automática de redações e detecção
de plágio (JURAFSKY; MARTIN, 2008).
Jurafsky e Martin (2008) dividem os modelos de análise de similaridade entre palavras
(semântica lexical) em duas classes: (i) baseados em tesauro e (ii) baseados em corpus (ou
distribucionais). Nas seções a seguir são caracterizadas essas duas classes e apresentadas as técnicas
de análise de similaridade textual pertinentes a esta pesquisa.
28
2.2.1 Modelos Baseados em Tesauro
Os modelos de ASST baseados em tesauro usam a estrutura de um tesauro para medir a
similaridade entre palavras. Segundo o Dicionário Priberam da Língua Portuguesa, a palavra tesauro
significa, no contexto linguístico, uma “compilação do léxico de uma língua ou de uma área do saber”.
Um tesauro é um tipo de dicionário onde palavras com significados semelhantes são organizadas em
uma estrutura de conceitos ou ideias, por vezes considerando um domínio específico. Entre os
tesauros disponíveis, destaca-se no contexto de análise de relações de sentido o WordNet
(JURAFSKY; MARTIN, 2008).
Nas seções seguintes são apresentados os tesauros PAPEL e WordNet, utilizados no contexto
deste estudo. Enquanto o WordNet é explicitamente mencionado na descrição da abordagem de
trabalhos similares, o tesauro PAPEL foi selecionado para representar exclusivamente o recurso
lexical empregado na pesquisa de Louis e Higgins (2010), denominado “normas de palavras
associadas” (“word association norms”). Uma das limitações do PAPEL é ter sido construído de
modo automático, enquanto que o dicionário empregado por Louis e Higgins (2010) foi construído
de modo manual e empírico, através de entrevistas com 6.000 pessoas. Optamos por essa instância
de dicionário de palavras associadas por não existir na língua portuguesa recurso equivalente ao
mencionado no trabalho relacionado.
2.2.1.1 PAPEL
O PAPEL – Palavras Associadas Porto Editora - Linguateca – é um recurso lexical para a
língua portuguesa que contém palavras e as relações semânticas entre elas. Esse recurso foi construído
através da extracção automática de relações semânticas presentes nas definições de palavras no
Dicionário da Língua Portuguesa da Porto Editora (OLIVEIRA et al., 2008).
Na última versão do PAPEL, a 3.5, atualizada em agosto de 2013, o recurso contava com
94.165 itens lexicais e 191.497 relações semânticas entre eles. Esse recurso foi selecionado para
representar, na língua portuguesa, o dicionário de palavras associadas utilizado em (LOUIS;
HIGGINS, 2010) para expansão de enunciados, na língua inglesa.
29
2.2.1.2 WordNet
O WordNet começou com um projeto de pesquisa da Princeton University (FELLBAUM,
1998) e contempla uma base de conhecimento onde substantivos, verbos, advérbios e adjetivos são
organizados por uma variedade de relações semânticas. As palavras do léxico são mantidas dentro de
um ou mais conjuntos de sinônimos (synsets), que representam conceitos. Como um dicionário
comum, o WordNet contém as definições de palavras, mas difere porque ao invés de ser organizado
alfabeticamente, é organizado conceitualmente (LEACOCK; CHODOROW, 1998 apud PASSERO;
HAENDCHEN FILHO; DAZZI, 2016).
Alguns exemplos de relações semânticas usadas pelo WordNet são hipernímia/hiponímia (é-
um), meronímia (é-parte-de), sinonímia (similar a) e antonímia (contrário de). Essas relações são
associadas com palavras para formar uma estrutura hierárquica, que é uma ferramenta útil para a
linguística computacional e processamento de linguagem natural (MENG et al., 2013 apud
PASSERO; HAENDCHEN FILHO; DAZZI, 2016).
A Figura 1 apresenta o conceito “cachorro” (synset 02084071-n) e alguns dos seus
relacionamentos no WordNet.
Figura 3. Conceito “cachorro” e alguns de seus relacionamentos no WordNet
Fonte: Passero, Haendchen Filho e Dazzi (2016).
Oliveira et al. (2015) apresentam uma comparação de sete wordnets disponíveis para a língua
portuguesa. Segundo os autores, o OpenWN-PT – OpenWordNet-PT – se destaca pelo conteúdo livre
e gratuito e por ter sido adotado como representante das wordnets da língua portuguesa pelos projetos
FreeLing, Open Multilingual Wordnet e Google Translate.
30
O OpenWN-PT foi criado utilizando aprendizagem de máquina para construção de grafos com
a relação entre informações a partir de versões em múltiplas línguas da Wikipédia e de dicionários
eletrônicos abertos (OLIVEIRA et al., 2015). Atualmente essa wordnet é mantida com revisão manual
colaborativa e três técnicas de enriquecimento do seu léxico: (i) tradução de materiais produzidos
para outras línguas; (ii) extração de expressões idiomáticas a partir de corpora; e (iii) extração de
palavras de dicionários (OLIVEIRA et al., 2015). Considerando não haver um método de avaliação
preciso para determinar a melhor wordnet para um contexto, este estudo optou pela instância mais
popular, o OpenWN-PT, descrito em (PAIVA; RADEMAKER; MELO, 2012).
No contexto desta pesquisa, o OpenWN-PT foi utilizado para expandir enunciados através da
adição de sinônimos, como proposto por Louis e Higgins (2010). Essa técnica é voltada
principalmente para enunciados curtos, onde a adição de termos similares aumenta as chances do
computador encontrar relações entre o texto do enunciado e o da redação, melhorando assim o
desempenho de sistemas de detecção de redações com fuga ao tema.
Os modelos de ASST baseados em tesauros têm várias limitações, entre elas a ausência de
certas palavras no tesauro, especialmente as de domínio específico, e a dificuldade em comparar
palavras de hierarquias diferentes, como verbos e substantivos. Um dos meios de contornar esses
problemas é a criação de modelos que extraem palavras e suas relações semânticas de modo
automático a partir de grandes conjuntos de textos, também chamados de modelos distribucionais ou
baseados em corpus (JURAFSKY; MARTIN, 2008).
2.2.2 Modelos Baseados em Corpus
A premissa dos modelos de ASST baseados em corpus é que o significado de uma palavra
pode ser representado pelo contexto onde ela costuma aparecer. A famosa frase de Firth (1957) “You
shall know a word by the company it keeps!”11 é citada na literatura como precursora dos modelos de
análise semântica baseados em corpus (JURAFSKY; MARTIN, 2008). Os modelos distribucionais
11 Em português: “Você conhecerá uma palavra pela sua companhia” (tradução livre). No texto em que essa alegação é
apresentada, Firth não se referia ao contexto de uma palavra, mas a palavras próximas que lhe conferem um novo
significado, como o caso das colocações e coligações. Por exemplo, a palavra “branco” assume diferentes sentidos,
dependendo da sua colocação, como nas frases: “deu branco na prova” e “o branco do papel”.
31
são provavelmente o conceito de maior sucesso para a representação o sentido de uma palavra no
espaço vetorial (MIKOLOV et al., 2013).
Lin (1998) apresenta um exemplo interessante de como o contexto de uma palavra pode
auxiliar na representação do seu significado (adaptado de NIDA, 1975 apud LIN, 1998, tradução
nossa):
Há uma garrafa de tejuino na mesa.
Todos gostam de tejuino.
Tejuino deixa as pessoas bêbadas.
Tejuino é feito de milho.
A palavra "tejuino” pode parecer estranha ao vocabulário do leitor brasileiro comum – e do
corretor ortográfico do Microsoft Word 2016 –, no entanto é uma palavra que de fato existe no
vocabulário da língua portuguesa. O contexto acima permite inferir que tejuino é uma bebida
alcoólica feita de milho. De modo similar, os modelos de ASST baseados em corpus inferem o sentido
das palavras através das palavras que ocorrem no seu contexto (JURAFSKY; MARTIN, 2008).
O contexto de uma palavra é normalmente capturado pelos modelos distribucionais através de
uma matriz de coocorrências. Nessa matriz, as linhas representam as palavras do vocabulário e as
colunas representam o contexto onde essas palavras ocorrem (palavras, sentenças ou documentos)
(JURAFSKY; MARTIN, 2008). Por exemplo, dados os usos contextuais apresentados abaixo para o
vocabulário {maçã, banana, comer, computador}, poder-se-ia obter a matriz de coocorrências
apresentada na Tabela 1.
Eu gosto de comer maçã e banana.
Maçã e banana são frutas.
Um computador pode processar dados.
Tabela 1. Exemplo de matriz de coocorrências
Palavra comer frutas processar dados
maçã 1 1 0 0
banana 1 1 0 0
computador 0 0 1 1
A partir da matriz de coocorrências apresentada na Tabela 1, pode-se inferir que maçã e
banana possuem um grau maior de similaridade que maçã e computador, haja vista que o contexto
32
de maçã é mais similar ao contexto de banana. Na análise de similaridade textual com modelos
distribucionais, palavras e documentos são representados através de vetores, que apontam o sentido
do texto. O nível de similaridade entre duas palavras ou documentos pode ser mensurado comparando
os dois vetores relacionados, sendo uma das medidas mais usadas o cosseno do ângulo. Considerando
o exemplo da Tabela 1, o cosseno do ângulo entre as palavras maçã e banana seria 1.00, enquanto
que para as palavras maçã e computador esse índice seria 0.00.
Grandes corpora de textos são usados na construção de modelos distribucionais com objetivo
de construir representações de sentidos que abrangem grande parte do léxico de uma língua. Esses
corpora são convertidos em uma matriz de coocorrências grande e esparsa, onde podem ser aplicadas
funções de transformação como TF–IDF (Term Frequency – Inverse Document Frequency) e PMI
(Pointwise Mutual Information), para atribuir peso maior às palavras mais relevantes a um contexto,
e de compactação como a decomposição em valores singulares (SVD).
Na literatura sobre detecção de redações com fuga ao tema, os modelos distribucionais
atualmente utilizados são: LDA (Latent Dirichlet Allocation), RI (Random Indexing), Word2Vec e
CVA. Essas abordagens consistem em converter um grande corpus de textos, por vezes representado
através de uma matriz de coocorrências esparsa, em um modelo de análise semântica capaz de traduzir
uma palavra ou texto para um vetor de números. Cada posição desse vetor representa o grau de
pertinência da palavra/texto a um aspecto semântico. Com isso, unidades léxicas similares formarão
vetores similares, sendo que tal similaridade é comumente mensurada através do cosseno do ângulo
entre os vetores. Os modelos distribucionais atualmente utilizados na literatura sobre detecção de fuga
ao tema são descritos nas seções seguintes.
2.2.2.1 LDA
LDA é um modelo probabilístico para coleções de dados discretos, como corpora de textos.
Esse modelo visa o processamento eficiente de grandes conjuntos de dados com preservação de
relações estatísticas essenciais que são úteis a tarefas básicas de PLN, como classificação de
documentos, detecção de novidades, sumarização e análise de similaridade e de relevância (BLEI et
al., 2003).
A ideia básica do LDA é a representação de documentos como mesclas aleatórias sobre
tópicos latentes, onde cada tópico é caracterizado por uma distribuição sobre palavras (BLEI et al.,
33
2003). Isto é, no processo de modelagem LDA, um documento é tratado como um conjunto de tópicos
ou assuntos e o seu grau de participação no todo. As palavras do documento, por sua vez, também
possuem uma distribuição de probabilidades sobre os tópicos.
Uma das desvantagens do modelo LDA é que alguns parâmetros precisam ser previamente
definidos, como o número de tópicos ou dimensões a serem utilizados. Além disso, esse modelo pode
apresentar um custo computacional bastante elevado em conjuntos de dados muito grandes
(MIKOLOV et al., 2013).
No contexto de detecção automática de redações com fuga ao tema, o LDA pode ser utilizado
a fim de estimar os tópicos ou assuntos abordados pelo enunciado da proposta temática e pela redação.
Essa estimativa é representada através de vetores semânticos multidimensionais. Essa abordagem
apresenta vantagens às técnicas de análise de similaridade textual que se baseiam exclusivamente na
superfície textual, pois é capaz de reconhecer relações conceituais entre o enunciado e a redação
(PERSING; NG, 2014).
Persing e Ng (2014) apresentam um exemplo de situação que motiva o uso de modelos de
análise semântica na detecção de fuga ao tema:
Por exemplo, considere o enunciado “Todos os exércitos devem ser totalmente compostos
por soldados profissionais: não há valor em um sistema de serviço militar.”. Uma redação
que contenha termos como “paz”, “patriotismo” ou “treinamento” provavelmente não
desrespeita a proposta temática, e, portanto, não devem ser penalizadas por discutir esses
tipos.[...] Um modelo [LDA] pode nos dizer, por exemplo, que uma determinada redação na proposta do tema militar gasta 35% do tempo discutindo o tópico “homem”, “militar”,
“serviço”, “prestação” e “guerra” e 65% do tempo discutindo um tópico cujas palavras mais
importantes são “totalmente”, “contar”, “comum”, “checo” e “dia”. Como o último tópico é
tão discutido na redação e não parece ter relação com o tema militar, essa redação
provavelmente receberá uma nota ruim de adequação ao tema. (PERSING; NG, V., 2014, p.
1538)
O RI é outro modelo distribucional comumente utilizado na tarefa de análise de similaridade
textual. Esse modelo também foi utilizado por Persing e Ng (2014), como complemento ao LDA. Na
seção seguinte é apresentada uma introdução ao RI e ao seu uso na detecção de redações com fuga
ao tema.
34
2.2.2.2 RI
Em resposta às limitações observadas em modelos distribucionais anteriores, podendo-se citar
o LSA – Análise de Semântica Latente ou Latent Semantic Analysis –, principalmente em relação aos
requisitos de memória e processamento, a abordagem Random Indexing (RI) surgiu como uma
alternativa eficiente, escalável e incremental para representação de palavras em vetores
(SAHLGREN, 2005).
A técnica RI tem como ideia base acumular vetores de contexto – baseados na ocorrências de
palavras em um contexto – e pode ser descrita em uma operação de duas etapas (SAHLGREN, 2005):
• Cada contexto (documento ou palavra) recebe uma representação única aleatória chamada de
vetor de índice. Os vetores de índice são esparsos, com dimensionalidade na ordem dos
milhares, e contém um conjunto de valores +1s, -1s e 0s aleatoriamente distribuídos.
• Os vetores de contexto são produzidos a partir dos textos do corpus. Cada vez que uma palavra
ocorre em um contexto, o vetor de índice desse contexto é adicionado ao vetor de contexto da
palavra em questão. Através dessa operação, palavras podem ser representadas através de um
vetor.
Sahlgren (2005) cita alguns estudos onde se pôde verificar a eficácia da técnica RI na análise
semântica textual. Entre eles, vale mencionar o experimento de Karlgren e Sahlgren (2001), onde foi
aplicado RI para resolver questões aplicadas no TOEFL12 – Teste de Inglês como Língua Estrangeira
– que tratavam de encontrar sinônimos. Os resultados alcançados foram promissores, haja vista que
a taxa de acerto do computador (72%) foi maior que a dos falantes não nativos, estudantes candidatos
a universidades dos EUA (64,5%).
De modo similar a outros modelos distribucionais de análise semântica, o RI pode ser utilizado
na tarefa de detecção de redações com fuga ao tema como meio de verificação da proximidade entre
o enunciado e a redação. Adicionalmente, o RI pode ser utilizado para detectar os conceitos esperados
em uma redação através de grupos de palavras-chave que representem esses conceitos, como proposto
por Persing e Ng (2014). Na seção seguinte é apresentado o Word2Vec, um outro modelo de análise
semântica encontrado na literatura sobre detecção de redações com fuga ao tema. O Word2Vec é o
12 O TOEFL é um exame internacional que visa avaliar a capacidade de usar e compreender o inglês em nível universitário.
35
mais recente entre os três modelos distribucionais encontrados e tem apresentado resultados
promissores na análise semântica textual.
2.2.2.3 Word2Vec
Word2Vec é uma abordagem para modelagem de palavras em vetores através de redes neurais
com aprendizado não supervisionado (MIKOLOV et al., 2013). Um modelo Word2Vec treinado em
um grande corpus permite realizar operações algébricas em vetores de palavras, como no famoso
exemplo “vetor(‘rei’) – vetor(‘homem’) + vetor(‘mulher’) ~= vetor(‘rainha’)”. O Quadro 2 apresenta
alguns exemplos de analogias que podem ser inferidas de modo automático por um modelo
Word2Vec onde, dado o relacionamento apresentado na primeira coluna, pode-se inferir as palavras
à direita nas colunas seguintes. Por exemplo, as duas primeiras linhas e colunas podem ser
interpretadas da seguinte forma: “França está para Paris, assim como Itália está para Roma”; e “Cobre
está para ‘Cu’, assim como zinco está para ‘Au’”.
Quadro 2. Exemplos de analogias avaliadas por um modelo Word2Vec Skip-gram treinado em 783M
de palavras com 300 dimensões
Relação Exemplo 1 Exemplo 2 Exemplo 3
França – Paris Itália: Roma Japão: Tóquio Florida: Tallahassee
cobre – Cu zinco: Zn ouro: Au urânio: plutônio
Miami – Florida Baltimore: Maryland Dallas: Texas Kona: Havaí
Einstein – cientista Messi: meio campo Mozart: violinista Picasso: pintor
Sarkozy – França Berlusconi: Itália Merkel: Alemanha Koizumi: Japão
Berlusconi – Silvio Sarkozy: Nikolas Putin: Medvedev Obama: Barack
Microsoft – Windows Google: Android IBM: Linux Apple: iPhone
Microsoft – Ballmer Google: Yahoo IBM: McNealy Apple: Jobs
Japão – sushi Alemanha: bratwurst França: tapas EUA: pizza
Fonte: Adaptado de Mikolov et al. (2013).
As redes Word2Vec se dividem em dois tipos principais, o modelo CBOW (Continous Bag-
of-Words) e o modelo Skip-gram. Os dois modelos são similares, exceto que o primeiro visa predizer
uma palavra dado um contexto, enquanto que o segundo visa estimar o contexto de uma palavra. O
contexto ou janela (C) é um dos hiperparâmetros de uma rede Word2Vec. Por exemplo, caso seja
definida a constante C = 5, para cada palavra de um corpus de treino poderão ser consideradas para
alimentação da rede as cinco palavras imediatamente anteriores e as cinco palavras subsequentes. A
Figura 4 apresenta um esquema das arquiteturas CBOW e Skip-gram.
36
Levy e Goldberg (2014) mostraram que as redes Word2Vec implicitamente criam uma versão
fatorada de uma matriz palavra–contexto, cujas células representam a medida de associação Pointwise
Mutual Information (PMI). A medida PMI quantifica a discrepância entre a probabilidade de
coincidência de duas variáveis, dada a sua distribuição de probabilidade conjunta e a sua distribuição
individual.
Figura 4. Arquitetura das redes Word2Vec tipos CBOW e Skip-gram
Fonte: Mikolov et al. (2013).
As redes neurais Word2Vec podem apoiar a detecção de redações com fuga ao tema. Para
isso, são geradas representações vetoriais para o texto de uma redação e para o enunciado da proposta
temática. Comparando-se os vetores (por exemplo, utilizando o cosseno do ângulo), pode-se verificar
a aderência de uma redação ao tema (REI; CUMMINS, 2016).
No estudo de Rei e Cummins (2016), a variante CBOW foi utilizada para tratar a tarefa de
estimar a aderência ao tema de redações ao nível de sentença. Apesar da rede estar preparada para
converter uma palavra em uma representação vetorial, a conversão de sentenças inteiras exige maior
complexidade. Uma abordagem simples para conversão de sentenças em vetores semânticos com uma
rede Word2Vec é obter a soma dos vetores de todas as palavras da sentença, no entanto esse método
37
não respeita a relevância de cada palavra no contexto. Uma forma de resolver esse problema pode ser
a combinação de Word2Vec ao esquema de pesos TF–IDF (REI; CUMMINS, 2016). Na seção
seguinte é apresentada a quarta e última técnica de análise de similaridade textual baseada em corpus.
2.2.2.4 CVA
Análise de Vetor de Conteúdo (CVA – Content Vector Analysis) é um método da área de
Recuperação de Informação (RI) para quantificar a similaridade de vocabulário entre dois textos
(HIGGINS; BURSTEIN; ATTALI, 2006). Através desse método simples os textos são representados
por um vetor, onde cada posição contém a frequência de uma palavra com peso. O peso das palavras
normalmente é calculado com a métrica TF–IDF, que consiste na multiplicação da frequência do
termo pelo inverso da frequência desse termo nos documentos de um corpus. Desse modo, aplicando-
se a métrica TF–IDF, os termos que aparecem com frequência em um documento, mas com pouca
frequência em outros, são considerados relevantes e recebem um peso maior. Consequentemente,
palavras comuns no uso da língua, como os artigos “um”, “uma”, “o” e “a”, recebem um peso bastante
baixo.
Uma das principais limitações de CVA na tarefa de detecção de fuga ao tema é a restrição à
superfície textual, em outras palavras, o fato dessa técnica exigir que os dois textos compartilhem
exatamente as mesmas palavras para serem considerados similares (REI; CUMMINS, 2016). Uma
forma de reduzir essa limitação é remover palavras vazias (stopwords)13 e aplicar alguma técnica de
normalização morfológica das palavras, como extração de radical (stemming) ou lematização14. Ao
mesmo tema, em alguns cenários, como na detecção de fuga ao tema em grandes conjuntos de
redações, a exigência da ocorrência de palavras exatas na redação pode ser vista como uma vantagem
dessa técnica (HIGGINS; BURSTEIN; ATTALI, 2006).
13 A expressão palavras vazias ou stopwords é comumente utilizada para se referir a palavras auxiliares com pouco ou
nenhum significado próprio em um texto, muitas vezes removidas durante a etapa de pré-processamento de um sistema
de processamento de linguagem natural (ex. “o”, “a”, “do”, “em”). 14 A lematização é um processo que consiste em deflexionar uma palavra de modo que se obtenha seu lema. Com isso,
verbos são comumente reduzidos à forma infinitiva e substantivos e adjetivos ao masculino singular.
38
2.3 APRENDIZADO DE MÁQUINA
O aprendizado de máquina é uma área de pesquisa da computação que busca a criação de
programas de computador capazes de aprender, isto é, capazes de “melhorar o desempenho na
realização de alguma tarefa por meio da experiência” (MITCHELL, 1997, p. 2, tradução nossa).
Faceli et al. (2011) apresentam uma descrição sobre o aprendizado de máquina considerando o seu
contexto histórico:
Nas últimas décadas, com a crescente complexidade dos problemas a serem tratados computacionalmente e do volume de dados gerados por diferentes setores, tornou-se clara a
necessidade de ferramentas computacionais mais sofisticadas, que fossem mais autônomas,
reduzindo a necessidade de intervenção humana e dependência de especialistas. Para isso,
essas técnicas deveriam ser capazes de criar por si próprias, a partir da experiência passada,
uma hipótese, ou função, capaz de resolve o problema que se deseja tratar. [...] A esse
processo de indução de uma hipótese (ou aproximação de função) a partir da experiência
passada dá-se o nome Aprendizado de Máquina (AM). (FACELI et al., 2011, p. 2)
Mitchell (1997) apresenta uma definição mais formal sobre aprendizado de máquina:
Diz-se que um programa de computador aprende a partir da experiência E, considerando a
algum tipo de tarefa T e medida de desempenho P, se seu desempenho na tarefas T, como
medido por P, melhora com a experiência E. (MITCHELL, 1997, p. 2, tradução nossa)
As pesquisas na área de aprendizado de máquina envolvem várias áreas da ciência, incluindo
Inteligência Artificial, Probabilidade e Estatística, Teoria da Computação, Neurociência, Teoria da
Informação e outras (FACELI et al., 2011). Entre diversas soluções de software bem-sucedidas que
aplicam técnicas de aprendizado de máquina, podem ser citadas: reconhecimento de voz, predição de
taxa de cura de pessoas doentes, detecção de fraudes, automóveis autônomos e classificação de
estruturas astronômicas (FACELI et al., 2011; MITCHELL, 1997).
As tarefas de aprendizado podem ser preditivas (supervisionado) ou descritivas (não
supervisionado). As tarefas preditivas buscam aproximar uma função ou hipótese que permita prever
uma classe ou valor para um exemplo, com base em um conjunto de experiências passadas,
normalmente chamado de conjunto de treinamento. Por outro lado, as tarefas descritivas auxiliam a
explorar e descrever um conjunto de dados, utilizando técnicas de agrupamento de objetos
semelhantes e reconhecimento de associações entre variáveis (FACELI et al., 2011). A Figura 5
apresenta uma hierarquia de aprendizado contemplando as categorias descritas.
39
No contexto desta pesquisa, destacam-se as tarefas de aprendizado supervisionado, em
especial a tarefa de classificação. A detecção de redações com fuga ao tema pode ser vista como uma
tarefa de classificação binária, onde busca-se encontrar uma função capaz de identificar se uma
redação pertence à classe “sem fuga ao tema” ou “com fuga ao tema”. Por outro lado, em estudos que
tentam estimar o grau de aderência ao tema de uma redação, os métodos de regressão podem ser mais
adequados, pois têm como saída um valor contínuo.
Figura 5. Hierarquia de aprendizado
Fonte: Adaptado de Faceli et al. (2011, p. 6).
Existem diversos algoritmos de classificação e regressão na literatura, entre eles o algoritmo
k-NN (k-vizinhos mais próximos), Naive Bayes, árvores de decisão e regressão, redes neurais
artificiais e máquinas de vetores de suporte (FACELI et al., 2011). Esses algoritmos buscam
aproximar uma função capaz de classificar ou estimar um valor a partir de um conjunto de exemplos.
A Figura 6 ilustra a rotina de aprendizado, onde dado um conjunto de exemplos, em que cada exemplo
é representado por um conjunto de atributos (𝑥1..𝑚) e a sua classe (𝑦), aplicam-se técnicas de
aprendizado de máquina a fim de se obter um classificador 𝑓(𝑥).
40
Figura 6. Indução de classificador em aprendizado supervisionado
Fonte: Lorena e Carvalho (2007, p. 45).
Na literatura existente sobre detecção de redações com fuga ao tema, as técnicas de
aprendizado de máquina utilizadas para predição são regressão linear e regressão por vetores de
suporte. Essas técnica foram aplicada nas pesquisas de Klebanov, Flor e Gyawali (2016), Chen e
Zhang (2016) e Persing e Ng (2014). Na pesquisa de Higgins, Burstein e Attali (2006) foram aplicadas
máquinas de vetores de suporte como um classificador binário, contudo tendo em vista classificar
redações com tentativa deliberada de fraude/má-fé. Na seção seguinte é apresentada uma descrição
sobre regressão linear e máquinas de vetores de suporte e a sua aplicação na detecção de redações
com fuga ao tema.
2.3.1 Regressão Linear
A regressão linear é uma equação usada para estimar um valor esperado, ou variável
dependente (y), através do valor de uma ou mais variáveis independentes (x). Em vários problemas,
há uma ou mais variáveis estão relacionadas, e pode ser importante e útil modelar esse relacionamento
(MONTGOMERY; PECK; VINING, 2015). A fórmula geral de regressão linear é
𝑦 = 𝛼0 + 𝛼1𝑋1 + 𝛼2𝑋2 + . . . + 𝛼𝑛𝑋𝑛 (1)
onde y é a variável a ser explicada, ou seja, o valor que se deseja estimar. O alpha zero (α0) é uma
constante, que representa a interceptação da linha no eixo vertical. As variáveis explanatórias são
representadas por X, e são ponderadas por α1 – αn.
41
Na tarefa de estimar a adequação ao tema de uma redação, a variável dependente y
normalmente é tratada como o grau de adequação ao tema e as variáveis independentes X1 – Xn são
as características relevantes a essa tarefa, extraídas da redação utilizando técnicas de processamento
de linguagem natural, análise semântica, análise probabilística e outras. Na Figura 7 é apresentado
um exemplo de regressão linear onde o número de palavras do enunciado presentes na redação foi
utilizado para aproximar uma função de estimativa do valor de adequação ao tema, que nesse exemplo
fictício é contínuo e está no intervalo [0, 4].
Figura 7. Exemplo de regressão linear para predição do grau de adequação ao tema
Os pontos pretos na Figura 7 representam instâncias de redações de um conjunto de treino e a
função 𝑦ℎ𝑎𝑡 é a hipótese induzida através do método dos mínimos quadrados e está representada pela
linha vermelha. O método dos mínimos quadrados é comumente utilizado na regressão linear para
encontrar a função com melhor ajuste a um conjunto de dados através da minimização da soma das
diferenças ao quadrado entre o valor previsto e o real (MONTGOMERY; PECK; VINING, 2015).
No exemplo da Figura 7, pode-se interpretar os coeficientes da função aproximada do seguinte
modo: para uma redação que não contém nenhuma palavra do enunciado, pode-se deduzir um índice
de adequação ao tema de -0.33 (α0); para redações que contenham alguma palavra do enunciado, o
índice de adequação ao tema pode ser deduzido somando a constante -0.33 (α0) ao número de palavras
do enunciado presentes multiplicado por 0.07 (α1). Assim, pode-se inferir que uma redação precisaria
42
conter ao menos 58 palavras para atingir o índice máximo 4, e ao menos 5 palavras para obter um
índice maior que zero.
Ainda não se pode garantir que os valores previstos no exemplo sejam precisamente o índice
que um avaliador humano atribuiria à redação. Na Figura 7 pode-se visualizar que os pontos, apesar
de próximos do previsto pelo modelo (linha vermelha), dificilmente correspondem exatamente à
estimativa. Apesar do exemplo discutido apresentar uma boa capacidade explicativa, com correlação
linear > 0.95, em um cenário real esse modelo provavelmente seria falho, pois aborda o problema
sem considerar diversas outras variáveis relevantes.
2.3.2 Máquinas de Vetores de Suporte
A máquina de vetores de suporte (support vector machine – SVM) é uma técnica de
aprendizado supervisionado, embasada pela teoria de aprendizado estatístico, e tem sido aplicada com
sucesso em diversos domínios, como categorização de textos e em Bioinformática (FACELI et al.,
2011). A teoria do aprendizado estatístico foi desenvolvida por Vapnik (1995 apud FACELI et al.,
2011) e estabelece princípios para obtenção de classificações com boa generalização, ou seja, com
capacidade de prever corretamente a classe de novos dados do mesmo domínio em que o aprendizado
ou treino ocorreu (LORENA; CARVALHO, 2007).
Segundo a teoria do aprendizado estatístico, dado o conjunto de todos os classificadores que
um algoritmo de aprendizado de máquina pode gerar, aplicando-se um conjunto de treinamento,
composto por atributos e classes de instâncias do problema, pode-se aproximar o classificador ideal
(LORENA; CARVALHO, 2007). A Figura 8 apresenta um exemplo de conjunto de treinamento onde
a classe das instâncias é representada por círculos e triângulos e a hipótese induzida por um
classificador é representada através de uma linha.
43
Figura 8. Conjunto de treinamento binário e três diferentes hipóteses
Fonte: Lorena e Carvalho (2007, p. 46).
Na Figura 8, pode-se verificar que a hipótese (a) está muito específica ou sobreajustada ao
conjunto de treinamento, por outro lado a hipótese (c) não está bem ajustada ao conjunto. Em ambos
os casos, o modelo apresenta grandes chances de cometer erros ao classificar novos dados. A hipótese
(b), por outro lado, parece se ajustar bem ao conjunto de treinamento e não foi afetada pelos exemplos
anômalos (outliers). Entre as três hipóteses, provavelmente a hipótese (b) teria maior sucesso ao
classificar novos exemplos.
A técnica de SVM pode ser aplicada em problemas lineares e não lineares, de classificação e
de regressão. Na literatura sobre detecção de redações com fuga ao tema, a técnica de SVM tem sido
aplicada na variante de regressão linear, também chamada de regressão por vetores de suporte
(support vector regression – SVR).
2.3.2.1 Regressão por Vetores de Suporte
Na regressão por vetores de suporte, o objetivo é encontrar uma função 𝑓(𝑥) que tenha no
máximo 𝜀 de desvio dos valores 𝑦𝑖 do conjunto de treino, e ao mesmo tempo tão plana quanto possível
(SMOLA; SCHÖLKOPF, 2004) . A função linear 𝑓(𝑥) pode ser descrita pela equação (2).
𝑓(𝑥) = 𝑤 ∙ 𝑥 + 𝑏 onde 𝑤 ∈ 𝑋, 𝑏 ∈ ℝ (2)
44
A regularização do vetor de suporte 𝑤 faz parte do algoritmo SVR e consiste na minimização
do módulo ||𝑤||, como apresentado em (3). O treinamento do regressor também se submete às
restrições da equação (4), relacionadas ao desvio aceitável definido no parâmetro 𝜀.
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 1
2||𝑤||²
(3)
𝑐𝑜𝑚 𝑎𝑠 𝑟𝑒𝑠𝑡𝑟𝑖çõ𝑒𝑠 {𝑦𝑖 − 𝑤 ∙ 𝑥 − 𝑏 ≤ 𝜀 𝑤 ∙ 𝑥 − 𝑏 − 𝑦𝑖 ≤ 𝜀
(4)
Modelos de SVR podem ser construídos utilizando as variáveis de folga 𝜉 e 𝜉∗ a fim de lidar
com ruídos e exemplos anômalos. Nesse caso, utilizam-se a variante do modelo acima como definido
por Vapnik (1995 apud FACELI et al., 2011) .
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 1
2||𝑤||
2+ 𝐶 ∑(𝜉𝑖 +
ℓ
𝑖=1
𝜉𝑖∗)
(5)
𝑐𝑜𝑚 𝑎𝑠 𝑟𝑒𝑠𝑡𝑟𝑖çõ𝑒𝑠 {
𝑦𝑖 − 𝑤 ∙ 𝑥 − 𝑏 ≤ 𝜀 + 𝜉𝑖
𝑤 ∙ 𝑥 − 𝑏 − 𝑦𝑖 ≤ 𝜀 + 𝜉𝑖∗
𝜉𝑖 , 𝜉𝑖∗ ≥ 0
(6)
No caso do exemplo apresentado na Figura 7, onde foi demonstrada a aplicação de regressão
linear para estimar a adequação ao tema de redações, há pouco ruído no conjunto de treinamento. A
alteração da técnica de aprendizado de máquina de regressão linear para SVR naquele exemplo
produzir uma hipótese similar ou equivalente. A fim de exemplificação do funcionamento, foram
adicionados alguns exemplos anômalos na amostragem da Figura 7 para contrastar o comportamento
de regressão linear e SVR. A Figura 9 apresenta a adaptação do exemplo utilizando a implementação
de SVR da biblioteca scikit-learn, kernel linear e demais parâmetros com valor padrão.
45
Figura 9. Exemplo da utilização de regressão linear e SVR para predição do grau de adequação ao
tema em um conjunto com exemplos anômalos
Pode-se observar na Figura 9 que, como esperado, o método de regressão linear se comporta
diferente do método de SVR. Ao contrário da regressão linear, o modelo de SVR induzido foi pouco
afetado pelos exemplos anômalos (pontos vermelhos), o que pode ser constatado na nova fórmula de
regressão. O ponto de interceptação em 𝑦 teve uma pequena variação em comparação ao modelo de
regressão linear sem outliers apresentado na Figura 5, enquanto que o fator de multiplicação de 𝑥 se
manteve em 0.07 (número arredondado).
2.3.3 Métricas de Avaliação
Durante o desenvolvimento de modelos de aprendizado de máquina é importante medir o
desempenho do modelo ao realizar a tarefa visada. Existem diversas funções matemáticas para avaliar
o desempenho de modelos de classificação de textos, as quais podem ser chamadas de métricas de
avaliação. Para a tarefa de classificação binária, foco desta pesquisa, encontram-se na literatura
diversas métricas, incluindo: acurácia, precisão, recall ou sensibilidade, valor-F (F-score),
especificidade e área abaixo da curva ROC (AUC) (SOKOLOVA; LAPALME, 2009).
Na revisão da literatura sobre detecção de fuga ao tema foram encontradas as métricas de
acurácia, precisão, recall, valor-F, taxa de falsos positivos e taxa de falsos negativos. Essas métricas
podem ser extraídas a partir de uma matriz de confusão, composta pelos seguintes indicadores:
46
• verdadeiros positivos (VP): exemplos corretamente classificados como positivos;
• falsos positivos (FP): exemplos incorretamente classificados como positivos;
• verdadeiros negativos (VN): exemplos corretamente classificados como negativos;
• falsos negativos (FN): exemplos incorretamente classificados como negativos.
A seguir são apresentadas as métricas encontradas na literatura sobre detecção de fuga ao
tema.
Acurácia ou Precisão Geral
A medida de acurácia ou precisão geral pode ser vista como a relação entre o número de
acertos e o número total de exemplos, conforme a equação (7).
𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑉𝑃 + 𝑉𝑁
𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃 + 𝐹𝑁
(7)
A medida de acurácia é adequada para conjuntos de dados com classes balanceadas, isto é,
quando cada classe contém um número proporcional de exemplos. Em conjunto de classes
desbalanceadas ou desproporcionais, essa medida pode causar a falsa impressão de um resultado bom
mesmo com classificadores ruins. Por exemplo, em um conjunto onde 80% dos exemplos são da
classe 1 e 20% da classe 2, um classificador que rotule todos os exemplos com a classe 1 atingiria
uma acurácia de 80%, mesmo que todos os exemplos da classe 2 tenham sido classificados
incorretamente. Outras medidas de desempenho podem ser utilizadas nos casos de classes
desbalanceadas, como a medida valor-F (F-score).
Valor-F, Precisão e Recall
A medida valor-F (F-score) é a média harmônica entre a precisão e recall e pode ser utilizada
em conjuntos de dados com classes desbalanceadas substituindo ou complementando a medida de
acurácia. A equação (8) apresenta a variante F1-score, que atribui mesmo peso à precisão e ao recall
e foi utilizada nesta pesquisa.
47
𝐹1-𝑠𝑐𝑜𝑟𝑒 = 2 ∗ (𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙)
(𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑟𝑒𝑐𝑎𝑙𝑙)
(8)
Na classificação binária, a precisão se refere à taxa de exemplos corretamente rotulados como
positivos por um classificador, conforme a equação (9).
𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑉𝑃
𝑉𝑃 + 𝐹𝑃
(9)
O recall, por sua vez, avalia a sensibilidade de um classificador, ou seja, a relação entre o
número de exemplos corretamente rotulados como positivos – na classificação binária – e o número
total de exemplos dessa classe, conforme a equação (10).
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑉𝑃
𝑉𝑃 + 𝐹𝑁
(10)
Outra forma de medir o desempenho de classificador é analisando a taxa de erros em relação
às classes positivas e negativas, conforme apresentado a seguir.
Falsos Positivos e Falsos Negativos
Em algumas tarefas de classificação pode ser importante medir a taxa de falsos positivos (%
FP) e falsos negativos (% FN), isto é, a taxa de exemplos incorretamente classificados como positivos
e como negativos. No contexto de detecção de fuga ao tema em redações, conforme destacado por
Higgins, Burstein e Attali (2006), prioriza-se a redução da taxa de falsos positivos para evitar o caso
de notificar um estudante de que sua redação teve fuga ao tema quando na verdade não teve. Com
isso, no contexto desta pesquisa, medir a taxa de falsos positivos e falsos negativos se torna pertinente.
A taxa de falsos positivos é descrita pela equação (11) e a taxa de falsos negativos pela equação (12).
%𝐹𝑃 =𝐹𝑃
𝑉𝑁 + 𝐹𝑃
(11)
48
%𝐹𝑁 =𝐹𝑁
𝑉𝑃 + 𝐹𝑁
(12)
Quanto à taxa de falsos negativos, vale mencionar que essa métrica é o complemento do recall,
ou seja, o valor de recall perfeito (100%) é igual ao valor mínimo de % FN (0%). Por outro lado, a
taxa de falsos positivos pode ser vista como o inverso da especificidade, que não é utilizada na
literatura existente sobre detecção de fuga ao tema. Assim, visando a comparação dos resultados
obtidos nesse estudo com a literatura e pesquisas futuras, foram utilizadas nesta pesquisa todas as
métricas presentes na literatura sobre o tema.
49
3 ESTADO DA ARTE
Uma revisão sistemática da literatura foi realizada com objetivo de identificar os modelos e
métodos utilizados atualmente na detecção automática de redações com fuga ao tema. Na Seção 3.1
é apresentado o resultado dessa revisão. Na Seção 3.2, são apresentados trabalhos similares que,
apesar de não tratarem especificamente da classificação de redações com fuga ao tema, apresentam
uma proposta de solução relevante a esse problema. Na Seção 3.3 é realizada uma análise comparativa
dos trabalhos relacionados. Por fim, na Seção 3.4 são apresentadas algumas considerações sobre este
capítulo. Uma versão resumida deste capítulo pode ser encontrada nos Anais do XXVIII Simpósio
Brasileiro de Informática na Educação sob o título “Off-Topic Essay Detection: A Systematic Review”
(PASSERO et al., 2017).
3.1 REVISÃO SISTEMÁTICA DA LITERATURA
A revisão sistemática foi realizada em junho de 2017 e o protocolo de busca utilizado pode
ser consultado no Apêndice A. Dos 14 artigos inicialmente encontrados, nove foram excluídos: cinco
por não aderência ao escopo desta pesquisa; três por duplicidade; e um por retratação pela editora. Os
artigos excluídos podem ser consultados no Apêndice B. Por fim, foram selecionados para a etapa de
extração de informações cinco artigos, apresentados no Quadro 3.
Quadro 3. Relação de artigos selecionados na revisão sistemática da literatura
Identificação Título
Higgins, Burstein e Attali (2006) Identifying off-topic student essays without topic-specific
training data
Louis e Higgins (2010) Off-topic essay detection using short prompt texts
Li e Yan (2012) An effective automated essay scoring system using support
vector regression
Persing e Ng (2014) Modeling prompt adherence in student essays
Chen e Zhang (2016) Identifying useful features to detect off-topic essays in
automated scoring without using topic-specific training essays
As seções seguintes apresentam uma análise descritiva individual dos trabalhos relacionados
no Quadro 3.
50
3.1.1 Higgins, Burstein e Attali (2006)
Higgins, Burstein e Attali (2006) descrevem uma abordagem para detectar redações com fuga
ao tema sem a necessidade de um conjunto de redações de treino. Com isso, teve-se como objetivo
melhorar a performance do software CriterionSM, que até então requeria um conjunto de treino com
200 a 300 redações do mesmo tema anotadas e não tinha um mecanismo para geração de feedback
sobre fuga ao tema. Os autores tratam dois tipos de problema em redações: tema inesperado e tentativa
deliberada de fraude/má-fé.
Para tratar o problema de fuga ao tema, os autores desenvolveram três modelos utilizando
CVA. Na aplicação do CVA, não foi realizada a extração do radical (stemming), mas foram removidas
palavras de pouca relevância, também chamadas de palavras vazias (stopwords). A função de peso
TF–IDF foi utilizada na aplicação do CVA para destacar as palavras relevantes, onde a frequência
das palavras em documentos foi calculada a partir de textos do corpus TIPSTER, uma coleção de
textos de gênero neutro.
Em sua análise comparativa, os autores abordam três modelos diferentes, denominados A, B
e C, onde A e B são os modelos já usados até então, que requerem corpus de treino, e C é o modelo
proposto para a detecção de fuga ao tema sem corpus de treino. O modelo C contém variações para
os problemas de tema inesperado e tentativa deliberada de fraude/máfé: as variantes CUT (unexpected
topic) e CBF (bad-faith) respectivamente. Considerando o escopo da presente pesquisa, são descritos
abaixo os modelos A, B e CUT.
Modelo A: Baseia-se em dois valores: maior similaridade entre o texto da redação a outras
redações do mesmo tema e similaridade entre o texto da redação e o enunciado da proposta. Os índices
de similaridade são computados utilizando CVA e o cosseno do ângulo, apresentado na equação (13).
Verifica-se então o desvio dos valores em relação à média através da equação (14). Caso o desvio
ultrapasse um determinado valor, o algoritmo classifica a redação como caso de fuga ao tema. Um
valor delimitador grande aumenta a taxa de falsos negativos, enquanto que um valor delimitador
pequeno aumenta a taxa de falsos positivos. Considerando um sistema em produção, os autores
sugerem que o valor delimitador seja definido de modo a reduzir a taxa de falsos positivos (HIGGINS;
BURSTEIN; ATTALI, 2006).
Modelo B: Calcula a proporção da ocorrência de uma palavra em vários temas em relação à
sua ocorrência em redações do mesmo tema utilizando a equação (15), onde Gi é a taxa de ocorrência
51
global de uma palavra e Si se refere à taxa de ocorrência específica (do tema) de uma palavra. A
principal vantagem do Modelo B em relação ao Modelo A é que este atribui peso maior a palavras
específicas do tema. De modo similar ao Modelo A, um valor delimitador precisa ser definido para
separar redações dentro e fora do tema.
Modelo CUT: Compara cada redação a um conjunto de enunciados de diversas propostas
temáticas utilizando o cosseno do ângulo dos vetores gerados com CVA. Os escores encontrados são
ordenados e a redação é classificada como dentro do tema se, no ranking gerado, o escore para o tema
objetivo está entre os N maiores. O valor N pode ser definido testando várias possibilidades e
verificando a taxa de trade-off. Apesar deste modelo dificilmente atingir os resultados alcançáveis
através dos modelos anteriores, permite resultados semelhantes sem a necessidade de um conjunto de
redações do mesmo tema para treino.
cos 𝜃 = �⃗� ∗ �⃗⃗�
||�⃗�|| ∗ ||�⃗⃗�||
(13)
𝑧-𝑠𝑐𝑜𝑟𝑒 = (𝑣𝑎𝑙𝑜𝑟 − 𝑚é𝑑𝑖𝑎)
𝑑𝑒𝑠𝑣𝑖𝑜_𝑝𝑎𝑑𝑟ã𝑜
(14)
𝐻𝐵𝐴-𝐵 = 1
𝑁 ∑ √𝑆𝑖 (1 − 𝐺𝑖)
𝑛
𝑖=1
(15)
Os autores avaliaram dois corpora de pesquisa no experimento. O primeiro corpus contém
8.000 redações elaboradas por estudantes com nível de 6º a 12º grau do ensino básico, pertencentes a
36 propostas temáticas, e foi utilizado para avaliar o problema de tema inesperado. O segundo corpus
foi utilizado para avaliar redações com tentativa deliberada de fraude e possui 3.138 redações
submetidas a três exames de larga escala, dois para entrada em cursos do ensino superior, o GRE –
Graduate Record Examination – e o GMAT, e outro que verifica a proficiência na língua inglesa, o
TOEFL. A avaliação dos modelos foi realizada através de validação cruzada, onde se verificou a taxa
de falsos positivos (FP) e falsos negativos (FN).
52
Os resultados atingidos para o modelo CUT (FP 6,8% e FN 22,9%), sem corpus de treino
anotado, foram próximos aos dos modelos A (FP 5% e FN 38%) e B (FP 4,7% e FN 28,2%). Vale
destacar que as taxas de falsos positivos apresentadas pelos autores para os modelos A e B consideram
redações com o problema de tema inesperado e de tentativa deliberada de fraude, não tendo sido
apresentada a taxa de erro específica para o problema pertinente à presente pesquisa: tema inesperado.
Apesar dos autores apontarem o modelo proposto (CUT) como vantajoso por não necessitar de
um conjunto de redações para treino, esse modelo precisa de dois recursos para viabilizar sua
aplicação: um conjunto de enunciados de temas diversos e o valor delimitador a ser utilizado. O valor
delimitador tido como ótimo no experimento dos autores (~10 de 34 temas) pode variar de acordo
com o conjunto de redações e enunciados.
Os autores também fizeram experimentos com um modelo de análise semântica distribucional,
o Random Indexing. Esses experimentos não foram publicados por não terem superado a performance
da abordagem com CVA:
Nós fizemos experimentos com uma outra métrica de similaridade baseada em vetores,
denominada Random Indexing (RI) (Sahlgren 2001), e CVA apresentou um desempenho
melhor. A tendência de RI, LSA e outras abordagens baseadas em vetor com redução de
dimensionalidade em atribuir índices de similaridade maiores a textos que contém
vocabulário similar (mas não igual) pode ser um fator que contribui. O fato de uma redação
conter exatamente as palavras usadas no enunciado da proposta é uma pista importante de
que ela aborda o tema, e isso pode ser “obscurecido” usando uma abordagem como RI.
(HIGGINS; BURSTEIN; ATTALI, Y., 2006, p. 152, tradução nossa)
Rei e Cummins (2016), por outro lado, recomendam o uso de modelos de semântica
distribucional e criticam a abordagem CVA: “como esse método [o CVA] captura apenas a
similaridade usando combinações exatas ao nível de palavra, ele pode perder muitas ocorrências de
palavras relevantes ao tema na redação” (REI; CUMMINS, 2016, p. 1, tradução nossa). Assim, apesar
da técnica Random Indexing não ter apresentado a melhor performance no contexto avaliado pelos
autores, quando combinada a outras técnicas ou aplicada em outros conjuntos de dados os modelos
de semântica distribucional podem ser úteis devido à sua alta capacidade de abstração do sentido.
3.1.2 Louis e Higgins (2010)
Louis e Higgins (2010) apresentam uma extensão para uma das abordagens apresentadas na
seção anterior, o Modelo CUT de Higgins, Burstein e Attali (2006). Teve-se como objetivo melhorar
53
o desempenho dessa abordagem no caso de redações cuja proposta temática tem enunciado muito
curto. Os autores apresentam as seguintes técnicas de expansão do enunciado:
1. Derivações: as variantes morfológicas das palavras do enunciado foram obtidas através de
uma abordagem baseada em regras para adição e alteração de prefixos e sufixos de palavras
(ex. “friendly” deriva “friend”, “friendlier” e “friendliness”).
2. Sinônimos: o sentido das palavras é identificado por uma ferramenta de desambiguação de
sentidos e os sinônimos são obtidos do WordNet e introduzidos na versão expandida do
enunciado (ex. “friendly” expande para “favorable” e “well-disposed”).
3. Palavras similares por distribuição: além dos sinônimos encontrados no WordNet, também
foram consideradas palavras similares identificadas em um corpus grande pela ocorrência em
contextos similares (ex. “friendly” expande para “cordial”, “polite”, “cheerful” e “calm”).
4. Palavras associadas: foi utilizado um conjunto de 5.000 palavras e suas associações,
elaborado a partir de um levantamento realizado com 6.000 pessoas (ex. “friendly” expande
para “smile”, “amiable”, “greet” e “mean”).
Os pesquisadores aplicaram o peso de 20 às palavras originais do enunciado e 1 às palavras
adicionadas para atenuar ruídos. Os erros ortográficos nas redações foram detectados e corrigidos
tendo-se como dicionário as palavras do enunciado.
Dois corpora de pesquisa foram utilizados: (a) um de escritores avançados e (b) outro de
aprendizes, com 10 propostas temáticas cada. Os corpora foram construídos com redações submetidos
aos exames de larga escala TOEFL e GRE. Os exemplos positivos de fuga ao tema foram
selecionados a partir dos conjuntos de redações submetidas a outras propostas temáticas, ou seja,
foram criados conjuntos artificiais para tratar redações com fuga ao tema. Das 10 propostas temáticas
de cada corpus, três foram utilizadas como conjunto de desenvolvimento e sete como conjunto de
validação, formado com 350 exemplos negativos e positivos de fuga ao tema selecionados
aleatoriamente do conjunto original.
Os melhores resultados variaram de acordo com o corpus utilizado e foram medidos usando a
taxa de falsos positivos (FP) e falsos negativos (FN). Para o corpus (a), o melhor resultado foi obtido
utilizando a correção ortográfica dos textos junto à expansão por palavras associadas, onde se
alcançou FP 1,47% e FN 9,02%, uma melhora significativa em relação à proposta original de Higgins,
54
Burstein e Attali (2006), que resultava em FP 2,94% e FN 9,06% sem expansão do enunciado. Já para
o corpus (b), o melhor resultado foi obtido com a correção ortográfica, palavras associadas e
derivações, com FP 4,66% e FN 11,97%, com melhora na taxa de FP em comparação à proposta
original sem expansão (FP 9,73% e FN 11,07%).
3.1.3 Li e Yan (2012)
Li e Yan (2012) tratam a tarefa de correção automática de redações e, como parte desse
problema, a estimativa de pertinência ao tema. Nesta seção é abordada somente a parte do trabalho
que tange a verificação da pertinência ao tema.
Os autores propõem um modelo de regressão SVM linear com os seguintes atributos:
• proporção de palavras-chave do enunciado da proposta presentes na redação;
• cosseno do ângulo entre o vetor do enunciado e o da proposta, desconsiderando palavras
vazias (stopwords) e aplicando peso TF–IDF – similar ao CVA.
O corpus de pesquisa continha 2.041 redações submetidas ao CET – College English Test –,
um exame de larga escala aplicado na China que avalia a proficiência na língua inglesa. Esse corpus
foi dividido em três subconjuntos: 30% treino, 30% desenvolvimento e 40% teste. O escore calculado
pela abordagem foi comparado à nota total das redações através de um gráfico de linhas, onde os
autores constataram que o escore calculado para as melhores redações foi mais alto que o calculado
para redações abaixo da média. Além dessa constatação, a abordagem proposta não passou por outras
formas de validação.
3.1.4 Persing e Ng (2014)
Persing e Ng (2014) abordam o problema de estimativa de pertinência ao tema em redações
de estudantes. Os autores utilizaram regressão SVM linear, criando um modelo de predição específico
para cada proposta temática. Os valores previstos variaram no intervalo de um (fuga completa ao
tema) a quatro (pertinência consistente ao tema). Os atributos extraídos e utilizados na regressão
linear foram obtidos através das abordagens descritas a seguir.
55
1. Random Indexing (baseline): Um modelo de Random Indexing treinado no corpus English
Gigaword, com mais de 30 milhões de palavras, foi aplicado à análise de similaridade textual
computando-se as similaridades entre:
• a redação e o texto do enunciado;
• as sentenças da redação e o texto do enunciado (maior valor encontrado);
• a redação e as sentenças do enunciado (maior valor encontrado);
• a redação e as sentenças do enunciado (maior valor encontrado);
• as sentenças da redação e as do enunciado (maior valor encontrado);
• a redação e uma versão manualmente reescrita do enunciado.
2. N-grams: Presença dos 10.000 uni, bi e trigramas lematizados mais relevantes.
3. Palavras-chave de clareza: Similaridade entre a redação e grupos de palavras-chave de clareza
do enunciado que foram manualmente definidas conforme a abordagem descrita por Persing e Ng
(2013 apud PERSING; NG, V., 2014).
4. Palavras-chave de aderência ao tema: Similaridade entre a redação e grupos de palavras-chave
manualmente definidas com objetivo de representar os principais conceitos esperados.
5. Tópicos LDA: Um modelo LDA de 1.000 dimensões (ou tópicos) foi construído a partir de um
grande conjunto de redações submetidas à proposta temática. Em seguida, as redações foram
transformadas em um vetor com 1.000 valores, que representam os tópicos abordados na redação. Os
valores desse vetor foram utilizados como atributos na regressão linear.
6. Tópicos LDA manualmente anotados: Um segundo modelo LDA de 100 dimensões foi
construído de modo similar ao primeiro, exceto que para cada um dos 100 tópicos foram verificadas
as dez palavras mais relevantes e anotou-se manualmente um peso de 0 a 5, referente à sua aderência
ao tema.
7. Erros previstos de clareza da tese: Um conjunto de atributos binários que indicam a presença
dos erros de clareza descritos por Persing e Ng (2013 apud PERSING; NG, V., 2014) e incluem
problemas relacionados à confusão na elaboração de frases, resposta à proposta incompleta, detalhes
faltantes e falta de posicionamento do autor. Um classificador foi criado a partir de um conjunto de
56
redações previamente anotadas quanto a esses problemas para que então eles pudessem ser previstos
no corpus de pesquisa.
O corpus de pesquisa utilizado continha 830 redações argumentativas em 13 temas
selecionadas a partir do International Corpus of Learner English, originalmente com mais de 6.000
redações. Cada redação teve uma nota de pertinência ao tema atribuída por dois avaliadores no
intervalo [1, 4]. Os autores ressaltam que a correlação linear entre essas notas foi baixa (0.243), mas
em 89% dos casos as duas notas diferenciaram no máximo em um ponto. Das 830 redações, 443
tinham adequação ao tema excelente (nota quatro) e as outras 387 receberam notas de dois a três
pontos e meio. Nenhuma das redações do corpus de pesquisa teve nota menor que dois para a
adequação ao tema, isto é, nenhuma redação com fuga total ao tema foi identificada.
Os autores utilizaram validação cruzada 5-fold, dividindo o corpus de pesquisa em três
subconjuntos: 60% treino, 20% desenvolvimento e 20% teste. Os resultados encontrados pelos
autores indicam um avanço significativo em comparação ao modelo baseline que utilizava apenas os
índices de similaridade extraídos com Random Indexing. Os resultados encontrados foram: 48,8% de
predições erradas; 0.348 de erro médio; 0.197 de erro quadrático médio; e correlação linear 0.360.
Através da remoção recursiva das variáveis utilizadas na regressão linear, os autores
identificaram as características mais relevantes em seu contexto de estudo pelo impacto de sua
remoção nas métricas de desempenho. Constatou-se que as variáveis mais impactantes no
desempenho foram n-gramas, palavras-chave de clareza e tópicos LDA manualmente anotados; as de
impacto mediano foram Random Indexing e tópicos LDA automáticos; e as de impacto menor foram
a palavras-chave de aderência ao tema e os erros previstos de clareza da tese.
Em contato com os autores foi obtida uma relação com o número de redações por tema do
corpus da pesquisa. O número de redações de cada tema variou de 1 a 237, sendo que apenas três
temas tiveram menos de 20 redações. Os autores justificaram que esses números “estranhos” se
devem porque, durante a amostragem inicial e anotação das redações do corpus de aprendizes da
língua inglesa utilizado, ainda não havia a intenção de tratar especificamente o problema de aderência
ao tema. Os autores treinaram para cada tema um modelo de regressão linear e conjuntos com número
pequeno de redações podem ter apresentado pior desempenho. Contudo, não foi realizada uma análise
da influência do tamanho do conjunto de treino nos resultados. Ainda, apesar da abordagem
57
inicialmente considerar a possibilidade de tratar a detecção de redações com fuga ao tema, vale
ressaltar que o corpus de pesquisa não continha redações nessa situação.
3.1.5 Chen e Zhang (2016)
Chen e Zhang (2016) tratam o problema de detecção de fuga ao tema com objetivo de
aprimorar o aplicativo comercial E-rater®, utilizado pela ETS – Educational Testing Service –, uma
das maiores organizações privadas de exames educacionais sem fins lucrativos. Os autores
investigaram meios de detectar redações que fogem ao tema sem a necessidade de um conjunto de
treino, que nem sempre está disponível em cenários reais.
Primeiramente, os autores avaliaram a efetividade do sistema atualmente usado pelo aplicativo
E-rater® para detecção de redações com fuga ao tema: a proposta de Higgins, Burstein e Attali (2006),
mais especificamente a abordagem denominada Modelo CUT – descrita na Seção 3.1.1. Em segundo
lugar, buscou-se identificar variáveis relevantes para viabilizar o aprimoramento do sistema atual de
detecção de redações com fuga ao tema. Para isso, as redações com e sem fuga ao tema foram
divididas em dois grupos, foi calculada a média e desvio padrão de algumas características das
redações para cada grupo e verificou-se o tamanho do efeito com o d de Cohen. As características
avaliadas foram:
a. número de caracteres, palavras e sentenças;
b. número de palavras únicas;
c. similaridade com o enunciado da proposta temática utilizando CVA;
d. organização;
e. variedade das sentenças.
A organização das redações foi caracterizada através da presença de elementos discursivos
específicos relacionados à introdução, declaração da tese, ideias de suporte e conclusão, enquanto
que a variedade das sentenças foi mensurada de modo a representar a heterogeneidade das sentenças
da redação.
O corpus de pesquisa é o mais extenso dos trabalhos analisados, com cerca de 800.000
redações pertencentes a quatro propostas temáticas. Esse corpus foi construído a partir de redações
selecionadas aleatoriamente de dois exames de larga escala: um vestibular e um teste de proficiência
58
na língua inglesa. Desse montante de redações, foram selecionados 28.578 casos reais de fuga ao
tema. O mesmo número de redações sem fuga ao tema foi selecionado para compor o conjunto de
exemplos negativos de fuga ao tema.
Como resultado da primeira parte do experimento, onde foi avaliada a abordagem de Higgins,
Burstein e Attali (2006) para detecção de redações com fuga ao tema, os autores obtiveram 100% de
precisão. A taxa de recall, no entanto, variou entre 2,2% a 18,1%, totalizando um valor-F de 4,4% a
30,7%. Isto significa que apesar de a abordagem ter conseguido detectar com sucesso a fuga ao tema
em várias redações, ainda existe um grande número de redações com fuga ao tema que não foram
corretamente classificadas. As características das redações avaliadas na segunda parte do experimento
se mostraram potencialmente úteis à tarefa de detecção de redações com fuga ao tema, com isso os
autores sugerem a sua aplicação em trabalhos futuros.
Uma das limitações desse trabalho foi a desconsideração da relação entre as variáveis
estudadas e os vários tipos de fuga ao tema, sendo que todas as redações do corpus de pesquisa foram
agrupadas em uma só classe. Considerando a divisão de redações com fuga ao tema nas categorias (i)
“tema inesperado” e (ii) “tentativa deliberada de fraude/má-fé” apresentada em (HIGGINS;
BURSTEIN; ATTALI, 2006), sugerimos que as características a, b, d e e sejam mais pertinente ao
problema (ii), enquanto que apenas a característica c trate especificamente o problema (i).
Vale destacar também que, em um conjunto de testes com exemplos artificiais de redações
com fuga ao tema, Higgins, Bustein e Attali (2006) obtiveram resultados diferentes usando o Modelo
CUT para o problema (i) (FP 6,8% e FN 22,9%). Com isso, o grande número de redações com fuga ao
tema não detectadas no experimento pode estar relacionado a redações bem escritas e bem
estruturadas, no entanto que não se adequam à proposta temática. Nesta pesquisa, foi tratado
especificamente esse problema (i). Essa situação também evidencia a importância do uso de conjuntos
reais de fuga ao tema, confirmando que os resultados obtidos com conjuntos artificiais de redações
com fuga ao tema podem divergir de maneira significativa dos encontrados em cenários reais.
3.2 TRABALHOS SIMILARES
Nesta seção são apresentados trabalhos similares, cuja abordagem pode contribuir com a
pesquisa. Esses trabalhos não foram encontrados na execução do protocolo de busca da revisão
sistemática da literatura, mas foram considerados por apresentar uma proposta pertinente à tarefa de
59
detecção de redações com fuga ao tema. Esses trabalhos podem ser encontrados na biblioteca digital
ACL Anthology15, que não foi considerada como fonte de busca da revisão sistemática da literatura
por não possuir um mecanismo de pesquisa por título, resumo e palavras-chave.
3.2.1 Klebanov, Flor e Gyawali (2016)
Klebanov, Flor e Gyawali (2016) avaliam o uso de índices de pertinência ao tema para
melhorar a performance de um corretor automático de redações. Os autores utilizaram dois corpora
no experimento: um privado com 82.500 redações de 76 temas submetidas a um exame universitário
de grande escala nos EUA e outro público com 12.100 redações submetidas ao TOEFL em 8
propostas temáticas por falantes não nativos da língua inglesa.
Inicialmente, os autores calcularam índices de pertinência ao tema para cada palavra presente
nas redações, partindo da premissa que a pertinência ao tema de uma palavra p em um tema T está
relacionada à ocorrência de p mais em textos do tema T que em textos de outros temas.
Para avaliar a pertinência de um texto a um tema, Klebanov, Flor e Gyawali (2016) destacam
duas abordagens: sumarizar a pertinência individual de todas as palavras (tokens) ou somente das
palavras únicas (types). Dadas as sentenças “Eu odeio restaurantes, detesto restaurantes, sou avesso
a restaurantes e amo restaurantes” e “Eu odeio restaurantes, detesto garçons, sou avesso a menus e
amo comida”, qual tem maior cobertura do tópico “restaurante”? Numa abordagem com tokens seria
a primeira, enquanto que com types seria a segunda, que aborda mais aspectos de um restaurante
(KLEBANOV; FLOR; GYAWALI, 2016).
Os autores avaliaram três modelos para geração do vocabulário do tema, onde a cada palavra
foi atribuído um grau de pertinência ao tema: (i) o teste de significância de Lin e Hovy (2000 apud
KLEBANOV; FLOR; GYAWALI, 2016); (ii) a abordagem denominada “Modelo B” por Higgins,
Burstein e Attali (2006) (descrita na Seção 3.1.1); e (iii) uma nova abordagem simples baseada na
diferença das probabilidades de ocorrência da palavra dentro e fora do tema. O modelo (i) derivou
três submodelos: (a) o primeiro gerando um valor contínuo de pertinência ao tema no intervalo [0, 1];
(b) o segundo gerando um valor binário considerando palavras que atingissem o valor de significância
0.001; e (c) uma versão mais permissiva de (b), admitindo palavras dentro do limite de significância
15 http://aclanthology.info/
60
0.05. O modelo (iii) é a nova abordagem proposta e consiste na verificação da frequência de uma
palavra mais em redações do mesmo tema que de outro tema, produzindo um índice binário.
Os autores estudaram formas de agregar os índices de adequação ao tema calculados para cada
palavra em um único valor, referente ao texto. As métricas foram ajustadas para consideração de
todas as palavras da redação (tokens) ou somente as palavras únicas (types).
O tamanho de uma redação é uma boa característica preditiva de sua nota, como já mostrado
por Ellis Page (1968) em sua pesquisa pioneira sobre correção automática de redações. Em um dos
conjuntos do experimento dos autores, foi possível constatar correlação linear 0.65 entre o tamanho
da redação e a sua nota geral. No entanto, considerando apenas palavras únicas, foi observado que
quanto maior a redação, menor o índice de pertinência ao tema calculado, pois menor a chance de
uma nova palavra pertencer ao tema. Com isso, os autores escalonaram o resultado com a função log.
Por fim, quatro modelos diferentes de agregação foram testados para considerar todas essas variações
(tokens x types e escalonado x não escalonado).
Os autores verificaram que o índice binário de pertinência ao tema por palavra teve resultado
melhor que o índice contínuo. Ressalta-se, então, que classificar palavras como pertencentes ou não
ao tema é um método mais efetivo que estimar um grau de pertinência: “uma vez que a palavra tem
uma boa aderência ao tema, não importa quão boa é essa aderência” (KLEBANOV; FLOR;
GYAWALI, 2016, p. 67, tradução nossa). Os autores também constataram que, nos seus corpora de
pesquisa, a contabilização escalonada de palavras únicas (types) e de seus índices de pertinência ao
tema apresentou resultados melhores que a contabilização de todas as palavras (tokens).
Comparando os 20 modelos gerados e os índices de desempenho obtidos, os autores
concluíram que o modelo (iii), baseado em palavras únicas e com escalonamento teve os melhores
resultados. Com isso, procedeu-se à segunda etapa do estudo, onde esse modelo foi aplicado na tarefa
de atribuir uma nota holística às redações utilizando também várias características relacionadas à
qualidade da escrita em um modelo de regressão linear, e.g. tamanho médio, número e frequência das
palavras, complexidade das sentenças, artigos faltantes etc.
Vale destacar que os autores se limitaram a avaliar a relação entre os índices de pertinência
computados e as notas gerais atribuídas às redações. Não foi utilizado um corpus com nota específica
de pertinência ao tema atribuída por humanos, tampouco foi tratada a detecção de redações com fuga
61
ao tema em uma amostra de exemplos positivos. Contudo, haja vista o foco das abordagens
apresentadas na análise de pertinência ao tema em redações, esse trabalho foi selecionado para
aplicação ao corpus desta pesquisa e comparação às outras abordagens da literatura.
3.2.2 Rei e Cummins (2016)
Rei e Cummins (2016) investigaram a tarefa de estimar a pertinência ao tema de redações ao
nível de sentença. Mais especificamente, o trabalho visou um mecanismo para destacar partes do
texto que requerem atenção quanto à pertinência ao tema. Os autores avaliam os seguintes modelos
de vetorização das sentenças e do enunciado da proposta temática: (a) CVA; (b) um modelo
Word2Vec pré-treinado na variante CBOW; (c) uma adaptação de (b) aplicando a função IDF para
reduzir o peso de palavras muito frequentes em outro corpus; (d) uma rede neural Skip-Thoughts que
aprende uma função de composição de vetores de múltiplas palavras em um único vetor (da sentença);
e (e) uma nova abordagem denominada Weighted-Embeddings, adaptação de (b), que atribui peso às
palavras de modo similar a (c), exceto que usa um modelo de aprendizado não supervisionado
inspirado na rede neural Skip-Thoughts para gradualmente ajustar os pesos das palavras. O cosseno
do ângulo foi utilizado como métrica de similaridade entre os vetores das sentenças e dos temas.
Foram utilizados dois corpora públicos de redações de aprendizes da língua inglesa: (i) um
com 30.899 sentenças, pertencentes a 60 propostas temáticas, extraídas do conjunto First Certificate
in English; e (ii) outro com 20.883 sentenças, de 13 propostas temáticas, extraídas do International
Corpus of Learner English, o mesmo subconjunto utilizado por Persing e Ng (2014) e apresentado
na Seção 3.1.4. Haja vista que as sentenças desses corpora não tinham anotação quanto à sua
pertinência ao tema, os autores criaram conjuntos artificiais de sentenças com fuga ao tema utilizando
redações de temas diferentes do original. As variáveis extraídas das redações foram utilizadas em um
classificador para, dada uma sentença, gerar um ranking das propostas temáticas mais prováveis.
Os autores constataram que o simples cálculo da sobreposição de palavras com a função TF–
IDF (modelo a) atingiu o melhor resultado no corpus (i), onde o enunciado era bastante detalhado,
com média de 107 palavras. Por outro lado, no corpus (ii), onde o enunciado era pouco explicativo,
com média de 19 palavras, a nova abordagem (e) apresentou o melhor resultado. A acurácia e rank
recíproco médio dos modelos mencionados foi, respectivamente, 37,2% e 47,0% no corpus (i) e
51,5% e 65,4% no corpus (ii).
62
Os resultados dos autores ressaltam a vantagem no uso de um modelo de análise semântica
distribucional sobre os modelos baseados em palavras exatas (CVA) em cenários com número
reduzidos de palavras para comparação. Um dos fatores que contribuem com essa vantagem é a
capacidade de generalização dos modelos distribucionais ao considerar palavras que ocorrem em
contextos semelhantes na análise de similaridade, não se restringindo a combinações exatas ao nível
da superfície textual.
3.3 ANÁLISE COMPARATIVA
As abordagens apresentadas na literatura existente para tratar a tarefa de detecção de fuga ao
tema utilizam diversas técnicas de processamento de linguagem natural, análise semântica, estimativa
probabilística e aprendizado de máquina. Verificou-se também que na maior parte dos trabalhos
revisados foram avaliadas abordagens diversas, utilizando diferentes técnicas, a fim de se obter os
melhores resultados para um ou mais corpora de pesquisa.
As técnicas aplicadas na literatura são apresentadas no Quadro 4 agrupadas em três categorias:
(i) análise probabilística superficial, incluindo técnicas que extraem características relacionadas à
superfície textual e estimativas de probabilidade (ex. CVA e dicionário de ocorrências de palavras
em temas); (ii) análise semântica, uma categoria que inclui modelos de similaridade textual baseados
em tesauro (WordNet e Word Association Norm) e corpus (LDA, RI e palavras similares por
distribuição de Louis e Higgins, 2010); e (iii) aprendizado de máquina, referente ao uso de regressão
linear e SVM para apoiar a estimativa de adequação ao tema.
Quadro 4. Técnicas de análise textual utilizadas nos trabalhos relacionados
Identificação
Análise
probabilística
superficial
Análise
semântica
Aprendizado de
máquina
Higgins, Burstein e Attali (2006) Sim Não Não16
Louis e Higgins (2010) Sim Sim Não
Li e Yan (2012) Sim Não Sim
Persing e Ng (2014) Sim Sim Sim
Chen e Zhang (2016) Sim Não Não
Klebanov, Flor e Gyawali (2016) Sim Não Sim
Rei e Cummins (2016) Sim Sim Não
16 Os modelos A, B e CUT propostos por Higgins, Burstein e Attali (2006), considerados na classificação do Quadro 4,
não utilizam aprendizado de máquina. No entanto, vale destacar que o modelo CBF, também descrito no artigo, utiliza
SVM não linear para auxiliar na classificação de redações com tentativa deliberada de fraude/má-fé.
63
As técnicas e recursos de análise semântica utilizados nos trabalhos relacionados são
apresentados no Quadro 5, onde se pode verificar que as técnicas não se repetem em trabalhos
diferentes. Vale destacar que apenas os trabalhos que aplicam técnicas de análise semântica,
identificados no Quadro 4, são listados no Quadro 5.
Quadro 5. Técnicas e recursos de análise semântica utilizados nos trabalhos relacionados
Identificação Word2Vec LDA RI WordNet Palavras
associadas
Palavras
dis. sim.
Louis e Higgins (2010) Não Não Não Sim Sim Sim
Persing e Ng (2014) Não Sim Sim Não Não Não
Rei e Cummins (2016) Sim Não Não Não Não Não
A detecção de redações com fuga ao tema pode ser vista como uma tarefa de verificação do
desvio do conteúdo de uma redação em relação ao enunciado da proposta temática. Um conjunto de
redações submetidas à mesma proposta também pode ser usado, no entanto nem sempre esse conjunto
está disponível em cenários reais. Alguns autores utilizam como referência a similaridade do texto da
redação em relação a enunciados e redações de outros temas. No Quadro 6 são apresentadas as
abordagens avaliadas na literatura em relação à composição do corpus de treino ou desenvolvimento.
A composição desse conjunto é especialmente relevante à aplicação de um sistema de detecção de
redações com fuga ao tema em um cenário real, haja vista que especifica que tipos de dados são
necessários para que o sistema funcione.
Quadro 6. Composição do corpus de treino utilizado nos trabalhos relacionados
Identificação Abordagem Enunciado
do Tema
Enunciado
de Outro
Tema
Redações
do Tema
Redações
de Outro
Tema
Higgins, Burstein e Attali
(2006)
Modelo A Sim Não Sim Não
Modelo B Não Não Sim Sim
Modelo CUT Sim Sim Não Não
Louis e Higgins (2010) Modelo CUT’ Sim Sim Não Não
Li e Yan (2012) Proposta Sim Não Sim Não
Persing e Ng (2014) Baseline Não Não Sim Não
Proposta Sim Sim Sim Não
Chen e Zhang (2016) Modelo CUT’’ Sim Sim Sim Não
Klebanov, Flor e Gyawali
(2016)
LH Não Não Sim Sim
Modelo B Não Não Sim Sim
Proposta Não Não Sim Sim
Rei e Cummins (2016) Proposta Sim Não Não Não
64
A coluna “Abordagem” foi inserida no Quadro 6 para identificar a qual das abordagens do
trabalho se referem as informações apresentadas na linha. As abordagens de Louis e Higgins (2010)
e Chen e Zhang (2016) foram nomeadas Modelo CUT’ e Modelo CUT’’ por estenderem a abordagem
de mesmo nome de Higgins, Burstein e Attali (2006), a primeira aplicando técnicas de expansão do
enunciado do tema e a segunda adicionando características linguísticas da redação.
Os corpora utilizados nos trabalhos relacionados possuem número médio de redações por tema
bastante superior ao do corpus utilizado neste trabalho, como pode ser observado no Quadro 7. O
trabalho mais próximo ao pretendido por esta proposta – quanto a este número – é o de Persing e Ng
(2014), com média de 63 redações por proposta temática, e três das 830 propostas tendo menos de 20
redações. Ressalta-se que apesar de Persing e Ng (2014) terem proposto uma abordagem
potencialmente capaz de detectar redações com fuga ao tema, seu corpus de pesquisa não continha
redações nessa situação e, portanto, tal hipótese não foi verificada. As informações que não estão
presentes nos artigos revisados e que não puderam ser obtidas através de contato pelos autores por e-
mail são apresentadas com o marcador “?” nesse quadro.
Quadro 7. Tamanho dos corpora utilizados nos trabalhos relacionados
Identificação Nº de redações Nº de temas Nº de redações/tema
Higgins, Burstein e Attali (2006)17 8.000 36 ~225
Louis e Higgins (2010) 2.450
?
7
3
350
?
Li e Yan (2012) 2.041 ? ?
Persing e Ng (2014) 830 13 ~63
Chen e Zhang (2016) 57.176 4 776 – 48.488
Klebanov, Flor e Gyawali (2016)18 82.500
12.100
76
8
~1085
~253 – 760
Rei e Cummins (2016)19 ?
?
60
13
?
?
Este trabalho 2.164 111 19-20
17 Higgins, Burstein e Attali (2006) também usaram um corpus com 3.138 redações para detecção de redações com cópia
do texto motivador e parte deliberadamente desconectada do texto. Esse corpus não foi considerado no Quadro 7 por
desviar do escopo desta pesquisa. 18 Klebanov, Flor e Gyawali (2016) utilizaram dois corpora: um proprietário (82.500 redações) e um público (12.100
redações). 19 Rei e Cummins (2016) descrevem dois corpora de pesquisa: um com 30.899 sentenças de redações de 60 temas e outro
com 20.883 sentenças de redações de 13 temas. O número de redações nesses corpora, no entanto, não foi especificado.
65
As métricas de desempenho utilizadas nas pesquisas revisadas são apresentadas no Quadro 8.
Os autores Li e Yan (2012) avaliaram o resultado de sua abordagem através de um gráfico onde se
mostrava a relação entre o valor de pertinência ao tema estimado e o atribuído pelos avaliadores,
sendo possível verificar, visualmente, boa relação entre os valores. Li e Yan (2012), no entanto, não
utilizaram uma métrica numérica, por isso não são mencionados no Quadro 8. As abordagens
avaliadas por Klebanov, Flor e Gyawali (2016) e Rei e Cummins (2016) não foram aplicadas à
detecção de redações com fuga ao tema, portanto também são omitidas no Quadro 8.
Quadro 8. Métricas de desempenho utilizadas em pesquisas sobre detecção automática de fuga ao
tema
Identificação % FP e
% FN % PE
Precisão,
Recall e
Valor-F
EMA, EQM,
r
Higgins, Burstein e Attali (2006) Sim Não Não Não
Louis e Higgins (2010) Sim Não Não Não
Persing e Ng (2014) Não Sim Não Sim
Chen e Zhang (2016) Não Não Sim Não
Este trabalho Sim Sim Sim Não
A métricas % FP (taxa de falsos positivos), % FN (taxa de falsos negativos), precisão, recall,
valor-F e % PE (predições erradas) são similares, uma vez que todas podem ser extraídas de uma
matriz de confusão. No entanto, cada uma dessas métricas tem aplicações específicas e é mais ou
menos aderente a diferentes cenários.
Em um sistema em produção, é preferível se ter uma baixa taxa de falsos positivos, o que
significa um número menor de redações dentro do tema classificadas como se estivessem fora
(HIGGINS; BURSTEIN; ATTALI, 2006). Com essa premissa, Higgins, Burstein e Attali (2006)
avaliaram um intervalo de valores delimitadores para seus modelos A, B e CUT para balancear a taxas
% FP e % FN resultantes, priorizando um valor baixo de % FP. O trabalho de extensão de Louis e
Higgins (2010) também se restringiu a essa escolha de métricas de desempenho.
Persing e Ng (2014) tratam a tarefa de estimar a aderência ao tema de redações, onde o valor
previsto estava no intervalo [1, 4]. As métricas EMA (erro médio absoluto), EQM (erro quadrático
médio) e correlação linear (r) são comumente utilizadas em tarefas de estimativa, onde o valor de
saída é contínuo. Essas métricas, contudo, não são aplicáveis a tarefas de classificação, como a
detecção de redações com fuga ao tema através de classificação binária.
66
Os resultados alcançados nos trabalhos relacionados são apresentados no Quadro 9
considerando os índices de desempenho obtidos. O termo “fuga ao tema” não é tratado do mesmo
modo em todos os trabalhos. Em alguns casos, são consideradas apenas redações bem escritas e bem
estruturadas, mas que não abordam o tema proposto (TI, tema inesperado). Em outros, consideram-
se também as redações mal escritas ou estruturadas e as com tentativa deliberada de fraude (MF, má
fé). No Quadro 9 essa característica foi anotada na coluna “Abrang.”.
Quadro 9. Resultados alcançados em pesquisas sobre detecção automática de fuga ao tema
Identificação Abordagem Resultado Abrang.
Higgins, Burstein e
Attali (2006)
Modelo A FP: 5.0% | FN: 30-38.0% TI e MF
Modelo B FP: 4.7% | FN: 16.8-28.2% TI e MF
Modelo CUT FP: 6.8% | FN: 22.9% TI
Louis e Higgins (2010) Melhor FP: 1.47-9.02% | FN: 9.02-11.97% ?
Persing e Ng (2014) Proposta PE: .488 | EMA: .348 | EQM: .197 | r: .360 ?
Chen e Zhang (2016) Proposta Prec.: 100% | Recall: 2.2-18.1%
Valor-F: 4.4%-30.7%
?
Nos estudos onde a aderência ao tema foi tratada como uma tarefa de classificação binária
(dentro ou fora do tema), as taxas de precisão e recall variaram no intervalo 2.2-38%. Isso significa
que as abordagens propostas ainda não conseguem detectar uma quantidade considerável de redações
com fuga ao tema do conjunto avaliado. De modo similar, no estudo realizado por Persing e Ng
(2014), onde modelos de regressão foram construídos para predizer um valor contínuo, uma taxa alta
de predições erradas foi encontrada (48,8%) e uma correlação linear fraca a moderada (.360).
As redações com fuga ao tema são diversas: enquanto algumas apresentam muita informação
copiada do enunciado da proposta, outras sequer abordaram o tema esperado. Com isso, as diversas
propostas apresentadas na literatura para classificação de redações com fuga ao tema podem ser mais
ou menos adequado para cada tipo de fuga ao tema. A análise dos resultados com atenção à cada tipo
de problema permite uma avaliação mais precisa do modelo, no entanto demanda um conjunto de
dados anotado.
O Apêndice C apresenta uma versão resumida dos quadros 6 e 8 visando facilitar uma análise
comparativa dos trabalhos encontrados na revisão do estado da arte e esta pesquisa.
67
3.4 CONSIDERAÇÕES
Neste capítulo foi apresentado o estado da arte sobre detecção de fuga ao tema em redações.
Foram apresentadas as técnicas e recursos, os corpora e os resultados de performance encontrados na
literatura. Os resultados encontrados apontam algumas lacunas e deficiências nas abordagens
existentes, entre elas: (i) a alta taxa de erros encontradas nos experimentos; (ii) o uso frequente de
conjuntos artificiais para validação, o que pode causar resultados inconsistentes com os que seriam
obtidos em um cenário real; (iii) na maior parte das pesquisas, o tratamento de redações com fuga ao
tema sem distinção, como por exemplo pelos tipos tema inesperado e tentativa deliberada de
fraude/má-fé; e (iv) a ausência de trabalhos voltados à língua portuguesa.
Os estudos revisados empregam diferentes técnicas e recursos para análise probabilística
superficiais, análise semântica e aprendizado de máquina. Na maior parte dos trabalhos, os resultados
obtidos com uma nova abordagem não são comparados com a literatura. Ainda, alguns trabalhos
utilizam exclusivamente corpora de redações privados, o que dificulta a comparação dos resultados
com trabalhos posteriores. Nos casos onde se obteve uma amostragem aleatória de um corpus público
de redações, também há dificuldade de comparar trabalhos diferentes, a não ser que o autor reutilize
o mesmo conjunto já praticado em outro trabalho.
Nesse cenário, uma das contribuições desta pesquisa é a aplicação e comparação das várias
abordagens presentes na literatura em um único conjunto de redações. O capítulo a seguir apresenta
os procedimentos metodológicos aplicados nesta pesquisa a fim de viabilizar a comparação das
abordagens existentes em redações escritas na língua portuguesa.
68
4 DESENVOLVIMENTO
Este capítulo descreve os métodos e materiais utilizados no estudo comparativo. A Seção 4.1
descreve os procedimentos realizados para a coleta dos dados e composição do corpus da pesquisa.
A Seção 4.2 apresenta detalhes da implementação dos algoritmos relativos às abordagens existentes
na literatura para detecção de fuga ao tema em redações, com adaptações à língua portuguesa. Na
Seção 4.3 é apresentado o método de validação aplicado no estudo comparativo. Por fim, na Seção
4.4 são apresentadas algumas considerações sobre este capítulo.
4.1 COLETA DOS DADOS
As redações do corpus de pesquisa estão disponíveis publicamente no portal UOL Educação20.
Em contato com a instituição provedora não foi possível obter as redações em um formato estruturado,
mas foi concedida licença para uso dos dados nesta pesquisa. Com isso, procedeu-se à criação de um
web crawler (rastreador web) para interpretar as páginas em linguagem HTML do site e recuperar as
redações. No processo de extração foram obtidos:
• a URL;
• o texto original;
• o texto corrigido;
• o enunciado e os textos motivadores da proposta temática;
• a nota final;
• as notas por critério;
• para as redações mais recentes, os comentários do avaliador, incluindo os erros gramaticais e
ortográficos anotados.
As informações recuperadas foram armazenadas em um arquivo estruturado no padrão XML.
O web crawler mencionado e o arquivo XML com as informações extraídas foram disponibilizados
ao público21 visando auxiliar tanto a reprodução desta pesquisa quanto a realização de outros
trabalhos sobre avaliação automática de escrita.
Considerando as necessidades do presente estudo, a partir do arquivo extraído foi criado um
subconjunto com as seguintes informações: identificação (URL), texto original, enunciado da
20 https://educacao.uol.com.br/bancoderedacoes/ 21 https://github.com/gpassero/uol-redacoes-xml
69
proposta temática e indicador de fuga ao tema. Este último item foi anotado manualmente com
objetivo de compor uma amostra de casos reais de fuga ao tema. O procedimento adotado para
identificar as redações com fuga ao tema é descrito na subseção seguinte.
Procedimento para Identificação de Redações com Fuga ao Tema
Haja vista que as redações do corpus de pesquisa foram corrigidas de acordo com os critérios
do ENEM, poderiam ser consideradas como possíveis casos de fuga ao tema apenas as redações
anuladas, isto é, com nota zero em todas as competências. Tentou-se esse preceito inicialmente, onde
se verificou a presença de várias redações com fuga ao tema mencionada nos comentários do
avaliador, mas com nota maior que zero, isto é, a redação não foi anulada pela equipe de avaliadores
da UOL apesar da fuga ao tema.
Em contato com o atual responsável pelo banco de redações da UOL, Antonio Carlos Olivieri,
obteve-se a informação de que nem sempre as redações com fuga ao tema são anuladas em vista do
objetivo principal do portal, que é ajudar estudantes a aperfeiçoar sua escrita. Ainda segundo o
responsável, em um cenário real, como no ENEM, tais redações estariam sujeitas à anulação. Abaixo
é apresentado um exemplo de comentário do avaliador sobre uma redação onde se alerta sobre a fuga
ao tema. Vale destacar que esse comentário se refere a uma redação com nota maior que zero em
todas as competências, exceto a 2 – que possui relação com a adequação ao tema.
Este é um texto que, embora bem escrito, foge ao tema da redação. Pediu-se para o estudante
argumentar se a nova lei é autoritária ou é obrigação do governo. Não foi pedido um texto para expor os males do cigarro para fumantes ativos e passivos. No último parágrafo, fala-se
apenas que há “iniciativa do governo”. Em casos como este, as redações de exames de seleção
são anuladas. Sugerimos grande atenção para não escapar ao tema. (excerto a, grifo nosso) 22
Ao analisar o corpus de pesquisa, verificou-se que algumas redações com nota zero na
competência 2 estão aderentes ao tema, mas não atendem ao tipo textual solicitado. Abaixo é
apresentado um exemplo de comentário acerca de uma redação com esse problema.
[...] não é uma carta convite e, portanto, não cumpre a proposta. Em termos de linguagem,
apesar dos erros ou tropeços pontuais, tem o mérito de ser clara no geral. Apesar dos
problemas, contudo, existe uma argumentação sobre o tema. Os aspectos positivos
22 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u480.jhtm
70
permitiriam ao autor obter uma nota positivo [sic], não fosse o zero na competência 2.
(excerto b, grifo nosso) 23
Desse modo, com objetivo de identificar as redações com fuga ao tema no corpus de interesse,
foram filtradas as redações com nota zero na competência 2 do ENEM – “Compreender a proposta
de redação e aplicar conceitos das várias áreas de conhecimento para desenvolver o tema, dentro dos
limites estruturais do texto dissertativo-argumentativo em prosa” (BRASIL, 2017a, p. 15). Essa
competência trata não somente da adequação ao tema, mas também do atendimento do tipo textual.
Por isso, as redações obtidas com a aplicação do filtro foram revisadas manualmente a fim de
distinguir os exemplos positivos de fuga ao tema dos negativos. Essa revisão consistiu da análise dos
comentários dos avaliadores e, quando necessário, da análise do texto da redação. O procedimento
foi realizado por dois revisores e, para os casos de divergência, um terceiro revisor tomou a decisão
final quanto à classe da redação.
Na análise dos comentários dos avaliadores, constatou-se que em algumas redações o
avaliador argumenta que o estudante “não atendeu a proposta” ou “fugiu à proposta”, motivando a
nota zero na competência 2. Na análise desses casos, verificou-se que essa afirmação pode se referir
tanto à fuga ao tema, quanto ao não atendimento da estrutura textual exigida (como no caso da carta
convite, mencionada no excerto b). Nesses casos, quando o tipo do problema não havia sido
especificado nos comentários, a redação foi lida na íntegra e, na ausência de qualquer argumentação
pertinente ao tema proposto, aplicou-se o rótulo de fuga ao tema. Por outro lado, quando em seus
comentários o avaliador deixou explícita a constatação de fuga ao tema (como no excerto a), a redação
foi marcada como caso real de fuga ao tema sem a leitura do texto da redação.
Após a coleta dos dados, procedeu-se à implementação dos algoritmos a serem comparados.
4.2 IMPLEMENTAÇÃO DOS ALGORITMOS
Esta seção apresenta detalhes sobre a implementação dos algoritmos referentes às abordagens
existentes na literatura para detecção de redações com fuga ao tema. A implementação desses
algoritmos foi necessária para viabilizar o estudo comparativo. Haja vista que o corpus de pesquisa
está escrito na língua portuguesa, foram realizadas adaptações nas abordagens existentes,
23 https://educacao.uol.com.br/bancoderedacoes/redacoes/e-realmente-uma-escolha.htm
71
originalmente propostas tendo em vista a língua inglesa. As abordagens também foram adaptadas à
tarefa de classificação binária.
Os algoritmos são de agora em diante identificados através de uma sigla contendo a
concatenação da primeira letra do sobrenome dos autores. No caso de autores que apresentaram mais
de uma variante para tratar o problema, à identificação do algoritmo foi adicionada uma ou mais letras
para distinguir a variante. O Quadro 10 apresenta as siglas adotadas para identificação dos algoritmos.
Quadro 10. Identificação dos algoritmos implementados
Identificação do Trabalho Variante Identificação do Algoritmo (Sigla)
Higgins, Burstein e Attali (2006)
Modelo A HBA-A
Modelo B HBA-B
Modelo CUT HBA-C
Louis e Higgins (2010)
Derivações LH-D
Sinônimos LH-S
Palavras associadas LH-A
Derivações +
Palavras associadas
LH-DA
Li e Yan (2012) - LY
Persing e Ng (2014) - PN
Chen e Zhang (2016) - HBA-C
Klebanov, Flor e Gyawali (2016)
Teste de
significância
KFG-A
Modelo B HBA-B
Proposta KFG-B
Rei e Cummins (2016)
CVA RC-A
Word2Vec CBOW RC-B
Word2Vec CBOW
+ IDF
RC-C
Weighted-
Embeddings
RC-E
Os algoritmos de baseline apresentados em Persing e Ng (2014) e Klebanov, Flor e Gyawali
(2016) foram desconsiderados, haja vista que as abordagens propostas por esses autores estendem ou
superam esses algoritmos. A técnica de expansão de enunciados pelas palavras similares por
distribuição, utilizando a abordagem apresentada por Lin (1998 apud LOUIS; HIGGINS, 2010), não
foi implementada por demandar um parser de dependências textuais, ainda incipiente no cenário
brasileiro de PLN. Vale destacar também que neste estudo comparativo não foi considerado o modelo
(d) de Rei e Cummins (2016), descrito na Seção 3.2.2, pela sua complexidade de implementação e
72
por ter apresentado resultados muito inferiores a todos os outros modelos descritos pelos mesmos
autores.
Todos os algoritmos implementados tiveram alguma adaptação para viabilizar o estudo
comparativo. Essas adaptações se deram principalmente devido à diferença da linguagem natural alvo
dos estudos: este é focado na língua portuguesa, enquanto que as abordagens originais, descritas no
Capítulo 3, são aplicadas à língua inglesa. A implementação dos algoritmos, detalhada nas seções
seguintes, foi realizada utilizando a linguagem de programação Python na versão 3.5 e a biblioteca
NLTK na versão 3.2.2.
Corpora
O Quadro 11 apresenta os corpora empregados na implementação dos algoritmos. Esses
corpora são recursos externos representativos da língua portuguesa e, na adaptação dos algoritmos,
substituíram conjuntos similares da língua inglesa utilizados nas abordagens originais. O conjunto de
artigos publicados na Wikipédia em português (WIKIPÉDIA-PT) foi selecionado por representar uma
coleção vasta de documentos nos gêneros descritivo e informativo, enquanto que o conjunto
PORTAL-G1 foi selecionado para representar o gênero notícia. Esses conjuntos abrangem diversas
áreas do conhecimento e já foram utilizados em pesquisas anteriores nas áreas de processamento de
linguagem natural e análise semântica para representar a língua portuguesa (HARTMANN, 2016;
OLIVEIRA et al., 2015; PASSERO; HAENDCHEN FILHO; DAZZI, 2016).
Quadro 11. Corpora utilizados pelos algoritmos
Identificação Descrição Fonte
WIKIPÉDIA-PT Coleção de artigos da Wikipédia em
português.
https://dumps.wikimedia.org/ptwiki/
(versão de março/2017)
PORTAL-G124 Coleção de notícias extraídas do
Portal G1. (HARTMANN, 2016)
As seções seguintes, ao descreverem as adaptações nos algoritmos implementados,
referenciam os corpora identificados no Quadro 11 e indicam o conjunto substituído no estudo
original.
24 Esse conjunto foi utilizado na abordagem de análise semântica Solo Queue (HARTMANN, 2016), vencedora do
workshop ASSIN-PROPOR 2016, e foi concedido pelo autor para o propósito desta pesquisa.
73
CVA
Neste estudo, a implementação do algoritmo de CVA se baseou nos corpora WIKIPÉDIA-PT
e PORTAL-G1 para determinar a frequência de termos em documentos, necessária ao cálculo do peso
TF–IDF, enquanto que os algoritmos HBA-* e LH-* utilizaram a coleção de textos de notícias
TIPSTER (HARMANN, 1992 apud HIGGINS; BURSTEIN; ATTALI, Y., 2006) e o algoritmo RC-
A utilizou o British National Corpus25. Essa adaptação foi necessária porque as coleções de textos
originais estavam na língua inglesa. Os dois conjuntos – WIKIPÉDIA-PT e PORTAL-G1 – foram
selecionados para substituir as coleções originais por também possuir textos de temas variados e em
grande escala, o que ajuda a garantir a estabilidade das frequências extraídas de termos em
documentos (HIGGINS; BURSTEIN; ATTALI, 2006).
HBA
Os algoritmos HBA-A, HBA-B e HBA-C produzem valores contínuos para representar a
pertinência de uma redação ao tema proposto. No trabalho original, foram definidos, empiricamente,
valores delimitadores para indicar o intervalo de redações com fuga ao tema. Os valores tidos como
ótimos nos trabalhos originais, podem não apresentar o melhor resultado em outro corpus de pesquisa.
Com isso, nesta pesquisa, os algoritmos HBA-A, HBA-B e HBA-C foram adaptados para induzir os
valores delimitadores a partir de um conjunto de treino com redações do mesmo tema. O algoritmo
SVM linear foi escolhido para tratar esse problema, pois permite encontrar o valor delimitador que
produz a menor taxa de erros. Outra vantagem do algoritmo SVM linear nesse contexto é a
possibilidade de reduzir a taxa de falsos positivos (ou falsos negativos) ajustando o parâmetro de peso
das classes (HIGGINS; BURSTEIN; ATTALI, 2006).
LH
Os algoritmos LH-D, LH-S, LH-A e LH-DA são uma extensão de HBA-C com foco em
enunciados de tamanho curto. Esses algoritmos aplicam técnicas de expansão do enunciado a partir
de derivações, sinônimos e palavras associadas. Os enunciados do corpus de interesse, com média de
200±38 palavras, tem tamanho bastante superior aos utilizados no experimento de Louis e Higgins
25 O British National Corpus é uma coleção criada pela imprensa da Universidade de Oxford e possui textos de diversas
fontes, incluindo revistas, jornais e textos acadêmicos. Esse corpus está publicamente disponível no site
http://corpus.byu.edu/bnc/.
74
(2010) (média entre 9 e 13 palavras), destoando do foco em enunciados de tamanho curto. Mesmo
assim, esses algoritmos foram implementados para verificar o efeito nos resultados em relação ao
original HBA-C.
Para o algoritmo LH-D, foi implementado um gerador de variantes morfológicas de uma
palavra a partir de um conjunto de prefixos e sufixos presentes na língua portuguesa, encontrados na
obra de Marino (1980). Foram considerados 20 prefixos de origem grega (ex. ana, anti, hiper e meta),
44 prefixos de origem latina (ex. des, dis, inter e pré), 10 sufixos nominais aumentativos (ex. ão, alho
e eirão), 10 sufixos diminutivos (inho, zinho e ejo) e outros 49 sufixos que permitem formar palavras
em uma classe a partir de palavras de outra classe (ex. ar, que transforma o substantivo escola no
adjetivo escolar). Com isso, para cada palavra de um enunciado foi gerado um número demasiado
grande de derivações (64 prefixos * 69 sufixos resultando em 4.419 variantes). A maior parte dessas
variantes são palavras inválidas, por isso um dicionário baseado nos tokens com mais de cinco
ocorrências no corpus WIKIPÉDIA-PT foi consultado para remover palavras inexistentes.
O algoritmo LH-S utilizou a instância de wordnet representante da língua portuguesa no
projeto Open Multilingual Wordnet, o OpenWN-PT, enquanto que nos trabalhos originais foi
utilizada uma instância voltada à língua inglesa. O OpenWN-PT foi consultado a fim de encontrar os
sinônimos das palavras do enunciado original, em seguida os sinônimos encontrados foram
adicionados à versão expandida do enunciado. As palavras organizadas nessa wordnet estão
lematizadas, enquanto que as palavras nos textos originais dos enunciados estão na forma flexionada.
Por isso, foi utilizada a biblioteca de código aberto CoGrOO26, em Java, para lematizar as palavras
consultadas através de uma interface de ponte desenvolvida em Python para este fim27.
O conjunto de palavras associadas utilizado na abordagem original do algoritmo LH-A não
existe na língua portuguesa. Desse modo, foi utilizado um conjunto similar de palavras associadas
denominado PAPEL (Palavras Associadas Porto Editora – Linguateca), apresentado na Seção 2.2.1.1.
O Quadro 12 apresenta exemplos de derivações, sinônimos e palavras associadas encontradas
para algumas palavras existentes no corpus de interesse, gerados a partir dos algoritmos LH-D, LH-
S e LH-A.
26 Disponível em https://github.com/cogroo/cogroo4. 27 Disponível em https://github.com/gpassero/cogroo4py.
75
Quadro 12. Exemplos de derivações, sinônimos e palavras associadas
consumo
Derivações
anticonsumismo, anticonsumista, anticonsumo, hiperconsumismo,
hiperconsumo, inconsumível, subconsumismo, subconsumo, consumada,
consumado, consumar, consumidor, consumia, consumismo, consumista,
consumível, consumação, consumição, consum, consuma, consume
Sinônimos -
Palavras
associadas
utilização, dispêndio, gasto, carvoeira, ração, matadouro, gasto, ingerir,
absorção, tabagismo, matança, sector, ficofagia, despesa, aquisição, refinaria,
uso, dispêndio, embriaguez, automedicação, autoconsumo
escola
Derivações extraescolar, interescolar, paraescolar, escolado, escolar
Sinônimos
instituto, escola_primária, faculdade, departamento, academia,
instituição_de_ensino_superior, escolas, escola, universidade, IES,
ensino_primário, Grundschule, colégio, Faculdade
Palavras
associadas
imitadores, academia, artista, escritor,
funcionário_de_estabelecimento_de_ensino, pré-primária, provençalismo, impressionismo, experiência, merenda, orfeão, pré-escola, seguidores, circum-
escolar, farnel, aula, repertório, seiscentismo, professor, doutrina, filósofo,
instituição, amadurecimento_de_personalidade, auto-escola, aluno, compêndio
recurso
Derivações recursar, recursivo
Sinônimos bem, propriedade, assistência, Recursos_naturais, armas, ajuda,
recursos_naturais, arma, ajudante, vantagem, recurso_natural, recurso, virtude
Palavras
associadas
meio, impugnação, antimetátese, recorrer, protecção, salvatério, paráfrase,
bens, solução, organicamente, arma, expediente, remédio, tesouro, refúgio, pedido, fisco, teriaga, haveres, remédio, partido, venábulo, capacidades,
âncora, abrigo, metralha, refúgio, atingir_fim, expediente, resolver_problema,
contra-informação, procurar, cabedal, saída
Em testes, pôde-se verificar que os algoritmos criados para expansão de enunciados
retornavam frequentemente um número muito grande de variantes, como pode ser observado no
Quadro 12. A decisão dos autores do trabalho original de Louis e Higgins (2010) em aplicar um peso
pequeno (1) às palavras de expansão, e grande (20) às palavras originalmente presentes no enunciado,
mostrou-se pertinente no tratamento desse problema.
LY
O algoritmo LY é uma técnica simples que consiste na comparação da redação com o
enunciado do tema utilizando o cosseno do ângulo dos vetores gerados por CVA. Na abordagem
original o índice de similaridade computado foi aplicado à tarefa de correção automática de redações
usando SVR linear (regressão). No contexto desta pesquisa, o algoritmo LY utiliza um classificador
76
SVM linear, uma modificação que visa adaptar a abordagem original a uma tarefa de classificação
binária (redação com ou sem fuga ao tema).
No trabalho original, é indicado o uso de um conjunto de palavras-chave do enunciado. Haja
vista que o método de extração ou anotação de palavras-chave não foi explicitado pelos autores em
seu artigo, tentou-se contato via e-mail a fim de obter mais detalhes, mas não se obteve resposta. Com
isso, na implementação realizada, foram utilizadas todas as palavras de conteúdo do enunciado na
comparação com as redações, isto é, foram consideradas todas as palavras, exceto palavras vazias
(stopwords).
PN
Na abordagem PN original se buscou estimar o grau de pertinência ao tema de redações
usando SVR linear (regressão). Nesta pesquisa, o algoritmo de aprendizado de máquina utilizado foi
alterado para SVM linear visando a tarefa de classificação binária, do mesmo modo que foi feito para
a abordagem LY. As seguintes características foram excluídas deste estudo comparativo por
requererem informações não disponíveis no corpus desta pesquisa ou por demandarem anotação
manual do corpus, o que impede a automatização do processo: palavras-chave de clareza; palavras-
chave de aderência ao tema; tópicos LDA manualmente anotados; e erros previstos de clareza da tese.
Desse modo, as características consideradas no presente estudo foram: n-gramas e similaridade entre
a redação e o enunciado usando os modelos de análise semântica distribucional RI e LDA.
Enquanto que na abordagem original foi utilizado o corpus English Gigaword na criação dos
modelos distribucionais RI e LDA para análise de similaridade textual, nesta adaptação foi utilizado
um conjunto de textos do mesmo gênero (notícia) PORTAL-G1. As técnicas de pré-processamento
adotadas no experimento original foram reproduzidas no conjunto de redações da pesquisa e no
corpus PORTAL-G1. Essas técnicas abrangeram a conversão dos textos para caixa baixa e
lematização utilizando a biblioteca CoGrOO.
KFG
As abordagens apresentadas por Klebanov, Flor e Gyawali (2016) podem ser vistas como
meios de construir um dicionário que tenha como chave as palavras presentes nas redações de um
determinado tema, e como valor o índice de pertinência ao tema de cada palavra. A proposta
77
contempla o uso desse dicionário na geração de um índice de pertinência ao tema da redação através
da sumarização dos índices referentes às suas palavras. A geração dos dicionários foi realizada no
estudo original tendo como base 500 redações de cada proposta temática. No contexto desta pesquisa,
tem-se um conjunto limitado de 20 redações por proposta temática, desse modo todas elas foram
utilizadas na construção dos dicionários.
Os autores avaliaram quatro técnicas de sumarização dos índices de pertinência ao tema das
palavras em um único índice referente à redação, considerando: todas as palavras ou apenas palavras
únicas; e sumarização pela média escalonada ou não escalonada. Os algoritmos KFG-A e KFG-B
foram implementados utilizando a sumarização escalonada das palavras únicas devido a essa
configuração ter otimizado os resultados no experimento original.
No estudo original, os índices de pertinência calculados para as redações foram utilizados para
prever uma nota holística através de regressão linear. Haja vista que no contexto desta pesquisa se
busca classificar uma redação como dentro ou fora do tema, adotou-se um classificador SVM linear
no lugar de regressão.
Ainda, vale destacar que para a implementação do algoritmo KFG-A (teste de significância)
adotou-se o modelo binário tido como ótimo no experimento original, onde se considerou como
pertinentes ao tema as palavras que aparecem com mais frequência em redações da proposta temática
com limite de significância 0.05.
RC
Os algoritmos RC-* consistem em converter o texto do enunciado do tema e o texto da redação
em uma representação vetorial para, em seguida, obter um índice de similaridade entre esses textos
usando o cosseno do ângulo. No trabalho original, cada sentença da redação foi comparada de modo
individual a fim de destacar partes específicas da redação que apresentavam fuga ao tema. Nesta
pesquisa, não foi modificado o método de extração e comparação dos vetores, mas foi modificado o
escopo da comparação, que passou da sentença para o texto completo da redação.
Os algoritmos RC-B, RC-C e RC-E dependem de um modelo Word2Vec para vetorização dos
textos. Neste estudo, um modelo de análise de similaridade com Word2Vec foi criado utilizando os
corpora WIKIPÉDIA-PT e PORTAL-G1, enquanto que no trabalho original foi usada a coleção de
textos British National Corpus. Os autores não especificaram as técnicas de pré-processamento
78
utilizadas em seu experimento, desse modo se optou pelo procedimento adotado na abordagem Solo
Queue (HARTMANN, 2016), que também contempla um modelo Word2Vec para análise semântica.
Os algoritmos RC-* produzem um ranking dos temas mais prováveis de estarem relacionados
à redação, de modo similar ao algoritmo HBA-C. Com isso, adotou-se um classificador SVM linear
para identificar a melhor delimitação de posição do ranking para classificar uma redação como dentro
ou fora do tema.
4.3 MÉTODO DE VALIDAÇÃO
O desempenho dos algoritmos foi avaliado no corpus de pesquisa em dois experimentos: um
com exemplos reais de fuga ao tema (experimento 1) e outro com exemplos artificiais (experimento
2). O experimento 1 teve seu conjunto desenvolvido conforme o protocolo apresentado na Seção 4.1.
O conjunto de exemplos artificias do experimento 2, por sua vez, foi desenvolvido adotando-se a
estratégia de geração de exemplos positivos artificiais (com fuga ao tema) observada na literatura28,
onde para cada conjunto de N redações de um tema (exemplos negativos) são selecionadas
aleatoriamente N redações de outros temas (exemplos positivos).
Os experimentos foram realizados utilizando-se de uma estratégia de validação cruzada por
tema. Desse modo, para cada tema com N redações, foram realizados N ciclos de validação, onde
para cada ciclo uma redação do tema compôs o conjunto de teste e as demais o conjunto de treino.
Ainda, visando compatibilizar os experimentos com todos os algoritmos avaliados, as redações e
enunciados de outros temas foram utilizados como conjunto de desenvolvimento. Assim, em cada
ciclo foi testada a capacidade de um algoritmo classificar corretamente uma redação como exemplo
positivo ou negativo de fuga ao tema, tendo como base, para isso, os enunciados e demais redações
do corpus de pesquisa.
O desempenho dos algoritmos foi medido pela taxa de acertos (acurácia), precisão, recall, taxa
de falsos positivos e taxa de falsos negativos. A medida valor-F também foi utilizada, no entanto
apenas no experimento 1, devido ao conjunto desse experimento estar desbalanceado. Essas medidas
28 Na literatura revisada, apenas três estudos tratam a tarefa de classificação binária de redações com fuga ao tema. A
estratégia de geração de exemplos artificiais adotada foi utilizada por dois deles: Higgins, Burstein e Attali (2006) e Louis
e Higgins (2010). O terceiro estudo, de Chen e Zhang (2016), utilizou apenas exemplos reais de fuga ao tema.
79
foram utilizadas por estarem presentes na literatura relacionada ao tema, conforme apresentado na
Seção 3.3, e, portanto, visam facilitar a comparação dos resultados atingidos com outros trabalhos.
A estratégia de validação cruzada por tema apresentada necessita de uma amostra
representativa de exemplos positivos de fuga ao tema, o que pode não ser viável ao experimento 1.
No caso de o conjunto de exemplos reais desenvolvido nesta pesquisa apresentar poucas instâncias,
inviabilizando a indução de classificadores específicos de cada tema, será adotada uma estratégia de
validação cruzada alternativa sem agrupamento por tema. A estratégia alternativa consistirá em
realizar uma validação cruzada considerando exemplos de redações de todos os temas. Assim, serão
realizados N ciclos de validação, um para cada redação do corpus de pesquisa (𝑁 = 2.164), sendo
que em cada ciclo uma redação diferente do corpus constituirá o conjunto de teste e as demais
redações formarão o conjunto de treino.
4.4 CONSIDERAÇÕES
Este capítulo apresentou a abordagem proposta para avaliar as técnicas de detecção de
redações com fuga ao tema presentes na literatura. O conjunto de redações utilizados nesta pesquisa
foi coletado a partir do portal UOL Educação. O arquivo estruturado obtido foi disponibilizado ao
público como recurso a ser empregado em pesquisas futuras, inclusive para reprodução deste estudo.
Na literatura existente sobre detecção de fuga ao tema, poucas abordagens foram testadas em
conjuntos com exemplos positivos reais. A anotação do corpus de pesquisa quanto às redações que
fogem ao tema se mostrou pertinente no contexto desta pesquisa a fim de possibilitar um estudo
comparativo tanto com conjuntos reais quanto artificiais de redações com fuga ao tema.
A comparação das abordagens existentes exige a implementação dos algoritmos conforme as
especificações apresentadas nos artigos revisados. Haja vista que os trabalhos relacionados são
exclusivamente aplicados à língua inglesa, alguns ajustes foram realizados visando a adaptação à
língua portuguesa. Uma das limitações desta pesquisa é que a substituição de recursos empregados
na literatura por similares da língua portuguesa pode causar resultados divergentes dos obtidos nos
estudos originais. O conjunto de redações utilizado neste estudo difere em tamanho e conteúdo dos
conjuntos empregados em outras pesquisas, o que também pode ser visto como um fator que impacta
nos resultados.
80
O método de validação de desempenho dos algoritmos implementados foi elaborado conforme
as práticas observadas na literatura, incluindo a validação cruzada do conjunto de dados – haja vista
que os algoritmos exigem um conjunto de treino – e o cálculo de métricas de desempenho observadas
na literatura para a tarefa de detecção de redações com fuga ao tema. No capítulo seguinte são
apresentados e discutidos os resultados obtidos.
81
5 RESULTADOS
Este capítulo apresenta e discute os resultados do estudo comparativo tendo em vista permitir
avaliar a contribuição do trabalho, o alcance dos seus objetivos e a hipótese de pesquisa. Na Seção
5.1 é apresentado o resultado da execução do protocolo para identificação de redações com fuga ao
tema e algumas considerações sobre essa etapa. A Seção 5.2 apresenta e discute os resultados do
primeiro experimento da pesquisa, que considerou um conjunto de exemplos reais de fuga ao tema.
Na Seção 5.3 são apresentados e discutidos os resultados do segundo experimento, que teve como
base exemplos artificiais de fuga ao tema. Por fim, na Seção 5.4, são apresentadas algumas
considerações sobre os resultados do estudo.
5.1 IDENTIFICAÇÃO DE REDAÇÕES COM FUGA AO TEMA
A identificação de redações com fuga ao tema do corpus de pesquisa se deu com base no
protocolo apresentado na Seção 4.1. Conforme o protocolo, foram filtradas as redações com nota zero
na competência 2, o que resultou em 106 redações para revisão manual. Após a revisão manual dessas
redações, constatou-se que 13 delas representavam casos reais de fuga ao tema. No Apêndice D é
apresentada uma relação com essas redações, que compuseram o conjunto de exemplos reais de fuga
ao tema.
Durante o processo de revisão das redações para identificação de casos reais de fuga ao tema,
verificou-se que a decisão quanto à classificação das redações (como caso de fuga ou tema ou não) é
subjetiva. A revisão envolveu inicialmente dois avaliadores: o autor e outro pesquisador na área de
Processamento de Linguagem Natural que teve acesso ao procedimento descrito na Seção 4.1. O
primeiro avaliador (o autor) classificou 18 das 106 redações como casos reais de fuga total ao tema,
e o segundo avaliador classificou 7 redações nessa situação. Houve concordância sobre a classe de 6
redações, e discordância sobre a classe de 13: 12 indicadas com fuga ao tema somente pelo primeiro
revisor e uma indicada com fuga ao tema somente pelo segundo revisor. Assim, um terceiro avaliador,
professor de Língua Portuguesa com experiência em correção de redações, foi solicitado a analisar
essas redações conforme o protocolo estabelecido. O terceiro avaliador classificou como casos reais
de fuga ao tema 7 das 13 redações com divergência. Assim, obteve-se ao final do processo de revisão
um conjunto de 13 redações com fuga total ao tema.
82
Também pôde-se verificar durante o processo de revisão que, em alguns casos, houve
discordância parcial quanto à fuga ao tema entre a avaliação da UOL e a realizada nesta pesquisa.
Nos seguintes casos, a avaliação realizada nesta pesquisa não considerou como caso de fuga ao tema
total: (i) redações que tangenciam o tema específico proposto ou o abordam em alguma parte do texto;
(ii) redações com cópia do texto motivador; (iii) redações que abordam o tema, mas que não
respondem à pergunta principal da proposta; e (iv) redações incompreensíveis (erros ortográficos e
gramaticais graves e/ou ausência de coerência e coesão predominante).
Para algumas das redações revisadas que se enquadravam nas condições apresentadas,
verificou-se nos comentários do avaliador da UOL menção explícita à fuga do tema. A redação
intitulada “A alternativa”29 é um exemplo dos problemas (i) e (iii), onde o avaliador comentou:
O autor escapou do tema em debate, do qual falou timidamente apenas no primeiro parágrafo,
já enviesando para outros temas: violência, educação, corrupção. Sua conclusão está
totalmente fora das ideias propostas para argumentação.
Quanto ao problema (ii), pode ser mencionada a redação intitulada “O toque de recolher é uma
solução”30, sobre a qual o avaliador da UOL comentou:
O autor não desenvolveu nenhum ponto de vista próprio, apenas "copiou e colou" trechos de
textos que foram colocados na proposta como estímulos a favor do toque de recolher ou
contra ele. Nada há de ideias pessoais neste texto.
Por fim, pode-se mencionar sobre o problema (iv) a redação intitulada “Quem nunca errou joga
[jogue] a primeira pedra.”31, onde o avaliador da UOL comentou:
Infelizmente, a redação é precária: o autor não consegue se exprimir com um mínimo de
precisão. As palavras, ora usadas em sentido real, ora em sentido figurado, de maneira
excessivamente subjetiva, quando não completamente inadequadas, a mudança constante do
sujeito das orações, a inexistência de sujeito e a confusão sintática revelam uma grande
dificuldade com a expressão escrita.
Haja vista os vários tipos de fuga ao tema encontrados no corpus de pesquisa, o protocolo
inicialmente estabelecido não foi seguido rigorosamente, pois a simples menção nos comentários do
avaliador da UOL a uma fuga ao tema nem sempre estava relacionada ao tipo de redação alvo da
29 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u514.jhtm 30 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u521.jhtm 31 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u600.jhtm
83
busca: redações com fuga total ao tema proposto. Assim, quando acusada a fuga ao tema pelo
avaliador, as redações foram lidas na íntegra e anotadas quanto à fuga ao tema ser parcial ou total.
Das 13 redações identificadas como casos reais de fuga ao tema, vale destacar que 9 abordam
um tema próximo do previsto na proposta temática. Por exemplo, em setembro de 2009 o título da
proposta do banco de redações da UOL Educação era “Como você encara os cursos a distância e as
universidades virtuais?”. Uma das redações submetidas, intitulada “A problemática educacional”,
recebeu nota 0 em todas as competências devido à fuga ao tema, sendo destacado pelo avaliador: “[O
autor] fugiu totalmente ao tema, que não era "Educação", mas Educação universitária a distância.
Cuidado. Isso é muito grave. Invalida totalmente o texto.”32 . Apesar do texto do aluno desenvolver
uma discussão breve sobre a educação no Brasil e no mundo, não tratou do tema específico proposto,
que era sobre a educação universitária a distância.
A seção seguinte apresenta os resultados do experimento de detecção de fuga ao tema
realizado com os exemplos reais de fuga ao tema identificados.
5.2 EXPERIMENTO 1 – EXEMPLOS REAIS DE FUGA AO TEMA
Os algoritmos descritos no Capítulo 4 foram avaliados considerando o conjunto de 13
exemplos reais de redações com fuga ao tema apresentados no Apêndice D. Essas redações estão
relacionadas a 13 temas, ou seja, cada tema com apenas uma redação relacionada. Com isso, tornou-
se inviável a indução de um classificador para cada proposta temática, pois não se poderia generalizar
um modelo de redações com fuga ao tema. Desse modo, adotou-se a alternativa prevista de construir
um único classificador independente de tema, a partir do conjunto completo de redações dos 111
temas. Assim, na validação cruzada, a capacidade de um algoritmo classificar corretamente um
exemplo positivo de fuga ao tema foi verificada tendo como base os outros 12 exemplos positivos,
assim como os demais 2.151 exemplos negativos.
Após a execução de todos os algoritmos no conjunto de exemplos reais de fuga ao tema,
verificou-se que nenhum foi capaz de detectar algum exemplo positivo, tendo sempre todos os
exemplos apresentados para teste na validação cruzada (positivos e negativos) sido classificados
32 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u528.jhtm
84
como negativos (não fugiu do tema). Assim, obteve-se a medida de desempenho valor-F de 0% para
todos os algoritmos.
Um dos motivos para a estratégia de construir um classificador independente de tema falhar é
que, conforme discutido anteriormente por Persing e Ng (2014), uma redação pode se adequar mais
facilmente a um certo tema que a outro, considerando as medidas computacionais de similaridade
utilizadas. Por exemplo, ao aplicar o algoritmo KFG-A nos exemplos negativos do corpus desta
pesquisa, pôde-se verificar os índices de similaridade apresentados na Tabela 2.
Tabela 2. Índice de similaridade médio obtido pelo algoritmo KFG-A para temas diversos
Tema
Índice KFG-A
(média ± desvio
padrão)
a-aids-nao-e-mais-a-mesma-por-que-diminuiu-o-medo-da-doenca 1,003 ± 0,249
a-gramatica-facilita-ou-dificulta-a-comunicacao 0,825 ± 0,202 agua-aprenderemos-com-a-atual-crise-hidrica 0,839 ± 0,188
amar-pode-levar-ao-crime-ou-quem-ama-nao-mata 0,818 ± 0,205 amor-com-grande-diferenca-de-idade-sera-que-isso-funciona 1,016 ± 0,211 a-policia-se-excede-contra-os-manifestantes-ou-cumpre-seu-papel 0,932 ± 0,251 a-quem-cabe-a-responsabilidade-sobre-a-escolha-alimentar-da-populacao 1,093 ± 0,255 a-questao-do-lixo-nas-sociedades-de-consumo 1,149 ± 0,253
a-sociedade-brasileira-e-os-conflitos-no-transito 0,782 ± 0,191 a-sociedade-esta-perdendo-a-batalha-contra-o-crime 0,844 ± 0,269
automedicacao-por-que-a-pratica-e-tao-comum-entre-os-jovens 1,116 ± 0,278 a-virgindade-e-um-valor-moral-a-ser-preservado 0,865 ± 0,213
Todos (111 temas) 0,933 ± 0,276
A Tabela 2 apresenta as médias de similaridade obtidas pelo algoritmo KFG-A, aplicado a
conjuntos de redações de temas diversos do corpus de pesquisa. Comparando as médias e desvio
padrão obtidos para cada tema com os obtidos para todo o corpus de pesquisa, constata-se uma
diferença significativa33 para alguns temas. Na aplicação de outros algoritmos também foram
constatadas diferenças na média dos índices calculados por tema. Com isso, ratifica-se a hipótese de
que classificadores de fuga ao tema treinados em um conjunto de redações de um tema específico
podem não funcionar em redações de outro tema. Desse modo, considerando os resultados obtidos
nesse experimento, a abordagem de construir um único classificador a partir do conjunto completo
de redações da pesquisa, adotada devido à escassez de exemplos reais de fuga ao tema por proposta,
33 A diferença entre os conjuntos foi verificada com o teste ANOVA (valor p < 0,001).
85
não é válida para medir o desempenho dos algoritmos avaliados na tarefa de detecção de fuga ao
tema.
Outros fatores também podem ter dificultado a correta classificação dos exemplos positivos,
como: (i) o fato de a maioria das redações do conjunto de exemplos reais ter abordado um tema
relacionado ao esperado (isso foi verificado em 9 das 13 redações, conforme explanado na Seção
5.1); (ii) limitações relacionadas ao algoritmo de aprendizado escolhido (SVM); e (iii) o baixo número
de exemplos reais de fuga ao tema utilizado não ser suficiente para a abstração de um modelo de
redação com fuga ao tema.
5.3 EXPERIMENTO 2 – EXEMPLOS ARTIFICIAIS DE FUGA AO TEMA
A Tabela 3 apresenta os resultados obtidos na execução dos algoritmos avaliados usando
conjuntos artificiais de redações com fuga ao tema. Uma comparação dos resultados obtidos com os
encontrados na literatura pode ser encontrada no Apêndice E.
Tabela 3. Resultados obtidos usando conjuntos artificiais
Algoritmo % Acurácia % Precisão % Recall % FP % FN
HBA-A 90,31 88,79 92,26 11,65 7,74
HBA-B 89,86 88,52 91,61 11,88 8,39
HBA-C 83,06 89,66 74,74 8,62 25,26
LH-D 82,62 89,01 74,45 9,20 25,55
LH-S 82,60 89,41 73,95 8,76 26,05
LH-A 81,13 87,78 73,32 10,07 27,68
LH-DA 81,62 87,93 73,30 10,07 27,70
LY 86,84 83,85 91,24 17,57 8,76
PN 85,76 88,63 82,06 10,53 17,94
KFG-A 96,76 95,84 97,76 4,24 2,24
KFG-B 94,62 94,68 94,55 5,31 5,45
RC-A 81,36 77,93 87,51 24,79 12,49
RC-B 83,13 88,39 76,28 10,02 23,72
RC-C 84,30 89,61 77,59 8,99 22,41
RC-D 88,37 92,69 83,32 6,57 16,68
No estudo de Higgins, Burstein e Attali (2006), os algoritmos originais HBA-A e HBA-B e
HBA-C atingiram taxas de falsos positivos de 4,7% a 6,9% e taxas de falsos negativos de 16,8% a
38%. Os resultados obtidos neste experimento, em relação às medidas % FP e % FN, divergem do
encontrado pelos autores no estudo original. Isso ocorreu devido ao estudo original ter otimizado a
86
constante delimitadora visando o corpus específico de interesse, onde se priorizou uma baixa taxa de
falsos positivos sobre falsos negativos. Descartando o uso do algoritmo de aprendizado SVM e
definindo a constante delimitadora do algoritmo HBA-C para a mesma utilizada no conjunto do
experimento original34, pôde-se obter resultados próximos do estudo original: % FP 6,33 e % FN
27,21.
Haja vista que o conjunto de dados do estudo original era balanceado, pode-se estimar que a
acurácia geral obtida para os algoritmos HBA-A, HBA-B e HBA-C foi, respectivamente, 78,5%,
83,55% e 85,15%. A diferença entre as acurácias obtidas no estudo original e nesta pesquisa pode ter
ocorrido devido a diferenças no corpus de redações utilizado e à estratégia de aprendizado das
fronteiras de decisão, que neste experimento se deu com SVM e o estudo original otimizou os valores
delimitadores dos índices de similaridade analisando a curva de trade-off entre % FP e % FN. Ainda,
vale destacar que nesta pesquisa os resultados obtidos para esses algoritmos apresentam uma
tendência diferente do encontrado na literatura: os algoritmos HBA-A e HBA-B atingiram uma
acurácia superior à encontrada no estudo original; enquanto que o algoritmo HBA-C atingiu uma
acurácia inferior. Essa diferença pode ter ocorrido devido aos algoritmos HBA-A e HBA-B utilizarem
um conjunto de treino com redações do mesmo tema, enquanto que o HBA-C utiliza como conjunto
de treino textos de enunciados de temas diversos. Assim, as particularidades do corpus desta pesquisa
podem ter propiciado um melhor aproveitamento das redações de mesmo tema em um conjunto de
treino que o obtido no estudo original.
Os algoritmos LH-D, LH-S, LH-A e LH-DA são uma extensão do algoritmo HBA-C que
utiliza técnicas de expansão do enunciado da proposta temática (ex. adição de sinônimos e palavras
relacionadas) a fim de que ele seja mais abrangente em relação ao tema. Esses algoritmos foram
idealizados por Louis e Higgins (2010) visando melhorar o desempenho do algoritmo original HBA-
C em casos onde o texto do enunciado é muito curto. Os resultados apresentados na Tabela 3 indicam
que as técnicas de expansão dos algoritmos LH-D, LH-S, LH-A e LH-DA resultam em um pior
desempenho em relação ao algoritmo original HBA-C, considerando o corpus desta pesquisa e as
medidas utilizadas. Por outro lado, no experimento de Louis e Higgins (2010) esses algoritmos
34 No experimento original foi utilizada como constante delimitadora o valor de 10, ou 29% do número total de temas de
referência (34+1). Desse modo, uma redação foi considerada como dentro do tema caso a similaridade entre o texto da
redação e o enunciado estivesse entre os 10 temas com maior índice de similaridade (considerando os temas de referência).
Os valores de % FP e % FN apresentados consideram como constante delimitadora o valor 32 (29% de 111 temas).
87
alcançaram um resultado superior ao de Higgins, Burstein e Attali (2006) na classificação de redações
com fuga ao tema, considerando enunciados com 9 a 13 palavras em média. No corpus desta pesquisa,
os enunciados possuem 200 palavras em média. Assim, esses resultados sugerem que os algoritmos
LH-D, LH-S, LH-A e LH-DA sejam mais adequados aos casos onde o texto do enunciado possui
menos de 200 palavras.
O algoritmo LY pode ser visto como uma extensão do algoritmo HBA-C, haja vista que
também compara o texto do enunciado e o da redação utilizando CVA. Não obstante, esse algoritmo
introduz um segundo atributo: a proporção de palavras-chave do enunciado presentes na redação, que
nesta pesquisa utilizou todas as palavras do enunciado, exceto palavras vazias (stopwords). Neste
experimento, o algoritmo LY apresentou um avanço em relação ao anterior considerando a medida
de acurácia, mas com uma precisão mais baixa.
O algoritmo PN teve resultado mediano em relação aos outros algoritmos avaliados. A
ausências de características relevantes do estudo original, como tópicos LDA manualmente anotados
e palavras-chave de clareza, podem ter impactado significativamente o desempenho do algoritmo PN
neste estudo. Essas características exigem anotação manual do corpus e foram removidas visando
automatizar o processo de detecção de fuga ao tema com esse algoritmo.
Na revisão do estado da arte, verificou-se que somente nos experimentos de Higgins, Burstein
e Attali (2006) (a), Louis e Higgins (2010) (b) e Chen e Zhang (2016) (c) as abordagens apresentadas
para detecção de fuga ao tema em redações foi validada em um corpus com classes binárias, onde
mediu-se taxa de falsos positivos e de negativos (a e b) ou precisão, recall e valor-F (c). O melhor
desempenho encontrado na literatura para a tarefa de classificação binária de fuga ao tema em
redações, em relação à acurácia, foi obtido por Louis e Higgins (2010) em um conjunto de redações
escritas por estudantes falantes do inglês em nível avançado, onde o algoritmo original LH-A obteve
94,75% de acurácia.
Neste experimento, o algoritmo KFG-A se destacou por atingir a maior acurácia (96,76%).
Em relação aos estudos anteriores que se aplicaram à tarefa de classificação binária de redações com
fuga ao tema, o algoritmo KFG-A apresentou acurácia superior a todos. Vale mencionar que o estudo
original de Klebanov, Flor e Gyawali (2016) não avaliou o desempenho desse algoritmo na tarefa de
detecção de fuga ao tema – mas na tarefa de correção automática de redações.
88
Os algoritmos avaliados que não necessitam de um corpus de redações do mesmo tema para
treino são: HBA-C, LH-* e RC-*. Entre esses algoritmos, destacou-se o algoritmo RC-D proposto
por Rei e Cummins (2016) em todas as métricas de avaliação utilizadas, com perda de 8,49% na
acurácia em relação à abordagem com melhor desempenho – KFG-A –, que depende de redações do
mesmo tema para treino. Diferentemente de todos os algoritmos avaliados, o algoritmo RC-D tem
como base somente o texto da redação e o enunciado do tema, o que facilita sua aplicação em cenários
que não dispõem dos recursos adicionais exigidos pelas outras abordagens (redações do mesmo ou
de outro tema; enunciados de temas diversos).
Neste experimento o número de redações de mesmo tema disponíveis para treinamento (20)
é possivelmente o menor em relação a estudos anteriores (~63 a 48.488) 35. Os resultados obtidos para
o algoritmo KFG-A, que no experimento original utilizou 500 redações de mesmo tema para treino,
em comparação aos algoritmos que não dependem desse tipo de conjunto – HBA-C, LH-* e RC-*,
mostra que mesmo um conjunto pequeno de redações de mesmo tema pode aprimorar os resultados
de um classificador de redações com fuga ao tema.
Com relação ao experimento de Chen e Zhang (2016), onde foi aplicada a versão original do
algoritmo HBA-C em conjuntos de exemplos reais de fuga ao tema, os resultados obtidos neste
experimento diferem nas medidas de precisão, recall e valor-F. No estudo anterior, obteve-se nos
quatro conjuntos analisados precisão de 100%, recall entre 2.2% e 18.1% e valor-F entre 4.4% e
30.7%. Haja vista que o conjunto de validação deste experimento é balanceado, pode inferir valor-F
igual à acurácia. Assim, em relação à medida valor-F, este experimento apresentou resultados
superiores ao de Chen e Zhang (2016) para o algoritmo HBA-C, de modo similar ao observado no
experimento de Higgins, Burstein e Attali (2006), que também utilizou exemplos artificiais.
5.4 CONSIDERAÇÕES
Neste capítulo foram apresentados e discutidos os resultados do estudo comparativo proposto
nesta pesquisa. Na revisão sistemática da literatura, apresentada no Capítulo 3, identificou-se como
uma lacuna existente a necessidade de usar exemplos reais na avaliação de desempenho de
abordagens para detecção de fuga ao tema. Com isso, dois experimentos integraram esse estudo: um
35 Considerando os estudos que informaram o número de redações por tema, conforme indicado no Quadro 6.
89
experimento com exemplos reais de fuga ao tema, manualmente identificados visando atender a
lacuna na literatura mencionada, e um experimento com exemplos artificiais, utilizando a estratégia
de geração de exemplos observada na literatura.
No processo de revisão manual do corpus de pesquisa a fim de identificar casos reais de fuga
ao tema, verificou-se a necessidade de adaptar o protocolo inicialmente definido visando eliminar
casos de fuga ao tema que extrapolam os limites de escopo apresentados na Seção 1.1.2. Ao término
desse processo, foram identificadas 13 redações com fuga total ao tema. O experimento 1 deste
estudo, que utilizou esses exemplos reais de fuga ao tema, se deu com a indução de classificadores a
partir de redações submetidas a todos os temas do corpus de pesquisa. Nesse experimento não foi
possível produzir resultados com desempenho medido por valor-F maior que 0%. Os motivos para
isso foram discutidos, destacando-se a baixa representatividade dos conjuntos de exemplos positivos.
No experimento 2 os classificadores foram induzidos considerando cada tema individual do
corpus de pesquisa e, ao contrário do experimento 1, os classificadores tiveram resultado melhor que
o acaso, com acurácia variando no intervalo de 81,13% a 96,76%. O algoritmo que apresentou a
melhor acurácia nesse experimento (96,76%) foi o KFG-A, uma versão adaptada à língua portuguesa
da abordagem proposta por Klebanov, Flor e Gyawali (2016). Os resultados do experimento 2 foram
comparados aos observados na literatura, onde foram constatadas e discutidas algumas diferenças.
Na análise dos resultados do experimento 2, uma das limitações verificadas foi a ausência de
uma investigação voltada à redução da taxa de falsos positivos (o que se espera em um cenário real).
Essa investigação poderia ser realizada ajustando gradualmente o parâmetro de pesos de classes do
classificador SVM até se obter a taxa de falsos positivos esperada. Esse ajuste, no entanto, precisaria
ser realizado para cada tema de redação, pois as fronteiras de decisão podem variar para cada tema –
conforme apresentado na Tabela 2. Ainda, vale mencionar que a otimização do classificador visando
a redução na taxa de falsos positivos pode afetar a acurácia geral.
90
6 CONCLUSÕES
Esta pesquisa teve como objetivo principal avaliar as abordagens existentes na literatura para
detecção de fuga ao tema em redações, com um enfoque na língua portuguesa. Visando atender esse
objetivo, foram definidos cinco objetivos específicos.
O primeiro objetivo específico tratou da composição de um corpus público de redações
escritas na língua portuguesa. Atendendo esse objetivo, foi elaborado o corpus de pesquisa com 2.164
redações de diversas propostas temáticas (111), extraídas do portal UOL Educação. O corpus de
pesquisa foi convertido para um arquivo de dados estruturado e disponibilizado publicamente.
O segundo objetivo específico buscou criar um conjunto público de exemplos reais de
redações com fuga ao tema. Para atender esse objetivo, foi desenvolvido e executado um protocolo
de identificação de casos reais de fuga ao tema específico ao corpus de pesquisa, onde três revisores
foram envolvidos. Como resultado, obteve-se um conjunto de 13 exemplos reais de redações com
fuga ao tema, cujos títulos foram disponibilizados no Apêndice D desta dissertação.
O terceiro objetivo específico tratou de identificar na literatura as abordagens existentes para
a tarefa de detecção de fuga ao tema em redações. Esse objetivo foi atendido através de uma revisão
sistemática da literatura. Haja vista que as abordagens encontradas foram originalmente
desenvolvidas visando a língua inglesa, foram apresentadas propostas de adaptação à língua
portuguesa para viabilizar o estudo comparativo nessa língua, com isso atendendo ao objetivo
específico 4.
O quinto e último objetivo específico tratou de analisar o desempenho das abordagens
existentes na literatura para detecção de redações com fuga ao tema com as adaptações à língua
portuguesa propostas. Em atenção a esse objetivo, as abordagens existentes foram implementadas e
avaliadas em um estudo comparativo. A análise do desempenho das abordagens no corpus de pesquisa
se deu com base em exemplos artificiais e reais. No caso dos exemplos artificiais, essa análise
possibilitou a verificação da hipótese inicial, onde se confirmou a possibilidade de detectar redações
com fuga ao tema na língua portuguesa com acurácia equivalente ou superior à encontrada
previamente para a língua inglesa. No caso do experimento com exemplos reais, o resultado foi
inconclusivo quanto à hipótese de pesquisa, devido à limitação no número de exemplos do conjunto
desenvolvido.
91
A pergunta de pesquisa questionou se as abordagens existentes na literatura para detecção de
fuga ao tema em redações, originalmente desenvolvidas e aplicadas na língua inglesa, seriam viáveis
à língua portuguesa. Conforme demonstrado nos resultados, conseguiu-se detectar fuga ao tema em
redações escritas na língua portuguesa com acurácia superior à observada na literatura para a língua
inglesa.
6.1 CONTRIBUIÇÕES DA DISSERTAÇÃO
A principal contribuição desta pesquisa é o desenvolvimento de um estudo comparativo com
as abordagens existentes na literatura para detecção de fuga ao tema em redações. As adaptações à
língua portuguesa propostas para essas abordagens se mostraram válidas no estudo comparativo, onde
se obteve uma acurácia superior à encontrada na literatura para língua inglesa.
Outra contribuição relevante desta pesquisa foi realizada através da revisão do estado da arte,
onde foram identificadas e caracterizadas as abordagens existentes e os resultados até então obtidos
na tarefa de detecção de fuga ao tema. Ainda, foram apontadas lacunas e deficiências existentes na
área. A revisão sistemática da literatura foi apresentada em uma conferência científica brasileira e
publicada nos anais do evento:
PASSERO, G.; FERREIRA, R.; HAENDCHEN FILHO, A.; DAZZI, R. L. S. Off-Topic Essay
Detection: A Systematic Review. XXVIII Simpósio Brasileiro de Informática na Educação (SBIE
2017), Recife, 2017. Anais... 2017.
Durante o desenvolvimento desta pesquisa, foram realizados outros estudos relacionados aos
temas de avaliação automática de escrita e tecnologias educacionais. Os trabalhos publicados podem
ser consultados no Apêndice F.
Os resultados apresentados nesta dissertação sugerem a aplicação de mecanismos de detecção
automatizada de fuga ao tema em redações no contexto educacional brasileiro de modo a beneficiar
o estudante, quando visada a geração de feedback, e as instituições educacionais, quando visada a
automatização do processo de correção de redações.
92
6.2 LIMITAÇÕES
As abordagens avaliadas na tarefa de detecção de fuga ao tema em redações apresentaram taxa
de falsos positivos maior que 1%, o que também pôde ser observado nos experimentos originais para
a língua inglesa, e isso traz consequências para a aplicação dessas abordagens tanto em exames de
grande porte quanto em atividades avaliativas em sala de aula. Em um exame de grande porte, a
aplicação dessas abordagens poderia resultar em milhares de redações sendo incorretamente acusadas
de fraudulentas. Nesse cenário, ainda é indispensável a presença de um avaliador humano para
confirmar a classificação realizada pelo computador.
Considerando o contexto de geração de feedback em sala de aula, a classificação incorreta de
uma redação como caso de fuga ao tema pode gerar uma experiência frustrante para o aluno e
desestimular o uso da geração de feedback automática como recurso pedagógico. Desse modo, é
importante minimizar a taxa de falsos positivos em um sistema de detecção de fuga ao tema em
redações, especialmente quando o resultado da classificação é fornecido ao aluno como feedback sem
confirmação por um avaliador humano. Em ambos os casos, uma abordagem com taxa de falsos
positivos próxima de zero tem maior aceitação pela comunidade científica e sociedade.
6.3 TRABALHOS FUTUROS
Ao longo do desenvolvimento deste trabalho foram identificadas algumas possibilidades de
melhoria e de continuação a partir de futuras pesquisas, as quais incluem:
• O uso de conjuntos de exemplos reais de fuga ao tema representativos na avaliação de
abordagens para detecção de fuga ao tema em redações, a fim de se obter resultados de
desempenho fidedignos a um cenário real de aplicação.
• O tratamento da fuga ao tema em redações como um problema multiclasse, avaliando o
desempenho das abordagens propostas considerando os diversos tipos de fuga ao tema, como
os casos de: redações bem escritas, mas que não abordam o tema proposto (tratado nesta
pesquisa); redações compostas de cópias do texto motivador; redações que apenas tangenciam
o tema; redações que não respondem à questão proposta; redações que apresentam partes
deliberadamente desconectadas; redações incompreensíveis. É possível que o desempenho de
uma abordagem para tratar a fuga ao tema melhore com o uso de classificadores próprios para
cada um desses problemas.
93
• O tratamento da detecção de fuga parcial ao tema, visando atender os casos em que apenas
partes do texto (ex. frases ou parágrafos) não desenvolvem o tema proposto. As abordagens
levantadas na revisão do estado da arte, e avaliadas no estudo comparativo, podem ser
adaptadas e aplicadas nessa tarefa, possibilitando a geração de um feedback sobre a escrita
mais específico e útil.
• A otimização dos classificadores aplicados à detecção de fuga ao tema tendo em vista atingir
uma taxa de falsos positivos ideal (ex. a encontrada na avaliação humana).
• Analisar a escalabilidade das abordagens propostas para detecção de fuga ao tema em
redações tendo em vista exames de médio e grande porte.
94
REFERÊNCIAS
AGIRRE, E. et al. SemEval-2016 Task 1: Semantic Textual Similarity, Monolingual and Cross-
Lingual Evaluation. 10th International Workshop on Semantic Evaluation (SemEval-2016).
Proceedings... San Diego, California: Association for Computational Linguistics, 2016.
AMORIM, E. C. F.; VELOSO, A. A Multi-aspect Analysis of Automatic Essay Scoring for Brazilian
Portuguese. Student Research Workshop at the 15th Conference of the European Chapter of the
Association for Computational Linguistics. Proceedings... Valência, Espanha: Association for
Computational Linguistics, 2017.
ATTALI, Y. Construct Validity of e-rater® in Scoring TOEFL® Essays. Princeton, NJ: ETS.
2007.
BLEI, D. M. et al. Latent Dirichlet Allocation. Journal of Machine Learning Research, v. 3, p.
993–1022, 2003.
BRASIL. Redação no ENEM 2016: Cartilha do Participante. Disponível em: <
http://download.inep.gov.br/educacao_basica/enem/guia_participante/2016/manual_de_redacao_do
_enem_2016.pdf>. Acesso em: 26 dez. 2017a.
BRASIL. ENEM 2016: Resultado Individual. Disponível em:
<http://download.inep.gov.br/educacao_basica/enem/downloads/2016/apresentacao_final_resultado
s_2016.pdf>. Acesso em: 26 dez. 2017b.
CHEN, J.; ZHANG, M. Identifying Useful Features to Detect Off-Topic Essays in Automated
Scoring Without Using Topic-Specific Training Essays. Springer Proceedings in Mathematics and
Statistics, v. 140, n. August, p. 315–326, 2016.
DIKLI, S. An Overview of Automated Scoring of Essays. Journal Of Technology Learning And
Assessment, v. 5, n. 1, 2006.
FACELI, K. et al. Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de
Janeiro: LTC, v. 2, p. 192, 2011.
FELLBAUM, C. WordNet: A Lexical Database for English. Cambridge, MA: MIT Press, 1998.
FIRTH, J. R. A synopsis of linguistic theory, 1930-1955. 1957.
G1. Corretores de redação do Enem avaliam em média 74 textos por dia. Disponível em:
<http://g1.globo.com/educacao/enem/2016/noticia/corretores-de-redacao-do-enem-avaliam-em-
media-74-redacoes-por-dia.ghtml>. Acesso em: 26 dez. 2017.
HARTMANN, N. S. Solo Queue at ASSIN : Combinando Abordagens Tradicionais e Emergentes.
PROPOR – International Conference on the Computational Processing of Portuguese. Proceedings...
2016.
HEARST, M. The debate on automated essay grading. Intelligent Systems and their Applications,
95
IEEE, v. 15, n. 5, p. 22–37, 2000.
HIGGINS, D.; BURSTEIN, J.; ATTALI, Y. Identifying off-topic student essays without topic-
specific training data. Natural Language Engineering, v. 12, n. 2, p. 145–159, 22 jun. 2006.
HIGGINS, D.; HEILMAN, M. Managing what we can measure: Quantifying the susceptibility of
automated scoring systems to gaming behavior. Educational Measurement: Issues and Practice,
v. 33, n. 3, p. 36–46, 2014.
JÚNIOR, C. R. C. A.; SPALENZA, M. A.; OLIVEIRA, E. DE. Proposta de um Sistema de Avaliação
Automática de Redações do ENEM Utilizando Técnicas de Aprendizagem de Máquina e
Processamento de Linguagem Natural. (Universidade do Vale do Itajaí, Ed.) VIII Computer on the
Beach, Florinaópolis, 2017. Anais... 2017.
JURAFSKY, D. S.; MARTIN, J. H. Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition. 2ed, p.
1024, 2008.
KARLGREN, J.; SAHLGREN, M. From Words to Understanding. In: Foundations of Real-World
Intelligence. Stanford, California: CSLI Publications, p. 294–311, 2001.
KLEBANOV, B. B.; FLOR, M.; GYAWALI, B. Topicality-Based Indices for Essay Scoring. 11th
Workshop on Innovative Use of NLP for Building Educational Applications. Proceedings… p. 63–
72, 2016.
LEVY, O.; GOLDBERG, Y. Neural Word Embedding as Implicit Matrix Factorization. Advances
in Neural Information Processing Systems (NIPS), p. 2177–2185, 2014.
LI, Y.; YAN, Y. An effective automated essay scoring system using support vector regression. 5th
International Conference on Intelligent Computation Technology and Automation, ICICTA 2012.
Proceedings… p. 65–68, 2012.
LIMA, Antonio. Redação Essencial para Concursos. Elsevier Brasil, 2011.
LIN, D. Automatic retrieval and clustering of similar words. 36th Annual Meeting of the Association
for Computational Linguistics and 17th International Conference on Computational Linguistics,
1998. Proceedings… p. 768–774, 1998.
LORENA, A. C.; CARVALHO, A. C. P. L. F. DE. Uma Introdução às Support Vector Machines.
Revista de Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007.
LOUIS, A.; HIGGINS, D. Off-topic essay detection using short prompt texts. NAACL HLT 2010
Fifth Workshop on Innovative Use of NLP for Building Educational Applications, n. June, p.
92–95, 2010.
MARINO, E. R. Estudos de Português para o 2o Grau. 1. ed. São Paulo: 1980.
MATOSO, F. Com reajuste e novas medidas, MEC quer reduzir em 20% custo do Enem.
Disponível em: <http://g1.globo.com/educacao/enem/2015/noticia/2015/05/com-reajuste-e-novas-
medidas-mec-quer-reduzir-em-20-custo-do-enem.html>. Acesso em: 18 dez. 2017.
96
MIKOLOV, T. et al. Efficient Estimation of Word Representations in Vector Space. Arxiv, p. 1–12,
2013.
MITCHELL, T. M. Machine Learning. 1. ed. Nova Iorque, EUA. 1997.
MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear regression analysis.
1ed. John Wiley & Sons, 2015.
NATIONAL CENTER FOR EDUCATION STATISTICS. The Nation’s Report Card: Writing
2011, 2012.
OLIVEIRA, H. G. et al. PAPEL: A dictionary-based lexical ontology for Portuguese. Lecture Notes
in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture
Notes in Bioinformatics), v. 5190 LNAI, p. 31–40, 2008.
OLIVEIRA, H. G. et al. As wordnets do português. Oslo Studies in Language, v. 7, n. 1, p. 397–
424, 2015.
PAGE, E. B. The use of the computer in analyzing student essays. International Review of
Education, v. 14, n. 2, p. 210–225, 1968.
PAIVA, V.; RADEMAKER, A.; MELO, G. OpenWordNet-PT: An Open Brazilian Wordnet for
Reasoning. COLING 2012: Demonstration Papers. Proceedings... Mumbai, India: The COLING
2012 Organizing Committee, 2012.
PASSERO, G. et al. Off-Topic Essay Detection: A Systematic Review. XXVIII Simpósio Brasileiro
de Informática na Educação (SBIE 2017), Recife, 2017. Anais... 2017.
PASSERO, G.; HAENDCHEN FILHO, A.; DAZZI, R. Avaliação do Uso de Métodos Baseados em
LSA e WordNet para Correção de Questões Discursivas. XXVII Simpósio Brasileiro de Informática
na Educação (SBIE 2016), Uberlândia, 2016. Anais... 2016.
PERSING, I.; NG, V. Modeling Prompt Adherence in Student Essays. 52nd Annual Meeting of the
Association for Computational Linguistics. Proceedings… n. June, p. 1534–1543, 2014.
REI, M.; CUMMINS, R. Sentence Similarity Measures for Fine-Grained Estimation of Topical
Relevance in Learner Essays. 11th Workshop on Innovative Use of NLP for Building Educational
Applications. Proceedings… p. 283–288, 2016.
ROCCO, M. T. F. Crise na linguagem: a redação no vestibular. Em Aberto, v. 2, n. 12, 2011.
RUDNER, L. M.; GARCIA, V.; WELCH, C. An evaluation of the IntelliMetric essay scoring system.
The Journal of Technology, Learning, and Assessment, v. 4, n. 4, p. 1–22, 2006.
SAHLGREN, M. An Introduction to Random Indexing. Methods and Applications of Semantic
Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering,
TKE 2005. Proceedings… p. 1–9, 2005.
SMOLA, A J.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics and Computing,
v. 14, p. 199–222, 2004.
97
SOKOLOVA, M.; LAPALME, G. A systematic analysis of performance measures for classification
tasks. Information Processing and Management, v. 45, n. 4, p. 427–437, 2009.
UOL EDUCAÇÃO. Banco de Redações: Como participar. Disponível em:
<https://educacao.uol.com.br/bancoderedacoes/como-participar.jhtm>. Acesso em: 26 dez. 2017.
VAL, M. DA G. C. Redação e Textualidade. 3. ed. São Paulo: Martins Fontes, 2009.
WILSON, J.; ANDRADA, G. N. Using Automated Feedback to Improve Writing Quality:
Opportunities and Challenges. In: Handbook of Research on Technology Tools for Real-World
Skill Development. Hershey: Information Science Reference, 2016. p. 678–703.
98
APÊNDICE A – PROTOCOLO DE REVISÃO SISTEMÁTICA DA
LITERATURA
Este documento apresenta o protocolo de revisão sistemática da literatura empregado com o
objetivo de levantar as abordagens existentes no estado da arte para detecção de fuga ao tema em
redações.
Perguntas de pesquisa
1. Quais técnicas e recursos têm sido utilizados nas abordagens existentes?
2. Em quais corpora as abordagens existentes foram testadas?
3. Quão precisas são as abordagens existentes?
Fontes de busca
• ACM Digital Library <https://dl.acm.org/>;
• IEEE Explore Digital Library <http://ieeexplore.ieee.org/>;
• Science Direct <http://www.sciencedirect.com/>;
• Scopus <https://www.scopus.com>;
• Anais do Simpósio Brasileiro de Informática na Educação <http://www.br-
ie.org/pub/index.php/sbie>;
• Revista Brasileira de Informática na Educação <http://www.br-ie.org/pub/index.php/rbie>.
Critérios de inclusão
1. Artigos publicados até 18/06/2017, sem limitação de data inicial;
2. Artigos em inglês ou português;
3. Termos de busca encontrados no título, resumo ou palavras-chaves36:
(("off-topic" OU "off topic" OU “prompt adherence”) E "essay")
OU
((“fuga ao tema” OU “adequação ao tema”) E (“redação” OU “redações)).
Critérios de exclusão
1. Artigos curtos (resumos expandidos);
2. Artigos que não discutem alguma abordagem para detecção de fuga ao tema em redações;
3. Artigos retratados pela editora.
36 Os termos de busca foram adaptados para o formato de cada base de busca sem alteração das palavras e do valor dos
operadores lógicos.
99
Seleção dos estudos
O título, palavras-chave, resumo, introdução e conclusão foram analisados, nesta sequência, para
verificar se o estudo possui relação direta com o tema e tem potencial para responder às perguntas de
pesquisa.
Extração de dados:
Dos trabalhos selecionados foram extraídos os dados relevantes às perguntas da pesquisa,
apresentados no quadro abaixo.
Dados Descrição Pergunta
Abordagem utilizada Caracterização e discriminação das técnicas aplicadas P1
Corpus de pesquisa Caracterização do corpus de pesquisa com o número de
redações absoluto e por proposta temática
P2
Resultados encontrados Índices de desempenho alcançados P3
Síntese e análise dos dados:
Para responder às perguntas da pesquisa os dados foram organizados e analisados da seguinte forma:
1. As técnicas e métricas de desempenho utilizadas nos trabalhos são apresentadas em uma
tabela comparativa [P1, P2];
2. Relação dos corpora de pesquisa encontrados com o número de redações absoluto e por
proposta temática [P3];
3. Tabela de apresentação dos índices de desempenho encontrados pelos autores [P1].
100
APÊNDICE B – ARTIGOS EXCLUÍDOS NA REVISÃO
SISTEMÁTICA DA LITERATURA
Os quadros abaixo apresentam os artigos excluídos na revisão sistemática da literatura,
exceto duplicados, agrupados pelo motivo da exclusão.
Relação de artigos excluídos na revisão sistemática da literatura por não pertinência ao escopo
da pesquisa
Autores Ano Título
Hoang, G.T.L.;
Kunnan, A.J. 2016
Automated Essay Evaluation for English Language Learners:A Case
Study of MY Access
Persing, I.; Ng, V. 2015 Modeling argument strength in student essays
Reagle, Joseph M. 2015 Conclusion: “Commenterrible”?
Street Jr.; Richard
L. 2013
How clinician–patient communication contributes to health
improvement: Modeling pathways from talk to outcome
- 2016 80th annual meeting of the Psychometric Society, 2015 (Conferência)
Relação de artigos excluídos na revisão sistemática da literatura devido a retração pela editora
Autores Ano Título
Li, Y.; Yan, Y. 2010 Automated Essay Scoring System for CET4
101
APÊNDICE C – ANÁLISE COMPARATIVA DO ESTADO DA ARTE
Este documento apresenta uma comparação dos trabalhos encontrados na revisão do estado da arte e esta pesquisa, resumindo os
quadros 6 e 8 apresentados no Capítulo 3 e o melhor resultado obtido nesta pesquisa, apresentado na Tabela 3 (Capítulo 5).
Corpus de pesquisa Resultado
Identificação Nº de
redações
Nº de
temas
Nº de
redações por
tema
Abordagem Desempenho Abrang.
Higgins, Burstein e Attali (2006) 8.000 36 ~225
Modelo A FP: 5.0% | FN: 30-38.0% TI e MF
Modelo B FP: 4.7% | FN: 16.8-28.2% TI e MF
Modelo CUT FP: 6.8% | FN: 22.9% TI
Louis e Higgins (2010) 2.450
?
7
3
350
? Melhor
FP: 1.47-9.02% | FN: 9.02-11.97% ?
Li e Yan (2012) 2.041 ? ? -
Persing e Ng (2014) 830 13 ~63 Proposta PE: .488 | EMA: .348 | EQM: .197 |
r: .360 ?
Chen e Zhang (2016) 57.176 4 776 – 48.488 Proposta Prec.: 100% | Recall: 2.2-18.1%
Valor-F: 4.4%-30.7% ?
Klebanov, Flor e Gyawali (2016) 82.500
12.100
76
8
~1085
~253 – 760 -
Rei e Cummins (2016) ?
?
60
13
?
? -
Este trabalho 2.164 111 19-20 Melhor
FP: 4,24% | FN: 2,24% |
Prec.: 95,84% | Recall: 97,76% |
Acurácia: 96,76%
TI
102
APÊNDICE D – REDAÇÕES IDENTIFICADAS COMO CASOS
REAIS DE FUGA AO TEMA
Este documento apresenta uma relação com as redações identificadas como casos reais de
fuga ao tema segundo o procedimento apresentado na Seção 4.1.
Tema
Títulos
10/2016 – Artes e educação física: opcionais ou obrigatórias?
Corpo em movimento
03/2016 – Carta-convite: discutir discriminação na escola
Viver e a arte de conviver
03/2015 – Água: aprenderemos com a atual crise hídrica?
Reeducação hídrica
09/2013 – Viagem sem volta a Marte: pioneirismo ou alucinação?
(Sem título 040)
08/2013 – Meia-entrada: Você é contra ou a favor? Por quê?
Existe racismo no Brasil
11/2012 – É certo ou errado leiloar a virgindade? Por quê?
Mulheres da caverna no século XXI
01/2012 – Como devem ser as relações entre as pessoas e seus animais de estimação?
Infância hoje, infância ontem
12/2011 – Por que causas o jovem tem se mobilizado atualmente no Brasil?
Redes sociais e tecnologia
04/2011 – O conflito entre gerações e a convivência social
Desastre no Japão
07/2010 – Por que o patriotismo brasileiro só se revela em época de Copa do Mundo?
A Busca da Felicidade
103
09/2009 – Como você encara os cursos a distância e as universidades virtuais?
A problemática educacional
06/2009 – Combate ao fumo: autoritarismo ou dever do governo?
A fumaça que leva à morte
05/2009 – Amor com grande diferença de idade: será que isso funciona?
IDADE DOS BOTICÁRIOS
104
APÊNDICE E – COMPARAÇÃO DOS RESULTADOS OBTIDOS NO EXPERIMENTO 2 COM
EXPERIMENTOS ANTERIORES
Este documento apresenta uma comparação dos resultados obtidos nesta pesquisa com os obtidos em estudos anteriores que também
trataram a tarefa de detecção de fuga ao tema com classificação binária.
Algoritmo Experimento 2 Experimento anterior
%
Acurácia
%
Precisão
%
Recall % FP % FN Ref. %
Acurácia
/ Valor-F
%
Precisão
%
Recall % FP % FN
HBA-A 90,31 88,79 92,26 11,65 7,74 Higgins,
Burstein e Attali
(2006)
78,50 - - 5,0 38,0
HBA-B 89,86 88,52 91,61 11,88 8,39 83,55 - - 4,7 28,2
HBA-C 83,06 89,66 74,74 8,62 25,26
85,15 6,8 22,9
Chen e Zhang
(2016) 4,4-28,6 100,0 2,2-18,1 - -
LH-D 82,62 89,01 74,45 9,20 25,55
Louis e Higgins
(2010)
91,05-
94,20 - -
2,53-
6,25
9,06-
11,65
LH-S 82,60 89,41 73,95 8,76 26,05 90,48-
94,45 - -
1,39-
7,03
9,76-
12,01
LH-A 81,13 87,78 73,32 10,07 27,68 90,85-
94,75 - -
1,47-
6,33
9,02-
11,97
LH-DA 81,62 87,93 73,30 10,07 27,70 91,24 - - 6,04 11,48
Melhor -
KFG-A 96,76 95,84 97,76 4,24 2,24
Melhor - Louis e
Higgins (2010) 94,75 - - 1,47 9,02
105
APÊNDICE F – PUBLICAÇÕES NAS ÁREAS DE AVALIAÇÃO
AUTOMÁTICA DE ESCRITA E TECNOLOGIAS
EDUCACIONAIS
Este documento apresenta alguns estudos que foram publicados durante o desenvolvimento
desta pesquisa e que estão relacionados aos temas de avaliação automática de escrita e tecnologias
educacionais.
PASSERO, G.; HAENDCHEN FILHO, A.; DAZZI, R. Avaliação do Uso de Métodos Baseados em
LSA e WordNet para Correção de Questões Discursivas. XXVII Simpósio Brasileiro de Informática
na Educação (SBIE 2016), Uberlândia, 2016. Anais... 2016.
NAU, J.; HAENDCHEN FILHO, A.; PASSERO, G. Uma Proposta de Revisor para Identificação de
Desvios de Linguagem em Textos Descritivos Formais. VIII Computer on the Beach, Florianópolis,
2017. Anais…, p. 582–584, 2017.
PASSERO, G.; DAZZI, R. L. S.; HAENDCHEN FILHO, A. Comparação de Técnicas de
Normalização Morfológica na Análise de Similaridade Textual. VIII Computer on the Beach 2017,
Florianópolis, 2017. Anais…, p. 599–601, 2017.
NAU, J.; HAENDCHEN FILHO, A.; PASSERO, G. Evaluating Semantic Analysis Methods for
Short Answer Grading Using Linear Regression. PEOPLE: International Journal of Social
Sciences, v. 3, n. 2, 2017.
NAU, J.; HAENDCHEN FILHO, A.; PASSERO, G.; CAVACO, V. Uma Ferramenta para Identificar
Desvios de Linguagem na Língua Portuguesa. 11th Brazilian Symposium in Information and Human
Language Technology, Uberlândia, 2017. Proceedings... 2017.
CAVALCANTI, A; FERREIRA, R; DIONÍSIO, M.; NETO, S.; PASSERO, G.; MIRANDA, P. Uma
Nova Abordagem para Detecção de Plágio em Ambientes Educacionais. XXVII Simpósio Brasileiro
de Informática na Educação (SBIE 2017), Recife, 2017. Anais... p. 1177-1186, 2017.
PASSERO, G.; ENGSTER, N. E. W.; DAZZI, R. L. S. Uma revisão sobre o uso das TICs na educação
da Geração Z. RENOTE, v. 14, n. 2, 2016.