detecÇÃo de fuga ao tema em redaÇÕes na lÍngua …siaibib01.univali.br/pdf/guilherme...

GUILHERME PASSERO

DETECÇÃO DE FUGA AO TEMA EM REDAÇÕES NA LÍNGUA

PORTUGUESA

Itajaí (SC), março de 2018

UNIVERSIDADE DO VALE DO ITAJAÍ

CURSO DE MESTRADO ACADÊMICO EM

COMPUTAÇÃO APLICADA


PORTUGUESA

por

Guilherme Passero

Dissertação apresentada como requisito parcial à

obtenção do grau de Mestre em Computação

Aplicada.

Orientador: Rudimar Luís Scaranto Dazzi, Dr.

Itajaí (SC), março de 2018

The analysis of student writing seems one of the major educational contributions which the

computer is destined to make. Such essay analysis has always been an important job for the

teacher, demanding his best dedication and intelligence. Therefore it is not surprising that

mechanical "dedication" and artificial "intelligence" should assume some of the responsibility, in

our increasingly computerized world.

Ellis Page, 1968.


PORTUGUESA

Guilherme Passero

Março / 2018

Orientador: Rudimar Luís Scaranto Dazzi, Dr.

Área de Concentração: Computação Aplicada

Linha de Pesquisa: Inteligência Aplicada

Palavras-chave: Processamento de linguagem natural, Análise semântica, Classificação de textos,

Avaliação automática de redações.

Número de páginas: 106

RESUMO

Os avanços alcançados nos últimos 60 anos em sistemas de correção automática de redações

possibilitaram a sua aplicação em cenários reais, como salas de aula e exames de médio e grande

porte. Uma das tarefas tratadas na correção automática de redações é a identificação de redações com

fuga ao tema. A fuga ao tema acontece quando o aluno não desenvolve conceitos relacionados à

proposta temática, por vezes de modo proposital, e causa a anulação da redação em alguns exames.

Um mecanismo de detecção de fuga ao tema pode ser utilizado em paralelo ou embutido em um

sistema de correção automática de redações para melhorar seu desempenho. Nesse contexto, esta

pesquisa visa avaliar as abordagens existentes na literatura para detecção automática de redações com

fuga ao tema. Uma revisão sistemática da literatura foi realizada para identificar as técnicas, recursos,

métricas e corpora atualmente utilizados na tarefa de detecção de fuga ao tema. Os resultados dessa

revisão mostraram algumas deficiências no estado da arte, entre elas: a baixa acurácia das abordagens

existentes, o uso de conjuntos artificiais para validação e a ausência de trabalhos voltados à língua

portuguesa. Nesta pesquisa, as abordagens identificadas na literatura, originalmente propostas para a

língua inglesa, foram adaptadas para a língua portuguesa e comparadas em dois experimentos com

um corpus público de 2.164 redações relacionadas a 111 propostas temáticas. O primeiro experimento

utilizou um conjunto próprio de exemplos reais de fuga ao tema identificados no corpus de pesquisa.

Esse experimento não produziu resultados conclusivos devido a limitações no conjunto de exemplos

reais utilizado. O segundo experimento utilizou um conjunto com exemplos artificiais de fuga ao

tema e o algoritmo com melhor desempenho obteve acurácia superior à encontrada na literatura para

a língua inglesa (96,76% contra 94,75%). Os resultados apresentados sugerem a aplicação de

mecanismos de detecção de fuga ao tema em redações no contexto educacional brasileiro de modo a

beneficiar o estudante, quando visada a geração de feedback, e as instituições educacionais, quando

visada a automatização do processo de correção de redações. Algumas sugestões de trabalhos futuros

são apresentadas, entre elas o tratamento da detecção de fuga ao tema em redações como um problema

multiclasse e a reprodução do experimento em um corpus de redações com um conjunto maior e

representativo de exemplos reais de fuga ao tema.

OFF-TOPIC ESSAY DETECTION FOR PORTUGUESE

LANGUAGE

Guilherme Passero

March / 2018

Advisor: Rudimar Luís Scaranto Dazzi, Dr.

Area of Concentration: Applied Computing

Research Line: Applied Intelligence

Keywords: Natural Language Processing, Semantic analysis, Text classification, Automated essay

evaluation.

Number of pages: 106

ABSTRACT

Advances in automated essay grading over the last sixty years enabled its application in real

scenarios, such as classrooms and medium- to large-scale tests. The recognition of off-topic essays is

one of the tasks addressed in automated essay grading. An essay is regarded as off-topic when the

student does not develop the expected prompt-related concepts, sometimes purposely. Off-topic

essays may receive a zero score in high-stake tests. An off-topic essay detection mechanism may be

used in parallel or embedded in an automated essay grading system to improve its performance. In

this context, the main goal of this study is to evaluate the existing approaches for automated off-topic

essay detection. A systematic review of the literature was performed to identify the techniques,

resources, measures and corpora applied in the task of off-topic essay detection. The results of this

review showed some deficiencies, including: the low accuracy of current approaches, the use of

artificial validation sets, and the lack of studies focused on the Portuguese language. In this study, the

approaches found in the literature, originally proposed for the English language, were adapted for the

Portuguese language and compared in two experiments using a public corpus of 2164 essays related

to 111 prompts. The first experiment used an own dataset of real off-topic examples found in the

research corpus. This experiment did not yield conclusive results due to limitations in the set of real

examples. The second experiment used a set of artificial off-topic examples, and the best performing

algorithm achieved higher accuracy than that found in the literature for the English language (96.76%

vs. 94.75%). The results presented suggest the application of off-topic essay detection mechanisms

in the Brazilian educational context in order to benefit the student, with computer generated feedback,

and educational institutions, regarding automated essay grading. Some suggestions for future research

are presented, including the need to address the task of off-topic essay detection as a multiclass

problem, and to reproduce the experiment with a larger and more representative set of real off-topic

essay examples.

LISTA DE ILUSTRAÇÕES

Figura 1. Custo geral estimado da correção das redações do ENEM (custo por redação) ............... 16

Figura 2. Custo médio da correção das redações do ENEM por nível de correção.......................... 17 Figura 3. Conceito “cachorro” e alguns de seus relacionamentos no WordNet ............................... 29

Figura 4. Arquitetura das redes Word2Vec tipos CBOW e Skip-gram ........................................... 36 Figura 5. Hierarquia de aprendizado .............................................................................................. 39

Figura 6. Indução de classificador em aprendizado supervisionado ............................................... 40 Figura 7. Exemplo de regressão linear para predição do grau de adequação ao tema ...................... 41

Figura 8. Conjunto de treinamento binário e três diferentes hipóteses ............................................ 43 Figura 9. Exemplo da utilização de regressão linear e SVR para predição do grau de adequação ao

tema em um conjunto com exemplos anômalos ..................................................................... 45

Quadro 1. Critérios avaliados na prova de redação do ENEM ........................................................ 24

Quadro 2. Exemplos de analogias avaliadas por um modelo Word2Vec Skip-gram treinado em 783M

de palavras com 300 dimensões ............................................................................................. 35

Quadro 3. Relação de artigos selecionados na revisão sistemática da literatura .............................. 49 Quadro 4. Técnicas de análise textual utilizadas nos trabalhos relacionados .................................. 62

Quadro 5. Técnicas e recursos de análise semântica utilizados nos trabalhos relacionados ............. 63 Quadro 6. Composição do corpus de treino utilizado nos trabalhos relacionados ........................... 63

Quadro 7. Tamanho dos corpora utilizados nos trabalhos relacionados .......................................... 64 Quadro 8. Métricas de desempenho utilizadas em pesquisas sobre detecção automática de fuga ao

tema ...................................................................................................................................... 65 Quadro 9. Resultados alcançados em pesquisas sobre detecção automática de fuga ao tema .......... 66

Quadro 10. Identificação dos algoritmos implementados ............................................................... 71 Quadro 11. Corpora utilizados pelos algoritmos ............................................................................ 72

Quadro 12. Exemplos de derivações, sinônimos e palavras associadas .......................................... 75

LISTA DE TABELAS

Tabela 1. Exemplo de matriz de coocorrências .............................................................................. 31

Tabela 2. Índice de similaridade médio obtido pelo algoritmo KFG-A para temas diversos ........... 84 Tabela 3. Resultados obtidos usando conjuntos artificiais .............................................................. 85

LISTA DE ABREVIATURAS E SIGLAS

ASST Análise de Similaridade Semântica Textual

CBOW Continous Bag-of-Words

CET College English Test

CVA Análise de Vetor de Conteúdo (Content Vector Analysis)

ENEM Exame Nacional do Ensino Médio

GRE Graduate Record Examination

GMAT Graduate Management Admission Test

LSA Análise de Semântica Latente (Latent Semantic Analysis)

LDA Latent Dirichlet Allocation

MEC Ministério da Educação

OpenWN-PT OpenWordNet-PT, uma wordnet da língua portuguesa

PEG Project Essay Grader

PLN Processamento de Linguagem Natural

PMI Pointwise Mutual Information

RI Random Indexing

TOEFL Teste de Inglês como uma Língua Estrangeira (Test of English as a Foreign

Language)

TF–IDF Term Frequency – Inverse Document Frequency

SVD Decomposição em Valores Singulares (Singular Value Decomposition)

SVM Máquina de Vetores de Suporte (Support Vector Machine)

SVR Regressão por Vetores de Suporte (Support Vector Regression)

UNIVALI Universidade do Vale do Itajaí

SUMÁRIO

1 INTRODUÇÃO ................................................................................. 11

1.1 PROBLEMA DE PESQUISA ........................................................................ 12

1.1.1 Solução Proposta .......................................................................................... 13

1.1.2 Delimitação de Escopo ................................................................................. 14

1.1.3 Justificativa .................................................................................................. 15

1.2 OBJETIVOS ................................................................................................... 19

1.2.1 Objetivo Geral .............................................................................................. 19

1.2.2 Objetivos Específicos ................................................................................... 19

1.3 METODOLOGIA ........................................................................................... 19

1.3.1 Metodologia da Pesquisa.............................................................................. 19

1.3.2 Procedimentos Metodológicos ..................................................................... 20

1.4 ESTRUTURA DA DISSERTAÇÃO .............................................................. 21

2 FUNDAMENTAÇÃO TEÓRICA .................................................... 22

2.1 A REDAÇÃO .................................................................................................. 22

2.1.1 Adequação ao Tema ..................................................................................... 24

2.1.2 Banco de Redações do Portal UOL Educação ............................................ 26

2.2 SIMILARIDADE SEMÂNTICA TEXTUAL ............................................... 27

2.2.1 Modelos Baseados em Tesauro .................................................................... 28

2.2.2 Modelos Baseados em Corpus ..................................................................... 30

2.3 APRENDIZADO DE MÁQUINA.................................................................. 38

2.3.1 Regressão Linear .......................................................................................... 40

2.3.2 Máquinas de Vetores de Suporte ................................................................. 42

2.3.3 Métricas de Avaliação .................................................................................. 45

3 ESTADO DA ARTE .......................................................................... 49

3.1 REVISÃO SISTEMÁTICA DA LITERATURA .......................................... 49

3.1.1 Higgins, Burstein e Attali (2006) ................................................................. 50

3.1.2 Louis e Higgins (2010) .................................................................................. 52

3.1.3 Li e Yan (2012) ............................................................................................. 54

3.1.4 Persing e Ng (2014)....................................................................................... 54

3.1.5 Chen e Zhang (2016) .................................................................................... 57

3.2 TRABALHOS SIMILARES .......................................................................... 58

3.2.1 Klebanov, Flor e Gyawali (2016) ................................................................. 59

3.2.2 Rei e Cummins (2016) .................................................................................. 61

3.3 ANÁLISE COMPARATIVA ......................................................................... 62

3.4 CONSIDERAÇÕES ....................................................................................... 67

4 DESENVOLVIMENTO ................................................................... 68

4.1 COLETA DOS DADOS ................................................................................. 68

4.2 IMPLEMENTAÇÃO DOS ALGORITMOS ................................................ 70

4.3 MÉTODO DE VALIDAÇÃO ........................................................................ 78

4.4 CONSIDERAÇÕES ....................................................................................... 79

5 RESULTADOS .................................................................................. 81

5.1 IDENTIFICAÇÃO DE REDAÇÕES COM FUGA AO TEMA .................. 81

5.2 EXPERIMENTO 1 – EXEMPLOS REAIS DE FUGA AO TEMA ............. 83

5.3 EXPERIMENTO 2 – EXEMPLOS ARTIFICIAIS DE FUGA AO TEMA 85

5.4 CONSIDERAÇÕES ....................................................................................... 88

6 CONCLUSÕES ................................................................................. 90

6.1 CONTRIBUIÇÕES DA DISSERTAÇÃO ..................................................... 91

6.2 LIMITAÇÕES ................................................................................................ 92

6.3 TRABALHOS FUTUROS ............................................................................. 92

REFERÊNCIAS..................................................................................... 94

APÊNDICE A – Protocolo de Revisão Sistemática da Literatura ..... 98

APÊNDICE B – Artigos Excluídos na Revisão Sistemática da

Literatura ..............................................................................................100

APÊNDICE C – Análise Comparativa do Estado da Arte ................101

APÊNDICE D – Redações Identificadas como Casos Reais de Fuga ao

Tema .......................................................................................................102

APÊNDICE E – Comparação dos Resultados Obtidos no Experimento

2 com Experimentos Anteriores ...........................................................104

APÊNDICE F – Publicações nas Áreas de Avaliação Automática de

Escrita e Tecnologias Educacionais .....................................................105

11

1 INTRODUÇÃO

A avaliação é parte fundamental do processo de ensino e aprendizagem, pois propicia um

momento de reflexão sobre conquistas e dificuldades tanto do aluno quanto do professor. No contexto

educacional, a redação é amplamente usada como instrumento de avaliação das habilidades e

competências adquiridas pelo aluno. Em atividades avaliativas com redação, apresenta-se ao aluno

um enunciado que o solicita elaborar uma resposta textual descritiva, narrativa ou dissertativa, cuja

análise não é uma tarefa trivial. O processo de correção manual de redações costuma apresentar

dificuldades relacionadas ao tempo, custo, confiabilidade e subjetividade do avaliador. Essas

dificuldades motivaram pesquisas em busca de soluções para automatizar o processo de correção

(DIKLI, 2006).

A correção automática de redações não é uma novidade. Em 1966, Page apresentou a primeira

abordagem para o problema, o PEG − Project Essay Grader (HEARST, 2000). A proposta de Page

utilizava características superficiais do texto (ex. número de palavras, de vírgulas, de preposições)

com regressão linear múltipla e, em um estudo comparativo de 1968, conseguiu prever com precisão

razoável a nota atribuída por humanos a redações (PAGE, 1968). Com os avanços na área de

Inteligência Artificial, principalmente na linha de PLN − Processamento de Linguagem Natural −,

novas ferramentas têm sido criadas para a análise automática da escrita. Entre as soluções disponíveis,

Dikli (2006) destaca as mais usadas: Intelligent Essay AssessorTM, E-rater® e CriterionSM,

IntelliMetricTM, MY Assessor!® e Bayesian Essay Test Scoring SystemTM. Algumas dessas

ferramentas já são aplicadas em exames internacionais importantes, como o GMAT − Graduate

Management Admission Test −, usado por muitas universidades como requisito de entrada em

programas acadêmicos, inclusive cursos de MBA (HEARST, 2000).

Apesar de muitas pesquisas estarem sendo desenvolvidas no campo de avaliação automática

da escrita, na revisão da literatura realizada no decorrer desta pesquisa, assim como na revisão de

Amorim e Veloso (2017), não foi encontrada nenhuma solução para correção automática de redações

na língua portuguesa. Na revisão de Dikli (2006), o software IntelliMetricTM é o único descrito como

apto a avaliar redações em português, mas em contato com a empresa fornecedora se obteve

informação de que essa funcionalidade ainda não foi desenvolvida.

12

Um dos critérios utilizados na avaliação de redações é a pertinência ao tema (ou adequação

ao tema). Para atender a esse critério, uma redação precisa desenvolver conceitos de várias áreas do

conhecimento e que se relacionam à temática levantada na proposta de redação (BRASIL, 2017a).

Redações que fogem ao tema proposto são comumente anuladas em exames de médio e grande porte,

como vestibulares, concursos públicos e exames nacionais. Uma ferramenta de detecção automática

de redações que fogem ao tema poderia reduzir o esforço humano empreendido na correção, além de

gerar feedback útil ao aluno – quando numa avaliação formativa.

Dentro desse contexto, esta pesquisa realizou uma avaliação das abordagens existentes na

literatura para detecção de fuga ao tema em redações, com enfoque na língua portuguesa. Para isso,

foi realizado um estudo comparativo das abordagens existentes considerando um conjunto de 2.164

redações extraídas do portal UOL Educação. Este trabalho visa apoiar o desenvolvimento de sistemas

para a correção de redações tanto em exames de médio e grande porte, quanto em atividades

avaliativas em sala de aula.

1.1 PROBLEMA DE PESQUISA

Em exames de médio e grande porte que incluem a redação como meio de avaliação existe

um grande custo envolvido com a capacitação e contratação de avaliadores (DIKLI, 2006).

Normalmente, nesses exames, cada redação é avaliada por duas pessoas, que atribuem nota a algumas

competências pré-definidas. Caso dois avaliadores discordem significativamente em uma

competência ou na nota total da redação, essa é novamente verificada por um terceiro avaliador ou

uma comissão avaliadora.

No contexto brasileiro, vale citar o ENEM − Exame Nacional do Ensino Médio −, um exame

de grande porte aplicado pelo MEC − Ministério da Educação − para verificar o domínio de

competências e habilidades dos estudantes que concluíram o ensino médio. Na edição de 2016, o

ENEM teve 84.236 redações anuladas por algum dos seguintes motivos: fuga ao tema; cópia de texto

motivador; texto insuficiente; não atendimento ao tipo textual; parte desconectada; e ofensa aos

direitos humanos. A maior parte das anulações foi devido à fuga ao tema (46.874 ou 55,6%)

(BRASIL, 2017b).

Outro cenário que demanda atenção quanto à avaliação da escrita são as escolas de educação

básica, universidades e outras instituições de ensino presencial e à distância. As habilidades de escrita

13

são fundamentais ao estudante e, com isso, as estratégias de ensino devem enfatizar o

desenvolvimento dessa competência (WILSON; ANDRADA, 2016). Um dos meios de incentivar o

aperfeiçoamento da escrita é a realização de atividades em sala de aula que exijam do aluno a

produção de redações. Na realização dessas atividades, além das tradicionais notas holísticas, é

importante fornecer ao aluno uma análise criteriosa do seu texto (PERSING; NG, 2014). O uso do

computador na geração desse feedback pode trazer melhorias significativas nas habilidades de escrita

do aluno, como observado no estudo de Wilson e Andrada (2016). Nesse cenário, a adequação ao

tema também é um dos critérios a serem considerados na geração de feedback sobre a redação do

aluno.

Apesar de já existirem trabalhos que tratam do problema de detecção de fuga ao tema, ainda

existem algumas lacunas e deficiências. Entre elas, podem ser citadas: (i) as altas taxas de erros

encontradas para as propostas existentes, com taxas de falsos positivos no intervalo de 1,39% a 7,03%

e taxas de falsos negativos de 9,02% a 38%; (ii) o uso de conjuntos artificiais para validação; e (iii) a

ausência de trabalhos aplicados a redações na língua portuguesa (PASSERO et al., 2017).

Nesse contexto, este trabalho busca tratar o problema de detecção de fuga ao tema em redações

escritas na língua portuguesa, tendo em vista as lacunas (ii) e (iii) encontradas na literatura. Pretende-

se responder à seguinte pergunta: as abordagens existentes na literatura para detecção de fuga ao tema

em redações, originalmente desenvolvidas e aplicadas na língua inglesa, podem ser adaptadas e

aplicadas à língua portuguesa?1

1.1.1 Solução Proposta

Algumas abordagens para a detecção automática de fuga ao tema têm sido propostas na

literatura, como as apresentadas em (HIGGINS; BURSTEIN; ATTALI, 2006; KLEBANOV; FLOR;

GYAWALI, 2016; LOUIS; HIGGINS, 2010; PERSING; NG, 2014) Essas abordagens se baseiam

principalmente na relação léxica e semântica entre o texto da redação e o enunciado (descrição da

1 A verificação da aplicabilidade das abordagens existentes será realizada nesta pesquisa adaptando as abordagens

existentes para a língua portuguesa e à tarefa de classificação binária e verificando se os resultados de desempenho obtidos

em um conjunto de redações experimental – na língua portuguesa – são equivalentes ou superiores aos observados na

literatura – para a língua inglesa – considerando a medida de acurácia.

14

proposta temática); entre o texto da redação e outras redações do mesmo tema; e entre o texto da

redação e um conjunto externo de redações de referência.

Pretende-se com esta pesquisa avaliar abordagens para detecção de fuga ao tema considerando

um conjunto de redações escritas na língua portuguesa. Para isso, uma revisão sistemática foi

realizada com objetivo de identificar e caracterizar as abordagens existentes. As técnicas e recursos

utilizados em trabalhos relacionados foram então adaptados à língua portuguesa e à tarefa de

classificação binária tendo em vista viabilizar um estudo comparativo.

O banco de redações do portal UOL Educação2 foi usado na validação do desempenho das

abordagens estudadas. Esse banco vem sendo periodicamente incrementado com novas redações

desde 2007 e, em março de 2017, continha 2.164 redações quase uniformemente distribuídas em 111

propostas temáticas, isto é, cerca de 20 redações por tema.

Assim, esta pesquisa procura verificar a seguinte hipótese: “É possível, considerando um

conjunto de redações na língua portuguesa, detectar redações com fuga ao tema com acurácia

equivalente ou superior à observada na literatura para a língua inglesa”.

1.1.2 Delimitação de Escopo

Neste trabalho pretende-se avaliar técnicas de detecção de fuga ao tema em redações escritas

na língua portuguesa. A fuga ao tema pode ser total, quando todo o texto se desenvolve em desacordo

com a proposta, ou parcial, quando apenas parte da redação desvia do tema proposto. Nesta pesquisa

é tratada a fuga total ao tema, que costuma anular redações em exames de médio e grande porte –

como o ENEM. Não obstante, as abordagens discutidas podem apoiar também a detecção de fuga

parcial ao tema e de partes deliberadamente desconexas (ex. inserção de excerto de música ou livro

não pertinente ao tema) em trabalhos futuros.

Além disso, o estudo comparativo contemplado nesta pesquisa trata um cenário onde o

número de redações é reduzido (20 por tema). Esse número reduzido de exemplos de redação por

tema representa um desafio para a detecção automática de fuga ao tema, pois uma amostra tão

pequena pode não apresentar todos os conceitos e palavras pertinentes à proposta temática, o que é

2 https://educacao.uol.com.br/bancoderedacoes/

15

desejável em uma abordagem que analisa a relação entre o texto da redação e outras redações do

mesmo tema. Em situações com grande número de redações sobre um mesmo tema em um conjunto

de treino, outras técnicas podem ser utilizadas para melhorar os resultados, por exemplo a priorização

da presença de palavras e composições exatas (n-gramas) no lugar de conceitos matematicamente

inferidos (ex. modelos de análise semântica distribucionais), como sugerido por Higgins, Burstein e

Attali (2006).

1.1.3 Justificativa

Em 2015 o ENEM envolveu mais de 10 mil avaliadores e teve custo estimado de R$15,88 por

redação corrigida. Esse valor engloba aparatos físicos e tecnológicos, capacitação de corretores,

serviço de correção e outros custos relacionados ao processo de correção (G1, 2016)3. Considerando

o total de 6,54 milhões de redações submetidas em 2015 (G1, 2016), pode-se estimar um custo total

de mais de 100 milhões de reais com a correção de redações. Tendo em conta o aumento no custo

médio da correção observado nos últimos anos, como pode ser visto na Figura 1, o governo tem

buscado meios de reduzir o custo do ENEM usando aparatos tecnológicos, como com a eliminação

do boletim impresso, que passou a ser entregue exclusivamente por meio virtual. Além disso, uma

das metas do MEC é realizar a prova do ENEM através da internet (MATOSO, 2015), o que facilitará

a realização de futuras pesquisas para a correção automática das redações.

3 As informações sobre o custo geral da correção de redações no ENEM foram obtidas pelo portal de notícias G1 através

da Lei de Acesso à Informação. Não foi possível encontrar essas informações em relatórios oficiais do MEC ou INEP.

16

Figura 1. Custo geral estimado da correção das redações do ENEM (custo por redação)

Fonte: G1 (2016).

A Figura 2 mostra o valor médio pago ao corretor de acordo com o nível da correção. A 1ª e

a 2ª correção são realizadas para todas as redações, enquanto que a 3ª correção demanda mais tempo

e é realizada apenas quando há divergência entre as notas atribuídas pelos dois primeiros corretores.

A 4ª correção é realizada por uma banca avaliadora quando os três primeiros corretores divergem

entre si. Pode-se observar na Figura 2 que o custo do corretor humano tem aumentado nos últimos

anos. Ainda, considerando as informações apresentadas na Figura 1, pode-se constatar que o custo do

corretor humano representa grande parte do custo total do processo de correção. Vale destacar que

nas edições de 2014, 2015 e 2016 do ENEM, mais de 7 milhões das cerca de 15,5 milhões de redações

corrigidas foram submetidas à terceira avaliação (45,87%), e 8,7% dessas foram submetidas à banca

avaliadora (623.013)4. Esses dados evidenciam uma falta de padronização no processo atual de

correção do ENEM e a subjetividade da correção humana.

4 Informações obtidas pelo autor através do pedido de informação nº 23480.004970/2017-81, registrado no Sistema

Eletrônico do Serviço de Informação ao Cidadão (e-SIC) do governo federal e em acordo com a Lei de Acesso à

Informação.

17

Figura 2. Custo médio da correção das redações do ENEM por nível de correção

Fonte: Pedido de informação nº 23480.004970/2017-81, registrado no SIC – INEP.

Exames de médio e grande porte, como o ENEM, poderiam se beneficiar de uma ferramenta

de detecção de fuga ao tema pela redução do esforço humano empregado na correção de redações.

Para isso, redações com suspeita de fuga ao tema – detectadas pelo computador – seriam

encaminhadas a um avaliador humano para confirmação. Confirmado o desvio, não haveria

necessidade de contratação de um segundo avaliador humano para a correção. No caso de o

computador ou avaliador humano não detectar fuga ao tema, a redação seria normalmente corrigida

por um segundo avaliador humano. Essa sistemática já vem sendo adotada em outros cenários, como

na correção automática de redações (DIKLI, 2006).

Com base nas informações obtidas por meio do pedido de informação nº 23480.004970/2017-

81, registrado no SIC – INEP, pode-se verificar que a aplicação de uma ferramenta de detecção de

redações com fuga ao tema com 100% de recall nas edições de 2014, 2015 e 2016 do ENEM,

utilizando o procedimento descrito, permitiria ao governo federal economizar cerca de 1,2 milhões

de reais, desconsiderando os custos de construção da ferramenta e migração das redações para o meio

digital.

R$26,84

R$5,85

R$4,47

R$25,09

R$5,47

R$4,18

R$23,01

R$5,02

R$3,84

R$- R$5,00 R$10,00 R$15,00 R$20,00 R$25,00 R$30,00

4ª CORREÇÃO

3ª CORREÇÃO

1ª E 2ª CORREÇÃO

2014 2015 2016

18

Em atividades avaliativas com redação realizadas em sala de aula, a geração automática e

contínua de feedback pode apoiar o desenvolvimento das habilidades de escrita dos alunos, como

observado no estudo de Wilson e Andrada (2016). Um mecanismo de detecção de fuga ao tema

poderia ser usado nesse contexto a fim de auxiliar o aluno a focar em conceitos relacionados ao tema

proposto pelo professor durante a elaboração de sua redação.

Algumas soluções comerciais para correção automática de redações têm se apresentado

viáveis para aplicação em exames de médio e grande porte. Em vários estudos, pôde-se observar

correlação significativa entre as notas atribuídas pelo computador e pelos avaliadores humanos, como

(ATTALI, 2007; RUDNER; GARCIA; WELCH, 2006). Apesar dos resultados promissores, os

sistemas de correção automática de redação ainda são criticados pela comunidade científica,

principalmente quanto à falta de interação humana, a vulnerabilidade a fraudes e a necessidade de um

corpus grande de exemplos para treino (DIKLI, 2006; HIGGINS; HEILMAN, 2014). Visando

minimizar a vulnerabilidade a fraudes, um mecanismo de detecção de fuga ao tema pode ser usado

em paralelo ou embutido em um sistema de correção de redações para melhorar seu desempenho

(CHEN; ZHANG, 2016; HIGGINS; BURSTEIN; ATTALI, 2006).

Por fim, uma das contribuições desta pesquisa é a avaliação de técnicas de detecção de fuga

ao tema em um cenário onde o número de redações no conjunto de treino é bastante limitado (20

redações). Outra contribuição desta pesquisa é uma revisão sistemática da literatura sobre o tema,

apresentando as técnicas, recursos, métricas e corpora atualmente empregados na detecção de

redações com fuga ao tema. Na revisão da literatura realizada durante esta pesquisa, não foi

encontrado nenhum trabalho aplicado à detecção de fuga ao tema em redações na língua portuguesa.

Com isso, no cenário brasileiro, esta pesquisa faz uma contribuição para o avanço das pesquisas em

correção automática de redações, apresentando uma proposta de adaptação das abordagens existentes

para detecção de fuga ao tema tendo em vista sua aplicação na língua portuguesa.

19

1.2 OBJETIVOS

Esta seção formaliza os objetivos do trabalho, conforme descritos nas seções seguintes.

1.2.1 Objetivo Geral

O objetivo geral desta pesquisa é avaliar as abordagens existentes para detecção automática

de fuga ao tema em redações tendo em vista a língua portuguesa.

1.2.2 Objetivos Específicos

Os objetivos específicos desta pesquisa são:

1. Compor um corpus público de redações escritas na língua portuguesa;

2. Criar um conjunto público de exemplos reais de redações com fuga ao tema;

3. Identificar na literatura as abordagens que são utilizadas na tarefa de detecção de fuga ao tema

em redações;

4. Adaptar à língua portuguesa as abordagens existentes para detecção de fuga ao tema em

redações;

5. Analisar o desempenho das abordagens existentes, com adaptações à língua portuguesa, tendo

como conjunto de validação as redações obtidas do portal UOL Educação.

1.3 METODOLOGIA

Nas seções seguintes a metodologia a ser utilizada nesta pesquisa é classificada e uma síntese

dos procedimentos metodológicos utilizados é apresentada.

1.3.1 Metodologia da Pesquisa

Neste projeto será aplicado o método hipotético-dedutivo. O método hipotético-dedutivo

caracteriza-se pela presença de uma hipótese a respeito de um problema e o procedimento de coleta

de dados para sua verificação.

Esta pesquisa terá uma abordagem quantitativa. As pesquisas quantitativas usam ferramentas

estatísticas para medir a relação existente entre variáveis. Esta pesquisa pretende verificar índices de

20

desempenho como a taxa de erros e acurácia na execução das técnicas de detecção de fuga ao tema

avaliadas.

Sob o ponto de vista da natureza da pesquisa, esta é uma pesquisa aplicada. A pesquisa

aplicada objetiva gerar produtos e/ou processos com finalidades imediatas, a partir de conhecimentos

prévios. Ainda, sob o ponto de vista do objetivo da pesquisa, esta é uma pesquisa exploratória. As

pesquisas exploratórias examinam um conjunto de fenômenos, identificando padrões e anomalias, e,

com isso, buscam criar fundamento para pesquisas mais aprofundadas. Nesse sentido, esta pesquisa

visa aplicar conhecimentos e técnicas existentes através de estudos de caso, onde serão confirmadas

ou refutadas as hipóteses formuladas.

1.3.2 Procedimentos Metodológicos

Esta seção apresenta os procedimentos metodológicos adotados nesta pesquisa.

Revisão bibliográfica: Esta etapa tem como objetivo proporcionar a fundamentação teórica

necessária ao desenvolvimento da pesquisa.

Revisão sistemática da literatura: Esta etapa tem como objetivo realizar uma revisão

sistemática da literatura sobre o tema de pesquisa para identificar as técnicas de análise textual

atualmente utilizadas na tarefa de detecção de fuga ao tema em redações.

Preparação do corpus de pesquisa: Esta etapa tem como objetivo encapsular o corpus de

pesquisa (banco de redações do portal UOL Educação) em um formato estruturado e criar conjuntos

de redações de exemplos negativos (sem fuga ao tema) e de exemplos positivos (com fuga ao tema).

Implementação dos algoritmos: Esta etapa tem como objetivo implementar modelos de

detecção automática de fuga ao tema considerando as técnicas de análise textual encontradas na

literatura, adaptando-as à língua portuguesa e à tarefa de classificação binária.

Comparação de algoritmos: Esta etapa tem como objetivo comparar as soluções candidatas

previamente implementadas em um estudo de caso utilizando o banco de redações do portal UOL

Educação para verificação do desempenho.

Análise dos resultados: Esta etapa tem como objetivo analisar os resultados obtidos no

estudo comparativo, contrastando-os com os encontrados na literatura, reconhecendo e explanando

21

possíveis limitações relacionadas aos resultados e identificando os algoritmos com melhor

desempenho considerando os possíveis contextos de aplicação (ex. presença de conjunto de treino).

Conclusão: Esta etapa tem como objetivo analisar as contribuições da pesquisa e apresentar

sugestões de trabalhos futuros relevantes.

1.4 ESTRUTURA DA DISSERTAÇÃO

O trabalho está organizado em seis capítulos. O Capítulo 1, Introdução, apresenta uma

contextualização do tema abordado, o problema a ser resolvido e os resultados esperados. Além disso,

esse capítulo apresenta a justificativa, metodologia e a delimitação do escopo proposto. O Capítulo 2

apresenta a fundamentação teórica sobre (i) o uso da redação como instrumento de avaliação do

aprendizado; (ii) análise de similaridade semântica textual; e (iii) aprendizado de máquina. No

Capítulo 3 são apresentados trabalhos relacionados e o estado da arte sobre detecção de fuga ao tema

em redações. O Capítulo 4 detalha a abordagem proposta para coleta de dados, implementação dos

algoritmos, detalhando as adaptações ao contexto da pesquisa, e o método de validação dos

algoritmos. O Capítulo 5 apresenta e discute os resultados obtidos no estudo comparativo realizado

com o banco de redações do portal UOL Educação. Por fim, no Capítulo 6, são tecidas as conclusões

do trabalho, relacionando os objetivos identificados inicialmente com os resultados alcançados. São

ainda propostas possibilidades de continuação da pesquisa desenvolvida a partir das experiências

adquiridas com a execução do trabalho.

22

2 FUNDAMENTAÇÃO TEÓRICA

Este capítulo apresenta a fundamentação teórica sobre conceitos relevantes à tarefa de

detecção automática de fuga ao tema, incluindo o uso educacional de redações, similaridade

semântica textual e aprendizado de máquina, introduzidos respectivamente nas Seções 2.1, 2.2 e 2.3.

Por fim, na Seção 2.4, são apresentadas as considerações finais sobre o capítulo.

2.1 A REDAÇÃO

Segundo o Dicionário Aurélio, as duas definições mais comuns para a palavra redação são

“ato ou efeito de redigir” e “trabalho ou exercício escolar que versa sobre um assunto dado, ou de

livre escolha, e se destina a ensinar o aluno a redigir corretamente, com seguimento lógico de ideias”.

Enquanto a primeira definição trata de uma visão mais genérica e abstrata do conceito de redação, a

segunda definição aborda a redação como instrumento de ensino e avaliação no ambiente

educacional. No escopo desta dissertação, ambas definições são oportunas, no entanto se destaca a

segunda definição como mais pertinente.

Segundo Lima (2011), redação é um nome genérico que pode ser atribuído a qualquer forma

de escrita. A redação pode ser classificada em três tipos principais (LIMA, 2011):

• Descrição: quando o autor aponta características que compõem uma paisagem, um ambiente,

um objeto ou um ser.

• Narração: quando o autor conta um fato ocorrido em determinado lugar e tempo.

• Dissertação: quando o autor apresenta ou discute uma ideia, expondo, explicando e

argumentando a fim de comprovar o que se afirma.

A habilidade de escrita é essencial para o sucesso escolar, acadêmico e profissional

(WILSON; ANDRADA, 2016). A redação tem sido utilizada em sala de aula tanto para estimular as

habilidades de interpretação e escrita, quanto como um instrumento robusto de avaliação. Apesar da

importância do desenvolvimento das habilidades de escrita na educação básica, as instituições de

ensino não têm conseguido estimular essa capacidade adequadamente, dado que nos últimos anos

pôde-se observar uma grande deficiência na produção textual dos jovens. Essa deficiência é

constatada e discutida no trabalho de Maria Thereza Fraga Rocco (2011) e nos levantamentos

23

realizados pelo órgão estadunidense de estatísticas educacionais (NATIONAL CENTER FOR

EDUCATION STATISTICS, 2012) e no ENEM do Brasil (2017b), apresentados a seguir.

Em um estudo brasileiro, Rocco (2011) analisou minuciosamente 1.500 redações manuscritas

submetidas a um vestibular em 1978. A autora constatou que apenas 116 casos (7,7% da amostra)

não apresentavam os problemas de textualidade analisados, entre eles a coerência, a coesão e a

correspondência ao tema. Vale destacar ainda que a autora procurou pela presença de linguagem

criativa nas redações analisadas, que só encontrou em 40 casos (2,7% da amostra). Desses 40 casos,

apenas quatro estavam providos de criatividade e originalidade no todo, segundo os critérios definidos

pela autora. Tais resultados levaram a autora a concluir uma possível crise na linguagem, sobretudo

marcada pela incapacidade dos estudantes brasileiros em produzir textos criativos, originais e que

obedeçam aos princípios da textualidade.

Em um estudo mais recente de 2011, realizou-se uma avaliação nacional da escrita dos

estudantes estadunidenses, onde se pôde constatar que apenas um quarto desses estudantes atinge o

nível de proficiência esperado para o seu ano escolar (NATIONAL CENTER FOR EDUCATION

STATISTICS, 2012).

No cenário brasileiro, vale citar também resultados recentes sobre a produção de redações por

estudantes concluintes do ensino médio. No ENEM 2016, as redações submetidas receberam nota

média de 543, onde apenas 77 de cerca de 6 milhões de redações atingiram a nota máxima (1000) e

55.869 (menos de 1%) atingiram nota entre 901 e 999 (BRASIL, 2017b).

Uma das questões de maior interesse da linguística textual é a discussão sobre o que faz de

um texto um texto, isto é, “em que consiste a essência de um texto” e “que propriedade distingue um

texto de um não texto” (VAL, 2009, p.17). Entre as características centrais para identificação da

textualidade, Beaugrand e Dressler (1983 apud VAL, 2009) citam a coerência e coesão, a

intencionalidade, a aceitabilidade, a situacionalidade, a informatividade e a intertextualidade.

A avaliação de uma redação compreende a análise do atendimento aos princípios de

textualidade, que incluem as características mencionadas por Beaugrand e Dressler. No Exame

Nacional do Ensino Médio (ENEM), realizado anualmente no Brasil, o desempenho de um aluno na

prova de redação é avaliado por professores de acordo com os critérios apresentados no Quadro 1.

Uma nota entre 0 a 200 pontos é atribuída pelos avaliadores a cada um dos critérios, podendo a

24

redação receber, no máximo, 1000 pontos. Ainda, o avaliador atribui nota 0 à redação em algumas

situações: fuga total ao tema; não atendimento do tipo textual; cópia do texto motivador; etc.

Quadro 1. Critérios avaliados na prova de redação do ENEM

Competência 1 Demonstrar domínio da modalidade escrita formal da Língua Portuguesa.

Competência 2

Compreender a proposta de redação e aplicar conceitos das várias áreas de

conhecimento para desenvolver o tema, dentro dos limites estruturais do texto

dissertativo-argumentativo em prosa.

Competência 3 Selecionar, relacionar, organizar e interpretar informações, fatos, opiniões e

argumentos em defesa de um ponto de vista.

Competência 4 Demonstrar conhecimento dos mecanismos linguísticos necessários para a

construção da argumentação.

Competência 5 Elaborar proposta de intervenção para o problema abordado, respeitando os

direitos humanos.

Fonte: Brasil (2017a).

No contexto desta pesquisa, trata-se a adequação ao tema de um texto, um critério comumente

utilizado na avaliação de redações. Em relação ao critério de adequação ao tema, destacam-se os

princípios de Beaugrand e Dressler (1983 apud VAL, 2009) de aceitabilidade, isto é, o quanto o texto

atende as expectativas do avaliador, e de situacionalidade, relacionado ao grau de pertinência e

relevância do texto ao contexto de avaliação. Ainda, vale mencionar a relação existente entre o critério

de adequação ao tema e a Competência 2 do ENEM, que abrange tanto o desenvolvimento do tema

quanto o atendimento do tipo textual.

2.1.1 Adequação ao Tema

A adequação ou pertinência ao tema se refere a quanto o conteúdo de uma redação está

relacionado à proposta temática a qual a redação foi submetida. Uma redação com boa adequação ao

tema mantém consistentemente o tema introduzido na proposta temática e está livre de disgressões

irrelevantes (PERSING; NG, 2014).

Segundo Klebanov, Flor e Gyawali (2016), a instrução de “focar no tema” frequentemente

dada aos novos escritores parece problemática, pois ainda não se sabe exatamente qual a melhor

forma de medir tal propriedade textual. Segundo os autores, um modo razoável de identificar a

pertinência de uma palavra p a um tema T é verificar a ocorrência de p mais em textos do tema T que

25

em textos de outros temas. Logo, analisando-se cada palavra de uma redação, poder-se-ia estimar a

sua adequação ao tema.

Redações que não atendem ao critério de adequação ao tema são ditas como casos de fuga ao

tema. Na correção de redações do ENEM, a fuga ao tema pode ser vista em dois níveis: (i) parcial,

quando algumas partes da redação não abordam o tema de modo adequado ou quando a redação

apenas tangencia o tema, limitando-se ao assunto mais amplo proposto; ou (ii) total, quando o autor

não desenvolve o assunto relacionado ao tema, anulando a redação (BRASIL, 2017a).

Higgins, Burstein e Attali (2006) apresentam a seguinte tipologia para classificação de

redações com fuga ao tema:

• tema inesperado: redações possivelmente bem escritas que não desenvolvem o tema proposto:

• tentativa deliberada de fraude/má-fé: redações que na maior parte consistem de partes

copiadas do enunciado ou trechos irrelevantes, tais como excertos de textos não relacionados

ao tema e à própria redação.

No escopo desta pesquisa, trata-se o caso das redações com fuga ao tema que se enquadram

na classificação “tema inesperado”.

A fuga ao tema em redações é um problema comum em processos avaliativos. No estudo de

Maria Thereza Fraga Rocco (2011), 765 (51%) das 1.500 redações avaliadas tinham algum problema

quanto à correspondência ao tema. Dessas, 217 (14,6%) apresentavam falta de correspondência total

ao tema e 548 (36,9%) falta parcial.

No ENEM 2016, em relação ao total de redações submetidas, cerca de 6 milhões, a fuga total

ao tema esteve presente em 0,8% delas (BRASIL, 2017b). Contudo, vale destacar que na edição de

2014 desse mesmo exame a taxa de anulação de redações por fuga ao tema foi significativamente

superior, cerca de 4,5%5. A grande diferença entre as estatísticas do ENEM e do estudo de Maria

Thereza Fraga Rocco (2011) pode ser devido a diferenças no público alvo e no método de avaliação.

5 Informação obtida pelo autor através do pedido de informação nº 23480.004970/2017-81, registrado no Sistema

Eletrônico do Serviço de Informação ao Cidadão (e-SIC) do governo federal e em acordo com a Lei de Acesso à

Informação.

26

Haja vista a grande deficiência na produção textual de jovens observada nos últimos anos, são

necessárias iniciativas que auxiliem o desenvolvimento dessa capacidade no ambiente educacional.

A geração de feedback para o aluno sobre suas produções textuais é importante e pode trazer

melhorias nas suas habilidades de escrita (WILSON; ANDRADA, 2016). Com isso, algumas

ferramentas para análise de escrita têm sido desenvolvidas tendo como objetivo apoiar o processo de

avaliação da aprendizagem (DIKLI, 2006; PERSING; NG, 2014).

Em um estudo comparativo de análise automática de escrita é necessário um corpus de

pesquisa representativo do problema a ser estudado. De preferência, o corpus de pesquisa deve ser

público, a fim de possibilitar a comparação com trabalhos paralelos, e estar disponível em meio

digital. Em uma pesquisa na literatura realizada por Júnior, Spalenza e Oliveira (2017), foram

encontradas plataformas privadas de correção de redações como forma de orientação de estudantes,

como Redação Online6, Mais Correções7 e Imaginie8. Nessas plataformas, o estudante pode obter

feedback personalizado sobre a sua redação, fornecido por um ou mais avaliadores (humanos).

Também foram encontradas duas plataformas públicas disponibilizadas pela UOL, o banco de

redações do portal UOL Educação9 e o banco de redações do portal Brasil Escola10. Desses, o primeiro

foi selecionado para compor o corpus desta pesquisa.

2.1.2 Banco de Redações do Portal UOL Educação

O banco de redações do portal UOL Educação é um serviço online que tem como objetivo

principal auxiliar estudantes a desenvolver habilidades de produção textual. A cada mês é apresentada

uma nova proposta temática aos usuários do portal, que são convidados a submeterem suas redações.

De todas as redações enviadas, 20 são selecionadas aleatoriamente para serem corrigidas e

comentadas por especialistas da UOL com base nos critéiros adotados pelo MEC para o ENEM e que

são amplamente usados em vestibulares, incluindo “o domínio da norma culta do idioma, a

compreensão do tema e a capacidade de redigir um texto de caráter argumentativo-dissertativo” (UOL

EDUCAÇÃO, 2017).

6 http://www.redacaonline.com.br/ 7 https://maiscorrecoes.com.br/ 8 http://www.imaginie.com/ 9 https://educacao.uol.com.br/bancoderedacoes/ 10 http://vestibular.brasilescola.uol.com.br/banco-de-redacoes/

27

Os responsáveis pelo banco de redações esperam que esse serviço possa esclarecer aos

estudantes “o que é esperado de sua redação e evidenciar as características que levam um texto a ter

bom conceito no Enem e nas provas de vestibular” (UOL EDUCAÇÃO, 2017). O banco de redações

da UOL começou em 2007 e contém atualmente mais de 2.100 redações corrigidas e comentadas.

Esse banco de redações foi selecionado para compor o corpus dessa pesquisa por estar

disponível publicamente e ter um grande número de redações de variados temas. As informações do

banco de redações foram extraídas com apoio de um web crawler, haja vista que, em contato com os

responsáveis pelo banco, não foi possível obter os dados em um formato estruturado.

Entre as técnicas aplicadas para a avaliação automática de redações no contexto de detecção

de fuga ao tema, destaca-se a análise de similaridade semântica textual, descrita na seção seguinte.

2.2 SIMILARIDADE SEMÂNTICA TEXTUAL

A semântica é um ramo da linguística que estuda o significado e a sua relação com o

significante, tais como palavras, frases, sinais e símbolos. Enquanto a semântica lexical se preocupa

com o significado de palavras individuais, a semântica composicional estuda o significado da

composição de palavras na formação de sintagmas e frases (JURAFSKY; MARTIN, 2008).

No contexto computacional, a análise de similaridade semântica textual (ASST) busca medir

o grau de equivalência semântica entre textos, normalmente usando um intervalo de valores

representativos da equivalência à total ausência de relação semântica (AGIRRE et al., 2016). Os

estudos na linha de ASST auxiliam em diversas tarefas de PLN e compreensão textual, entre elas a

tradução de textos, sumarização, geração de textos e sistemas de resposta automática (AGIRRE et al.,

2016), além de tarefas de classificação de textos, como avaliação automática de redações e detecção

de plágio (JURAFSKY; MARTIN, 2008).

Jurafsky e Martin (2008) dividem os modelos de análise de similaridade entre palavras

(semântica lexical) em duas classes: (i) baseados em tesauro e (ii) baseados em corpus (ou

distribucionais). Nas seções a seguir são caracterizadas essas duas classes e apresentadas as técnicas

de análise de similaridade textual pertinentes a esta pesquisa.

28

2.2.1 Modelos Baseados em Tesauro

Os modelos de ASST baseados em tesauro usam a estrutura de um tesauro para medir a

similaridade entre palavras. Segundo o Dicionário Priberam da Língua Portuguesa, a palavra tesauro

significa, no contexto linguístico, uma “compilação do léxico de uma língua ou de uma área do saber”.

Um tesauro é um tipo de dicionário onde palavras com significados semelhantes são organizadas em

uma estrutura de conceitos ou ideias, por vezes considerando um domínio específico. Entre os

tesauros disponíveis, destaca-se no contexto de análise de relações de sentido o WordNet

(JURAFSKY; MARTIN, 2008).

Nas seções seguintes são apresentados os tesauros PAPEL e WordNet, utilizados no contexto

deste estudo. Enquanto o WordNet é explicitamente mencionado na descrição da abordagem de

trabalhos similares, o tesauro PAPEL foi selecionado para representar exclusivamente o recurso

lexical empregado na pesquisa de Louis e Higgins (2010), denominado “normas de palavras

associadas” (“word association norms”). Uma das limitações do PAPEL é ter sido construído de

modo automático, enquanto que o dicionário empregado por Louis e Higgins (2010) foi construído

de modo manual e empírico, através de entrevistas com 6.000 pessoas. Optamos por essa instância

de dicionário de palavras associadas por não existir na língua portuguesa recurso equivalente ao

mencionado no trabalho relacionado.

2.2.1.1 PAPEL

O PAPEL – Palavras Associadas Porto Editora - Linguateca – é um recurso lexical para a

língua portuguesa que contém palavras e as relações semânticas entre elas. Esse recurso foi construído

através da extracção automática de relações semânticas presentes nas definições de palavras no

Dicionário da Língua Portuguesa da Porto Editora (OLIVEIRA et al., 2008).

Na última versão do PAPEL, a 3.5, atualizada em agosto de 2013, o recurso contava com

94.165 itens lexicais e 191.497 relações semânticas entre eles. Esse recurso foi selecionado para

representar, na língua portuguesa, o dicionário de palavras associadas utilizado em (LOUIS;

HIGGINS, 2010) para expansão de enunciados, na língua inglesa.

29

2.2.1.2 WordNet

O WordNet começou com um projeto de pesquisa da Princeton University (FELLBAUM,

1998) e contempla uma base de conhecimento onde substantivos, verbos, advérbios e adjetivos são

organizados por uma variedade de relações semânticas. As palavras do léxico são mantidas dentro de

um ou mais conjuntos de sinônimos (synsets), que representam conceitos. Como um dicionário

comum, o WordNet contém as definições de palavras, mas difere porque ao invés de ser organizado

alfabeticamente, é organizado conceitualmente (LEACOCK; CHODOROW, 1998 apud PASSERO;

HAENDCHEN FILHO; DAZZI, 2016).

Alguns exemplos de relações semânticas usadas pelo WordNet são hipernímia/hiponímia (é-

um), meronímia (é-parte-de), sinonímia (similar a) e antonímia (contrário de). Essas relações são

associadas com palavras para formar uma estrutura hierárquica, que é uma ferramenta útil para a

linguística computacional e processamento de linguagem natural (MENG et al., 2013 apud

PASSERO; HAENDCHEN FILHO; DAZZI, 2016).

A Figura 1 apresenta o conceito “cachorro” (synset 02084071-n) e alguns dos seus

relacionamentos no WordNet.

Figura 3. Conceito “cachorro” e alguns de seus relacionamentos no WordNet

Fonte: Passero, Haendchen Filho e Dazzi (2016).

Oliveira et al. (2015) apresentam uma comparação de sete wordnets disponíveis para a língua

portuguesa. Segundo os autores, o OpenWN-PT – OpenWordNet-PT – se destaca pelo conteúdo livre

e gratuito e por ter sido adotado como representante das wordnets da língua portuguesa pelos projetos

FreeLing, Open Multilingual Wordnet e Google Translate.

30

O OpenWN-PT foi criado utilizando aprendizagem de máquina para construção de grafos com

a relação entre informações a partir de versões em múltiplas línguas da Wikipédia e de dicionários

eletrônicos abertos (OLIVEIRA et al., 2015). Atualmente essa wordnet é mantida com revisão manual

colaborativa e três técnicas de enriquecimento do seu léxico: (i) tradução de materiais produzidos

para outras línguas; (ii) extração de expressões idiomáticas a partir de corpora; e (iii) extração de

palavras de dicionários (OLIVEIRA et al., 2015). Considerando não haver um método de avaliação

preciso para determinar a melhor wordnet para um contexto, este estudo optou pela instância mais

popular, o OpenWN-PT, descrito em (PAIVA; RADEMAKER; MELO, 2012).

No contexto desta pesquisa, o OpenWN-PT foi utilizado para expandir enunciados através da

adição de sinônimos, como proposto por Louis e Higgins (2010). Essa técnica é voltada

principalmente para enunciados curtos, onde a adição de termos similares aumenta as chances do

computador encontrar relações entre o texto do enunciado e o da redação, melhorando assim o

desempenho de sistemas de detecção de redações com fuga ao tema.

Os modelos de ASST baseados em tesauros têm várias limitações, entre elas a ausência de

certas palavras no tesauro, especialmente as de domínio específico, e a dificuldade em comparar

palavras de hierarquias diferentes, como verbos e substantivos. Um dos meios de contornar esses

problemas é a criação de modelos que extraem palavras e suas relações semânticas de modo

automático a partir de grandes conjuntos de textos, também chamados de modelos distribucionais ou

baseados em corpus (JURAFSKY; MARTIN, 2008).

2.2.2 Modelos Baseados em Corpus

A premissa dos modelos de ASST baseados em corpus é que o significado de uma palavra

pode ser representado pelo contexto onde ela costuma aparecer. A famosa frase de Firth (1957) “You

shall know a word by the company it keeps!”11 é citada na literatura como precursora dos modelos de

análise semântica baseados em corpus (JURAFSKY; MARTIN, 2008). Os modelos distribucionais

11 Em português: “Você conhecerá uma palavra pela sua companhia” (tradução livre). No texto em que essa alegação é

apresentada, Firth não se referia ao contexto de uma palavra, mas a palavras próximas que lhe conferem um novo

significado, como o caso das colocações e coligações. Por exemplo, a palavra “branco” assume diferentes sentidos,

dependendo da sua colocação, como nas frases: “deu branco na prova” e “o branco do papel”.

31

são provavelmente o conceito de maior sucesso para a representação o sentido de uma palavra no

espaço vetorial (MIKOLOV et al., 2013).

Lin (1998) apresenta um exemplo interessante de como o contexto de uma palavra pode

auxiliar na representação do seu significado (adaptado de NIDA, 1975 apud LIN, 1998, tradução

nossa):

Há uma garrafa de tejuino na mesa.

Todos gostam de tejuino.

Tejuino deixa as pessoas bêbadas.

Tejuino é feito de milho.

A palavra "tejuino” pode parecer estranha ao vocabulário do leitor brasileiro comum – e do

corretor ortográfico do Microsoft Word 2016 –, no entanto é uma palavra que de fato existe no

vocabulário da língua portuguesa. O contexto acima permite inferir que tejuino é uma bebida

alcoólica feita de milho. De modo similar, os modelos de ASST baseados em corpus inferem o sentido

das palavras através das palavras que ocorrem no seu contexto (JURAFSKY; MARTIN, 2008).

O contexto de uma palavra é normalmente capturado pelos modelos distribucionais através de

uma matriz de coocorrências. Nessa matriz, as linhas representam as palavras do vocabulário e as

colunas representam o contexto onde essas palavras ocorrem (palavras, sentenças ou documentos)

(JURAFSKY; MARTIN, 2008). Por exemplo, dados os usos contextuais apresentados abaixo para o

vocabulário {maçã, banana, comer, computador}, poder-se-ia obter a matriz de coocorrências

apresentada na Tabela 1.

Eu gosto de comer maçã e banana.

Maçã e banana são frutas.

Um computador pode processar dados.

Tabela 1. Exemplo de matriz de coocorrências

Palavra comer frutas processar dados

maçã 1 1 0 0

banana 1 1 0 0

computador 0 0 1 1

A partir da matriz de coocorrências apresentada na Tabela 1, pode-se inferir que maçã e

banana possuem um grau maior de similaridade que maçã e computador, haja vista que o contexto

32

de maçã é mais similar ao contexto de banana. Na análise de similaridade textual com modelos

distribucionais, palavras e documentos são representados através de vetores, que apontam o sentido

do texto. O nível de similaridade entre duas palavras ou documentos pode ser mensurado comparando

os dois vetores relacionados, sendo uma das medidas mais usadas o cosseno do ângulo. Considerando

o exemplo da Tabela 1, o cosseno do ângulo entre as palavras maçã e banana seria 1.00, enquanto

que para as palavras maçã e computador esse índice seria 0.00.

Grandes corpora de textos são usados na construção de modelos distribucionais com objetivo

de construir representações de sentidos que abrangem grande parte do léxico de uma língua. Esses

corpora são convertidos em uma matriz de coocorrências grande e esparsa, onde podem ser aplicadas

funções de transformação como TF–IDF (Term Frequency – Inverse Document Frequency) e PMI

(Pointwise Mutual Information), para atribuir peso maior às palavras mais relevantes a um contexto,

e de compactação como a decomposição em valores singulares (SVD).

Na literatura sobre detecção de redações com fuga ao tema, os modelos distribucionais

atualmente utilizados são: LDA (Latent Dirichlet Allocation), RI (Random Indexing), Word2Vec e

CVA. Essas abordagens consistem em converter um grande corpus de textos, por vezes representado

através de uma matriz de coocorrências esparsa, em um modelo de análise semântica capaz de traduzir

uma palavra ou texto para um vetor de números. Cada posição desse vetor representa o grau de

pertinência da palavra/texto a um aspecto semântico. Com isso, unidades léxicas similares formarão

vetores similares, sendo que tal similaridade é comumente mensurada através do cosseno do ângulo

entre os vetores. Os modelos distribucionais atualmente utilizados na literatura sobre detecção de fuga

ao tema são descritos nas seções seguintes.

2.2.2.1 LDA

LDA é um modelo probabilístico para coleções de dados discretos, como corpora de textos.

Esse modelo visa o processamento eficiente de grandes conjuntos de dados com preservação de

relações estatísticas essenciais que são úteis a tarefas básicas de PLN, como classificação de

documentos, detecção de novidades, sumarização e análise de similaridade e de relevância (BLEI et

al., 2003).

A ideia básica do LDA é a representação de documentos como mesclas aleatórias sobre

tópicos latentes, onde cada tópico é caracterizado por uma distribuição sobre palavras (BLEI et al.,

33

2003). Isto é, no processo de modelagem LDA, um documento é tratado como um conjunto de tópicos

ou assuntos e o seu grau de participação no todo. As palavras do documento, por sua vez, também

possuem uma distribuição de probabilidades sobre os tópicos.

Uma das desvantagens do modelo LDA é que alguns parâmetros precisam ser previamente

definidos, como o número de tópicos ou dimensões a serem utilizados. Além disso, esse modelo pode

apresentar um custo computacional bastante elevado em conjuntos de dados muito grandes

(MIKOLOV et al., 2013).

No contexto de detecção automática de redações com fuga ao tema, o LDA pode ser utilizado

a fim de estimar os tópicos ou assuntos abordados pelo enunciado da proposta temática e pela redação.

Essa estimativa é representada através de vetores semânticos multidimensionais. Essa abordagem

apresenta vantagens às técnicas de análise de similaridade textual que se baseiam exclusivamente na

superfície textual, pois é capaz de reconhecer relações conceituais entre o enunciado e a redação

(PERSING; NG, 2014).

Persing e Ng (2014) apresentam um exemplo de situação que motiva o uso de modelos de

análise semântica na detecção de fuga ao tema:

Por exemplo, considere o enunciado “Todos os exércitos devem ser totalmente compostos

por soldados profissionais: não há valor em um sistema de serviço militar.”. Uma redação

que contenha termos como “paz”, “patriotismo” ou “treinamento” provavelmente não

desrespeita a proposta temática, e, portanto, não devem ser penalizadas por discutir esses

tipos.[...] Um modelo [LDA] pode nos dizer, por exemplo, que uma determinada redação na proposta do tema militar gasta 35% do tempo discutindo o tópico “homem”, “militar”,

“serviço”, “prestação” e “guerra” e 65% do tempo discutindo um tópico cujas palavras mais

importantes são “totalmente”, “contar”, “comum”, “checo” e “dia”. Como o último tópico é

tão discutido na redação e não parece ter relação com o tema militar, essa redação

provavelmente receberá uma nota ruim de adequação ao tema. (PERSING; NG, V., 2014, p.

1538)

O RI é outro modelo distribucional comumente utilizado na tarefa de análise de similaridade

textual. Esse modelo também foi utilizado por Persing e Ng (2014), como complemento ao LDA. Na

seção seguinte é apresentada uma introdução ao RI e ao seu uso na detecção de redações com fuga

ao tema.

34

2.2.2.2 RI

Em resposta às limitações observadas em modelos distribucionais anteriores, podendo-se citar

o LSA – Análise de Semântica Latente ou Latent Semantic Analysis –, principalmente em relação aos

requisitos de memória e processamento, a abordagem Random Indexing (RI) surgiu como uma

alternativa eficiente, escalável e incremental para representação de palavras em vetores

(SAHLGREN, 2005).

A técnica RI tem como ideia base acumular vetores de contexto – baseados na ocorrências de

palavras em um contexto – e pode ser descrita em uma operação de duas etapas (SAHLGREN, 2005):

• Cada contexto (documento ou palavra) recebe uma representação única aleatória chamada de

vetor de índice. Os vetores de índice são esparsos, com dimensionalidade na ordem dos

milhares, e contém um conjunto de valores +1s, -1s e 0s aleatoriamente distribuídos.

• Os vetores de contexto são produzidos a partir dos textos do corpus. Cada vez que uma palavra

ocorre em um contexto, o vetor de índice desse contexto é adicionado ao vetor de contexto da

palavra em questão. Através dessa operação, palavras podem ser representadas através de um

vetor.

Sahlgren (2005) cita alguns estudos onde se pôde verificar a eficácia da técnica RI na análise

semântica textual. Entre eles, vale mencionar o experimento de Karlgren e Sahlgren (2001), onde foi

aplicado RI para resolver questões aplicadas no TOEFL12 – Teste de Inglês como Língua Estrangeira

– que tratavam de encontrar sinônimos. Os resultados alcançados foram promissores, haja vista que

a taxa de acerto do computador (72%) foi maior que a dos falantes não nativos, estudantes candidatos

a universidades dos EUA (64,5%).

De modo similar a outros modelos distribucionais de análise semântica, o RI pode ser utilizado

na tarefa de detecção de redações com fuga ao tema como meio de verificação da proximidade entre

o enunciado e a redação. Adicionalmente, o RI pode ser utilizado para detectar os conceitos esperados

em uma redação através de grupos de palavras-chave que representem esses conceitos, como proposto

por Persing e Ng (2014). Na seção seguinte é apresentado o Word2Vec, um outro modelo de análise

semântica encontrado na literatura sobre detecção de redações com fuga ao tema. O Word2Vec é o

12 O TOEFL é um exame internacional que visa avaliar a capacidade de usar e compreender o inglês em nível universitário.

35

mais recente entre os três modelos distribucionais encontrados e tem apresentado resultados

promissores na análise semântica textual.

2.2.2.3 Word2Vec

Word2Vec é uma abordagem para modelagem de palavras em vetores através de redes neurais

com aprendizado não supervisionado (MIKOLOV et al., 2013). Um modelo Word2Vec treinado em

um grande corpus permite realizar operações algébricas em vetores de palavras, como no famoso

exemplo “vetor(‘rei’) – vetor(‘homem’) + vetor(‘mulher’) ~= vetor(‘rainha’)”. O Quadro 2 apresenta

alguns exemplos de analogias que podem ser inferidas de modo automático por um modelo

Word2Vec onde, dado o relacionamento apresentado na primeira coluna, pode-se inferir as palavras

à direita nas colunas seguintes. Por exemplo, as duas primeiras linhas e colunas podem ser

interpretadas da seguinte forma: “França está para Paris, assim como Itália está para Roma”; e “Cobre

está para ‘Cu’, assim como zinco está para ‘Au’”.

Quadro 2. Exemplos de analogias avaliadas por um modelo Word2Vec Skip-gram treinado em 783M

de palavras com 300 dimensões

Relação Exemplo 1 Exemplo 2 Exemplo 3

França – Paris Itália: Roma Japão: Tóquio Florida: Tallahassee

cobre – Cu zinco: Zn ouro: Au urânio: plutônio

Miami – Florida Baltimore: Maryland Dallas: Texas Kona: Havaí

Einstein – cientista Messi: meio campo Mozart: violinista Picasso: pintor

Sarkozy – França Berlusconi: Itália Merkel: Alemanha Koizumi: Japão

Berlusconi – Silvio Sarkozy: Nikolas Putin: Medvedev Obama: Barack

Microsoft – Windows Google: Android IBM: Linux Apple: iPhone

Microsoft – Ballmer Google: Yahoo IBM: McNealy Apple: Jobs

Japão – sushi Alemanha: bratwurst França: tapas EUA: pizza

Fonte: Adaptado de Mikolov et al. (2013).

As redes Word2Vec se dividem em dois tipos principais, o modelo CBOW (Continous Bag-

of-Words) e o modelo Skip-gram. Os dois modelos são similares, exceto que o primeiro visa predizer

uma palavra dado um contexto, enquanto que o segundo visa estimar o contexto de uma palavra. O

contexto ou janela (C) é um dos hiperparâmetros de uma rede Word2Vec. Por exemplo, caso seja

definida a constante C = 5, para cada palavra de um corpus de treino poderão ser consideradas para

alimentação da rede as cinco palavras imediatamente anteriores e as cinco palavras subsequentes. A

Figura 4 apresenta um esquema das arquiteturas CBOW e Skip-gram.

36

Levy e Goldberg (2014) mostraram que as redes Word2Vec implicitamente criam uma versão

fatorada de uma matriz palavra–contexto, cujas células representam a medida de associação Pointwise

Mutual Information (PMI). A medida PMI quantifica a discrepância entre a probabilidade de

coincidência de duas variáveis, dada a sua distribuição de probabilidade conjunta e a sua distribuição

individual.

Figura 4. Arquitetura das redes Word2Vec tipos CBOW e Skip-gram

Fonte: Mikolov et al. (2013).

As redes neurais Word2Vec podem apoiar a detecção de redações com fuga ao tema. Para

isso, são geradas representações vetoriais para o texto de uma redação e para o enunciado da proposta

temática. Comparando-se os vetores (por exemplo, utilizando o cosseno do ângulo), pode-se verificar

a aderência de uma redação ao tema (REI; CUMMINS, 2016).

No estudo de Rei e Cummins (2016), a variante CBOW foi utilizada para tratar a tarefa de

estimar a aderência ao tema de redações ao nível de sentença. Apesar da rede estar preparada para

converter uma palavra em uma representação vetorial, a conversão de sentenças inteiras exige maior

complexidade. Uma abordagem simples para conversão de sentenças em vetores semânticos com uma

rede Word2Vec é obter a soma dos vetores de todas as palavras da sentença, no entanto esse método

37

não respeita a relevância de cada palavra no contexto. Uma forma de resolver esse problema pode ser

a combinação de Word2Vec ao esquema de pesos TF–IDF (REI; CUMMINS, 2016). Na seção

seguinte é apresentada a quarta e última técnica de análise de similaridade textual baseada em corpus.

2.2.2.4 CVA

Análise de Vetor de Conteúdo (CVA – Content Vector Analysis) é um método da área de

Recuperação de Informação (RI) para quantificar a similaridade de vocabulário entre dois textos

(HIGGINS; BURSTEIN; ATTALI, 2006). Através desse método simples os textos são representados

por um vetor, onde cada posição contém a frequência de uma palavra com peso. O peso das palavras

normalmente é calculado com a métrica TF–IDF, que consiste na multiplicação da frequência do

termo pelo inverso da frequência desse termo nos documentos de um corpus. Desse modo, aplicando-

se a métrica TF–IDF, os termos que aparecem com frequência em um documento, mas com pouca

frequência em outros, são considerados relevantes e recebem um peso maior. Consequentemente,

palavras comuns no uso da língua, como os artigos “um”, “uma”, “o” e “a”, recebem um peso bastante

baixo.

Uma das principais limitações de CVA na tarefa de detecção de fuga ao tema é a restrição à

superfície textual, em outras palavras, o fato dessa técnica exigir que os dois textos compartilhem

exatamente as mesmas palavras para serem considerados similares (REI; CUMMINS, 2016). Uma

forma de reduzir essa limitação é remover palavras vazias (stopwords)13 e aplicar alguma técnica de

normalização morfológica das palavras, como extração de radical (stemming) ou lematização14. Ao

mesmo tema, em alguns cenários, como na detecção de fuga ao tema em grandes conjuntos de

redações, a exigência da ocorrência de palavras exatas na redação pode ser vista como uma vantagem

dessa técnica (HIGGINS; BURSTEIN; ATTALI, 2006).

13 A expressão palavras vazias ou stopwords é comumente utilizada para se referir a palavras auxiliares com pouco ou

nenhum significado próprio em um texto, muitas vezes removidas durante a etapa de pré-processamento de um sistema

de processamento de linguagem natural (ex. “o”, “a”, “do”, “em”). 14 A lematização é um processo que consiste em deflexionar uma palavra de modo que se obtenha seu lema. Com isso,

verbos são comumente reduzidos à forma infinitiva e substantivos e adjetivos ao masculino singular.

38

2.3 APRENDIZADO DE MÁQUINA

O aprendizado de máquina é uma área de pesquisa da computação que busca a criação de

programas de computador capazes de aprender, isto é, capazes de “melhorar o desempenho na

realização de alguma tarefa por meio da experiência” (MITCHELL, 1997, p. 2, tradução nossa).

Faceli et al. (2011) apresentam uma descrição sobre o aprendizado de máquina considerando o seu

contexto histórico:

Nas últimas décadas, com a crescente complexidade dos problemas a serem tratados computacionalmente e do volume de dados gerados por diferentes setores, tornou-se clara a

necessidade de ferramentas computacionais mais sofisticadas, que fossem mais autônomas,

reduzindo a necessidade de intervenção humana e dependência de especialistas. Para isso,

essas técnicas deveriam ser capazes de criar por si próprias, a partir da experiência passada,

uma hipótese, ou função, capaz de resolve o problema que se deseja tratar. [...] A esse

processo de indução de uma hipótese (ou aproximação de função) a partir da experiência

passada dá-se o nome Aprendizado de Máquina (AM). (FACELI et al., 2011, p. 2)

Mitchell (1997) apresenta uma definição mais formal sobre aprendizado de máquina:

Diz-se que um programa de computador aprende a partir da experiência E, considerando a

algum tipo de tarefa T e medida de desempenho P, se seu desempenho na tarefas T, como

medido por P, melhora com a experiência E. (MITCHELL, 1997, p. 2, tradução nossa)

As pesquisas na área de aprendizado de máquina envolvem várias áreas da ciência, incluindo

Inteligência Artificial, Probabilidade e Estatística, Teoria da Computação, Neurociência, Teoria da

Informação e outras (FACELI et al., 2011). Entre diversas soluções de software bem-sucedidas que

aplicam técnicas de aprendizado de máquina, podem ser citadas: reconhecimento de voz, predição de

taxa de cura de pessoas doentes, detecção de fraudes, automóveis autônomos e classificação de

estruturas astronômicas (FACELI et al., 2011; MITCHELL, 1997).

As tarefas de aprendizado podem ser preditivas (supervisionado) ou descritivas (não

supervisionado). As tarefas preditivas buscam aproximar uma função ou hipótese que permita prever

uma classe ou valor para um exemplo, com base em um conjunto de experiências passadas,

normalmente chamado de conjunto de treinamento. Por outro lado, as tarefas descritivas auxiliam a

explorar e descrever um conjunto de dados, utilizando técnicas de agrupamento de objetos

semelhantes e reconhecimento de associações entre variáveis (FACELI et al., 2011). A Figura 5

apresenta uma hierarquia de aprendizado contemplando as categorias descritas.

39

No contexto desta pesquisa, destacam-se as tarefas de aprendizado supervisionado, em

especial a tarefa de classificação. A detecção de redações com fuga ao tema pode ser vista como uma

tarefa de classificação binária, onde busca-se encontrar uma função capaz de identificar se uma

redação pertence à classe “sem fuga ao tema” ou “com fuga ao tema”. Por outro lado, em estudos que

tentam estimar o grau de aderência ao tema de uma redação, os métodos de regressão podem ser mais

adequados, pois têm como saída um valor contínuo.

Figura 5. Hierarquia de aprendizado

Fonte: Adaptado de Faceli et al. (2011, p. 6).

Existem diversos algoritmos de classificação e regressão na literatura, entre eles o algoritmo

k-NN (k-vizinhos mais próximos), Naive Bayes, árvores de decisão e regressão, redes neurais

artificiais e máquinas de vetores de suporte (FACELI et al., 2011). Esses algoritmos buscam

aproximar uma função capaz de classificar ou estimar um valor a partir de um conjunto de exemplos.

A Figura 6 ilustra a rotina de aprendizado, onde dado um conjunto de exemplos, em que cada exemplo

é representado por um conjunto de atributos (𝑥1..𝑚) e a sua classe (𝑦), aplicam-se técnicas de

aprendizado de máquina a fim de se obter um classificador 𝑓(𝑥).

40

Figura 6. Indução de classificador em aprendizado supervisionado

Fonte: Lorena e Carvalho (2007, p. 45).

Na literatura existente sobre detecção de redações com fuga ao tema, as técnicas de

aprendizado de máquina utilizadas para predição são regressão linear e regressão por vetores de

suporte. Essas técnica foram aplicada nas pesquisas de Klebanov, Flor e Gyawali (2016), Chen e

Zhang (2016) e Persing e Ng (2014). Na pesquisa de Higgins, Burstein e Attali (2006) foram aplicadas

máquinas de vetores de suporte como um classificador binário, contudo tendo em vista classificar

redações com tentativa deliberada de fraude/má-fé. Na seção seguinte é apresentada uma descrição

sobre regressão linear e máquinas de vetores de suporte e a sua aplicação na detecção de redações

com fuga ao tema.

2.3.1 Regressão Linear

A regressão linear é uma equação usada para estimar um valor esperado, ou variável

dependente (y), através do valor de uma ou mais variáveis independentes (x). Em vários problemas,

há uma ou mais variáveis estão relacionadas, e pode ser importante e útil modelar esse relacionamento

(MONTGOMERY; PECK; VINING, 2015). A fórmula geral de regressão linear é

𝑦 = 𝛼0 + 𝛼1𝑋1 + 𝛼2𝑋2 + . . . + 𝛼𝑛𝑋𝑛 (1)

onde y é a variável a ser explicada, ou seja, o valor que se deseja estimar. O alpha zero (α0) é uma

constante, que representa a interceptação da linha no eixo vertical. As variáveis explanatórias são

representadas por X, e são ponderadas por α1 – αn.

41

Na tarefa de estimar a adequação ao tema de uma redação, a variável dependente y

normalmente é tratada como o grau de adequação ao tema e as variáveis independentes X1 – Xn são

as características relevantes a essa tarefa, extraídas da redação utilizando técnicas de processamento

de linguagem natural, análise semântica, análise probabilística e outras. Na Figura 7 é apresentado

um exemplo de regressão linear onde o número de palavras do enunciado presentes na redação foi

utilizado para aproximar uma função de estimativa do valor de adequação ao tema, que nesse exemplo

fictício é contínuo e está no intervalo [0, 4].

Figura 7. Exemplo de regressão linear para predição do grau de adequação ao tema

Os pontos pretos na Figura 7 representam instâncias de redações de um conjunto de treino e a

função 𝑦ℎ𝑎𝑡 é a hipótese induzida através do método dos mínimos quadrados e está representada pela

linha vermelha. O método dos mínimos quadrados é comumente utilizado na regressão linear para

encontrar a função com melhor ajuste a um conjunto de dados através da minimização da soma das

diferenças ao quadrado entre o valor previsto e o real (MONTGOMERY; PECK; VINING, 2015).

No exemplo da Figura 7, pode-se interpretar os coeficientes da função aproximada do seguinte

modo: para uma redação que não contém nenhuma palavra do enunciado, pode-se deduzir um índice

de adequação ao tema de -0.33 (α0); para redações que contenham alguma palavra do enunciado, o

índice de adequação ao tema pode ser deduzido somando a constante -0.33 (α0) ao número de palavras

do enunciado presentes multiplicado por 0.07 (α1). Assim, pode-se inferir que uma redação precisaria

42

conter ao menos 58 palavras para atingir o índice máximo 4, e ao menos 5 palavras para obter um

índice maior que zero.

Ainda não se pode garantir que os valores previstos no exemplo sejam precisamente o índice

que um avaliador humano atribuiria à redação. Na Figura 7 pode-se visualizar que os pontos, apesar

de próximos do previsto pelo modelo (linha vermelha), dificilmente correspondem exatamente à

estimativa. Apesar do exemplo discutido apresentar uma boa capacidade explicativa, com correlação

linear > 0.95, em um cenário real esse modelo provavelmente seria falho, pois aborda o problema

sem considerar diversas outras variáveis relevantes.

2.3.2 Máquinas de Vetores de Suporte

A máquina de vetores de suporte (support vector machine – SVM) é uma técnica de

aprendizado supervisionado, embasada pela teoria de aprendizado estatístico, e tem sido aplicada com

sucesso em diversos domínios, como categorização de textos e em Bioinformática (FACELI et al.,

2011). A teoria do aprendizado estatístico foi desenvolvida por Vapnik (1995 apud FACELI et al.,

2011) e estabelece princípios para obtenção de classificações com boa generalização, ou seja, com

capacidade de prever corretamente a classe de novos dados do mesmo domínio em que o aprendizado

ou treino ocorreu (LORENA; CARVALHO, 2007).

Segundo a teoria do aprendizado estatístico, dado o conjunto de todos os classificadores que

um algoritmo de aprendizado de máquina pode gerar, aplicando-se um conjunto de treinamento,

composto por atributos e classes de instâncias do problema, pode-se aproximar o classificador ideal

(LORENA; CARVALHO, 2007). A Figura 8 apresenta um exemplo de conjunto de treinamento onde

a classe das instâncias é representada por círculos e triângulos e a hipótese induzida por um

classificador é representada através de uma linha.

43

Figura 8. Conjunto de treinamento binário e três diferentes hipóteses

Fonte: Lorena e Carvalho (2007, p. 46).

Na Figura 8, pode-se verificar que a hipótese (a) está muito específica ou sobreajustada ao

conjunto de treinamento, por outro lado a hipótese (c) não está bem ajustada ao conjunto. Em ambos

os casos, o modelo apresenta grandes chances de cometer erros ao classificar novos dados. A hipótese

(b), por outro lado, parece se ajustar bem ao conjunto de treinamento e não foi afetada pelos exemplos

anômalos (outliers). Entre as três hipóteses, provavelmente a hipótese (b) teria maior sucesso ao

classificar novos exemplos.

A técnica de SVM pode ser aplicada em problemas lineares e não lineares, de classificação e

de regressão. Na literatura sobre detecção de redações com fuga ao tema, a técnica de SVM tem sido

aplicada na variante de regressão linear, também chamada de regressão por vetores de suporte

(support vector regression – SVR).

2.3.2.1 Regressão por Vetores de Suporte

Na regressão por vetores de suporte, o objetivo é encontrar uma função 𝑓(𝑥) que tenha no

máximo 𝜀 de desvio dos valores 𝑦𝑖 do conjunto de treino, e ao mesmo tempo tão plana quanto possível

(SMOLA; SCHÖLKOPF, 2004) . A função linear 𝑓(𝑥) pode ser descrita pela equação (2).

𝑓(𝑥) = 𝑤 ∙ 𝑥 + 𝑏 onde 𝑤 ∈ 𝑋, 𝑏 ∈ ℝ (2)

44

A regularização do vetor de suporte 𝑤 faz parte do algoritmo SVR e consiste na minimização

do módulo ||𝑤||, como apresentado em (3). O treinamento do regressor também se submete às

restrições da equação (4), relacionadas ao desvio aceitável definido no parâmetro 𝜀.

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 1

2||𝑤||²

(3)

𝑐𝑜𝑚 𝑎𝑠 𝑟𝑒𝑠𝑡𝑟𝑖çõ𝑒𝑠 {𝑦𝑖 − 𝑤 ∙ 𝑥 − 𝑏 ≤ 𝜀 𝑤 ∙ 𝑥 − 𝑏 − 𝑦𝑖 ≤ 𝜀

(4)

Modelos de SVR podem ser construídos utilizando as variáveis de folga 𝜉 e 𝜉∗ a fim de lidar

com ruídos e exemplos anômalos. Nesse caso, utilizam-se a variante do modelo acima como definido

por Vapnik (1995 apud FACELI et al., 2011) .

𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 1

2||𝑤||

2+ 𝐶 ∑(𝜉𝑖 +

ℓ

𝑖=1

𝜉𝑖∗)

(5)

𝑐𝑜𝑚 𝑎𝑠 𝑟𝑒𝑠𝑡𝑟𝑖çõ𝑒𝑠 {

𝑦𝑖 − 𝑤 ∙ 𝑥 − 𝑏 ≤ 𝜀 + 𝜉𝑖

𝑤 ∙ 𝑥 − 𝑏 − 𝑦𝑖 ≤ 𝜀 + 𝜉𝑖∗

𝜉𝑖 , 𝜉𝑖∗ ≥ 0

(6)

No caso do exemplo apresentado na Figura 7, onde foi demonstrada a aplicação de regressão

linear para estimar a adequação ao tema de redações, há pouco ruído no conjunto de treinamento. A

alteração da técnica de aprendizado de máquina de regressão linear para SVR naquele exemplo

produzir uma hipótese similar ou equivalente. A fim de exemplificação do funcionamento, foram

adicionados alguns exemplos anômalos na amostragem da Figura 7 para contrastar o comportamento

de regressão linear e SVR. A Figura 9 apresenta a adaptação do exemplo utilizando a implementação

de SVR da biblioteca scikit-learn, kernel linear e demais parâmetros com valor padrão.

45

Figura 9. Exemplo da utilização de regressão linear e SVR para predição do grau de adequação ao

tema em um conjunto com exemplos anômalos

Pode-se observar na Figura 9 que, como esperado, o método de regressão linear se comporta

diferente do método de SVR. Ao contrário da regressão linear, o modelo de SVR induzido foi pouco

afetado pelos exemplos anômalos (pontos vermelhos), o que pode ser constatado na nova fórmula de

regressão. O ponto de interceptação em 𝑦 teve uma pequena variação em comparação ao modelo de

regressão linear sem outliers apresentado na Figura 5, enquanto que o fator de multiplicação de 𝑥 se

manteve em 0.07 (número arredondado).

2.3.3 Métricas de Avaliação

Durante o desenvolvimento de modelos de aprendizado de máquina é importante medir o

desempenho do modelo ao realizar a tarefa visada. Existem diversas funções matemáticas para avaliar

o desempenho de modelos de classificação de textos, as quais podem ser chamadas de métricas de

avaliação. Para a tarefa de classificação binária, foco desta pesquisa, encontram-se na literatura

diversas métricas, incluindo: acurácia, precisão, recall ou sensibilidade, valor-F (F-score),

especificidade e área abaixo da curva ROC (AUC) (SOKOLOVA; LAPALME, 2009).

Na revisão da literatura sobre detecção de fuga ao tema foram encontradas as métricas de

acurácia, precisão, recall, valor-F, taxa de falsos positivos e taxa de falsos negativos. Essas métricas

podem ser extraídas a partir de uma matriz de confusão, composta pelos seguintes indicadores:

46

• verdadeiros positivos (VP): exemplos corretamente classificados como positivos;

• falsos positivos (FP): exemplos incorretamente classificados como positivos;

• verdadeiros negativos (VN): exemplos corretamente classificados como negativos;

• falsos negativos (FN): exemplos incorretamente classificados como negativos.

A seguir são apresentadas as métricas encontradas na literatura sobre detecção de fuga ao

tema.

Acurácia ou Precisão Geral

A medida de acurácia ou precisão geral pode ser vista como a relação entre o número de

acertos e o número total de exemplos, conforme a equação (7).

𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 = 𝑉𝑃 + 𝑉𝑁

𝑉𝑃 + 𝑉𝑁 + 𝐹𝑃 + 𝐹𝑁

(7)

A medida de acurácia é adequada para conjuntos de dados com classes balanceadas, isto é,

quando cada classe contém um número proporcional de exemplos. Em conjunto de classes

desbalanceadas ou desproporcionais, essa medida pode causar a falsa impressão de um resultado bom

mesmo com classificadores ruins. Por exemplo, em um conjunto onde 80% dos exemplos são da

classe 1 e 20% da classe 2, um classificador que rotule todos os exemplos com a classe 1 atingiria

uma acurácia de 80%, mesmo que todos os exemplos da classe 2 tenham sido classificados

incorretamente. Outras medidas de desempenho podem ser utilizadas nos casos de classes

desbalanceadas, como a medida valor-F (F-score).

Valor-F, Precisão e Recall

A medida valor-F (F-score) é a média harmônica entre a precisão e recall e pode ser utilizada

em conjuntos de dados com classes desbalanceadas substituindo ou complementando a medida de

acurácia. A equação (8) apresenta a variante F1-score, que atribui mesmo peso à precisão e ao recall

e foi utilizada nesta pesquisa.

47

𝐹1-𝑠𝑐𝑜𝑟𝑒 = 2 ∗ (𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙)

(𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜 + 𝑟𝑒𝑐𝑎𝑙𝑙)

(8)

Na classificação binária, a precisão se refere à taxa de exemplos corretamente rotulados como

positivos por um classificador, conforme a equação (9).

𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑉𝑃

𝑉𝑃 + 𝐹𝑃

(9)

O recall, por sua vez, avalia a sensibilidade de um classificador, ou seja, a relação entre o

número de exemplos corretamente rotulados como positivos – na classificação binária – e o número

total de exemplos dessa classe, conforme a equação (10).

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑉𝑃

𝑉𝑃 + 𝐹𝑁

(10)

Outra forma de medir o desempenho de classificador é analisando a taxa de erros em relação

às classes positivas e negativas, conforme apresentado a seguir.

Falsos Positivos e Falsos Negativos

Em algumas tarefas de classificação pode ser importante medir a taxa de falsos positivos (%

FP) e falsos negativos (% FN), isto é, a taxa de exemplos incorretamente classificados como positivos

e como negativos. No contexto de detecção de fuga ao tema em redações, conforme destacado por

Higgins, Burstein e Attali (2006), prioriza-se a redução da taxa de falsos positivos para evitar o caso

de notificar um estudante de que sua redação teve fuga ao tema quando na verdade não teve. Com

isso, no contexto desta pesquisa, medir a taxa de falsos positivos e falsos negativos se torna pertinente.

A taxa de falsos positivos é descrita pela equação (11) e a taxa de falsos negativos pela equação (12).

%𝐹𝑃 =𝐹𝑃

𝑉𝑁 + 𝐹𝑃

(11)

48

%𝐹𝑁 =𝐹𝑁

𝑉𝑃 + 𝐹𝑁

(12)

Quanto à taxa de falsos negativos, vale mencionar que essa métrica é o complemento do recall,

ou seja, o valor de recall perfeito (100%) é igual ao valor mínimo de % FN (0%). Por outro lado, a

taxa de falsos positivos pode ser vista como o inverso da especificidade, que não é utilizada na

literatura existente sobre detecção de fuga ao tema. Assim, visando a comparação dos resultados

obtidos nesse estudo com a literatura e pesquisas futuras, foram utilizadas nesta pesquisa todas as

métricas presentes na literatura sobre o tema.

49

3 ESTADO DA ARTE

Uma revisão sistemática da literatura foi realizada com objetivo de identificar os modelos e

métodos utilizados atualmente na detecção automática de redações com fuga ao tema. Na Seção 3.1

é apresentado o resultado dessa revisão. Na Seção 3.2, são apresentados trabalhos similares que,

apesar de não tratarem especificamente da classificação de redações com fuga ao tema, apresentam

uma proposta de solução relevante a esse problema. Na Seção 3.3 é realizada uma análise comparativa

dos trabalhos relacionados. Por fim, na Seção 3.4 são apresentadas algumas considerações sobre este

capítulo. Uma versão resumida deste capítulo pode ser encontrada nos Anais do XXVIII Simpósio

Brasileiro de Informática na Educação sob o título “Off-Topic Essay Detection: A Systematic Review”

(PASSERO et al., 2017).

3.1 REVISÃO SISTEMÁTICA DA LITERATURA

A revisão sistemática foi realizada em junho de 2017 e o protocolo de busca utilizado pode

ser consultado no Apêndice A. Dos 14 artigos inicialmente encontrados, nove foram excluídos: cinco

por não aderência ao escopo desta pesquisa; três por duplicidade; e um por retratação pela editora. Os

artigos excluídos podem ser consultados no Apêndice B. Por fim, foram selecionados para a etapa de

extração de informações cinco artigos, apresentados no Quadro 3.

Quadro 3. Relação de artigos selecionados na revisão sistemática da literatura

Identificação Título

Higgins, Burstein e Attali (2006) Identifying off-topic student essays without topic-specific

training data

Louis e Higgins (2010) Off-topic essay detection using short prompt texts

Li e Yan (2012) An effective automated essay scoring system using support

vector regression

Persing e Ng (2014) Modeling prompt adherence in student essays

Chen e Zhang (2016) Identifying useful features to detect off-topic essays in

automated scoring without using topic-specific training essays

As seções seguintes apresentam uma análise descritiva individual dos trabalhos relacionados

no Quadro 3.

50

3.1.1 Higgins, Burstein e Attali (2006)

Higgins, Burstein e Attali (2006) descrevem uma abordagem para detectar redações com fuga

ao tema sem a necessidade de um conjunto de redações de treino. Com isso, teve-se como objetivo

melhorar a performance do software CriterionSM, que até então requeria um conjunto de treino com

200 a 300 redações do mesmo tema anotadas e não tinha um mecanismo para geração de feedback

sobre fuga ao tema. Os autores tratam dois tipos de problema em redações: tema inesperado e tentativa

deliberada de fraude/má-fé.

Para tratar o problema de fuga ao tema, os autores desenvolveram três modelos utilizando

CVA. Na aplicação do CVA, não foi realizada a extração do radical (stemming), mas foram removidas

palavras de pouca relevância, também chamadas de palavras vazias (stopwords). A função de peso

TF–IDF foi utilizada na aplicação do CVA para destacar as palavras relevantes, onde a frequência

das palavras em documentos foi calculada a partir de textos do corpus TIPSTER, uma coleção de

textos de gênero neutro.

Em sua análise comparativa, os autores abordam três modelos diferentes, denominados A, B

e C, onde A e B são os modelos já usados até então, que requerem corpus de treino, e C é o modelo

proposto para a detecção de fuga ao tema sem corpus de treino. O modelo C contém variações para

os problemas de tema inesperado e tentativa deliberada de fraude/máfé: as variantes CUT (unexpected

topic) e CBF (bad-faith) respectivamente. Considerando o escopo da presente pesquisa, são descritos

abaixo os modelos A, B e CUT.

Modelo A: Baseia-se em dois valores: maior similaridade entre o texto da redação a outras

redações do mesmo tema e similaridade entre o texto da redação e o enunciado da proposta. Os índices

de similaridade são computados utilizando CVA e o cosseno do ângulo, apresentado na equação (13).

Verifica-se então o desvio dos valores em relação à média através da equação (14). Caso o desvio

ultrapasse um determinado valor, o algoritmo classifica a redação como caso de fuga ao tema. Um

valor delimitador grande aumenta a taxa de falsos negativos, enquanto que um valor delimitador

pequeno aumenta a taxa de falsos positivos. Considerando um sistema em produção, os autores

sugerem que o valor delimitador seja definido de modo a reduzir a taxa de falsos positivos (HIGGINS;

BURSTEIN; ATTALI, 2006).

Modelo B: Calcula a proporção da ocorrência de uma palavra em vários temas em relação à

sua ocorrência em redações do mesmo tema utilizando a equação (15), onde Gi é a taxa de ocorrência

51

global de uma palavra e Si se refere à taxa de ocorrência específica (do tema) de uma palavra. A

principal vantagem do Modelo B em relação ao Modelo A é que este atribui peso maior a palavras

específicas do tema. De modo similar ao Modelo A, um valor delimitador precisa ser definido para

separar redações dentro e fora do tema.

Modelo CUT: Compara cada redação a um conjunto de enunciados de diversas propostas

temáticas utilizando o cosseno do ângulo dos vetores gerados com CVA. Os escores encontrados são

ordenados e a redação é classificada como dentro do tema se, no ranking gerado, o escore para o tema

objetivo está entre os N maiores. O valor N pode ser definido testando várias possibilidades e

verificando a taxa de trade-off. Apesar deste modelo dificilmente atingir os resultados alcançáveis

através dos modelos anteriores, permite resultados semelhantes sem a necessidade de um conjunto de

redações do mesmo tema para treino.

cos 𝜃 = �⃗� ∗ �⃗⃗�

||�⃗�|| ∗ ||�⃗⃗�||

(13)

𝑧-𝑠𝑐𝑜𝑟𝑒 = (𝑣𝑎𝑙𝑜𝑟 − 𝑚é𝑑𝑖𝑎)

𝑑𝑒𝑠𝑣𝑖𝑜_𝑝𝑎𝑑𝑟ã𝑜

(14)

𝐻𝐵𝐴-𝐵 = 1

𝑁 ∑ √𝑆𝑖 (1 − 𝐺𝑖)

𝑛

𝑖=1

(15)

Os autores avaliaram dois corpora de pesquisa no experimento. O primeiro corpus contém

8.000 redações elaboradas por estudantes com nível de 6º a 12º grau do ensino básico, pertencentes a

36 propostas temáticas, e foi utilizado para avaliar o problema de tema inesperado. O segundo corpus

foi utilizado para avaliar redações com tentativa deliberada de fraude e possui 3.138 redações

submetidas a três exames de larga escala, dois para entrada em cursos do ensino superior, o GRE –

Graduate Record Examination – e o GMAT, e outro que verifica a proficiência na língua inglesa, o

TOEFL. A avaliação dos modelos foi realizada através de validação cruzada, onde se verificou a taxa

de falsos positivos (FP) e falsos negativos (FN).

52

Os resultados atingidos para o modelo CUT (FP 6,8% e FN 22,9%), sem corpus de treino

anotado, foram próximos aos dos modelos A (FP 5% e FN 38%) e B (FP 4,7% e FN 28,2%). Vale

destacar que as taxas de falsos positivos apresentadas pelos autores para os modelos A e B consideram

redações com o problema de tema inesperado e de tentativa deliberada de fraude, não tendo sido

apresentada a taxa de erro específica para o problema pertinente à presente pesquisa: tema inesperado.

Apesar dos autores apontarem o modelo proposto (CUT) como vantajoso por não necessitar de

um conjunto de redações para treino, esse modelo precisa de dois recursos para viabilizar sua

aplicação: um conjunto de enunciados de temas diversos e o valor delimitador a ser utilizado. O valor

delimitador tido como ótimo no experimento dos autores (~10 de 34 temas) pode variar de acordo

com o conjunto de redações e enunciados.

Os autores também fizeram experimentos com um modelo de análise semântica distribucional,

o Random Indexing. Esses experimentos não foram publicados por não terem superado a performance

da abordagem com CVA:

Nós fizemos experimentos com uma outra métrica de similaridade baseada em vetores,

denominada Random Indexing (RI) (Sahlgren 2001), e CVA apresentou um desempenho

melhor. A tendência de RI, LSA e outras abordagens baseadas em vetor com redução de

dimensionalidade em atribuir índices de similaridade maiores a textos que contém

vocabulário similar (mas não igual) pode ser um fator que contribui. O fato de uma redação

conter exatamente as palavras usadas no enunciado da proposta é uma pista importante de

que ela aborda o tema, e isso pode ser “obscurecido” usando uma abordagem como RI.

(HIGGINS; BURSTEIN; ATTALI, Y., 2006, p. 152, tradução nossa)

Rei e Cummins (2016), por outro lado, recomendam o uso de modelos de semântica

distribucional e criticam a abordagem CVA: “como esse método [o CVA] captura apenas a

similaridade usando combinações exatas ao nível de palavra, ele pode perder muitas ocorrências de

palavras relevantes ao tema na redação” (REI; CUMMINS, 2016, p. 1, tradução nossa). Assim, apesar

da técnica Random Indexing não ter apresentado a melhor performance no contexto avaliado pelos

autores, quando combinada a outras técnicas ou aplicada em outros conjuntos de dados os modelos

de semântica distribucional podem ser úteis devido à sua alta capacidade de abstração do sentido.

3.1.2 Louis e Higgins (2010)

Louis e Higgins (2010) apresentam uma extensão para uma das abordagens apresentadas na

seção anterior, o Modelo CUT de Higgins, Burstein e Attali (2006). Teve-se como objetivo melhorar

53

o desempenho dessa abordagem no caso de redações cuja proposta temática tem enunciado muito

curto. Os autores apresentam as seguintes técnicas de expansão do enunciado:

1. Derivações: as variantes morfológicas das palavras do enunciado foram obtidas através de

uma abordagem baseada em regras para adição e alteração de prefixos e sufixos de palavras

(ex. “friendly” deriva “friend”, “friendlier” e “friendliness”).

2. Sinônimos: o sentido das palavras é identificado por uma ferramenta de desambiguação de

sentidos e os sinônimos são obtidos do WordNet e introduzidos na versão expandida do

enunciado (ex. “friendly” expande para “favorable” e “well-disposed”).

3. Palavras similares por distribuição: além dos sinônimos encontrados no WordNet, também

foram consideradas palavras similares identificadas em um corpus grande pela ocorrência em

contextos similares (ex. “friendly” expande para “cordial”, “polite”, “cheerful” e “calm”).

4. Palavras associadas: foi utilizado um conjunto de 5.000 palavras e suas associações,

elaborado a partir de um levantamento realizado com 6.000 pessoas (ex. “friendly” expande

para “smile”, “amiable”, “greet” e “mean”).

Os pesquisadores aplicaram o peso de 20 às palavras originais do enunciado e 1 às palavras

adicionadas para atenuar ruídos. Os erros ortográficos nas redações foram detectados e corrigidos

tendo-se como dicionário as palavras do enunciado.

Dois corpora de pesquisa foram utilizados: (a) um de escritores avançados e (b) outro de

aprendizes, com 10 propostas temáticas cada. Os corpora foram construídos com redações submetidos

aos exames de larga escala TOEFL e GRE. Os exemplos positivos de fuga ao tema foram

selecionados a partir dos conjuntos de redações submetidas a outras propostas temáticas, ou seja,

foram criados conjuntos artificiais para tratar redações com fuga ao tema. Das 10 propostas temáticas

de cada corpus, três foram utilizadas como conjunto de desenvolvimento e sete como conjunto de

validação, formado com 350 exemplos negativos e positivos de fuga ao tema selecionados

aleatoriamente do conjunto original.

Os melhores resultados variaram de acordo com o corpus utilizado e foram medidos usando a

taxa de falsos positivos (FP) e falsos negativos (FN). Para o corpus (a), o melhor resultado foi obtido

utilizando a correção ortográfica dos textos junto à expansão por palavras associadas, onde se

alcançou FP 1,47% e FN 9,02%, uma melhora significativa em relação à proposta original de Higgins,

54

Burstein e Attali (2006), que resultava em FP 2,94% e FN 9,06% sem expansão do enunciado. Já para

o corpus (b), o melhor resultado foi obtido com a correção ortográfica, palavras associadas e

derivações, com FP 4,66% e FN 11,97%, com melhora na taxa de FP em comparação à proposta

original sem expansão (FP 9,73% e FN 11,07%).

3.1.3 Li e Yan (2012)

Li e Yan (2012) tratam a tarefa de correção automática de redações e, como parte desse

problema, a estimativa de pertinência ao tema. Nesta seção é abordada somente a parte do trabalho

que tange a verificação da pertinência ao tema.

Os autores propõem um modelo de regressão SVM linear com os seguintes atributos:

• proporção de palavras-chave do enunciado da proposta presentes na redação;

• cosseno do ângulo entre o vetor do enunciado e o da proposta, desconsiderando palavras

vazias (stopwords) e aplicando peso TF–IDF – similar ao CVA.

O corpus de pesquisa continha 2.041 redações submetidas ao CET – College English Test –,

um exame de larga escala aplicado na China que avalia a proficiência na língua inglesa. Esse corpus

foi dividido em três subconjuntos: 30% treino, 30% desenvolvimento e 40% teste. O escore calculado

pela abordagem foi comparado à nota total das redações através de um gráfico de linhas, onde os

autores constataram que o escore calculado para as melhores redações foi mais alto que o calculado

para redações abaixo da média. Além dessa constatação, a abordagem proposta não passou por outras

formas de validação.

3.1.4 Persing e Ng (2014)

Persing e Ng (2014) abordam o problema de estimativa de pertinência ao tema em redações

de estudantes. Os autores utilizaram regressão SVM linear, criando um modelo de predição específico

para cada proposta temática. Os valores previstos variaram no intervalo de um (fuga completa ao

tema) a quatro (pertinência consistente ao tema). Os atributos extraídos e utilizados na regressão

linear foram obtidos através das abordagens descritas a seguir.

55

1. Random Indexing (baseline): Um modelo de Random Indexing treinado no corpus English

Gigaword, com mais de 30 milhões de palavras, foi aplicado à análise de similaridade textual

computando-se as similaridades entre:

• a redação e o texto do enunciado;

• as sentenças da redação e o texto do enunciado (maior valor encontrado);

• a redação e as sentenças do enunciado (maior valor encontrado);

• a redação e as sentenças do enunciado (maior valor encontrado);

• as sentenças da redação e as do enunciado (maior valor encontrado);

• a redação e uma versão manualmente reescrita do enunciado.

2. N-grams: Presença dos 10.000 uni, bi e trigramas lematizados mais relevantes.

3. Palavras-chave de clareza: Similaridade entre a redação e grupos de palavras-chave de clareza

do enunciado que foram manualmente definidas conforme a abordagem descrita por Persing e Ng

(2013 apud PERSING; NG, V., 2014).

4. Palavras-chave de aderência ao tema: Similaridade entre a redação e grupos de palavras-chave

manualmente definidas com objetivo de representar os principais conceitos esperados.

5. Tópicos LDA: Um modelo LDA de 1.000 dimensões (ou tópicos) foi construído a partir de um

grande conjunto de redações submetidas à proposta temática. Em seguida, as redações foram

transformadas em um vetor com 1.000 valores, que representam os tópicos abordados na redação. Os

valores desse vetor foram utilizados como atributos na regressão linear.

6. Tópicos LDA manualmente anotados: Um segundo modelo LDA de 100 dimensões foi

construído de modo similar ao primeiro, exceto que para cada um dos 100 tópicos foram verificadas

as dez palavras mais relevantes e anotou-se manualmente um peso de 0 a 5, referente à sua aderência

ao tema.

7. Erros previstos de clareza da tese: Um conjunto de atributos binários que indicam a presença

dos erros de clareza descritos por Persing e Ng (2013 apud PERSING; NG, V., 2014) e incluem

problemas relacionados à confusão na elaboração de frases, resposta à proposta incompleta, detalhes

faltantes e falta de posicionamento do autor. Um classificador foi criado a partir de um conjunto de

56

redações previamente anotadas quanto a esses problemas para que então eles pudessem ser previstos

no corpus de pesquisa.

O corpus de pesquisa utilizado continha 830 redações argumentativas em 13 temas

selecionadas a partir do International Corpus of Learner English, originalmente com mais de 6.000

redações. Cada redação teve uma nota de pertinência ao tema atribuída por dois avaliadores no

intervalo [1, 4]. Os autores ressaltam que a correlação linear entre essas notas foi baixa (0.243), mas

em 89% dos casos as duas notas diferenciaram no máximo em um ponto. Das 830 redações, 443

tinham adequação ao tema excelente (nota quatro) e as outras 387 receberam notas de dois a três

pontos e meio. Nenhuma das redações do corpus de pesquisa teve nota menor que dois para a

adequação ao tema, isto é, nenhuma redação com fuga total ao tema foi identificada.

Os autores utilizaram validação cruzada 5-fold, dividindo o corpus de pesquisa em três

subconjuntos: 60% treino, 20% desenvolvimento e 20% teste. Os resultados encontrados pelos

autores indicam um avanço significativo em comparação ao modelo baseline que utilizava apenas os

índices de similaridade extraídos com Random Indexing. Os resultados encontrados foram: 48,8% de

predições erradas; 0.348 de erro médio; 0.197 de erro quadrático médio; e correlação linear 0.360.

Através da remoção recursiva das variáveis utilizadas na regressão linear, os autores

identificaram as características mais relevantes em seu contexto de estudo pelo impacto de sua

remoção nas métricas de desempenho. Constatou-se que as variáveis mais impactantes no

desempenho foram n-gramas, palavras-chave de clareza e tópicos LDA manualmente anotados; as de

impacto mediano foram Random Indexing e tópicos LDA automáticos; e as de impacto menor foram

a palavras-chave de aderência ao tema e os erros previstos de clareza da tese.

Em contato com os autores foi obtida uma relação com o número de redações por tema do

corpus da pesquisa. O número de redações de cada tema variou de 1 a 237, sendo que apenas três

temas tiveram menos de 20 redações. Os autores justificaram que esses números “estranhos” se

devem porque, durante a amostragem inicial e anotação das redações do corpus de aprendizes da

língua inglesa utilizado, ainda não havia a intenção de tratar especificamente o problema de aderência

ao tema. Os autores treinaram para cada tema um modelo de regressão linear e conjuntos com número

pequeno de redações podem ter apresentado pior desempenho. Contudo, não foi realizada uma análise

da influência do tamanho do conjunto de treino nos resultados. Ainda, apesar da abordagem

57

inicialmente considerar a possibilidade de tratar a detecção de redações com fuga ao tema, vale

ressaltar que o corpus de pesquisa não continha redações nessa situação.

3.1.5 Chen e Zhang (2016)

Chen e Zhang (2016) tratam o problema de detecção de fuga ao tema com objetivo de

aprimorar o aplicativo comercial E-rater®, utilizado pela ETS – Educational Testing Service –, uma

das maiores organizações privadas de exames educacionais sem fins lucrativos. Os autores

investigaram meios de detectar redações que fogem ao tema sem a necessidade de um conjunto de

treino, que nem sempre está disponível em cenários reais.

Primeiramente, os autores avaliaram a efetividade do sistema atualmente usado pelo aplicativo

E-rater® para detecção de redações com fuga ao tema: a proposta de Higgins, Burstein e Attali (2006),

mais especificamente a abordagem denominada Modelo CUT – descrita na Seção 3.1.1. Em segundo

lugar, buscou-se identificar variáveis relevantes para viabilizar o aprimoramento do sistema atual de

detecção de redações com fuga ao tema. Para isso, as redações com e sem fuga ao tema foram

divididas em dois grupos, foi calculada a média e desvio padrão de algumas características das

redações para cada grupo e verificou-se o tamanho do efeito com o d de Cohen. As características

avaliadas foram:

a. número de caracteres, palavras e sentenças;

b. número de palavras únicas;

c. similaridade com o enunciado da proposta temática utilizando CVA;

d. organização;

e. variedade das sentenças.

A organização das redações foi caracterizada através da presença de elementos discursivos

específicos relacionados à introdução, declaração da tese, ideias de suporte e conclusão, enquanto

que a variedade das sentenças foi mensurada de modo a representar a heterogeneidade das sentenças

da redação.

O corpus de pesquisa é o mais extenso dos trabalhos analisados, com cerca de 800.000

redações pertencentes a quatro propostas temáticas. Esse corpus foi construído a partir de redações

selecionadas aleatoriamente de dois exames de larga escala: um vestibular e um teste de proficiência

58

na língua inglesa. Desse montante de redações, foram selecionados 28.578 casos reais de fuga ao

tema. O mesmo número de redações sem fuga ao tema foi selecionado para compor o conjunto de

exemplos negativos de fuga ao tema.

Como resultado da primeira parte do experimento, onde foi avaliada a abordagem de Higgins,

Burstein e Attali (2006) para detecção de redações com fuga ao tema, os autores obtiveram 100% de

precisão. A taxa de recall, no entanto, variou entre 2,2% a 18,1%, totalizando um valor-F de 4,4% a

30,7%. Isto significa que apesar de a abordagem ter conseguido detectar com sucesso a fuga ao tema

em várias redações, ainda existe um grande número de redações com fuga ao tema que não foram

corretamente classificadas. As características das redações avaliadas na segunda parte do experimento

se mostraram potencialmente úteis à tarefa de detecção de redações com fuga ao tema, com isso os

autores sugerem a sua aplicação em trabalhos futuros.

Uma das limitações desse trabalho foi a desconsideração da relação entre as variáveis

estudadas e os vários tipos de fuga ao tema, sendo que todas as redações do corpus de pesquisa foram

agrupadas em uma só classe. Considerando a divisão de redações com fuga ao tema nas categorias (i)

“tema inesperado” e (ii) “tentativa deliberada de fraude/má-fé” apresentada em (HIGGINS;

BURSTEIN; ATTALI, 2006), sugerimos que as características a, b, d e e sejam mais pertinente ao

problema (ii), enquanto que apenas a característica c trate especificamente o problema (i).

Vale destacar também que, em um conjunto de testes com exemplos artificiais de redações

com fuga ao tema, Higgins, Bustein e Attali (2006) obtiveram resultados diferentes usando o Modelo

CUT para o problema (i) (FP 6,8% e FN 22,9%). Com isso, o grande número de redações com fuga ao

tema não detectadas no experimento pode estar relacionado a redações bem escritas e bem

estruturadas, no entanto que não se adequam à proposta temática. Nesta pesquisa, foi tratado

especificamente esse problema (i). Essa situação também evidencia a importância do uso de conjuntos

reais de fuga ao tema, confirmando que os resultados obtidos com conjuntos artificiais de redações

com fuga ao tema podem divergir de maneira significativa dos encontrados em cenários reais.

3.2 TRABALHOS SIMILARES

Nesta seção são apresentados trabalhos similares, cuja abordagem pode contribuir com a

pesquisa. Esses trabalhos não foram encontrados na execução do protocolo de busca da revisão

sistemática da literatura, mas foram considerados por apresentar uma proposta pertinente à tarefa de

59

detecção de redações com fuga ao tema. Esses trabalhos podem ser encontrados na biblioteca digital

ACL Anthology15, que não foi considerada como fonte de busca da revisão sistemática da literatura

por não possuir um mecanismo de pesquisa por título, resumo e palavras-chave.

3.2.1 Klebanov, Flor e Gyawali (2016)

Klebanov, Flor e Gyawali (2016) avaliam o uso de índices de pertinência ao tema para

melhorar a performance de um corretor automático de redações. Os autores utilizaram dois corpora

no experimento: um privado com 82.500 redações de 76 temas submetidas a um exame universitário

de grande escala nos EUA e outro público com 12.100 redações submetidas ao TOEFL em 8

propostas temáticas por falantes não nativos da língua inglesa.

Inicialmente, os autores calcularam índices de pertinência ao tema para cada palavra presente

nas redações, partindo da premissa que a pertinência ao tema de uma palavra p em um tema T está

relacionada à ocorrência de p mais em textos do tema T que em textos de outros temas.

Para avaliar a pertinência de um texto a um tema, Klebanov, Flor e Gyawali (2016) destacam

duas abordagens: sumarizar a pertinência individual de todas as palavras (tokens) ou somente das

palavras únicas (types). Dadas as sentenças “Eu odeio restaurantes, detesto restaurantes, sou avesso

a restaurantes e amo restaurantes” e “Eu odeio restaurantes, detesto garçons, sou avesso a menus e

amo comida”, qual tem maior cobertura do tópico “restaurante”? Numa abordagem com tokens seria

a primeira, enquanto que com types seria a segunda, que aborda mais aspectos de um restaurante

(KLEBANOV; FLOR; GYAWALI, 2016).

Os autores avaliaram três modelos para geração do vocabulário do tema, onde a cada palavra

foi atribuído um grau de pertinência ao tema: (i) o teste de significância de Lin e Hovy (2000 apud

KLEBANOV; FLOR; GYAWALI, 2016); (ii) a abordagem denominada “Modelo B” por Higgins,

Burstein e Attali (2006) (descrita na Seção 3.1.1); e (iii) uma nova abordagem simples baseada na

diferença das probabilidades de ocorrência da palavra dentro e fora do tema. O modelo (i) derivou

três submodelos: (a) o primeiro gerando um valor contínuo de pertinência ao tema no intervalo [0, 1];

(b) o segundo gerando um valor binário considerando palavras que atingissem o valor de significância

0.001; e (c) uma versão mais permissiva de (b), admitindo palavras dentro do limite de significância

15 http://aclanthology.info/

60

0.05. O modelo (iii) é a nova abordagem proposta e consiste na verificação da frequência de uma

palavra mais em redações do mesmo tema que de outro tema, produzindo um índice binário.

Os autores estudaram formas de agregar os índices de adequação ao tema calculados para cada

palavra em um único valor, referente ao texto. As métricas foram ajustadas para consideração de

todas as palavras da redação (tokens) ou somente as palavras únicas (types).

O tamanho de uma redação é uma boa característica preditiva de sua nota, como já mostrado

por Ellis Page (1968) em sua pesquisa pioneira sobre correção automática de redações. Em um dos

conjuntos do experimento dos autores, foi possível constatar correlação linear 0.65 entre o tamanho

da redação e a sua nota geral. No entanto, considerando apenas palavras únicas, foi observado que

quanto maior a redação, menor o índice de pertinência ao tema calculado, pois menor a chance de

uma nova palavra pertencer ao tema. Com isso, os autores escalonaram o resultado com a função log.

Por fim, quatro modelos diferentes de agregação foram testados para considerar todas essas variações

(tokens x types e escalonado x não escalonado).

Os autores verificaram que o índice binário de pertinência ao tema por palavra teve resultado

melhor que o índice contínuo. Ressalta-se, então, que classificar palavras como pertencentes ou não

ao tema é um método mais efetivo que estimar um grau de pertinência: “uma vez que a palavra tem

uma boa aderência ao tema, não importa quão boa é essa aderência” (KLEBANOV; FLOR;

GYAWALI, 2016, p. 67, tradução nossa). Os autores também constataram que, nos seus corpora de

pesquisa, a contabilização escalonada de palavras únicas (types) e de seus índices de pertinência ao

tema apresentou resultados melhores que a contabilização de todas as palavras (tokens).

Comparando os 20 modelos gerados e os índices de desempenho obtidos, os autores

concluíram que o modelo (iii), baseado em palavras únicas e com escalonamento teve os melhores

resultados. Com isso, procedeu-se à segunda etapa do estudo, onde esse modelo foi aplicado na tarefa

de atribuir uma nota holística às redações utilizando também várias características relacionadas à

qualidade da escrita em um modelo de regressão linear, e.g. tamanho médio, número e frequência das

palavras, complexidade das sentenças, artigos faltantes etc.

Vale destacar que os autores se limitaram a avaliar a relação entre os índices de pertinência

computados e as notas gerais atribuídas às redações. Não foi utilizado um corpus com nota específica

de pertinência ao tema atribuída por humanos, tampouco foi tratada a detecção de redações com fuga

61

ao tema em uma amostra de exemplos positivos. Contudo, haja vista o foco das abordagens

apresentadas na análise de pertinência ao tema em redações, esse trabalho foi selecionado para

aplicação ao corpus desta pesquisa e comparação às outras abordagens da literatura.

3.2.2 Rei e Cummins (2016)

Rei e Cummins (2016) investigaram a tarefa de estimar a pertinência ao tema de redações ao

nível de sentença. Mais especificamente, o trabalho visou um mecanismo para destacar partes do

texto que requerem atenção quanto à pertinência ao tema. Os autores avaliam os seguintes modelos

de vetorização das sentenças e do enunciado da proposta temática: (a) CVA; (b) um modelo

Word2Vec pré-treinado na variante CBOW; (c) uma adaptação de (b) aplicando a função IDF para

reduzir o peso de palavras muito frequentes em outro corpus; (d) uma rede neural Skip-Thoughts que

aprende uma função de composição de vetores de múltiplas palavras em um único vetor (da sentença);

e (e) uma nova abordagem denominada Weighted-Embeddings, adaptação de (b), que atribui peso às

palavras de modo similar a (c), exceto que usa um modelo de aprendizado não supervisionado

inspirado na rede neural Skip-Thoughts para gradualmente ajustar os pesos das palavras. O cosseno

do ângulo foi utilizado como métrica de similaridade entre os vetores das sentenças e dos temas.

Foram utilizados dois corpora públicos de redações de aprendizes da língua inglesa: (i) um

com 30.899 sentenças, pertencentes a 60 propostas temáticas, extraídas do conjunto First Certificate

in English; e (ii) outro com 20.883 sentenças, de 13 propostas temáticas, extraídas do International

Corpus of Learner English, o mesmo subconjunto utilizado por Persing e Ng (2014) e apresentado

na Seção 3.1.4. Haja vista que as sentenças desses corpora não tinham anotação quanto à sua

pertinência ao tema, os autores criaram conjuntos artificiais de sentenças com fuga ao tema utilizando

redações de temas diferentes do original. As variáveis extraídas das redações foram utilizadas em um

classificador para, dada uma sentença, gerar um ranking das propostas temáticas mais prováveis.

Os autores constataram que o simples cálculo da sobreposição de palavras com a função TF–

IDF (modelo a) atingiu o melhor resultado no corpus (i), onde o enunciado era bastante detalhado,

com média de 107 palavras. Por outro lado, no corpus (ii), onde o enunciado era pouco explicativo,

com média de 19 palavras, a nova abordagem (e) apresentou o melhor resultado. A acurácia e rank

recíproco médio dos modelos mencionados foi, respectivamente, 37,2% e 47,0% no corpus (i) e

51,5% e 65,4% no corpus (ii).

62

Os resultados dos autores ressaltam a vantagem no uso de um modelo de análise semântica

distribucional sobre os modelos baseados em palavras exatas (CVA) em cenários com número

reduzidos de palavras para comparação. Um dos fatores que contribuem com essa vantagem é a

capacidade de generalização dos modelos distribucionais ao considerar palavras que ocorrem em

contextos semelhantes na análise de similaridade, não se restringindo a combinações exatas ao nível

da superfície textual.

3.3 ANÁLISE COMPARATIVA

As abordagens apresentadas na literatura existente para tratar a tarefa de detecção de fuga ao

tema utilizam diversas técnicas de processamento de linguagem natural, análise semântica, estimativa

probabilística e aprendizado de máquina. Verificou-se também que na maior parte dos trabalhos

revisados foram avaliadas abordagens diversas, utilizando diferentes técnicas, a fim de se obter os

melhores resultados para um ou mais corpora de pesquisa.

As técnicas aplicadas na literatura são apresentadas no Quadro 4 agrupadas em três categorias:

(i) análise probabilística superficial, incluindo técnicas que extraem características relacionadas à

superfície textual e estimativas de probabilidade (ex. CVA e dicionário de ocorrências de palavras

em temas); (ii) análise semântica, uma categoria que inclui modelos de similaridade textual baseados

em tesauro (WordNet e Word Association Norm) e corpus (LDA, RI e palavras similares por

distribuição de Louis e Higgins, 2010); e (iii) aprendizado de máquina, referente ao uso de regressão

linear e SVM para apoiar a estimativa de adequação ao tema.

Quadro 4. Técnicas de análise textual utilizadas nos trabalhos relacionados

Identificação

Análise

probabilística

superficial

Análise

semântica

Aprendizado de

máquina

Higgins, Burstein e Attali (2006) Sim Não Não16

Louis e Higgins (2010) Sim Sim Não

Li e Yan (2012) Sim Não Sim

Persing e Ng (2014) Sim Sim Sim

Chen e Zhang (2016) Sim Não Não

Klebanov, Flor e Gyawali (2016) Sim Não Sim

Rei e Cummins (2016) Sim Sim Não

16 Os modelos A, B e CUT propostos por Higgins, Burstein e Attali (2006), considerados na classificação do Quadro 4,

não utilizam aprendizado de máquina. No entanto, vale destacar que o modelo CBF, também descrito no artigo, utiliza

SVM não linear para auxiliar na classificação de redações com tentativa deliberada de fraude/má-fé.

63

As técnicas e recursos de análise semântica utilizados nos trabalhos relacionados são

apresentados no Quadro 5, onde se pode verificar que as técnicas não se repetem em trabalhos

diferentes. Vale destacar que apenas os trabalhos que aplicam técnicas de análise semântica,

identificados no Quadro 4, são listados no Quadro 5.

Quadro 5. Técnicas e recursos de análise semântica utilizados nos trabalhos relacionados

Identificação Word2Vec LDA RI WordNet Palavras

associadas

Palavras

dis. sim.

Louis e Higgins (2010) Não Não Não Sim Sim Sim

Persing e Ng (2014) Não Sim Sim Não Não Não

Rei e Cummins (2016) Sim Não Não Não Não Não

A detecção de redações com fuga ao tema pode ser vista como uma tarefa de verificação do

desvio do conteúdo de uma redação em relação ao enunciado da proposta temática. Um conjunto de

redações submetidas à mesma proposta também pode ser usado, no entanto nem sempre esse conjunto

está disponível em cenários reais. Alguns autores utilizam como referência a similaridade do texto da

redação em relação a enunciados e redações de outros temas. No Quadro 6 são apresentadas as

abordagens avaliadas na literatura em relação à composição do corpus de treino ou desenvolvimento.

A composição desse conjunto é especialmente relevante à aplicação de um sistema de detecção de

redações com fuga ao tema em um cenário real, haja vista que especifica que tipos de dados são

necessários para que o sistema funcione.

Quadro 6. Composição do corpus de treino utilizado nos trabalhos relacionados

Identificação Abordagem Enunciado

do Tema

Enunciado

de Outro

Tema

Redações

do Tema

Redações

de Outro

Tema

Higgins, Burstein e Attali

(2006)

Modelo A Sim Não Sim Não

Modelo B Não Não Sim Sim

Modelo CUT Sim Sim Não Não

Louis e Higgins (2010) Modelo CUT’ Sim Sim Não Não

Li e Yan (2012) Proposta Sim Não Sim Não

Persing e Ng (2014) Baseline Não Não Sim Não

Proposta Sim Sim Sim Não

Chen e Zhang (2016) Modelo CUT’’ Sim Sim Sim Não

Klebanov, Flor e Gyawali

(2016)

LH Não Não Sim Sim

Modelo B Não Não Sim Sim

Proposta Não Não Sim Sim

Rei e Cummins (2016) Proposta Sim Não Não Não

64

A coluna “Abordagem” foi inserida no Quadro 6 para identificar a qual das abordagens do

trabalho se referem as informações apresentadas na linha. As abordagens de Louis e Higgins (2010)

e Chen e Zhang (2016) foram nomeadas Modelo CUT’ e Modelo CUT’’ por estenderem a abordagem

de mesmo nome de Higgins, Burstein e Attali (2006), a primeira aplicando técnicas de expansão do

enunciado do tema e a segunda adicionando características linguísticas da redação.

Os corpora utilizados nos trabalhos relacionados possuem número médio de redações por tema

bastante superior ao do corpus utilizado neste trabalho, como pode ser observado no Quadro 7. O

trabalho mais próximo ao pretendido por esta proposta – quanto a este número – é o de Persing e Ng

(2014), com média de 63 redações por proposta temática, e três das 830 propostas tendo menos de 20

redações. Ressalta-se que apesar de Persing e Ng (2014) terem proposto uma abordagem

potencialmente capaz de detectar redações com fuga ao tema, seu corpus de pesquisa não continha

redações nessa situação e, portanto, tal hipótese não foi verificada. As informações que não estão

presentes nos artigos revisados e que não puderam ser obtidas através de contato pelos autores por e-

mail são apresentadas com o marcador “?” nesse quadro.

Quadro 7. Tamanho dos corpora utilizados nos trabalhos relacionados

Identificação Nº de redações Nº de temas Nº de redações/tema

Higgins, Burstein e Attali (2006)17 8.000 36 ~225

Louis e Higgins (2010) 2.450

?

7

3

350

?

Li e Yan (2012) 2.041 ? ?

Persing e Ng (2014) 830 13 ~63

Chen e Zhang (2016) 57.176 4 776 – 48.488

Klebanov, Flor e Gyawali (2016)18 82.500

12.100

76

8

~1085

~253 – 760

Rei e Cummins (2016)19 ?

?

60

13

?

?

Este trabalho 2.164 111 19-20

17 Higgins, Burstein e Attali (2006) também usaram um corpus com 3.138 redações para detecção de redações com cópia

do texto motivador e parte deliberadamente desconectada do texto. Esse corpus não foi considerado no Quadro 7 por

desviar do escopo desta pesquisa. 18 Klebanov, Flor e Gyawali (2016) utilizaram dois corpora: um proprietário (82.500 redações) e um público (12.100

redações). 19 Rei e Cummins (2016) descrevem dois corpora de pesquisa: um com 30.899 sentenças de redações de 60 temas e outro

com 20.883 sentenças de redações de 13 temas. O número de redações nesses corpora, no entanto, não foi especificado.

65

As métricas de desempenho utilizadas nas pesquisas revisadas são apresentadas no Quadro 8.

Os autores Li e Yan (2012) avaliaram o resultado de sua abordagem através de um gráfico onde se

mostrava a relação entre o valor de pertinência ao tema estimado e o atribuído pelos avaliadores,

sendo possível verificar, visualmente, boa relação entre os valores. Li e Yan (2012), no entanto, não

utilizaram uma métrica numérica, por isso não são mencionados no Quadro 8. As abordagens

avaliadas por Klebanov, Flor e Gyawali (2016) e Rei e Cummins (2016) não foram aplicadas à

detecção de redações com fuga ao tema, portanto também são omitidas no Quadro 8.

Quadro 8. Métricas de desempenho utilizadas em pesquisas sobre detecção automática de fuga ao

tema

Identificação % FP e

% FN % PE

Precisão,

Recall e

Valor-F

EMA, EQM,

r

Higgins, Burstein e Attali (2006) Sim Não Não Não

Louis e Higgins (2010) Sim Não Não Não

Persing e Ng (2014) Não Sim Não Sim

Chen e Zhang (2016) Não Não Sim Não

Este trabalho Sim Sim Sim Não

A métricas % FP (taxa de falsos positivos), % FN (taxa de falsos negativos), precisão, recall,

valor-F e % PE (predições erradas) são similares, uma vez que todas podem ser extraídas de uma

matriz de confusão. No entanto, cada uma dessas métricas tem aplicações específicas e é mais ou

menos aderente a diferentes cenários.

Em um sistema em produção, é preferível se ter uma baixa taxa de falsos positivos, o que

significa um número menor de redações dentro do tema classificadas como se estivessem fora

(HIGGINS; BURSTEIN; ATTALI, 2006). Com essa premissa, Higgins, Burstein e Attali (2006)

avaliaram um intervalo de valores delimitadores para seus modelos A, B e CUT para balancear a taxas

% FP e % FN resultantes, priorizando um valor baixo de % FP. O trabalho de extensão de Louis e

Higgins (2010) também se restringiu a essa escolha de métricas de desempenho.

Persing e Ng (2014) tratam a tarefa de estimar a aderência ao tema de redações, onde o valor

previsto estava no intervalo [1, 4]. As métricas EMA (erro médio absoluto), EQM (erro quadrático

médio) e correlação linear (r) são comumente utilizadas em tarefas de estimativa, onde o valor de

saída é contínuo. Essas métricas, contudo, não são aplicáveis a tarefas de classificação, como a

detecção de redações com fuga ao tema através de classificação binária.

66

Os resultados alcançados nos trabalhos relacionados são apresentados no Quadro 9

considerando os índices de desempenho obtidos. O termo “fuga ao tema” não é tratado do mesmo

modo em todos os trabalhos. Em alguns casos, são consideradas apenas redações bem escritas e bem

estruturadas, mas que não abordam o tema proposto (TI, tema inesperado). Em outros, consideram-

se também as redações mal escritas ou estruturadas e as com tentativa deliberada de fraude (MF, má

fé). No Quadro 9 essa característica foi anotada na coluna “Abrang.”.

Quadro 9. Resultados alcançados em pesquisas sobre detecção automática de fuga ao tema

Identificação Abordagem Resultado Abrang.

Higgins, Burstein e

Attali (2006)

Modelo A FP: 5.0% | FN: 30-38.0% TI e MF

Modelo B FP: 4.7% | FN: 16.8-28.2% TI e MF

Modelo CUT FP: 6.8% | FN: 22.9% TI

Louis e Higgins (2010) Melhor FP: 1.47-9.02% | FN: 9.02-11.97% ?

Persing e Ng (2014) Proposta PE: .488 | EMA: .348 | EQM: .197 | r: .360 ?

Chen e Zhang (2016) Proposta Prec.: 100% | Recall: 2.2-18.1%

Valor-F: 4.4%-30.7%

?

Nos estudos onde a aderência ao tema foi tratada como uma tarefa de classificação binária

(dentro ou fora do tema), as taxas de precisão e recall variaram no intervalo 2.2-38%. Isso significa

que as abordagens propostas ainda não conseguem detectar uma quantidade considerável de redações

com fuga ao tema do conjunto avaliado. De modo similar, no estudo realizado por Persing e Ng

(2014), onde modelos de regressão foram construídos para predizer um valor contínuo, uma taxa alta

de predições erradas foi encontrada (48,8%) e uma correlação linear fraca a moderada (.360).

As redações com fuga ao tema são diversas: enquanto algumas apresentam muita informação

copiada do enunciado da proposta, outras sequer abordaram o tema esperado. Com isso, as diversas

propostas apresentadas na literatura para classificação de redações com fuga ao tema podem ser mais

ou menos adequado para cada tipo de fuga ao tema. A análise dos resultados com atenção à cada tipo

de problema permite uma avaliação mais precisa do modelo, no entanto demanda um conjunto de

dados anotado.

O Apêndice C apresenta uma versão resumida dos quadros 6 e 8 visando facilitar uma análise

comparativa dos trabalhos encontrados na revisão do estado da arte e esta pesquisa.

67

3.4 CONSIDERAÇÕES

Neste capítulo foi apresentado o estado da arte sobre detecção de fuga ao tema em redações.

Foram apresentadas as técnicas e recursos, os corpora e os resultados de performance encontrados na

literatura. Os resultados encontrados apontam algumas lacunas e deficiências nas abordagens

existentes, entre elas: (i) a alta taxa de erros encontradas nos experimentos; (ii) o uso frequente de

conjuntos artificiais para validação, o que pode causar resultados inconsistentes com os que seriam

obtidos em um cenário real; (iii) na maior parte das pesquisas, o tratamento de redações com fuga ao

tema sem distinção, como por exemplo pelos tipos tema inesperado e tentativa deliberada de

fraude/má-fé; e (iv) a ausência de trabalhos voltados à língua portuguesa.

Os estudos revisados empregam diferentes técnicas e recursos para análise probabilística

superficiais, análise semântica e aprendizado de máquina. Na maior parte dos trabalhos, os resultados

obtidos com uma nova abordagem não são comparados com a literatura. Ainda, alguns trabalhos

utilizam exclusivamente corpora de redações privados, o que dificulta a comparação dos resultados

com trabalhos posteriores. Nos casos onde se obteve uma amostragem aleatória de um corpus público

de redações, também há dificuldade de comparar trabalhos diferentes, a não ser que o autor reutilize

o mesmo conjunto já praticado em outro trabalho.

Nesse cenário, uma das contribuições desta pesquisa é a aplicação e comparação das várias

abordagens presentes na literatura em um único conjunto de redações. O capítulo a seguir apresenta

os procedimentos metodológicos aplicados nesta pesquisa a fim de viabilizar a comparação das

abordagens existentes em redações escritas na língua portuguesa.

68

4 DESENVOLVIMENTO

Este capítulo descreve os métodos e materiais utilizados no estudo comparativo. A Seção 4.1

descreve os procedimentos realizados para a coleta dos dados e composição do corpus da pesquisa.

A Seção 4.2 apresenta detalhes da implementação dos algoritmos relativos às abordagens existentes

na literatura para detecção de fuga ao tema em redações, com adaptações à língua portuguesa. Na

Seção 4.3 é apresentado o método de validação aplicado no estudo comparativo. Por fim, na Seção

4.4 são apresentadas algumas considerações sobre este capítulo.

4.1 COLETA DOS DADOS

As redações do corpus de pesquisa estão disponíveis publicamente no portal UOL Educação20.

Em contato com a instituição provedora não foi possível obter as redações em um formato estruturado,

mas foi concedida licença para uso dos dados nesta pesquisa. Com isso, procedeu-se à criação de um

web crawler (rastreador web) para interpretar as páginas em linguagem HTML do site e recuperar as

redações. No processo de extração foram obtidos:

• a URL;

• o texto original;

• o texto corrigido;

• o enunciado e os textos motivadores da proposta temática;

• a nota final;

• as notas por critério;

• para as redações mais recentes, os comentários do avaliador, incluindo os erros gramaticais e

ortográficos anotados.

As informações recuperadas foram armazenadas em um arquivo estruturado no padrão XML.

O web crawler mencionado e o arquivo XML com as informações extraídas foram disponibilizados

ao público21 visando auxiliar tanto a reprodução desta pesquisa quanto a realização de outros

trabalhos sobre avaliação automática de escrita.

Considerando as necessidades do presente estudo, a partir do arquivo extraído foi criado um

subconjunto com as seguintes informações: identificação (URL), texto original, enunciado da

20 https://educacao.uol.com.br/bancoderedacoes/ 21 https://github.com/gpassero/uol-redacoes-xml

69

proposta temática e indicador de fuga ao tema. Este último item foi anotado manualmente com

objetivo de compor uma amostra de casos reais de fuga ao tema. O procedimento adotado para

identificar as redações com fuga ao tema é descrito na subseção seguinte.

Procedimento para Identificação de Redações com Fuga ao Tema

Haja vista que as redações do corpus de pesquisa foram corrigidas de acordo com os critérios

do ENEM, poderiam ser consideradas como possíveis casos de fuga ao tema apenas as redações

anuladas, isto é, com nota zero em todas as competências. Tentou-se esse preceito inicialmente, onde

se verificou a presença de várias redações com fuga ao tema mencionada nos comentários do

avaliador, mas com nota maior que zero, isto é, a redação não foi anulada pela equipe de avaliadores

da UOL apesar da fuga ao tema.

Em contato com o atual responsável pelo banco de redações da UOL, Antonio Carlos Olivieri,

obteve-se a informação de que nem sempre as redações com fuga ao tema são anuladas em vista do

objetivo principal do portal, que é ajudar estudantes a aperfeiçoar sua escrita. Ainda segundo o

responsável, em um cenário real, como no ENEM, tais redações estariam sujeitas à anulação. Abaixo

é apresentado um exemplo de comentário do avaliador sobre uma redação onde se alerta sobre a fuga

ao tema. Vale destacar que esse comentário se refere a uma redação com nota maior que zero em

todas as competências, exceto a 2 – que possui relação com a adequação ao tema.

Este é um texto que, embora bem escrito, foge ao tema da redação. Pediu-se para o estudante

argumentar se a nova lei é autoritária ou é obrigação do governo. Não foi pedido um texto para expor os males do cigarro para fumantes ativos e passivos. No último parágrafo, fala-se

apenas que há “iniciativa do governo”. Em casos como este, as redações de exames de seleção

são anuladas. Sugerimos grande atenção para não escapar ao tema. (excerto a, grifo nosso) 22

Ao analisar o corpus de pesquisa, verificou-se que algumas redações com nota zero na

competência 2 estão aderentes ao tema, mas não atendem ao tipo textual solicitado. Abaixo é

apresentado um exemplo de comentário acerca de uma redação com esse problema.

[...] não é uma carta convite e, portanto, não cumpre a proposta. Em termos de linguagem,

apesar dos erros ou tropeços pontuais, tem o mérito de ser clara no geral. Apesar dos

problemas, contudo, existe uma argumentação sobre o tema. Os aspectos positivos

22 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u480.jhtm

70

permitiriam ao autor obter uma nota positivo [sic], não fosse o zero na competência 2.

(excerto b, grifo nosso) 23

Desse modo, com objetivo de identificar as redações com fuga ao tema no corpus de interesse,

foram filtradas as redações com nota zero na competência 2 do ENEM – “Compreender a proposta

de redação e aplicar conceitos das várias áreas de conhecimento para desenvolver o tema, dentro dos

limites estruturais do texto dissertativo-argumentativo em prosa” (BRASIL, 2017a, p. 15). Essa

competência trata não somente da adequação ao tema, mas também do atendimento do tipo textual.

Por isso, as redações obtidas com a aplicação do filtro foram revisadas manualmente a fim de

distinguir os exemplos positivos de fuga ao tema dos negativos. Essa revisão consistiu da análise dos

comentários dos avaliadores e, quando necessário, da análise do texto da redação. O procedimento

foi realizado por dois revisores e, para os casos de divergência, um terceiro revisor tomou a decisão

final quanto à classe da redação.

Na análise dos comentários dos avaliadores, constatou-se que em algumas redações o

avaliador argumenta que o estudante “não atendeu a proposta” ou “fugiu à proposta”, motivando a

nota zero na competência 2. Na análise desses casos, verificou-se que essa afirmação pode se referir

tanto à fuga ao tema, quanto ao não atendimento da estrutura textual exigida (como no caso da carta

convite, mencionada no excerto b). Nesses casos, quando o tipo do problema não havia sido

especificado nos comentários, a redação foi lida na íntegra e, na ausência de qualquer argumentação

pertinente ao tema proposto, aplicou-se o rótulo de fuga ao tema. Por outro lado, quando em seus

comentários o avaliador deixou explícita a constatação de fuga ao tema (como no excerto a), a redação

foi marcada como caso real de fuga ao tema sem a leitura do texto da redação.

Após a coleta dos dados, procedeu-se à implementação dos algoritmos a serem comparados.

4.2 IMPLEMENTAÇÃO DOS ALGORITMOS

Esta seção apresenta detalhes sobre a implementação dos algoritmos referentes às abordagens

existentes na literatura para detecção de redações com fuga ao tema. A implementação desses

algoritmos foi necessária para viabilizar o estudo comparativo. Haja vista que o corpus de pesquisa

está escrito na língua portuguesa, foram realizadas adaptações nas abordagens existentes,

23 https://educacao.uol.com.br/bancoderedacoes/redacoes/e-realmente-uma-escolha.htm

71

originalmente propostas tendo em vista a língua inglesa. As abordagens também foram adaptadas à

tarefa de classificação binária.

Os algoritmos são de agora em diante identificados através de uma sigla contendo a

concatenação da primeira letra do sobrenome dos autores. No caso de autores que apresentaram mais

de uma variante para tratar o problema, à identificação do algoritmo foi adicionada uma ou mais letras

para distinguir a variante. O Quadro 10 apresenta as siglas adotadas para identificação dos algoritmos.

Quadro 10. Identificação dos algoritmos implementados

Identificação do Trabalho Variante Identificação do Algoritmo (Sigla)

Higgins, Burstein e Attali (2006)

Modelo A HBA-A

Modelo B HBA-B

Modelo CUT HBA-C

Louis e Higgins (2010)

Derivações LH-D

Sinônimos LH-S

Palavras associadas LH-A

Derivações +

Palavras associadas

LH-DA

Li e Yan (2012) - LY

Persing e Ng (2014) - PN

Chen e Zhang (2016) - HBA-C

Klebanov, Flor e Gyawali (2016)

Teste de

significância

KFG-A

Modelo B HBA-B

Proposta KFG-B

Rei e Cummins (2016)

CVA RC-A

Word2Vec CBOW RC-B

Word2Vec CBOW

+ IDF

RC-C

Weighted-

Embeddings

RC-E

Os algoritmos de baseline apresentados em Persing e Ng (2014) e Klebanov, Flor e Gyawali

(2016) foram desconsiderados, haja vista que as abordagens propostas por esses autores estendem ou

superam esses algoritmos. A técnica de expansão de enunciados pelas palavras similares por

distribuição, utilizando a abordagem apresentada por Lin (1998 apud LOUIS; HIGGINS, 2010), não

foi implementada por demandar um parser de dependências textuais, ainda incipiente no cenário

brasileiro de PLN. Vale destacar também que neste estudo comparativo não foi considerado o modelo

(d) de Rei e Cummins (2016), descrito na Seção 3.2.2, pela sua complexidade de implementação e

72

por ter apresentado resultados muito inferiores a todos os outros modelos descritos pelos mesmos

autores.

Todos os algoritmos implementados tiveram alguma adaptação para viabilizar o estudo

comparativo. Essas adaptações se deram principalmente devido à diferença da linguagem natural alvo

dos estudos: este é focado na língua portuguesa, enquanto que as abordagens originais, descritas no

Capítulo 3, são aplicadas à língua inglesa. A implementação dos algoritmos, detalhada nas seções

seguintes, foi realizada utilizando a linguagem de programação Python na versão 3.5 e a biblioteca

NLTK na versão 3.2.2.

Corpora

O Quadro 11 apresenta os corpora empregados na implementação dos algoritmos. Esses

corpora são recursos externos representativos da língua portuguesa e, na adaptação dos algoritmos,

substituíram conjuntos similares da língua inglesa utilizados nas abordagens originais. O conjunto de

artigos publicados na Wikipédia em português (WIKIPÉDIA-PT) foi selecionado por representar uma

coleção vasta de documentos nos gêneros descritivo e informativo, enquanto que o conjunto

PORTAL-G1 foi selecionado para representar o gênero notícia. Esses conjuntos abrangem diversas

áreas do conhecimento e já foram utilizados em pesquisas anteriores nas áreas de processamento de

linguagem natural e análise semântica para representar a língua portuguesa (HARTMANN, 2016;

OLIVEIRA et al., 2015; PASSERO; HAENDCHEN FILHO; DAZZI, 2016).

Quadro 11. Corpora utilizados pelos algoritmos

Identificação Descrição Fonte

WIKIPÉDIA-PT Coleção de artigos da Wikipédia em

português.

https://dumps.wikimedia.org/ptwiki/

(versão de março/2017)

PORTAL-G124 Coleção de notícias extraídas do

Portal G1. (HARTMANN, 2016)

As seções seguintes, ao descreverem as adaptações nos algoritmos implementados,

referenciam os corpora identificados no Quadro 11 e indicam o conjunto substituído no estudo

original.

24 Esse conjunto foi utilizado na abordagem de análise semântica Solo Queue (HARTMANN, 2016), vencedora do

workshop ASSIN-PROPOR 2016, e foi concedido pelo autor para o propósito desta pesquisa.

73

CVA

Neste estudo, a implementação do algoritmo de CVA se baseou nos corpora WIKIPÉDIA-PT

e PORTAL-G1 para determinar a frequência de termos em documentos, necessária ao cálculo do peso

TF–IDF, enquanto que os algoritmos HBA-* e LH-* utilizaram a coleção de textos de notícias

TIPSTER (HARMANN, 1992 apud HIGGINS; BURSTEIN; ATTALI, Y., 2006) e o algoritmo RC-

A utilizou o British National Corpus25. Essa adaptação foi necessária porque as coleções de textos

originais estavam na língua inglesa. Os dois conjuntos – WIKIPÉDIA-PT e PORTAL-G1 – foram

selecionados para substituir as coleções originais por também possuir textos de temas variados e em

grande escala, o que ajuda a garantir a estabilidade das frequências extraídas de termos em

documentos (HIGGINS; BURSTEIN; ATTALI, 2006).

HBA

Os algoritmos HBA-A, HBA-B e HBA-C produzem valores contínuos para representar a

pertinência de uma redação ao tema proposto. No trabalho original, foram definidos, empiricamente,

valores delimitadores para indicar o intervalo de redações com fuga ao tema. Os valores tidos como

ótimos nos trabalhos originais, podem não apresentar o melhor resultado em outro corpus de pesquisa.

Com isso, nesta pesquisa, os algoritmos HBA-A, HBA-B e HBA-C foram adaptados para induzir os

valores delimitadores a partir de um conjunto de treino com redações do mesmo tema. O algoritmo

SVM linear foi escolhido para tratar esse problema, pois permite encontrar o valor delimitador que

produz a menor taxa de erros. Outra vantagem do algoritmo SVM linear nesse contexto é a

possibilidade de reduzir a taxa de falsos positivos (ou falsos negativos) ajustando o parâmetro de peso

das classes (HIGGINS; BURSTEIN; ATTALI, 2006).

LH

Os algoritmos LH-D, LH-S, LH-A e LH-DA são uma extensão de HBA-C com foco em

enunciados de tamanho curto. Esses algoritmos aplicam técnicas de expansão do enunciado a partir

de derivações, sinônimos e palavras associadas. Os enunciados do corpus de interesse, com média de

200±38 palavras, tem tamanho bastante superior aos utilizados no experimento de Louis e Higgins

25 O British National Corpus é uma coleção criada pela imprensa da Universidade de Oxford e possui textos de diversas

fontes, incluindo revistas, jornais e textos acadêmicos. Esse corpus está publicamente disponível no site

http://corpus.byu.edu/bnc/.

74

(2010) (média entre 9 e 13 palavras), destoando do foco em enunciados de tamanho curto. Mesmo

assim, esses algoritmos foram implementados para verificar o efeito nos resultados em relação ao

original HBA-C.

Para o algoritmo LH-D, foi implementado um gerador de variantes morfológicas de uma

palavra a partir de um conjunto de prefixos e sufixos presentes na língua portuguesa, encontrados na

obra de Marino (1980). Foram considerados 20 prefixos de origem grega (ex. ana, anti, hiper e meta),

44 prefixos de origem latina (ex. des, dis, inter e pré), 10 sufixos nominais aumentativos (ex. ão, alho

e eirão), 10 sufixos diminutivos (inho, zinho e ejo) e outros 49 sufixos que permitem formar palavras

em uma classe a partir de palavras de outra classe (ex. ar, que transforma o substantivo escola no

adjetivo escolar). Com isso, para cada palavra de um enunciado foi gerado um número demasiado

grande de derivações (64 prefixos * 69 sufixos resultando em 4.419 variantes). A maior parte dessas

variantes são palavras inválidas, por isso um dicionário baseado nos tokens com mais de cinco

ocorrências no corpus WIKIPÉDIA-PT foi consultado para remover palavras inexistentes.

O algoritmo LH-S utilizou a instância de wordnet representante da língua portuguesa no

projeto Open Multilingual Wordnet, o OpenWN-PT, enquanto que nos trabalhos originais foi

utilizada uma instância voltada à língua inglesa. O OpenWN-PT foi consultado a fim de encontrar os

sinônimos das palavras do enunciado original, em seguida os sinônimos encontrados foram

adicionados à versão expandida do enunciado. As palavras organizadas nessa wordnet estão

lematizadas, enquanto que as palavras nos textos originais dos enunciados estão na forma flexionada.

Por isso, foi utilizada a biblioteca de código aberto CoGrOO26, em Java, para lematizar as palavras

consultadas através de uma interface de ponte desenvolvida em Python para este fim27.

O conjunto de palavras associadas utilizado na abordagem original do algoritmo LH-A não

existe na língua portuguesa. Desse modo, foi utilizado um conjunto similar de palavras associadas

denominado PAPEL (Palavras Associadas Porto Editora – Linguateca), apresentado na Seção 2.2.1.1.

O Quadro 12 apresenta exemplos de derivações, sinônimos e palavras associadas encontradas

para algumas palavras existentes no corpus de interesse, gerados a partir dos algoritmos LH-D, LH-

S e LH-A.

26 Disponível em https://github.com/cogroo/cogroo4. 27 Disponível em https://github.com/gpassero/cogroo4py.

75

Quadro 12. Exemplos de derivações, sinônimos e palavras associadas

consumo

Derivações

anticonsumismo, anticonsumista, anticonsumo, hiperconsumismo,

hiperconsumo, inconsumível, subconsumismo, subconsumo, consumada,

consumado, consumar, consumidor, consumia, consumismo, consumista,

consumível, consumação, consumição, consum, consuma, consume

Sinônimos -

Palavras

associadas

utilização, dispêndio, gasto, carvoeira, ração, matadouro, gasto, ingerir,

absorção, tabagismo, matança, sector, ficofagia, despesa, aquisição, refinaria,

uso, dispêndio, embriaguez, automedicação, autoconsumo

escola

Derivações extraescolar, interescolar, paraescolar, escolado, escolar

Sinônimos

instituto, escola_primária, faculdade, departamento, academia,

instituição_de_ensino_superior, escolas, escola, universidade, IES,

ensino_primário, Grundschule, colégio, Faculdade

Palavras

associadas

imitadores, academia, artista, escritor,

funcionário_de_estabelecimento_de_ensino, pré-primária, provençalismo, impressionismo, experiência, merenda, orfeão, pré-escola, seguidores, circum-

escolar, farnel, aula, repertório, seiscentismo, professor, doutrina, filósofo,

instituição, amadurecimento_de_personalidade, auto-escola, aluno, compêndio

recurso

Derivações recursar, recursivo

Sinônimos bem, propriedade, assistência, Recursos_naturais, armas, ajuda,

recursos_naturais, arma, ajudante, vantagem, recurso_natural, recurso, virtude

Palavras

associadas

meio, impugnação, antimetátese, recorrer, protecção, salvatério, paráfrase,

bens, solução, organicamente, arma, expediente, remédio, tesouro, refúgio, pedido, fisco, teriaga, haveres, remédio, partido, venábulo, capacidades,

âncora, abrigo, metralha, refúgio, atingir_fim, expediente, resolver_problema,

contra-informação, procurar, cabedal, saída

Em testes, pôde-se verificar que os algoritmos criados para expansão de enunciados

retornavam frequentemente um número muito grande de variantes, como pode ser observado no

Quadro 12. A decisão dos autores do trabalho original de Louis e Higgins (2010) em aplicar um peso

pequeno (1) às palavras de expansão, e grande (20) às palavras originalmente presentes no enunciado,

mostrou-se pertinente no tratamento desse problema.

LY

O algoritmo LY é uma técnica simples que consiste na comparação da redação com o

enunciado do tema utilizando o cosseno do ângulo dos vetores gerados por CVA. Na abordagem

original o índice de similaridade computado foi aplicado à tarefa de correção automática de redações

usando SVR linear (regressão). No contexto desta pesquisa, o algoritmo LY utiliza um classificador

76

SVM linear, uma modificação que visa adaptar a abordagem original a uma tarefa de classificação

binária (redação com ou sem fuga ao tema).

No trabalho original, é indicado o uso de um conjunto de palavras-chave do enunciado. Haja

vista que o método de extração ou anotação de palavras-chave não foi explicitado pelos autores em

seu artigo, tentou-se contato via e-mail a fim de obter mais detalhes, mas não se obteve resposta. Com

isso, na implementação realizada, foram utilizadas todas as palavras de conteúdo do enunciado na

comparação com as redações, isto é, foram consideradas todas as palavras, exceto palavras vazias

(stopwords).

PN

Na abordagem PN original se buscou estimar o grau de pertinência ao tema de redações

usando SVR linear (regressão). Nesta pesquisa, o algoritmo de aprendizado de máquina utilizado foi

alterado para SVM linear visando a tarefa de classificação binária, do mesmo modo que foi feito para

a abordagem LY. As seguintes características foram excluídas deste estudo comparativo por

requererem informações não disponíveis no corpus desta pesquisa ou por demandarem anotação

manual do corpus, o que impede a automatização do processo: palavras-chave de clareza; palavras-

chave de aderência ao tema; tópicos LDA manualmente anotados; e erros previstos de clareza da tese.

Desse modo, as características consideradas no presente estudo foram: n-gramas e similaridade entre

a redação e o enunciado usando os modelos de análise semântica distribucional RI e LDA.

Enquanto que na abordagem original foi utilizado o corpus English Gigaword na criação dos

modelos distribucionais RI e LDA para análise de similaridade textual, nesta adaptação foi utilizado

um conjunto de textos do mesmo gênero (notícia) PORTAL-G1. As técnicas de pré-processamento

adotadas no experimento original foram reproduzidas no conjunto de redações da pesquisa e no

corpus PORTAL-G1. Essas técnicas abrangeram a conversão dos textos para caixa baixa e

lematização utilizando a biblioteca CoGrOO.

KFG

As abordagens apresentadas por Klebanov, Flor e Gyawali (2016) podem ser vistas como

meios de construir um dicionário que tenha como chave as palavras presentes nas redações de um

determinado tema, e como valor o índice de pertinência ao tema de cada palavra. A proposta

77

contempla o uso desse dicionário na geração de um índice de pertinência ao tema da redação através

da sumarização dos índices referentes às suas palavras. A geração dos dicionários foi realizada no

estudo original tendo como base 500 redações de cada proposta temática. No contexto desta pesquisa,

tem-se um conjunto limitado de 20 redações por proposta temática, desse modo todas elas foram

utilizadas na construção dos dicionários.

Os autores avaliaram quatro técnicas de sumarização dos índices de pertinência ao tema das

palavras em um único índice referente à redação, considerando: todas as palavras ou apenas palavras

únicas; e sumarização pela média escalonada ou não escalonada. Os algoritmos KFG-A e KFG-B

foram implementados utilizando a sumarização escalonada das palavras únicas devido a essa

configuração ter otimizado os resultados no experimento original.

No estudo original, os índices de pertinência calculados para as redações foram utilizados para

prever uma nota holística através de regressão linear. Haja vista que no contexto desta pesquisa se

busca classificar uma redação como dentro ou fora do tema, adotou-se um classificador SVM linear

no lugar de regressão.

Ainda, vale destacar que para a implementação do algoritmo KFG-A (teste de significância)

adotou-se o modelo binário tido como ótimo no experimento original, onde se considerou como

pertinentes ao tema as palavras que aparecem com mais frequência em redações da proposta temática

com limite de significância 0.05.

RC

Os algoritmos RC-* consistem em converter o texto do enunciado do tema e o texto da redação

em uma representação vetorial para, em seguida, obter um índice de similaridade entre esses textos

usando o cosseno do ângulo. No trabalho original, cada sentença da redação foi comparada de modo

individual a fim de destacar partes específicas da redação que apresentavam fuga ao tema. Nesta

pesquisa, não foi modificado o método de extração e comparação dos vetores, mas foi modificado o

escopo da comparação, que passou da sentença para o texto completo da redação.

Os algoritmos RC-B, RC-C e RC-E dependem de um modelo Word2Vec para vetorização dos

textos. Neste estudo, um modelo de análise de similaridade com Word2Vec foi criado utilizando os

corpora WIKIPÉDIA-PT e PORTAL-G1, enquanto que no trabalho original foi usada a coleção de

textos British National Corpus. Os autores não especificaram as técnicas de pré-processamento

78

utilizadas em seu experimento, desse modo se optou pelo procedimento adotado na abordagem Solo

Queue (HARTMANN, 2016), que também contempla um modelo Word2Vec para análise semântica.

Os algoritmos RC-* produzem um ranking dos temas mais prováveis de estarem relacionados

à redação, de modo similar ao algoritmo HBA-C. Com isso, adotou-se um classificador SVM linear

para identificar a melhor delimitação de posição do ranking para classificar uma redação como dentro

ou fora do tema.

4.3 MÉTODO DE VALIDAÇÃO

O desempenho dos algoritmos foi avaliado no corpus de pesquisa em dois experimentos: um

com exemplos reais de fuga ao tema (experimento 1) e outro com exemplos artificiais (experimento

2). O experimento 1 teve seu conjunto desenvolvido conforme o protocolo apresentado na Seção 4.1.

O conjunto de exemplos artificias do experimento 2, por sua vez, foi desenvolvido adotando-se a

estratégia de geração de exemplos positivos artificiais (com fuga ao tema) observada na literatura28,

onde para cada conjunto de N redações de um tema (exemplos negativos) são selecionadas

aleatoriamente N redações de outros temas (exemplos positivos).

Os experimentos foram realizados utilizando-se de uma estratégia de validação cruzada por

tema. Desse modo, para cada tema com N redações, foram realizados N ciclos de validação, onde

para cada ciclo uma redação do tema compôs o conjunto de teste e as demais o conjunto de treino.

Ainda, visando compatibilizar os experimentos com todos os algoritmos avaliados, as redações e

enunciados de outros temas foram utilizados como conjunto de desenvolvimento. Assim, em cada

ciclo foi testada a capacidade de um algoritmo classificar corretamente uma redação como exemplo

positivo ou negativo de fuga ao tema, tendo como base, para isso, os enunciados e demais redações

do corpus de pesquisa.

O desempenho dos algoritmos foi medido pela taxa de acertos (acurácia), precisão, recall, taxa

de falsos positivos e taxa de falsos negativos. A medida valor-F também foi utilizada, no entanto

apenas no experimento 1, devido ao conjunto desse experimento estar desbalanceado. Essas medidas

28 Na literatura revisada, apenas três estudos tratam a tarefa de classificação binária de redações com fuga ao tema. A

estratégia de geração de exemplos artificiais adotada foi utilizada por dois deles: Higgins, Burstein e Attali (2006) e Louis

e Higgins (2010). O terceiro estudo, de Chen e Zhang (2016), utilizou apenas exemplos reais de fuga ao tema.

79

foram utilizadas por estarem presentes na literatura relacionada ao tema, conforme apresentado na

Seção 3.3, e, portanto, visam facilitar a comparação dos resultados atingidos com outros trabalhos.

A estratégia de validação cruzada por tema apresentada necessita de uma amostra

representativa de exemplos positivos de fuga ao tema, o que pode não ser viável ao experimento 1.

No caso de o conjunto de exemplos reais desenvolvido nesta pesquisa apresentar poucas instâncias,

inviabilizando a indução de classificadores específicos de cada tema, será adotada uma estratégia de

validação cruzada alternativa sem agrupamento por tema. A estratégia alternativa consistirá em

realizar uma validação cruzada considerando exemplos de redações de todos os temas. Assim, serão

realizados N ciclos de validação, um para cada redação do corpus de pesquisa (𝑁 = 2.164), sendo

que em cada ciclo uma redação diferente do corpus constituirá o conjunto de teste e as demais

redações formarão o conjunto de treino.

4.4 CONSIDERAÇÕES

Este capítulo apresentou a abordagem proposta para avaliar as técnicas de detecção de

redações com fuga ao tema presentes na literatura. O conjunto de redações utilizados nesta pesquisa

foi coletado a partir do portal UOL Educação. O arquivo estruturado obtido foi disponibilizado ao

público como recurso a ser empregado em pesquisas futuras, inclusive para reprodução deste estudo.

Na literatura existente sobre detecção de fuga ao tema, poucas abordagens foram testadas em

conjuntos com exemplos positivos reais. A anotação do corpus de pesquisa quanto às redações que

fogem ao tema se mostrou pertinente no contexto desta pesquisa a fim de possibilitar um estudo

comparativo tanto com conjuntos reais quanto artificiais de redações com fuga ao tema.

A comparação das abordagens existentes exige a implementação dos algoritmos conforme as

especificações apresentadas nos artigos revisados. Haja vista que os trabalhos relacionados são

exclusivamente aplicados à língua inglesa, alguns ajustes foram realizados visando a adaptação à

língua portuguesa. Uma das limitações desta pesquisa é que a substituição de recursos empregados

na literatura por similares da língua portuguesa pode causar resultados divergentes dos obtidos nos

estudos originais. O conjunto de redações utilizado neste estudo difere em tamanho e conteúdo dos

conjuntos empregados em outras pesquisas, o que também pode ser visto como um fator que impacta

nos resultados.

80

O método de validação de desempenho dos algoritmos implementados foi elaborado conforme

as práticas observadas na literatura, incluindo a validação cruzada do conjunto de dados – haja vista

que os algoritmos exigem um conjunto de treino – e o cálculo de métricas de desempenho observadas

na literatura para a tarefa de detecção de redações com fuga ao tema. No capítulo seguinte são

apresentados e discutidos os resultados obtidos.

81

5 RESULTADOS

Este capítulo apresenta e discute os resultados do estudo comparativo tendo em vista permitir

avaliar a contribuição do trabalho, o alcance dos seus objetivos e a hipótese de pesquisa. Na Seção

5.1 é apresentado o resultado da execução do protocolo para identificação de redações com fuga ao

tema e algumas considerações sobre essa etapa. A Seção 5.2 apresenta e discute os resultados do

primeiro experimento da pesquisa, que considerou um conjunto de exemplos reais de fuga ao tema.

Na Seção 5.3 são apresentados e discutidos os resultados do segundo experimento, que teve como

base exemplos artificiais de fuga ao tema. Por fim, na Seção 5.4, são apresentadas algumas

considerações sobre os resultados do estudo.

5.1 IDENTIFICAÇÃO DE REDAÇÕES COM FUGA AO TEMA

A identificação de redações com fuga ao tema do corpus de pesquisa se deu com base no

protocolo apresentado na Seção 4.1. Conforme o protocolo, foram filtradas as redações com nota zero

na competência 2, o que resultou em 106 redações para revisão manual. Após a revisão manual dessas

redações, constatou-se que 13 delas representavam casos reais de fuga ao tema. No Apêndice D é

apresentada uma relação com essas redações, que compuseram o conjunto de exemplos reais de fuga

ao tema.

Durante o processo de revisão das redações para identificação de casos reais de fuga ao tema,

verificou-se que a decisão quanto à classificação das redações (como caso de fuga ou tema ou não) é

subjetiva. A revisão envolveu inicialmente dois avaliadores: o autor e outro pesquisador na área de

Processamento de Linguagem Natural que teve acesso ao procedimento descrito na Seção 4.1. O

primeiro avaliador (o autor) classificou 18 das 106 redações como casos reais de fuga total ao tema,

e o segundo avaliador classificou 7 redações nessa situação. Houve concordância sobre a classe de 6

redações, e discordância sobre a classe de 13: 12 indicadas com fuga ao tema somente pelo primeiro

revisor e uma indicada com fuga ao tema somente pelo segundo revisor. Assim, um terceiro avaliador,

professor de Língua Portuguesa com experiência em correção de redações, foi solicitado a analisar

essas redações conforme o protocolo estabelecido. O terceiro avaliador classificou como casos reais

de fuga ao tema 7 das 13 redações com divergência. Assim, obteve-se ao final do processo de revisão

um conjunto de 13 redações com fuga total ao tema.

82

Também pôde-se verificar durante o processo de revisão que, em alguns casos, houve

discordância parcial quanto à fuga ao tema entre a avaliação da UOL e a realizada nesta pesquisa.

Nos seguintes casos, a avaliação realizada nesta pesquisa não considerou como caso de fuga ao tema

total: (i) redações que tangenciam o tema específico proposto ou o abordam em alguma parte do texto;

(ii) redações com cópia do texto motivador; (iii) redações que abordam o tema, mas que não

respondem à pergunta principal da proposta; e (iv) redações incompreensíveis (erros ortográficos e

gramaticais graves e/ou ausência de coerência e coesão predominante).

Para algumas das redações revisadas que se enquadravam nas condições apresentadas,

verificou-se nos comentários do avaliador da UOL menção explícita à fuga do tema. A redação

intitulada “A alternativa”29 é um exemplo dos problemas (i) e (iii), onde o avaliador comentou:

O autor escapou do tema em debate, do qual falou timidamente apenas no primeiro parágrafo,

já enviesando para outros temas: violência, educação, corrupção. Sua conclusão está

totalmente fora das ideias propostas para argumentação.

Quanto ao problema (ii), pode ser mencionada a redação intitulada “O toque de recolher é uma

solução”30, sobre a qual o avaliador da UOL comentou:

O autor não desenvolveu nenhum ponto de vista próprio, apenas "copiou e colou" trechos de

textos que foram colocados na proposta como estímulos a favor do toque de recolher ou

contra ele. Nada há de ideias pessoais neste texto.

Por fim, pode-se mencionar sobre o problema (iv) a redação intitulada “Quem nunca errou joga

[jogue] a primeira pedra.”31, onde o avaliador da UOL comentou:

Infelizmente, a redação é precária: o autor não consegue se exprimir com um mínimo de

precisão. As palavras, ora usadas em sentido real, ora em sentido figurado, de maneira

excessivamente subjetiva, quando não completamente inadequadas, a mudança constante do

sujeito das orações, a inexistência de sujeito e a confusão sintática revelam uma grande

dificuldade com a expressão escrita.

Haja vista os vários tipos de fuga ao tema encontrados no corpus de pesquisa, o protocolo

inicialmente estabelecido não foi seguido rigorosamente, pois a simples menção nos comentários do

avaliador da UOL a uma fuga ao tema nem sempre estava relacionada ao tipo de redação alvo da

29 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u514.jhtm 30 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u521.jhtm 31 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u600.jhtm

83

busca: redações com fuga total ao tema proposto. Assim, quando acusada a fuga ao tema pelo

avaliador, as redações foram lidas na íntegra e anotadas quanto à fuga ao tema ser parcial ou total.

Das 13 redações identificadas como casos reais de fuga ao tema, vale destacar que 9 abordam

um tema próximo do previsto na proposta temática. Por exemplo, em setembro de 2009 o título da

proposta do banco de redações da UOL Educação era “Como você encara os cursos a distância e as

universidades virtuais?”. Uma das redações submetidas, intitulada “A problemática educacional”,

recebeu nota 0 em todas as competências devido à fuga ao tema, sendo destacado pelo avaliador: “[O

autor] fugiu totalmente ao tema, que não era "Educação", mas Educação universitária a distância.

Cuidado. Isso é muito grave. Invalida totalmente o texto.”32 . Apesar do texto do aluno desenvolver

uma discussão breve sobre a educação no Brasil e no mundo, não tratou do tema específico proposto,

que era sobre a educação universitária a distância.

A seção seguinte apresenta os resultados do experimento de detecção de fuga ao tema

realizado com os exemplos reais de fuga ao tema identificados.

5.2 EXPERIMENTO 1 – EXEMPLOS REAIS DE FUGA AO TEMA

Os algoritmos descritos no Capítulo 4 foram avaliados considerando o conjunto de 13

exemplos reais de redações com fuga ao tema apresentados no Apêndice D. Essas redações estão

relacionadas a 13 temas, ou seja, cada tema com apenas uma redação relacionada. Com isso, tornou-

se inviável a indução de um classificador para cada proposta temática, pois não se poderia generalizar

um modelo de redações com fuga ao tema. Desse modo, adotou-se a alternativa prevista de construir

um único classificador independente de tema, a partir do conjunto completo de redações dos 111

temas. Assim, na validação cruzada, a capacidade de um algoritmo classificar corretamente um

exemplo positivo de fuga ao tema foi verificada tendo como base os outros 12 exemplos positivos,

assim como os demais 2.151 exemplos negativos.

Após a execução de todos os algoritmos no conjunto de exemplos reais de fuga ao tema,

verificou-se que nenhum foi capaz de detectar algum exemplo positivo, tendo sempre todos os

exemplos apresentados para teste na validação cruzada (positivos e negativos) sido classificados

32 https://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u528.jhtm

84

como negativos (não fugiu do tema). Assim, obteve-se a medida de desempenho valor-F de 0% para

todos os algoritmos.

Um dos motivos para a estratégia de construir um classificador independente de tema falhar é

que, conforme discutido anteriormente por Persing e Ng (2014), uma redação pode se adequar mais

facilmente a um certo tema que a outro, considerando as medidas computacionais de similaridade

utilizadas. Por exemplo, ao aplicar o algoritmo KFG-A nos exemplos negativos do corpus desta

pesquisa, pôde-se verificar os índices de similaridade apresentados na Tabela 2.

Tabela 2. Índice de similaridade médio obtido pelo algoritmo KFG-A para temas diversos

Tema

Índice KFG-A

(média ± desvio

padrão)

a-aids-nao-e-mais-a-mesma-por-que-diminuiu-o-medo-da-doenca 1,003 ± 0,249

a-gramatica-facilita-ou-dificulta-a-comunicacao 0,825 ± 0,202 agua-aprenderemos-com-a-atual-crise-hidrica 0,839 ± 0,188

amar-pode-levar-ao-crime-ou-quem-ama-nao-mata 0,818 ± 0,205 amor-com-grande-diferenca-de-idade-sera-que-isso-funciona 1,016 ± 0,211 a-policia-se-excede-contra-os-manifestantes-ou-cumpre-seu-papel 0,932 ± 0,251 a-quem-cabe-a-responsabilidade-sobre-a-escolha-alimentar-da-populacao 1,093 ± 0,255 a-questao-do-lixo-nas-sociedades-de-consumo 1,149 ± 0,253

a-sociedade-brasileira-e-os-conflitos-no-transito 0,782 ± 0,191 a-sociedade-esta-perdendo-a-batalha-contra-o-crime 0,844 ± 0,269

automedicacao-por-que-a-pratica-e-tao-comum-entre-os-jovens 1,116 ± 0,278 a-virgindade-e-um-valor-moral-a-ser-preservado 0,865 ± 0,213

Todos (111 temas) 0,933 ± 0,276

A Tabela 2 apresenta as médias de similaridade obtidas pelo algoritmo KFG-A, aplicado a

conjuntos de redações de temas diversos do corpus de pesquisa. Comparando as médias e desvio

padrão obtidos para cada tema com os obtidos para todo o corpus de pesquisa, constata-se uma

diferença significativa33 para alguns temas. Na aplicação de outros algoritmos também foram

constatadas diferenças na média dos índices calculados por tema. Com isso, ratifica-se a hipótese de

que classificadores de fuga ao tema treinados em um conjunto de redações de um tema específico

podem não funcionar em redações de outro tema. Desse modo, considerando os resultados obtidos

nesse experimento, a abordagem de construir um único classificador a partir do conjunto completo

de redações da pesquisa, adotada devido à escassez de exemplos reais de fuga ao tema por proposta,

33 A diferença entre os conjuntos foi verificada com o teste ANOVA (valor p < 0,001).

85

não é válida para medir o desempenho dos algoritmos avaliados na tarefa de detecção de fuga ao

tema.

Outros fatores também podem ter dificultado a correta classificação dos exemplos positivos,

como: (i) o fato de a maioria das redações do conjunto de exemplos reais ter abordado um tema

relacionado ao esperado (isso foi verificado em 9 das 13 redações, conforme explanado na Seção

5.1); (ii) limitações relacionadas ao algoritmo de aprendizado escolhido (SVM); e (iii) o baixo número

de exemplos reais de fuga ao tema utilizado não ser suficiente para a abstração de um modelo de

redação com fuga ao tema.

5.3 EXPERIMENTO 2 – EXEMPLOS ARTIFICIAIS DE FUGA AO TEMA

A Tabela 3 apresenta os resultados obtidos na execução dos algoritmos avaliados usando

conjuntos artificiais de redações com fuga ao tema. Uma comparação dos resultados obtidos com os

encontrados na literatura pode ser encontrada no Apêndice E.

Tabela 3. Resultados obtidos usando conjuntos artificiais

Algoritmo % Acurácia % Precisão % Recall % FP % FN

HBA-A 90,31 88,79 92,26 11,65 7,74

HBA-B 89,86 88,52 91,61 11,88 8,39

HBA-C 83,06 89,66 74,74 8,62 25,26

LH-D 82,62 89,01 74,45 9,20 25,55

LH-S 82,60 89,41 73,95 8,76 26,05

LH-A 81,13 87,78 73,32 10,07 27,68

LH-DA 81,62 87,93 73,30 10,07 27,70

LY 86,84 83,85 91,24 17,57 8,76

PN 85,76 88,63 82,06 10,53 17,94

KFG-A 96,76 95,84 97,76 4,24 2,24

KFG-B 94,62 94,68 94,55 5,31 5,45

RC-A 81,36 77,93 87,51 24,79 12,49

RC-B 83,13 88,39 76,28 10,02 23,72

RC-C 84,30 89,61 77,59 8,99 22,41

RC-D 88,37 92,69 83,32 6,57 16,68

No estudo de Higgins, Burstein e Attali (2006), os algoritmos originais HBA-A e HBA-B e

HBA-C atingiram taxas de falsos positivos de 4,7% a 6,9% e taxas de falsos negativos de 16,8% a

38%. Os resultados obtidos neste experimento, em relação às medidas % FP e % FN, divergem do

encontrado pelos autores no estudo original. Isso ocorreu devido ao estudo original ter otimizado a

86

constante delimitadora visando o corpus específico de interesse, onde se priorizou uma baixa taxa de

falsos positivos sobre falsos negativos. Descartando o uso do algoritmo de aprendizado SVM e

definindo a constante delimitadora do algoritmo HBA-C para a mesma utilizada no conjunto do

experimento original34, pôde-se obter resultados próximos do estudo original: % FP 6,33 e % FN

27,21.

Haja vista que o conjunto de dados do estudo original era balanceado, pode-se estimar que a

acurácia geral obtida para os algoritmos HBA-A, HBA-B e HBA-C foi, respectivamente, 78,5%,

83,55% e 85,15%. A diferença entre as acurácias obtidas no estudo original e nesta pesquisa pode ter

ocorrido devido a diferenças no corpus de redações utilizado e à estratégia de aprendizado das

fronteiras de decisão, que neste experimento se deu com SVM e o estudo original otimizou os valores

delimitadores dos índices de similaridade analisando a curva de trade-off entre % FP e % FN. Ainda,

vale destacar que nesta pesquisa os resultados obtidos para esses algoritmos apresentam uma

tendência diferente do encontrado na literatura: os algoritmos HBA-A e HBA-B atingiram uma

acurácia superior à encontrada no estudo original; enquanto que o algoritmo HBA-C atingiu uma

acurácia inferior. Essa diferença pode ter ocorrido devido aos algoritmos HBA-A e HBA-B utilizarem

um conjunto de treino com redações do mesmo tema, enquanto que o HBA-C utiliza como conjunto

de treino textos de enunciados de temas diversos. Assim, as particularidades do corpus desta pesquisa

podem ter propiciado um melhor aproveitamento das redações de mesmo tema em um conjunto de

treino que o obtido no estudo original.

Os algoritmos LH-D, LH-S, LH-A e LH-DA são uma extensão do algoritmo HBA-C que

utiliza técnicas de expansão do enunciado da proposta temática (ex. adição de sinônimos e palavras

relacionadas) a fim de que ele seja mais abrangente em relação ao tema. Esses algoritmos foram

idealizados por Louis e Higgins (2010) visando melhorar o desempenho do algoritmo original HBA-

C em casos onde o texto do enunciado é muito curto. Os resultados apresentados na Tabela 3 indicam

que as técnicas de expansão dos algoritmos LH-D, LH-S, LH-A e LH-DA resultam em um pior

desempenho em relação ao algoritmo original HBA-C, considerando o corpus desta pesquisa e as

medidas utilizadas. Por outro lado, no experimento de Louis e Higgins (2010) esses algoritmos

34 No experimento original foi utilizada como constante delimitadora o valor de 10, ou 29% do número total de temas de

referência (34+1). Desse modo, uma redação foi considerada como dentro do tema caso a similaridade entre o texto da

redação e o enunciado estivesse entre os 10 temas com maior índice de similaridade (considerando os temas de referência).

Os valores de % FP e % FN apresentados consideram como constante delimitadora o valor 32 (29% de 111 temas).

87

alcançaram um resultado superior ao de Higgins, Burstein e Attali (2006) na classificação de redações

com fuga ao tema, considerando enunciados com 9 a 13 palavras em média. No corpus desta pesquisa,

os enunciados possuem 200 palavras em média. Assim, esses resultados sugerem que os algoritmos

LH-D, LH-S, LH-A e LH-DA sejam mais adequados aos casos onde o texto do enunciado possui

menos de 200 palavras.

O algoritmo LY pode ser visto como uma extensão do algoritmo HBA-C, haja vista que

também compara o texto do enunciado e o da redação utilizando CVA. Não obstante, esse algoritmo

introduz um segundo atributo: a proporção de palavras-chave do enunciado presentes na redação, que

nesta pesquisa utilizou todas as palavras do enunciado, exceto palavras vazias (stopwords). Neste

experimento, o algoritmo LY apresentou um avanço em relação ao anterior considerando a medida

de acurácia, mas com uma precisão mais baixa.

O algoritmo PN teve resultado mediano em relação aos outros algoritmos avaliados. A

ausências de características relevantes do estudo original, como tópicos LDA manualmente anotados

e palavras-chave de clareza, podem ter impactado significativamente o desempenho do algoritmo PN

neste estudo. Essas características exigem anotação manual do corpus e foram removidas visando

automatizar o processo de detecção de fuga ao tema com esse algoritmo.

Na revisão do estado da arte, verificou-se que somente nos experimentos de Higgins, Burstein

e Attali (2006) (a), Louis e Higgins (2010) (b) e Chen e Zhang (2016) (c) as abordagens apresentadas

para detecção de fuga ao tema em redações foi validada em um corpus com classes binárias, onde

mediu-se taxa de falsos positivos e de negativos (a e b) ou precisão, recall e valor-F (c). O melhor

desempenho encontrado na literatura para a tarefa de classificação binária de fuga ao tema em

redações, em relação à acurácia, foi obtido por Louis e Higgins (2010) em um conjunto de redações

escritas por estudantes falantes do inglês em nível avançado, onde o algoritmo original LH-A obteve

94,75% de acurácia.

Neste experimento, o algoritmo KFG-A se destacou por atingir a maior acurácia (96,76%).

Em relação aos estudos anteriores que se aplicaram à tarefa de classificação binária de redações com

fuga ao tema, o algoritmo KFG-A apresentou acurácia superior a todos. Vale mencionar que o estudo

original de Klebanov, Flor e Gyawali (2016) não avaliou o desempenho desse algoritmo na tarefa de

detecção de fuga ao tema – mas na tarefa de correção automática de redações.

88

Os algoritmos avaliados que não necessitam de um corpus de redações do mesmo tema para

treino são: HBA-C, LH-* e RC-*. Entre esses algoritmos, destacou-se o algoritmo RC-D proposto

por Rei e Cummins (2016) em todas as métricas de avaliação utilizadas, com perda de 8,49% na

acurácia em relação à abordagem com melhor desempenho – KFG-A –, que depende de redações do

mesmo tema para treino. Diferentemente de todos os algoritmos avaliados, o algoritmo RC-D tem

como base somente o texto da redação e o enunciado do tema, o que facilita sua aplicação em cenários

que não dispõem dos recursos adicionais exigidos pelas outras abordagens (redações do mesmo ou

de outro tema; enunciados de temas diversos).

Neste experimento o número de redações de mesmo tema disponíveis para treinamento (20)

é possivelmente o menor em relação a estudos anteriores (~63 a 48.488) 35. Os resultados obtidos para

o algoritmo KFG-A, que no experimento original utilizou 500 redações de mesmo tema para treino,

em comparação aos algoritmos que não dependem desse tipo de conjunto – HBA-C, LH-* e RC-*,

mostra que mesmo um conjunto pequeno de redações de mesmo tema pode aprimorar os resultados

de um classificador de redações com fuga ao tema.

Com relação ao experimento de Chen e Zhang (2016), onde foi aplicada a versão original do

algoritmo HBA-C em conjuntos de exemplos reais de fuga ao tema, os resultados obtidos neste

experimento diferem nas medidas de precisão, recall e valor-F. No estudo anterior, obteve-se nos

quatro conjuntos analisados precisão de 100%, recall entre 2.2% e 18.1% e valor-F entre 4.4% e

30.7%. Haja vista que o conjunto de validação deste experimento é balanceado, pode inferir valor-F

igual à acurácia. Assim, em relação à medida valor-F, este experimento apresentou resultados

superiores ao de Chen e Zhang (2016) para o algoritmo HBA-C, de modo similar ao observado no

experimento de Higgins, Burstein e Attali (2006), que também utilizou exemplos artificiais.

5.4 CONSIDERAÇÕES

Neste capítulo foram apresentados e discutidos os resultados do estudo comparativo proposto

nesta pesquisa. Na revisão sistemática da literatura, apresentada no Capítulo 3, identificou-se como

uma lacuna existente a necessidade de usar exemplos reais na avaliação de desempenho de

abordagens para detecção de fuga ao tema. Com isso, dois experimentos integraram esse estudo: um

35 Considerando os estudos que informaram o número de redações por tema, conforme indicado no Quadro 6.

89

experimento com exemplos reais de fuga ao tema, manualmente identificados visando atender a

lacuna na literatura mencionada, e um experimento com exemplos artificiais, utilizando a estratégia

de geração de exemplos observada na literatura.

No processo de revisão manual do corpus de pesquisa a fim de identificar casos reais de fuga

ao tema, verificou-se a necessidade de adaptar o protocolo inicialmente definido visando eliminar

casos de fuga ao tema que extrapolam os limites de escopo apresentados na Seção 1.1.2. Ao término

desse processo, foram identificadas 13 redações com fuga total ao tema. O experimento 1 deste

estudo, que utilizou esses exemplos reais de fuga ao tema, se deu com a indução de classificadores a

partir de redações submetidas a todos os temas do corpus de pesquisa. Nesse experimento não foi

possível produzir resultados com desempenho medido por valor-F maior que 0%. Os motivos para

isso foram discutidos, destacando-se a baixa representatividade dos conjuntos de exemplos positivos.

No experimento 2 os classificadores foram induzidos considerando cada tema individual do

corpus de pesquisa e, ao contrário do experimento 1, os classificadores tiveram resultado melhor que

o acaso, com acurácia variando no intervalo de 81,13% a 96,76%. O algoritmo que apresentou a

melhor acurácia nesse experimento (96,76%) foi o KFG-A, uma versão adaptada à língua portuguesa

da abordagem proposta por Klebanov, Flor e Gyawali (2016). Os resultados do experimento 2 foram

comparados aos observados na literatura, onde foram constatadas e discutidas algumas diferenças.

Na análise dos resultados do experimento 2, uma das limitações verificadas foi a ausência de

uma investigação voltada à redução da taxa de falsos positivos (o que se espera em um cenário real).

Essa investigação poderia ser realizada ajustando gradualmente o parâmetro de pesos de classes do

classificador SVM até se obter a taxa de falsos positivos esperada. Esse ajuste, no entanto, precisaria

ser realizado para cada tema de redação, pois as fronteiras de decisão podem variar para cada tema –

conforme apresentado na Tabela 2. Ainda, vale mencionar que a otimização do classificador visando

a redução na taxa de falsos positivos pode afetar a acurácia geral.

90

6 CONCLUSÕES

Esta pesquisa teve como objetivo principal avaliar as abordagens existentes na literatura para

detecção de fuga ao tema em redações, com um enfoque na língua portuguesa. Visando atender esse

objetivo, foram definidos cinco objetivos específicos.

O primeiro objetivo específico tratou da composição de um corpus público de redações

escritas na língua portuguesa. Atendendo esse objetivo, foi elaborado o corpus de pesquisa com 2.164

redações de diversas propostas temáticas (111), extraídas do portal UOL Educação. O corpus de

pesquisa foi convertido para um arquivo de dados estruturado e disponibilizado publicamente.

O segundo objetivo específico buscou criar um conjunto público de exemplos reais de

redações com fuga ao tema. Para atender esse objetivo, foi desenvolvido e executado um protocolo

de identificação de casos reais de fuga ao tema específico ao corpus de pesquisa, onde três revisores

foram envolvidos. Como resultado, obteve-se um conjunto de 13 exemplos reais de redações com

fuga ao tema, cujos títulos foram disponibilizados no Apêndice D desta dissertação.

O terceiro objetivo específico tratou de identificar na literatura as abordagens existentes para

a tarefa de detecção de fuga ao tema em redações. Esse objetivo foi atendido através de uma revisão

sistemática da literatura. Haja vista que as abordagens encontradas foram originalmente

desenvolvidas visando a língua inglesa, foram apresentadas propostas de adaptação à língua

portuguesa para viabilizar o estudo comparativo nessa língua, com isso atendendo ao objetivo

específico 4.

O quinto e último objetivo específico tratou de analisar o desempenho das abordagens

existentes na literatura para detecção de redações com fuga ao tema com as adaptações à língua

portuguesa propostas. Em atenção a esse objetivo, as abordagens existentes foram implementadas e

avaliadas em um estudo comparativo. A análise do desempenho das abordagens no corpus de pesquisa

se deu com base em exemplos artificiais e reais. No caso dos exemplos artificiais, essa análise

possibilitou a verificação da hipótese inicial, onde se confirmou a possibilidade de detectar redações

com fuga ao tema na língua portuguesa com acurácia equivalente ou superior à encontrada

previamente para a língua inglesa. No caso do experimento com exemplos reais, o resultado foi

inconclusivo quanto à hipótese de pesquisa, devido à limitação no número de exemplos do conjunto

desenvolvido.

91

A pergunta de pesquisa questionou se as abordagens existentes na literatura para detecção de

fuga ao tema em redações, originalmente desenvolvidas e aplicadas na língua inglesa, seriam viáveis

à língua portuguesa. Conforme demonstrado nos resultados, conseguiu-se detectar fuga ao tema em

redações escritas na língua portuguesa com acurácia superior à observada na literatura para a língua

inglesa.

6.1 CONTRIBUIÇÕES DA DISSERTAÇÃO

A principal contribuição desta pesquisa é o desenvolvimento de um estudo comparativo com

as abordagens existentes na literatura para detecção de fuga ao tema em redações. As adaptações à

língua portuguesa propostas para essas abordagens se mostraram válidas no estudo comparativo, onde

se obteve uma acurácia superior à encontrada na literatura para língua inglesa.

Outra contribuição relevante desta pesquisa foi realizada através da revisão do estado da arte,

onde foram identificadas e caracterizadas as abordagens existentes e os resultados até então obtidos

na tarefa de detecção de fuga ao tema. Ainda, foram apontadas lacunas e deficiências existentes na

área. A revisão sistemática da literatura foi apresentada em uma conferência científica brasileira e

publicada nos anais do evento:

PASSERO, G.; FERREIRA, R.; HAENDCHEN FILHO, A.; DAZZI, R. L. S. Off-Topic Essay

Detection: A Systematic Review. XXVIII Simpósio Brasileiro de Informática na Educação (SBIE

2017), Recife, 2017. Anais... 2017.

Durante o desenvolvimento desta pesquisa, foram realizados outros estudos relacionados aos

temas de avaliação automática de escrita e tecnologias educacionais. Os trabalhos publicados podem

ser consultados no Apêndice F.

Os resultados apresentados nesta dissertação sugerem a aplicação de mecanismos de detecção

automatizada de fuga ao tema em redações no contexto educacional brasileiro de modo a beneficiar

o estudante, quando visada a geração de feedback, e as instituições educacionais, quando visada a

automatização do processo de correção de redações.

92

6.2 LIMITAÇÕES

As abordagens avaliadas na tarefa de detecção de fuga ao tema em redações apresentaram taxa

de falsos positivos maior que 1%, o que também pôde ser observado nos experimentos originais para

a língua inglesa, e isso traz consequências para a aplicação dessas abordagens tanto em exames de

grande porte quanto em atividades avaliativas em sala de aula. Em um exame de grande porte, a

aplicação dessas abordagens poderia resultar em milhares de redações sendo incorretamente acusadas

de fraudulentas. Nesse cenário, ainda é indispensável a presença de um avaliador humano para

confirmar a classificação realizada pelo computador.

Considerando o contexto de geração de feedback em sala de aula, a classificação incorreta de

uma redação como caso de fuga ao tema pode gerar uma experiência frustrante para o aluno e

desestimular o uso da geração de feedback automática como recurso pedagógico. Desse modo, é

importante minimizar a taxa de falsos positivos em um sistema de detecção de fuga ao tema em

redações, especialmente quando o resultado da classificação é fornecido ao aluno como feedback sem

confirmação por um avaliador humano. Em ambos os casos, uma abordagem com taxa de falsos

positivos próxima de zero tem maior aceitação pela comunidade científica e sociedade.

6.3 TRABALHOS FUTUROS

Ao longo do desenvolvimento deste trabalho foram identificadas algumas possibilidades de

melhoria e de continuação a partir de futuras pesquisas, as quais incluem:

• O uso de conjuntos de exemplos reais de fuga ao tema representativos na avaliação de

abordagens para detecção de fuga ao tema em redações, a fim de se obter resultados de

desempenho fidedignos a um cenário real de aplicação.

• O tratamento da fuga ao tema em redações como um problema multiclasse, avaliando o

desempenho das abordagens propostas considerando os diversos tipos de fuga ao tema, como

os casos de: redações bem escritas, mas que não abordam o tema proposto (tratado nesta

pesquisa); redações compostas de cópias do texto motivador; redações que apenas tangenciam

o tema; redações que não respondem à questão proposta; redações que apresentam partes

deliberadamente desconectadas; redações incompreensíveis. É possível que o desempenho de

uma abordagem para tratar a fuga ao tema melhore com o uso de classificadores próprios para

cada um desses problemas.

93

• O tratamento da detecção de fuga parcial ao tema, visando atender os casos em que apenas

partes do texto (ex. frases ou parágrafos) não desenvolvem o tema proposto. As abordagens

levantadas na revisão do estado da arte, e avaliadas no estudo comparativo, podem ser

adaptadas e aplicadas nessa tarefa, possibilitando a geração de um feedback sobre a escrita

mais específico e útil.

• A otimização dos classificadores aplicados à detecção de fuga ao tema tendo em vista atingir

uma taxa de falsos positivos ideal (ex. a encontrada na avaliação humana).

• Analisar a escalabilidade das abordagens propostas para detecção de fuga ao tema em

redações tendo em vista exames de médio e grande porte.

94

REFERÊNCIAS

AGIRRE, E. et al. SemEval-2016 Task 1: Semantic Textual Similarity, Monolingual and Cross-

Lingual Evaluation. 10th International Workshop on Semantic Evaluation (SemEval-2016).

Proceedings... San Diego, California: Association for Computational Linguistics, 2016.

AMORIM, E. C. F.; VELOSO, A. A Multi-aspect Analysis of Automatic Essay Scoring for Brazilian

Portuguese. Student Research Workshop at the 15th Conference of the European Chapter of the

Association for Computational Linguistics. Proceedings... Valência, Espanha: Association for

Computational Linguistics, 2017.

ATTALI, Y. Construct Validity of e-rater® in Scoring TOEFL® Essays. Princeton, NJ: ETS.

2007.

BLEI, D. M. et al. Latent Dirichlet Allocation. Journal of Machine Learning Research, v. 3, p.

993–1022, 2003.

BRASIL. Redação no ENEM 2016: Cartilha do Participante. Disponível em: <

http://download.inep.gov.br/educacao_basica/enem/guia_participante/2016/manual_de_redacao_do

_enem_2016.pdf>. Acesso em: 26 dez. 2017a.

BRASIL. ENEM 2016: Resultado Individual. Disponível em:

<http://download.inep.gov.br/educacao_basica/enem/downloads/2016/apresentacao_final_resultado

s_2016.pdf>. Acesso em: 26 dez. 2017b.

CHEN, J.; ZHANG, M. Identifying Useful Features to Detect Off-Topic Essays in Automated

Scoring Without Using Topic-Specific Training Essays. Springer Proceedings in Mathematics and

Statistics, v. 140, n. August, p. 315–326, 2016.

DIKLI, S. An Overview of Automated Scoring of Essays. Journal Of Technology Learning And

Assessment, v. 5, n. 1, 2006.

FACELI, K. et al. Inteligência Artificial: Uma abordagem de aprendizado de máquina. Rio de

Janeiro: LTC, v. 2, p. 192, 2011.

FELLBAUM, C. WordNet: A Lexical Database for English. Cambridge, MA: MIT Press, 1998.

FIRTH, J. R. A synopsis of linguistic theory, 1930-1955. 1957.

G1. Corretores de redação do Enem avaliam em média 74 textos por dia. Disponível em:

<http://g1.globo.com/educacao/enem/2016/noticia/corretores-de-redacao-do-enem-avaliam-em-

media-74-redacoes-por-dia.ghtml>. Acesso em: 26 dez. 2017.

HARTMANN, N. S. Solo Queue at ASSIN : Combinando Abordagens Tradicionais e Emergentes.

PROPOR – International Conference on the Computational Processing of Portuguese. Proceedings...

2016.

HEARST, M. The debate on automated essay grading. Intelligent Systems and their Applications,

95

IEEE, v. 15, n. 5, p. 22–37, 2000.

HIGGINS, D.; BURSTEIN, J.; ATTALI, Y. Identifying off-topic student essays without topic-

specific training data. Natural Language Engineering, v. 12, n. 2, p. 145–159, 22 jun. 2006.

HIGGINS, D.; HEILMAN, M. Managing what we can measure: Quantifying the susceptibility of

automated scoring systems to gaming behavior. Educational Measurement: Issues and Practice,

v. 33, n. 3, p. 36–46, 2014.

JÚNIOR, C. R. C. A.; SPALENZA, M. A.; OLIVEIRA, E. DE. Proposta de um Sistema de Avaliação

Automática de Redações do ENEM Utilizando Técnicas de Aprendizagem de Máquina e

Processamento de Linguagem Natural. (Universidade do Vale do Itajaí, Ed.) VIII Computer on the

Beach, Florinaópolis, 2017. Anais... 2017.

JURAFSKY, D. S.; MARTIN, J. H. Speech and Language Processing: An Introduction to

Natural Language Processing, Computational Linguistics, and Speech Recognition. 2ed, p.

1024, 2008.

KARLGREN, J.; SAHLGREN, M. From Words to Understanding. In: Foundations of Real-World

Intelligence. Stanford, California: CSLI Publications, p. 294–311, 2001.

KLEBANOV, B. B.; FLOR, M.; GYAWALI, B. Topicality-Based Indices for Essay Scoring. 11th

Workshop on Innovative Use of NLP for Building Educational Applications. Proceedings… p. 63–

72, 2016.

LEVY, O.; GOLDBERG, Y. Neural Word Embedding as Implicit Matrix Factorization. Advances

in Neural Information Processing Systems (NIPS), p. 2177–2185, 2014.

LI, Y.; YAN, Y. An effective automated essay scoring system using support vector regression. 5th

International Conference on Intelligent Computation Technology and Automation, ICICTA 2012.

Proceedings… p. 65–68, 2012.

LIMA, Antonio. Redação Essencial para Concursos. Elsevier Brasil, 2011.

LIN, D. Automatic retrieval and clustering of similar words. 36th Annual Meeting of the Association

for Computational Linguistics and 17th International Conference on Computational Linguistics,

1998. Proceedings… p. 768–774, 1998.

LORENA, A. C.; CARVALHO, A. C. P. L. F. DE. Uma Introdução às Support Vector Machines.

Revista de Informática Teórica e Aplicada, v. 14, n. 2, p. 43–67, 2007.

LOUIS, A.; HIGGINS, D. Off-topic essay detection using short prompt texts. NAACL HLT 2010

Fifth Workshop on Innovative Use of NLP for Building Educational Applications, n. June, p.

92–95, 2010.

MARINO, E. R. Estudos de Português para o 2o Grau. 1. ed. São Paulo: 1980.

MATOSO, F. Com reajuste e novas medidas, MEC quer reduzir em 20% custo do Enem.

Disponível em: <http://g1.globo.com/educacao/enem/2015/noticia/2015/05/com-reajuste-e-novas-

medidas-mec-quer-reduzir-em-20-custo-do-enem.html>. Acesso em: 18 dez. 2017.

96

MIKOLOV, T. et al. Efficient Estimation of Word Representations in Vector Space. Arxiv, p. 1–12,

2013.

MITCHELL, T. M. Machine Learning. 1. ed. Nova Iorque, EUA. 1997.

MONTGOMERY, D. C.; PECK, E. A.; VINING, G. G. Introduction to linear regression analysis.

1ed. John Wiley & Sons, 2015.

NATIONAL CENTER FOR EDUCATION STATISTICS. The Nation’s Report Card: Writing

2011, 2012.

OLIVEIRA, H. G. et al. PAPEL: A dictionary-based lexical ontology for Portuguese. Lecture Notes

in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture

Notes in Bioinformatics), v. 5190 LNAI, p. 31–40, 2008.

OLIVEIRA, H. G. et al. As wordnets do português. Oslo Studies in Language, v. 7, n. 1, p. 397–

424, 2015.

PAGE, E. B. The use of the computer in analyzing student essays. International Review of

Education, v. 14, n. 2, p. 210–225, 1968.

PAIVA, V.; RADEMAKER, A.; MELO, G. OpenWordNet-PT: An Open Brazilian Wordnet for

Reasoning. COLING 2012: Demonstration Papers. Proceedings... Mumbai, India: The COLING

2012 Organizing Committee, 2012.

PASSERO, G. et al. Off-Topic Essay Detection: A Systematic Review. XXVIII Simpósio Brasileiro

de Informática na Educação (SBIE 2017), Recife, 2017. Anais... 2017.

PASSERO, G.; HAENDCHEN FILHO, A.; DAZZI, R. Avaliação do Uso de Métodos Baseados em

LSA e WordNet para Correção de Questões Discursivas. XXVII Simpósio Brasileiro de Informática

na Educação (SBIE 2016), Uberlândia, 2016. Anais... 2016.

PERSING, I.; NG, V. Modeling Prompt Adherence in Student Essays. 52nd Annual Meeting of the

Association for Computational Linguistics. Proceedings… n. June, p. 1534–1543, 2014.

REI, M.; CUMMINS, R. Sentence Similarity Measures for Fine-Grained Estimation of Topical

Relevance in Learner Essays. 11th Workshop on Innovative Use of NLP for Building Educational

Applications. Proceedings… p. 283–288, 2016.

ROCCO, M. T. F. Crise na linguagem: a redação no vestibular. Em Aberto, v. 2, n. 12, 2011.

RUDNER, L. M.; GARCIA, V.; WELCH, C. An evaluation of the IntelliMetric essay scoring system.

The Journal of Technology, Learning, and Assessment, v. 4, n. 4, p. 1–22, 2006.

SAHLGREN, M. An Introduction to Random Indexing. Methods and Applications of Semantic

Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering,

TKE 2005. Proceedings… p. 1–9, 2005.

SMOLA, A J.; SCHÖLKOPF, B. A tutorial on support vector regression. Statistics and Computing,

v. 14, p. 199–222, 2004.

97

SOKOLOVA, M.; LAPALME, G. A systematic analysis of performance measures for classification

tasks. Information Processing and Management, v. 45, n. 4, p. 427–437, 2009.

UOL EDUCAÇÃO. Banco de Redações: Como participar. Disponível em:

<https://educacao.uol.com.br/bancoderedacoes/como-participar.jhtm>. Acesso em: 26 dez. 2017.

VAL, M. DA G. C. Redação e Textualidade. 3. ed. São Paulo: Martins Fontes, 2009.

WILSON, J.; ANDRADA, G. N. Using Automated Feedback to Improve Writing Quality:

Opportunities and Challenges. In: Handbook of Research on Technology Tools for Real-World

Skill Development. Hershey: Information Science Reference, 2016. p. 678–703.

98

APÊNDICE A – PROTOCOLO DE REVISÃO SISTEMÁTICA DA

LITERATURA

Este documento apresenta o protocolo de revisão sistemática da literatura empregado com o

objetivo de levantar as abordagens existentes no estado da arte para detecção de fuga ao tema em

redações.

Perguntas de pesquisa

1. Quais técnicas e recursos têm sido utilizados nas abordagens existentes?

2. Em quais corpora as abordagens existentes foram testadas?

3. Quão precisas são as abordagens existentes?

Fontes de busca

• ACM Digital Library <https://dl.acm.org/>;

• IEEE Explore Digital Library <http://ieeexplore.ieee.org/>;

• Science Direct <http://www.sciencedirect.com/>;

• Scopus <https://www.scopus.com>;

• Anais do Simpósio Brasileiro de Informática na Educação <http://www.br-

ie.org/pub/index.php/sbie>;

• Revista Brasileira de Informática na Educação <http://www.br-ie.org/pub/index.php/rbie>.

Critérios de inclusão

1. Artigos publicados até 18/06/2017, sem limitação de data inicial;

2. Artigos em inglês ou português;

3. Termos de busca encontrados no título, resumo ou palavras-chaves36:

(("off-topic" OU "off topic" OU “prompt adherence”) E "essay")

OU

((“fuga ao tema” OU “adequação ao tema”) E (“redação” OU “redações)).

Critérios de exclusão

1. Artigos curtos (resumos expandidos);

2. Artigos que não discutem alguma abordagem para detecção de fuga ao tema em redações;

3. Artigos retratados pela editora.

36 Os termos de busca foram adaptados para o formato de cada base de busca sem alteração das palavras e do valor dos

operadores lógicos.

99

Seleção dos estudos

O título, palavras-chave, resumo, introdução e conclusão foram analisados, nesta sequência, para

verificar se o estudo possui relação direta com o tema e tem potencial para responder às perguntas de

pesquisa.

Extração de dados:

Dos trabalhos selecionados foram extraídos os dados relevantes às perguntas da pesquisa,

apresentados no quadro abaixo.

Dados Descrição Pergunta

Abordagem utilizada Caracterização e discriminação das técnicas aplicadas P1

Corpus de pesquisa Caracterização do corpus de pesquisa com o número de

redações absoluto e por proposta temática

P2

Resultados encontrados Índices de desempenho alcançados P3

Síntese e análise dos dados:

Para responder às perguntas da pesquisa os dados foram organizados e analisados da seguinte forma:

1. As técnicas e métricas de desempenho utilizadas nos trabalhos são apresentadas em uma

tabela comparativa [P1, P2];

2. Relação dos corpora de pesquisa encontrados com o número de redações absoluto e por

proposta temática [P3];

3. Tabela de apresentação dos índices de desempenho encontrados pelos autores [P1].

100

APÊNDICE B – ARTIGOS EXCLUÍDOS NA REVISÃO

SISTEMÁTICA DA LITERATURA

Os quadros abaixo apresentam os artigos excluídos na revisão sistemática da literatura,

exceto duplicados, agrupados pelo motivo da exclusão.

Relação de artigos excluídos na revisão sistemática da literatura por não pertinência ao escopo

da pesquisa

Autores Ano Título

Hoang, G.T.L.;

Kunnan, A.J. 2016

Automated Essay Evaluation for English Language Learners:A Case

Study of MY Access

Persing, I.; Ng, V. 2015 Modeling argument strength in student essays

Reagle, Joseph M. 2015 Conclusion: “Commenterrible”?

Street Jr.; Richard

L. 2013

How clinician–patient communication contributes to health

improvement: Modeling pathways from talk to outcome

- 2016 80th annual meeting of the Psychometric Society, 2015 (Conferência)

Relação de artigos excluídos na revisão sistemática da literatura devido a retração pela editora

Autores Ano Título

Li, Y.; Yan, Y. 2010 Automated Essay Scoring System for CET4

101

APÊNDICE C – ANÁLISE COMPARATIVA DO ESTADO DA ARTE

Este documento apresenta uma comparação dos trabalhos encontrados na revisão do estado da arte e esta pesquisa, resumindo os

quadros 6 e 8 apresentados no Capítulo 3 e o melhor resultado obtido nesta pesquisa, apresentado na Tabela 3 (Capítulo 5).

Corpus de pesquisa Resultado

Identificação Nº de

redações

Nº de

temas

Nº de

redações por

tema

Abordagem Desempenho Abrang.

Higgins, Burstein e Attali (2006) 8.000 36 ~225

Modelo A FP: 5.0% | FN: 30-38.0% TI e MF

Modelo B FP: 4.7% | FN: 16.8-28.2% TI e MF

Modelo CUT FP: 6.8% | FN: 22.9% TI

Louis e Higgins (2010) 2.450

?

7

3

350

? Melhor

FP: 1.47-9.02% | FN: 9.02-11.97% ?

Li e Yan (2012) 2.041 ? ? -

Persing e Ng (2014) 830 13 ~63 Proposta PE: .488 | EMA: .348 | EQM: .197 |

r: .360 ?

Chen e Zhang (2016) 57.176 4 776 – 48.488 Proposta Prec.: 100% | Recall: 2.2-18.1%

Valor-F: 4.4%-30.7% ?

Klebanov, Flor e Gyawali (2016) 82.500

12.100

76

8

~1085

~253 – 760 -

Rei e Cummins (2016) ?

?

60

13

?

? -

Este trabalho 2.164 111 19-20 Melhor

FP: 4,24% | FN: 2,24% |

Prec.: 95,84% | Recall: 97,76% |

Acurácia: 96,76%

TI

102

APÊNDICE D – REDAÇÕES IDENTIFICADAS COMO CASOS

REAIS DE FUGA AO TEMA

Este documento apresenta uma relação com as redações identificadas como casos reais de

fuga ao tema segundo o procedimento apresentado na Seção 4.1.

Tema

Títulos

10/2016 – Artes e educação física: opcionais ou obrigatórias?

Corpo em movimento

03/2016 – Carta-convite: discutir discriminação na escola

Viver e a arte de conviver

03/2015 – Água: aprenderemos com a atual crise hídrica?

Reeducação hídrica

09/2013 – Viagem sem volta a Marte: pioneirismo ou alucinação?

(Sem título 040)

08/2013 – Meia-entrada: Você é contra ou a favor? Por quê?

Existe racismo no Brasil

11/2012 – É certo ou errado leiloar a virgindade? Por quê?

Mulheres da caverna no século XXI

01/2012 – Como devem ser as relações entre as pessoas e seus animais de estimação?

Infância hoje, infância ontem

12/2011 – Por que causas o jovem tem se mobilizado atualmente no Brasil?

Redes sociais e tecnologia

04/2011 – O conflito entre gerações e a convivência social

Desastre no Japão

07/2010 – Por que o patriotismo brasileiro só se revela em época de Copa do Mundo?

A Busca da Felicidade

https://educacao.uol.com.br/bancoderedacoes/redacoes/corpo-em-movimento.htm

https://educacao.uol.com.br/bancoderedacoes/redacoes/viver-e-a-arte-de-conviver.htm

http://educacao.uol.com.br/bancoderedacoes/redacao/reeducacao-hidrica.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/sem-titulo-040.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/existe-racismo-no-brasil.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/mulheres-da-caverna-no-seculo-xxi.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/infancia-hoje-infancia-ontem.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/redes-sociais-e-tecnologia.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/desastre-no-japao.jhtm

http://educacao.uol.com.br/bancoderedacoes/redacao/ult4657u732.jhtm

103

09/2009 – Como você encara os cursos a distância e as universidades virtuais?

A problemática educacional

06/2009 – Combate ao fumo: autoritarismo ou dever do governo?

A fumaça que leva à morte

05/2009 – Amor com grande diferença de idade: será que isso funciona?

IDADE DOS BOTICÁRIOS




104

APÊNDICE E – COMPARAÇÃO DOS RESULTADOS OBTIDOS NO EXPERIMENTO 2 COM

EXPERIMENTOS ANTERIORES

Este documento apresenta uma comparação dos resultados obtidos nesta pesquisa com os obtidos em estudos anteriores que também

trataram a tarefa de detecção de fuga ao tema com classificação binária.

Algoritmo Experimento 2 Experimento anterior

%

Acurácia

%

Precisão

%

Recall % FP % FN Ref. %

Acurácia

/ Valor-F

%

Precisão

%

Recall % FP % FN

HBA-A 90,31 88,79 92,26 11,65 7,74 Higgins,

Burstein e Attali

(2006)

78,50 - - 5,0 38,0

HBA-B 89,86 88,52 91,61 11,88 8,39 83,55 - - 4,7 28,2

HBA-C 83,06 89,66 74,74 8,62 25,26

85,15 6,8 22,9

Chen e Zhang

(2016) 4,4-28,6 100,0 2,2-18,1 - -

LH-D 82,62 89,01 74,45 9,20 25,55

Louis e Higgins

(2010)

91,05-

94,20 - -

2,53-

6,25

9,06-

11,65

LH-S 82,60 89,41 73,95 8,76 26,05 90,48-

94,45 - -

1,39-

7,03

9,76-

12,01

LH-A 81,13 87,78 73,32 10,07 27,68 90,85-

94,75 - -

1,47-

6,33

9,02-

11,97

LH-DA 81,62 87,93 73,30 10,07 27,70 91,24 - - 6,04 11,48

Melhor -

KFG-A 96,76 95,84 97,76 4,24 2,24

Melhor - Louis e

Higgins (2010) 94,75 - - 1,47 9,02

105

APÊNDICE F – PUBLICAÇÕES NAS ÁREAS DE AVALIAÇÃO

AUTOMÁTICA DE ESCRITA E TECNOLOGIAS

EDUCACIONAIS

Este documento apresenta alguns estudos que foram publicados durante o desenvolvimento

desta pesquisa e que estão relacionados aos temas de avaliação automática de escrita e tecnologias

educacionais.

PASSERO, G.; HAENDCHEN FILHO, A.; DAZZI, R. Avaliação do Uso de Métodos Baseados em

LSA e WordNet para Correção de Questões Discursivas. XXVII Simpósio Brasileiro de Informática

na Educação (SBIE 2016), Uberlândia, 2016. Anais... 2016.

NAU, J.; HAENDCHEN FILHO, A.; PASSERO, G. Uma Proposta de Revisor para Identificação de

Desvios de Linguagem em Textos Descritivos Formais. VIII Computer on the Beach, Florianópolis,

2017. Anais…, p. 582–584, 2017.

PASSERO, G.; DAZZI, R. L. S.; HAENDCHEN FILHO, A. Comparação de Técnicas de

Normalização Morfológica na Análise de Similaridade Textual. VIII Computer on the Beach 2017,

Florianópolis, 2017. Anais…, p. 599–601, 2017.

NAU, J.; HAENDCHEN FILHO, A.; PASSERO, G. Evaluating Semantic Analysis Methods for

Short Answer Grading Using Linear Regression. PEOPLE: International Journal of Social

Sciences, v. 3, n. 2, 2017.

NAU, J.; HAENDCHEN FILHO, A.; PASSERO, G.; CAVACO, V. Uma Ferramenta para Identificar

Desvios de Linguagem na Língua Portuguesa. 11th Brazilian Symposium in Information and Human

Language Technology, Uberlândia, 2017. Proceedings... 2017.

CAVALCANTI, A; FERREIRA, R; DIONÍSIO, M.; NETO, S.; PASSERO, G.; MIRANDA, P. Uma

Nova Abordagem para Detecção de Plágio em Ambientes Educacionais. XXVII Simpósio Brasileiro

de Informática na Educação (SBIE 2017), Recife, 2017. Anais... p. 1177-1186, 2017.

PASSERO, G.; ENGSTER, N. E. W.; DAZZI, R. L. S. Uma revisão sobre o uso das TICs na educação

da Geração Z. RENOTE, v. 14, n. 2, 2016.

detecÇÃo de fuga ao tema em redaÇÕes na lÍngua …siaibib01.univali.br/pdf/guilherme...

Documents