Análise de Classificadores para Avaliação automática em
Fóruns Educacionais
Máverick André D. Ferreira1, Débora da Conceição Araújo
2, Rafael Ferreira
1,
André do Nascimento1, Anderson Pinheiro Cavalcanti
1, Anderson Silva
1
1Departamento de Estatística e Informática - Universidade Federal Rural de
Pernambuco (UFRPE) – Recife – PE – Brazil
2Universidade de Pernambuco (UPE) – Garanhuns – PE - Brazil
{amaverick70, deeboraaraaujo, rafaelflmello, andrecamara, a.mateuslol}@gmail.com, [email protected]
Abstract. With the growth of distance learning (ODL), the online discussion
forums are presented as an important tool in the teaching-learning process.
However, when the discussion in the forums grow it becomes difficult for
teachers/tutors follow the discussions and consequently assessing the
contributions of students. Thus, this paper evaluates an automatic evaluation
model of posts in an educational forum conducted in Portuguese by 4
classifiers. The results demonstrate the good performance of the multilayer
perceptron (MLP) for the classification of posts and suggests the possibility of
the evaluated model be used for educational purposes.
Resumo. Com o crescimento da Educação a distância (EAD), os fóruns de
discussão online se apresentam como um importante instrumento no processo
de ensino-aprendizagem. No entanto, à medida que as discussões em fóruns
crescem torna-se difícil para professores/tutores acompanhar as discussões e
consequentemente avaliar as contribuições dos estudantes. Diante disso, este
artigo avalia um modelo de avaliação automática de postagens em um fórum
educacional conduzido em língua portuguesa por meio de 4 classificadores.
Os resultados obtidos demonstram o bom desempenho do multilayer
perceptron (MLP) para classificação das postagens e evidencia a
possibilidade do modelo avaliado ser utilizado para fins educacionais.
1. Introdução
Junto aos avanços tecnológicos, mudanças no âmbito educacional passam a se tornar
recorrentes, a exemplo, o crescimento contínuo da educação a distância (EAD). No
Brasil, segundo os sensos divulgados pela Associação Brasileira de Educação a
Distância [ABED 2014], ao somar as matrículas de cursos totalmente a distância às de
cursos semipresenciais é possível alcançar um total de 3.868.706 registros. Nesse
sentido, muitas são as ferramentas que visam promover a interação no cenário da EAD,
dentre as quais é possível destacar os fóruns de discussão que se apresentam como
espaços de debates e troca de conhecimentos entre estudantes localizados em lugares
geograficamente distintos.
Nesse contexto, o papel do professor nos fóruns está em incentivar a interação
entre os alunos, bem como promover o alinhamento das discussões no que se refere ao
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 649
tema proposto. Nesse aspecto, ao analisar o papel do professor no processo de ensino e
aprendizagem, especificamente em fóruns de discussão, os seguintes questionamentos
são relevantes: Como deverá ser o processo avaliativo? Deve ser uma avaliação
somativa, onde os alunos discutem no fórum e ao final o professor/mediador propõe
uma prova de caráter classificatório? Ou deve ser uma avaliação formativa onde todo o
processo de ensino e aprendizagem é levado em consideração, ou seja, todo o contexto
da discussão no fórum? Com base em Bloom e Madaus (1983) e Perrenoud (2003) o
processo avaliativo, de modo geral, deve ser formativo, tendo o professor a função de
informar ao estudante sobre seu desempenho ao longo do processo e, assim, possibilitar
ao aluno a melhoria de suas ações a fim de obter melhores resultados.
No entanto, a profundidade do debate e a quantidade de participantes em um
fórum podem dificultar o acompanhamento da discussão, por necessitar de demasiado
esforço por parte do professor, além de caracterizar uma atividade bastante demorada
[DRINGUS e ELLIS 2005]. Nesse sentido, como alternativa a dificuldade de se
promover avaliação formativa em fóruns educacionais à medida que as discussões
crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação
automática de postagens em fóruns, proposto em Wanas et al. (2008), sendo este
escolhido devido aos bons resultados relatados pelos autores supracitados a partir da
aplicação em fóruns genéricos e em língua inglesa.
O método em estudo foi aplicado em um fórum educacional referente à uma
disciplina de empreendedorismo com discussões realizadas em língua portuguesa. A fim
de avaliar o desempenho do método, as postagens do referido fórum foram classificadas
manualmente, pelo tutor da disciplina, segundo uma escala de 1 a 3 que representa o
nível de contribuição da postagem para a discussão corrente. Em seguida, um
experimento foi conduzido com os classificadores: support vector machine (SVM),
multilayer perceptron (MLP), naive bayes e árvore de decisão. Para, por fim, analisar o
desempenho obtido por cada classificador em relação à avaliação do tutor.
Além desta seção introdutória, o presente trabalho encontra-se organizado da
seguinte forma: a Seção 2 apresenta alguns trabalhos relacionados ao tema deste artigo,
a Seção 3 detalha os classificadores adotados no experimento, a Seção 4 apresenta a
estrutura do método proposto, a Seção 5 relata os resultados obtidos, a Seção 6
apresenta um exemplo de Sistema utilizando o modelo avaliado e, por fim, na Seção 7
são apresentadas as considerações finais e trabalhos futuros.
2. Trabalhos Relacionados
Na literatura é possível identificar trabalhos que evidenciam tanto o potencial dos fóruns
de discussão online quanto o potencial das técnicas de mineração de texto para extrair
informações destes, de modo a possibilitar aos interessados (professores/tutores)
identificar informações relevantes como, por exemplo, o sentimento dos usuários acerca
de determinados conteúdos, o gênero das postagens e o nível individual de contribuição
dos participantes para com o fórum.
Em Azevedo et al. (2011) é apresentado um modelo de avaliação qualitativa
para fóruns de discussões online. O modelo baseia-se em técnicas de mineração de texto
que permitem, por meio de grafos, analisar o nível de contribuição de cada estudante
com relação ao tema discutido no fórum. Os resultados da mineração indicam aos
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 650
professores quais alunos estão inserindo postagens condizentes com o propósito central
do fórum.
Lin et al. (2009) propõem um sistema de classificação de gêneros para postagens
que agrupa os posts como: anúncio, pergunta, interpretação, conflito, afirmação e outros.
Espera-se que a partir dos resultados o professor/tutor possa direcionar esforços ao
acompanhamento de estudantes com maior dificuldade no contexto da discussão.
No mesmo sentido, Rolim et al. (2014) apresentam uma proposta para
classificação de postagens que leva em consideração três grupos: dúvida, resposta e
neutra. Os autores defendem a importância desse tipo classificação como forma de
facilitar o acompanhamento de fóruns de discussões. Com o objetivo de avaliar a
proposta, conduziram um experimento com os seguintes classificadores: redes
bayesianas, árvore de decisão e um MLP.
Como diferencial este artigo descreve um experimento que objetiva analisar um
método de avaliação de postagens de fóruns online em um contexto específico, em um
fórum educacional reproduzido em língua portuguesa. E, como forma de verificar o
desempenho do método estudado, as postagens são classificadas manualmente por um
tutor de EAD para em seguida ser comparado ao resultado de 4 classificadores: SVM,
MLP, naive bayes e árvore de decisão.
3. Classificadores utilizados
Nesta seção são apresentados de forma sucinta os classificadores adotados para
realização dos experimentos.
3.1 Rede Neural
Rede neural é uma técnica de aprendizagem de máquina que simula o funcionamento de
um sistema nervoso. Para isso, conta com a presença de neurônios artificiais
interligados entre si por meio de sinapses (na computação pesos) como exemplifica a
Figura 1.
Figura 1. Rede Neural
Cada neurônio recebe entradas e, associados a estas, pesos que representam a
força do sinal sináptico. A partir das entradas e de seus respectivos pesos, um somatório
ponderado é realizado no núcleo do neurônio e com base em um limiar de ativação é
verificado se a entrada será ou não propagada para neurônios das camadas adjacentes a
camada atual. Nesta pesquisa foi utilizado um MLP que consiste em um modelo
clássico de rede neural [WANKHEDE 2014]. Neste estudo a distribuição das camadas
se deu da seguinte maneira: 6 neurônios na camada de entrada para receber as features
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 651
extraídas das postagens e 3 neurônios na camada de saída representando as classes
ruim, média e alta.
3.2 Árvore de Decisão
De acordo com Sharma et al. (2013) a árvore de decisão é amplamente utilizada em
aprendizagem de máquina pelos bons resultados obtidos com sua aplicação, além da
fácil compreensão do processo seguido até a classificação. Na árvore de decisão cada nó
interno representa um teste a ser realizado para uma das características passadas como
entrada. Nesse contexto, os nós filhos do nó atual são os possíveis resultados dos testes
a serem realizados e os nós folhas o resultado final. Existem diversos algoritmos
disponíveis para se trabalhar com árvores de decisão, tais como: J48, ID3, C 4.5 entre
outros. O algoritmo utilizado nesse estudo foi o CART [Hand et al. 2001].
3.3 Naive Bayes
O Naive Bayes é baseado no teorema de bayes e tem como principal característica a
análise dos atributos de uma classe de forma que um atributo ignora possíveis
influências/dependências sobre outro atributo no processo de inferência [Rish 2001].
Por isso, o Naive Bayes é conhecido como um classificador ingênuo, mas com vários
relatos na literatura sobre sua competitividade para com outros classificadores
considerados sofisticados. Diante disso, o Naive Bayes calcula a probabilidade de um
dado elemento (nesse caso postagens) pertencer a uma classe por meio da equação (1).
(1)
Vale ressaltar que é a probabilidade a posteriori de um elemento
pertencer a uma dada classe, P( ) é a probabilidade de cada atributo, sem levar em
consideração dependência, a probabilidade de um elemento pertencer a uma
dada classe e probabilidade original da classe.
3.4 Máquina de Vetor de Suporte (SVM)
A máquina de vetor de suporte (SVM) é um classificador baseado na teoria de
aprendizado estatístico de Vapnik (1995). Segundo Burgues (1998), para efetuar
classificações/reconhecimento de padrões o SVM constrói hiperplanos em um espaço
multidimensional objetivando separar casos de diferentes classes.
É importante mencionar que o hiperplano é considerado como separação ótima
se separa os vetores das classes sem erro e com distância máxima para com os vetores
mais próximos [Vapnik 1999], como mostra a Figura 2.
Figura 2. Exemplo de classificação utilizando um SVM
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 652
No entanto, alguns problemas podem não ser separáveis linearmente, nesses
casos o SVM utiliza funções kernels que, por sua vez, possibilitam o mapeamento dos
dados para um espaço dimensional maior, para com isso viabilizar a separação linear.
Neste estudo foi utilizada a função kernel rbf.
4. Estrutura da proposta
Esta seção descreve os procedimentos utilizados para realização dos experimentos
conforme exibido na Figura 3.
Figura 3. Estrutura do Experimento
Na etapa de Coleta de Dados foram extraídas 96 postagens em português de um
fórum de discussão educacional online, promovido durante uma disciplina de
empreendedorismo em um curso de Licenciatura em Computação, com a participação
de 22 estudantes. Estas foram avaliadas pelo tutor do respectivo fórum seguindo a
escala de pontuação de: 1 - contribuição ruim, ou seja, não corresponde ao que foi
proposto no fórum; 2 - contribuição média, postagens ligadas à proposta do fórum, mas
com algumas incoerências; e 3 - contribuição alta, postagens bem alinhadas ao tema
proposto. A Figura 4 exibe a distribuição das postagens após a classificação do tutor.
Figura 4. Distribuição das amostras
Em seguida iniciou-se a Preparação dos dados, esta etapa foi subdividida em
duas fases: (1) na primeira foram retirados os stopwords, ou seja, palavras que devem
ser removidas durante a indexação, pois não agregam para o contexto dos documentos
[Lo, He e Ounis 2005]; (2) nesta fase as palavras contidas nas postagens foram
reduzidas ao radical, tal técnica em mineração de texto é conhecida como lemmatization
[Plisson et al. 2004].
Na etapa de Seleção de palavras-chave o objetivo foi identificar palavras com
maior representatividade sobre os assuntos discutidos no fórum. Para isso, fez-se uso do
esquema TF-IDF que, de acordo com Salton e Yang (1973), combina a frequência dos
termos (TF1) e a relevância do termo para uma coleção (IDF
2). Nesse sentido, calcula-se
1 TF: consiste na suposição de que o peso de um termo ki em um documento dj é proporcional a
frequência do termo fij.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 653
o esquema TF-IDF a partir da multiplicação entre TF e IDF, como mostra as equações
(2), (3) e (4).
TF = (
) (2)
IDF = 1+loge (
) (3)
TF-IDF = TF * IDF (4)
Após esse processo, as palavras foram ranqueadas com base no resultado obtido
para o TF-IDF, sendo consideradas 10% das palavras com melhor colocação no ranking
(Fn).
Para Análise das postagens foram consideradas 3 das 5 categorias propostas em
Wanas et al. (2008), são elas: características relevantes, características originais e
características específicas do fórum. A categoria “características relevantes” avalia a
relevância de uma dada postagem (Pj) para com a discussão corrente no tópico por meio
das equações (5), (6) e (7).
OnSubForumTopic (Pj) =
n (5)
OnThreadTopic (Pj) =
(6)
OnThreadTopic (P1) =
(7)
A equação (5) calcula a relevância de uma postagem em relação ao fórum em
questão, sendo a quantidade de palavras da postagem (Pj) pertencentes
aos 10% de palavras melhores ranqueadas em relação a toda a discussão (Fn) e |Pj|
quantidade de palavras da postagem atual. A equação (6) calcula a relevância de uma
dada postagem para com a primeira postagem da discussão a qual se encontra inserida.
Para tanto consiste da quantidade de palavras da postagem atual que
pertencem aos 10% de palavras melhores colocadas da primeira postagem (F1). Tendo
em vista que a primeira postagem deverá estimular o início da discussão, a equação (7)
verifica a ligação entre conteúdo da postagem inicial e o título proposto. Nesse sentido,
é a quantidade de palavras da postagem que coincidem com
as palavras contidas no título e |P1| a quantidade de palavras da postagem em questão.
A categoria “características originais” verifica a originalidade da (Pj) em relação
a outras postagens do fórum, por meio da medida OverLapPrevious que identifica o
post com maior sobreposição em termos de palavras com (Pj). A OverlapDistance é
responsável por verificar a distância entre o post com maior sobreposição segundo a
medida OverLapPrevious e o post atual (P1).
A categoria “características específicas” analisa as características específicas do
fórum, são elas: pontuação, símbolos e letras maiúsculas, por meio das equações (8), (9)
e (10).
2 IDF: atribui pesos a um termo de acordo com a sua frequência em uma coleção de postagens.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 654
FormatPunctuation (Pj) =
(8)
FormatEmoticons (Pj) =
(9)
FormatCapitals (Pj) =
(10)
É importante ressaltar que as etapas de Seleção de palavras-chave e Análise
das postagens foram executadas para as 96 postagens. O treinamento e a validação dos
classificadores durante o Experimento se deu pelo método cross-validation com fold
igual a 5. E, por fim, a avaliação dos resultados por meio das métricas precision e f-
measure.
5. Experimento
Esta seção apresenta os resultados obtidos com o experimento que consistiu em
classificar postagens extraídas de um fórum educacional (base de dados), para as classes
1 (contribuição ruim), 2 (contribuição média) e 3 (contribuição alta), utilizando os
algoritmos: SVM, MLP, naives bayes e árvore de decisão. Visando facilitar a leitura dos
resultados, para cada classificador são dispostas duas tabelas, a saber: a primeira exibe
uma matriz de confusão contendo as classificações corretas nas células de cor cinza
(diagonal) e as erradas distribuídas nas demais células e; na segunda os resultados para
as métricas precision3, recall
4 e f-measure
5.
A partir da Tabela 1 é possível observar a quantidade de acertos/erros em termos
de classificações obtidos com a aplicação do SVM. Ao analisar as células de cor cinza
(classificações corretas), é possível perceber que as postagens ditas com contribuição
Baixa foram classificadas em sua maioria corretamente. O mesmo acontece para a
classe Alta, tendo 20 postagens, de um total de 24, distribuídas de maneira correta. Em
contrapartida, a classe Média foi a que obteve o maior número de erros levando em
consideração o universo de postagens médias.
Tabela 1. Matriz de confusão da classificação do SVM
Baixa Média Alta Classificada como
39 7 - Baixa
5 13 8 Média
- 4 20 Alta
A Tabela 2 mostra que o SVM obteve uma precision 89% e f-measure 87% na
classificação das postagens para a classe Baixa. E, para as classes Média e Alta
respectivamente, precision 54%, f-measure 52%, precision 71% e f-measure 77%. Esses
3 Precision: uma pontuação perfeita de precisão, representada por 1.0, significa que cada resultado obtido
por uma pesquisa foi relevante, mas não diz nada acerca da relevância de todos os outros elementos
recuperados [MATOS et al., 2009]. 4 Recall: a pontuação perfeita (1.0) da Recall demonstra que todos os elementos relevantes foram
recuperados pela pesquisa, mas não diz nada sobre os elementos irrelevantes que também foram
recuperados [MATOS et al., 2009]. 5 F-measure: A medida de desempenho f-measure pondera as características tanto da Precision quanto da
Recall [MATOS et al., 2009].
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 655
resultados mostram que o SVM conseguiu atribuir a maioria das postagens às classes
corretas.
Tabela 2. Resultado da classificação do SVM
Baixa Média Alta
Precision 89% 54% 71% Recall 85% 50% 83%
F-Measure 87% 52% 77%
Ao observar a matriz de confusão sintetizada na Tabela 3, é possível identificar a
partir da classificação das classes Baixa, Média e Alta, com 45, 18 e 16 acertos
respectivamente, que o MLP obteve no geral um melhor resultado em comparação ao
SVM.
Tabela 3. Matriz de confusão da classificação do MLP
Baixa Média Alta Classificada como
45 - 1 Baixa
8 18 - Média
- 8 16 Alta
Corraborando com os dados da Tabela 3, a Tabela 4 exibe a avaliação do MLP
sob o olhar das métricas consideradas neste estudo. Com isso, nota-se que o MLP
atingiu melhores resultados nas classes Baixa com precision 85% e f-measure 91% e
Alta com precision 94% e f-measure 78%.
Tabela 4. Resultado da classificação do MLP
Baixa Média Alta
Precision 85% 69% 94% Recall 98% 69% 67%
F-Measure 91% 69% 78%
Mostrando-se bastante competitiva em relação ao MLP e ao SVM, a árvore de
decisão obteve bons números em termos de classificação, sendo atribuída a categoria
Baixa 40 acertos, Média 20 acertos e Alta 17 acertos, como mostra a Tabela 5.
Tabela 5. Matriz de confusão da classificação da Árvore de decisão
Baixa Média Alta Classificada como
40 6 - Baixa
3 20 3 Média
- 7 17 Alta
Nesse aspecto, a árvore de decisão teve precision 93% e f-measure 90% para a
classe Baixa, precision 61% e f-measure 68% para a classe Média e precision 85% e f-
measure 77% para a classe Alta, obtendo com isso um desempenho superior ao SVM e
levemente inferior ao MLP.
Tabela 6. Resultado da classificação da Árvore de decisão
Baixa Média Alta
Precision 93% 61% 85% Recall 87% 77% 71%
F-Measure 90% 68% 77%
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 656
Na Tabela 7 pode ser visualizada a classificação das postagens efetuadas pelo
classificador naive bayes. Logo, ao analisar a distribuição é possível perceber que o
naive bayes teve maior número de erros de classificação em comparação aos demais
classificadores adotados. Por exemplo, na classe Alta de 24 postagens apenas 5 foram
classificadas corretamente.
Tabela 7. Matriz de confusão da classificação do Naive Bayes
Baixa Média Alta Classificada como
25 7 14 Baixa
10 10 6 Média
3 16 5 Alta
Desse modo, a Tabela 8 exibe o resultado das métricas precision, recall, e f-
measure obtido pelo naive bayes. E, com isso, visualiza-se o desempenho inferior do
referido classificador quando comparado aos demais utilizados.
Tabela 8. Resultado da classificação do Naives Bayes
Baixa Média Alta
Precision 66% 30% 20%
Recall 54% 38% 21%
F-Measure 60% 34% 20%
Por fim, na Tabela 9 é exibido o resultado geral dos classificadores para as
métricas adotadas.
Tabela 9. Resultado geral dos classificadores para as métricas adotadas
SVM MLP naive bayes árvore de decisão
Precision 75% 83% 45% 82%
Recall 75% 82% 42% 80%
F-Measure 75% 82% 43% 81%
Os resultados da Tabela 9 confirmam que o MLP, com precision 83% e f-
measure 82%, em conjunto com a árvore de decisão, precision 82% e f-measure 81%,
obtiveram, no geral, melhores resultados na tarefa de classificar as postagens. Em
terceiro lugar aparece o SVM com precision 75% e f-measure 75% e por último o naive
bayes com precision 45% e f-measure 43%.
Como resultado do experimento identificou-se que o modelo de
avaliação/pontuação de postagens, proposto por Wanas et al. (2008), pode ser também
aplicado em fóruns educacionais conduzidos em língua portuguesa. E, nesse contexto, o
MLP seguido pela árvore de decisão apresentaram os melhores desempenhos na tarefa
de classificar as postagens para as classes 1 (contribuição ruim), 2 (contribuição média)
e 3 (contribuição alta). No entanto, vale ressaltar que todos os classificadores tiverem
maior dificuldade em classificar postagens com contribuição Média.
Atribui-se os erros de classificação da classe Média ao fato das técnicas
utilizadas não possibilitarem a identificação de incoerências no texto. Por exemplo, ao
identificar que uma postagem possui um grande número palavras ligadas aos 10% de
palavras representativas da discussão não garante que a postagem tem contribuição alta,
pois as ideias dispostas podem se apresentarem desorganizadas.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 657
6. Exemplo de Sistema utilizando o modelo avaliado
Diante do potencial dos fóruns de discussão online para o processo de ensino e
aprendizagem à distância se faz importante destacar o papel do professor/tutor durante a
mediação das discussões entre estudante-estudante, de modo a evitar o desvio do
objetivo da discussão e principalmente obter subsídios que o possibilitem avaliar os
estudantes numa perspectiva formativa.
A partir dos resultados obtidos com o experimento, duas perguntas se
apresentam como relevantes: como esse modelo avaliado pode ser utilizado por
professores/tutores? e; Quais os benefícios para os professores/tutores em utilizá-lo
durante a mediação de fóruns educacionais?. Para responder a estas perguntas é dado, a
seguir, um exemplo de sistema que pode utilizar o modelo adotado para facilitar a
mediação por parte do professor/tutor:
Um sistema que contenha 4 módulos: fórum de discussão – módulo que
possibilita ao estudante inserir suas postagens; avaliador – módulo com o modelo
proposto por Wanas et al. (2008) implementado e com, por exemplo, um MPL treinado
para classificar as postagens como 1 (contribuição ruim), 2 (contribuição média) e 3
(contribuição alta); feedback - módulo responsável por exibir para o estudante a
avaliação dada pelo módulo avaliador para sua postagem e; ranking – módulo
responsável por disponibilizar um relatório visível, tanto para estudantes quanto para
professores/tutores, a lista de estudantes participantes do fórum, sendo esta, ordenada de
acordo com a contribuição de cada estudante para a discussão do fórum. A Figura 5
exemplifica o exemplo de sistema descrito.
Figura 5. Exemplo de sistema
Diante dos resultados obtidos, acredita-se que um sistema desse tipo pode
facilitar a prática docente em EAD no que se refere ao acompanhamento de discussões
extensas, pois ao avaliar a postagem do estudante automaticamente, fornecer feedback
automático e disponibilizar um ranking com informações sobre o desempenho dos
estudantes na discussão, o sistema permite que o professor/tutor possa deter esforços em
estudantes com baixo rendimento nas discussões (com base no ranking). Além disso, os
feedbacks podem contribuir para manter o alinhamento das discussões para com a
proposta inicial do fórum.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 658
7. Considerações Finais
Este trabalho avaliou o modelo de avaliação automática de postagens de fóruns online,
apresentado em Wanas et al. (2008), em um cenário educacional e em língua
portuguesa, tendo em vista que este é um dos recursos mais utilizados na educação a
distância no Brasil.
Para avaliar o modelo, o mesmo foi aplicado em 96 postagens extraídas de um
fórum educacional voltado ao ensino-aprendizagem de conteúdos relacionados à
disciplina de empreendedorismo de um curso de Licenciatura em Computação. Para tal,
as postagens foram avaliadas por um tutor de EAD, para em seguida ser conduzido um
experimento utilizando 4 classificadores, sendo eles: SVM, MLP, naive bayes e árvore
de decisão. Ao final do experimento as avaliações foram comparadas às realizadas pelo
tutor.
Mesmo com alguns fatores limitantes, como uma pequena base de dados, os
resultados da pesquisa apontam que o modelo apresentado tem potencial para ser
utilizado com fins educacionais. Nesse sentido, vale destacar o desempenho do MLP
que apresentou os melhores resultados para classificação das postagens.
Para seguimento do projeto, pretende-se ampliar a capacidade de mineração de
texto de modo a fornecer feedbacks coerentes em relação às contribuições dos
estudantes e a implementação dos demais métodos propostos por Wanas et al. (2008).
Projeta-se, ainda, a validação do experimento contando com outras bases de dados, além
de estudar outros modelos, para em seguida propor uma aplicação inteligente para
avaliação de postagens de fóruns educacionais online.
Referências
ABED. (2014) Relatório analítico da aprendizagem a distância no Brasil. Disponível
em: <http://www.abed.org.br/censoead2014/CensoEAD2014_portugues.pdf>.
Acesso em: Junho de 2016.
Azevedo, B. F. T. et al. (2011) Qualitative Analysis of Discussion Forums. In:
International Journal of Computer Information Systems and Industrial Management
Applications. v. 3, pág. 671-678.
Baeza- Yates, R.; Ribeiro-Neto, B. (2011) Modern Information Retrieval: The Concepts
and Technology Behind Search. 2nd Edition. Pearson Education.
Bloom, B. S.; Hastings, J. T.; Madaus, G. F. (1983) Manual de Avaliação Formativa e
Somativa do Aprendizado Escolar. S. Paulo: Livraria Pioneira Editora.
Burges, C. J. C. (1998) A tutorial on support vector machines for pattern recognition.
Knowledge Discovery and Data Mining, v. (2), n.2. pág. 1-43.
Dringus, L. P.; Ellis, T. (2005) Using data mining as a strategy for assessing
asynchronous discussion forums. In: Computers & Education, v.45, n.1, pág. 141 –
160.
Hand, D.; Mannila, H.; Smyth, P. (2001) Principles of Data Mining. The MIT Press,
Massachusetts.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 659
Lo, T. R.; He, B.; Ounis, I. (2005) Automatically Building a Stopword List for an
Information Retrieval System. In: Proceedings of the Fifth Dutch-Belgian Workshop
on Information Retrieval, pág. 17-24.
Matos, P. F.; Lombardi, L. O.; Ciferri, R. R.; Pardo, T. A. S. Ciferri, C. D. A.; Vieira,
M. T. P. Relatório Técnico “Métricas de Avaliação. Disponível em:
<http://www.icmc.usp.br/~taspardo/TechReportUFSCar2009a-MatosEtAl.pdf>
Acesso em jun., 2016.
Perrenoud, P. (2003) Os Ciclos de Aprendizagem: Um Caminho para Combater o
Fracasso Escolar. Porto Alegre: Artmed.
Plisson, J.; Lavrac, N.; Mladenic, D. (2004) A Rule based Approach to Word
Lemmatization. In: Conference on Data Mining and Warehouses.
Rish, I. (2001) An empirical study of the naive bayes classifier. In: Workshop on
empirical methods in artificial intelligence.
Rolim, V. B.; Cordeiro, F. R.; Ferreira, R. (2014) Reconhecimento de Padrões
Aplicados a Comentários de Fóruns Educacionais. In: Anais do XI Encontro
Nacional de Inteligência Artificial e Computacional.
Salton, G.; Yang, C. S. (1973) On the specification of term values in automatic
indexing. In: Journal of Documentation, v.29, n.4, pág. 351-372.
Sharma, G. N. B.; Bhargava, R.; Mathuria, M. (2013) Decision Tree Analysis on J48
Algorithm for Data Mining. In: Internacional Journal of Advanced Research in
Computer Science and Software Engineering. v.3, n.6. pág. 1114-1119.
Vapnik, V. N. (1995) The nature of Statistical learning theory. Springer-verlag, New
York.
Vapnik, V. N. (1999) The nature of Statistical learning theory. Springer-verlag, New
York, 2nd edition.
Wanas, N.; El-Saban, M.; Ashour, H.; Ammar, W. (2008) Automatic Scoring Of Online
Discussion Posts. In: 2nd ACM Workshop on Information credibility on the web,
pág. 19-26.
Wankhede, S. B. (2014) Analytical study of neural network techniques: SOM, MLP and
Classifier-A survey. In: Journal of Computer Engineering. v. 16, n.3. pág. 86-92.
Lin, F.; Hsieh, L.; Chuang, F. (2009) Discovering genres of online discussion threads
via text mining. In: Computers & Education, v.52, n.2, pág. 481–4959.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 660