skip to main content

Classificação automática de questões baseada em competências: ENEM - Estudo de caso

Silva, Valtemir De Alencar E

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação 2020-03-20

Acesso online

  • Título:
    Classificação automática de questões baseada em competências: ENEM - Estudo de caso
  • Autor: Silva, Valtemir De Alencar E
  • Orientador: Maldonado, José Carlos; Pinto, Ig Ibert Bittencourt Santana
  • Assuntos: Aprendizado De Máquina; Representação De Textos Em Rede; Modelo Espaço-Vetorial; Enem; Classificação De Questões; Machine Learning; Network Text Representation; Question Classification; Vector Space Model
  • Notas: Tese (Doutorado)
  • Descrição: Introdução: A grande quantidade de informação digital em formato textual existente na internet transforma em atividades essenciais a organização, análise e extração de conhecimento, tanto no universo acadêmico quanto no mercado de trabalho e, com isso, a classificação automática de textos vêm ganhando cada vez mais destaque. A classificação de questões é um subgrupo da classificação de textos e consiste, basicamente, da associação de um ou mais rótulos a cada questão, de acordo com um critério pré-determinado, mas com menos texto disponível que os documentos em geral. As principais aplicações dos sistemas de classificação automática de questões são: QA (Question/Answering), IR (Information Retrieval), Ambiente educacional e tratamento de linguagens específicas. Os sistemas de QA e RI têm como ponto de partida uma pergunta escrita em linguagem natural e, a partir daí, buscam uma coleção de documentos na Web que sejam compatíveis com o assunto descrito. Considerando especificamente o ambiente educacional, a geração automática de testes de avaliação tem aplicação prática imediata nos sistemas de e-learning por viabilizar a personalização do ensino através da busca de questões adequadas a um determinado perfil de aprendizado, os chamados sistemas de ensino adaptativo. Para viabilizar a personalização, é essencial classificar as questões dentro de uma variedade representativa de competências e habilidades. As avaliações em larga escala (ENEM, SAEB, Prova Brasil) podem ser uma fonte de informação para essa geração, pois utilizam Matrizes de Referência de Avaliação (MRA) para classificar as questões de acordo com as áreas do conhecimento, disciplinas, competências e habilidades esperadas dos estudantes. Uma forma de realizar esta classificação é através de algoritmos de Aprendizado de Máquina, capazes de extrair padrões ou generalizar classes através de geração de modelos matemáticos a partir dos dados disponíveis. São exemplos de algoritmos de Aprendizado de Máquina: redes neurais, árvores de decisão, máquinas de vetor de suporte SVM, naive bayes, KNN, entre outros. As diferentes formas de representação de texto para algoritmos de Aprendizado de Máquina possuem vasta pesquisa realizada quando se trata da classificação de documentos com grandes quantidades de texto; quando se trata de pequenos trechos (caso das questões), essa tarefa se torna mais complexa pois a quantidade de texto disponível para análise é reduzida em comparação aos outros tipos de documentos textuais. Além disso, a imensa maioria das pesquisas atuais se voltam para o problema de QA ou IR e há pouca pesquisa disponível considerando o ambiente educacional. Objetivos: (i) Identificar a arquitetura de um classificador ou conjunto de classificadores de forma a maximizar o desempenho do processo de classificação de questões no contexto educacional; (ii) realizar uma avaliação empírica para comparar o desempenho das diferentes combinações utilizadas; (iii) disponibilizar as representações, algoritmos, códigos-fonte e ferramentas desenvolvidos para a comunidade científica avaliar e replicar resultados e (iv) disponibilizar ferramentas de integração e aplicação dos conteúdos desenvolvidos para utilização por outras plataformas e instituições (escolas, empresas) interessadas em utilizar as competências do ENEM para realizar diagnósticos e acompanhamento de aprendizagem. Método: Estudo de caso com base em cerca de 25 mil questões pré-processadas retiradas de avaliações do ENEM até 2017 e classificadas por especialistas em educação dentro das disciplinas, competências e habilidades contidas na matriz de avaliação. A partir disso, foram realizados experimentos com classificadores gerados pelas diferentes combinações de representações de texto, cálculos de peso dos termos e algoritmos de Aprendizado de Máquina supervisionados produzindo, ao final, um comparativo com os indicadores de desempenho. Resultados: (i) modelo geral para construção de classificadores automáticos de questões voltadas a avaliações em larga escala; (ii) identificação do estado da arte na classificação de questões para contexto educacional e avaliações em larga escala; (iii) estado da arte nos resultados de classificação de questões em redes no contexto educacional; (iv) efetividade do método IQF *QF * ICF para o cálculo de pesos/frequências na classificação de questões; (v) banco de dados constantemente atualizável composto de questões classificadas e representativas do ENEM e suas competências; (vi) API para integração com outras plataformas das funcionalidades e (vii) análise de desempenho com comparativo dos indicadores gerados pelos classificadores de questões. Conclusões: Com base nos resultados obtidos, a combinação da representação de textos no modelo espaço-vetorial, técnica IQF * QF * ICF e o algoritmo KNN, se mostrou a melhor arquitetura para o classificador de questões do ENEM com desempenho geral médio em torno de 80% de acurácia. Destacam-se como principais contribuições: i) apoio às plataformas de ensino adaptativo; ii) ferramentas de classificação para as editoras de material didático; iii) apoio a professores e equipes pedagógicas na elaboração de avaliações diagnósticas contínuas sobre as facilidades e dificuldades de seus alunos. Relativamente aos trabalhos futuros, pretende-se gerar classificadores específicos para os exames Prova Brasil e SAEB, integrar a solução com um LMS de código aberto (Moodle, por exemplo) e desenvolver um algoritmo para conversão das questões do ENEM em imagens para classificação via rede neural convolucional.
  • DOI: 10.11606/T.55.2020.tde-18082020-163540
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação
  • Data de criação/publicação: 2020-03-20
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.