skip to main content

Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes

Freitas Junior, Waldyr Lourenço De

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades 2023-03-23

Acesso online. A biblioteca também possui exemplares impressos.

  • Título:
    Um comparativo quantitativo e qualitativo de algoritmos de coagrupamento baseados em fatoração de matrizes
  • Autor: Freitas Junior, Waldyr Lourenço De
  • Orientador: Peres, Sarajane Marques
  • Assuntos: Coagrupamento; Fatoração De Matrizes; Interpretação Humana; Co-Clustering; Human Interpretation; Matrix Factorization
  • Notas: Dissertação (Mestrado)
  • Descrição: Agrupamento é uma estratégia para análise de dados que objetiva encontrar grupos cujos dados são mais similares entre si, enquanto dados organizados em grupos distintos são mais dissimilares entre si. Coagrupamento é uma estratégia semelhante, contudo, aplicado simultaneamente sobre os dados e atributos de um conjunto de dados. Diferentes contextos usam coagrupamento, tais como análise de imagens, bioinformática e mineração de textos. Para este último, cujos dados sob análise dizem respeito a contextos caracterizados por subjetividade, a literatura apresenta alguns poucos estudos relacionados à interação humana para interpretação dos resultados. Dentre uma série de abordagens de coagrupamento, destaca-se a fatoração tripla de matrizes não negativas (NMTF). Estudos reconhecem a utilidade dessa abordagem por seu alto desempenho e facilidade em trabalhar com dados diádicos e dados com alta dimensionalidade. Corpus textuais, cuja representação seja baseada no modelo de espaço vetorial, podem produzir matrizes de dados com alta dimensionalidade e alta esparsidade. Essas características tornam tais problemas candidatos a serem tratados por meio da abordagem NMTF. A literatura apresenta diferentes algoritmos de coagrupamento baseados em fatoração de matrizes; tais estudos concentraram-se na avaliação da capacidade de agrupamento dos algoritmos, mas não trataram o aspecto da qualidade dos resultados segundo a ótica da interpretação humana. Assim, o objetivo principal deste trabalho foi explorar sistematicamente um conjunto de algoritmos de coagrupamento baseados em fatoração de matrizes, com atenção à interpretação humana dos resultados produzidos por eles. Este trabalho também explorou esses algoritmos em diferentes circunstâncias e revelou mais claramente suas vantagens e desvantagens. Os experimentos se basearam em conjuntos de dados sintéticos e do mundo real. Os conjuntos de dados sintéticos foram rotulados e contavam com diferentes estruturas de cogrupos; o objetivo foi explorar a capacidade que os algoritmos têm em agrupar dados e atributos. Um conjunto de dados do mundo real usado como referência para tarefas de análise automática de textos foi escolhido para uso nos experimentos com dados do mundo real. O conjunto consiste de um corpus público de notícias (com e sem caráter de hiperpartidarismo), extraídas de diferentes sites entre 2016 e 2018; o objetivo foi realizar uma análise detalhada da robustez dos algoritmos sob uma análise qualitativa de resultados, realizada sob uma ótica de interpretação humana. Para essa análise qualitativa, foram realizadas uma série de tarefas baseadas em questionários estruturados aplicados a alunos de graduação da Universidade de São Paulo. Os experimentos com dados sintéticos e do mundo real demostraram que algoritmos com restrições binárias apresentam desempenho melhor que os demais. Além disso, uma análise de palavras que melhor representam grupos de notícias evidenciou dificuldades dos algoritmos em definir claramente, no sentido semântico, tais grupos. O algoritmo proposto neste trabalho (WC-FNMTF) foi submetido a diferentes tarefas e apresentou bons resultados. A tarefa com humanos revelou superioridade do algoritmo NBVD, seguido do WC-FNMTF.
  • DOI: 10.11606/D.100.2023.tde-11052023-184459
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades
  • Data de criação/publicação: 2023-03-23
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.