skip to main content
Primo Search
Search in: Busca Geral

Caracterização autoral a partir de textos utilizando redes neurais artificiais

Dias, Rafael Felipe Sandroni

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades 2019-10-11

Acesso online. A biblioteca também possui exemplares impressos.

  • Título:
    Caracterização autoral a partir de textos utilizando redes neurais artificiais
  • Autor: Dias, Rafael Felipe Sandroni
  • Orientador: Paraboni, Ivandre
  • Assuntos: Caracterização Autoral; Redes Neurais Artificiais; Word Embeddings; Artificial Neural Networks; Author Profiling
  • Notas: Dissertação (Mestrado)
  • Descrição: A caracterização autoral (CA) é uma tarefa computacional de reconhecimento de características de autores de textos com base em seus padrões linguísticos. O uso de modelos computacionais de CA permite inferir características sociais a partir do texto, mesmo que os autores não escolham conscientemente colocar indicadores dessas características no texto. A tarefa de CA pode ser importante para diversas aplicações práticas, tais como análise forense e marketing. Abordagens tradicionais de CA muitas vezes utilizam conhecimento linguístico, que exige conhecimento prévio e demanda esforço manual para extração de características. Recentemente, o uso de redes neurais artificiais têm demonstrado resultado satisfatório em problemas de processamento de linguagem natural (PLN), entretanto, para caracterização autoral, apresenta um nível variado de sucesso. Este trabalho tem o objetivo de organizar, definir e explorar diversas tarefas de caracterização autoral a partir de córpus textuais, abrangendo três idiomas (i.e., português, inglês e espanhol) e quatro domínios textuais (i.e., redes sociais, questionários, SMS e blogs). Foram propostos seis modelos baseados em redes neurais e Word Embeddings, comparando-se com sistemas de baseline utilizando regressão logística e TF-IDF. Os resultados dos modelos de Long Short Term Memory (LSTM) with self-attention e Convolutional Neural Network (CNN) sugerem que tais técnicas apresentam desempenho superior ao baseline quando córpus grandes são utilizados. Os modelos de LSTM with self-attention baseados em representação de Word Embeddings e Char apresentam desempenho superior ao estado da arte da competição PAN-CLEF 2013
  • DOI: 10.11606/D.100.2020.tde-24012020-202805
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades
  • Data de criação/publicação: 2019-10-11
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.