Idioma:

Caracterização autoral a partir de textos utilizando redes neurais artificiais

Dias, Rafael Felipe Sandroni

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades 2019-10-11

Acesso online. A biblioteca também possui exemplares impressos.

Enviar para

Título:
Caracterização autoral a partir de textos utilizando redes neurais artificiais
Autor: Dias, Rafael Felipe Sandroni
Orientador: Paraboni, Ivandre
Assuntos: Caracterização Autoral; Redes Neurais Artificiais; Word Embeddings; Artificial Neural Networks; Author Profiling
Notas: Dissertação (Mestrado)
Descrição: A caracterização autoral (CA) é uma tarefa computacional de reconhecimento de características de autores de textos com base em seus padrões linguísticos. O uso de modelos computacionais de CA permite inferir características sociais a partir do texto, mesmo que os autores não escolham conscientemente colocar indicadores dessas características no texto. A tarefa de CA pode ser importante para diversas aplicações práticas, tais como análise forense e marketing. Abordagens tradicionais de CA muitas vezes utilizam conhecimento linguístico, que exige conhecimento prévio e demanda esforço manual para extração de características. Recentemente, o uso de redes neurais artificiais têm demonstrado resultado satisfatório em problemas de processamento de linguagem natural (PLN), entretanto, para caracterização autoral, apresenta um nível variado de sucesso. Este trabalho tem o objetivo de organizar, definir e explorar diversas tarefas de caracterização autoral a partir de córpus textuais, abrangendo três idiomas (i.e., português, inglês e espanhol) e quatro domínios textuais (i.e., redes sociais, questionários, SMS e blogs). Foram propostos seis modelos baseados em redes neurais e Word Embeddings, comparando-se com sistemas de baseline utilizando regressão logística e TF-IDF. Os resultados dos modelos de Long Short Term Memory (LSTM) with self-attention e Convolutional Neural Network (CNN) sugerem que tais técnicas apresentam desempenho superior ao baseline quando córpus grandes são utilizados. Os modelos de LSTM with self-attention baseados em representação de Word Embeddings e Char apresentam desempenho superior ao estado da arte da competição PAN-CLEF 2013
DOI: 10.11606/D.100.2020.tde-24012020-202805
Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades
Data de criação/publicação: 2019-10-11
Formato: Adobe PDF
Idioma: Português

Links

Voltar para lista de resultados

Realização: Logos de Redes Sociais:

Caracterização autoral a partir de textos utilizando redes neurais artificiais

Dias, Rafael Felipe Sandroni

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades 2019-10-11

Buscando em bases de dados remotas. Favor aguardar.