skip to main content

Summarizing multiple websites for automatic PT-BR wikipedia generation

André Seidel Oliveira Anna Helena Reali Costa

2023

Item não circula. Consulte sua biblioteca.(Acessar)

  • Título:
    Summarizing multiple websites for automatic PT-BR wikipedia generation
  • Autor: André Seidel Oliveira
  • Anna Helena Reali Costa
  • Assuntos: INTELIGÊNCIA ARTIFICIAL; PROCESSAMENTO DE LINGUAGEM NATURAL; REDES NEURAIS
  • Notas: Dissertação (Mestrado)
  • Notas Locais: Programa Engenharia Elétrica
  • Descrição: A Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.
  • Data de criação/publicação: 2023
  • Formato: 72 p.
  • Idioma: Inglês

Buscando em bases de dados remotas. Favor aguardar.