skip to main content

Etiquetagem do português clássico baseada em Corpus

Alves, Carlos Daniel Chacur

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Matemática e Estatística 1999-07-29

Acesso online. A biblioteca também possui exemplares impressos.

  • Título:
    Etiquetagem do português clássico baseada em Corpus
  • Autor: Alves, Carlos Daniel Chacur
  • Orientador: Finger, Marcelo
  • Assuntos: Linguística Computacional
  • Notas: Dissertação (Mestrado)
  • Descrição: A construção do Corpus Tycho Brahe do português histórico motivou a criação de ferramentas automáticas para a etiquetagem morfo-sintática de palavras de um texto. Para esse fim, selecionamos o método de etiquetagem de Brill por ser um dos que apresenta os melhores resultados na anotação do inglês e por ser um método de aprendizagem automática que representa o conhecimento explicitamente, sob a forma de regras claras e, portanto, de fácil compreensão. No entanto, mostramos teórica e experimentalmente que tal método não é apropriado para línguas com a riqueza morfológica do português, que requerem um grande número de etiquetas para codificação de tais informações. Para aumentar a eficiência do aprendizado das regras, propomos uma extensão ao método de Brill que impõe uma estrutura ao conjunto de etiquetas utilizado e adiciona uma fase de refinamento ao método original. Este refinamento pode ser feita de forma eficiente por não utilizar aprendizado. Apresentamos medidas e resultados obtidos com a versão atual do Corpus Tycho Brahe e discutimos os diversos problemas encontrados no desenvolvimento de nossa abordagem. Além disso, mostramos, através de uma série de experimentos, como um etiquetador morfo-sintático pode ser uma importante ferramenta para o estudo de uma língua
  • DOI: 10.11606/D.45.1999.tde-20210729-023423
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Matemática e Estatística
  • Data de criação/publicação: 1999-07-29
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.