skip to main content

eDictor: da plataforma para a nuvem

Veronesi, Luiz Henrique Lima

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Faculdade de Filosofia, Letras e Ciências Humanas 2015-02-04

Acesso online. A biblioteca também possui exemplares impressos.

  • Título:
    eDictor: da plataforma para a nuvem
  • Autor: Veronesi, Luiz Henrique Lima
  • Orientador: Sousa, Maria Clara Paixao de
  • Assuntos: Edição Filológica Digital; Arquitetura Web; Corpus Anotado; Corpus Eletrônico; Linguística De Corpus; Linguística Computacional; Philological Digital Edition; Electronic Corpus; Annotated Corpus; Corpus Linguistics; Computational Linguistics; Web Architecture
  • Notas: Dissertação (Mestrado)
  • Descrição: Neste trabalho, apresentamos uma nova proposta para edição de textos que fazem parte de um corpus eletrônico. Partindo do histórico de desenvolvimento do corpus Tycho Brahe e da ferramenta eDictor, propõe-se a análise de todo o processo de trabalho de criação de um corpus para obter uma forma de organização da informação mais concisa e sem redundâncias, através do uso de um único repositório de informações contendo os dados textuais e morfossintáticos do texto. Esta forma foi atingida através da criação de uma estrutura de dados baseada em unidades mínimas chamadas tokens e blocos de unidades chamados chunks. A relação entre os tokens e os chunks, da forma como considerada neste trabalho, é capaz de guardar a informação de como o texto é estruturado em sua visualização (página, parágrafos, sentenças) e na sua estrutura sintática em árvores. A base de análise é composta por todos os arquivos pertencentes ao catálogo de textos do corpus Tycho Brahe. Através desta análise, foi possível chegar a elementos genéricos que se relacionam, desconstruindo o texto e criando uma relação de pontos de início e fim relativos às palavras (tokens) e não seguindo sua forma linear. A introdução do conceito de orientação a objetos possibilitou a criação de uma relação entre unidades ainda menores que o token, os split tokens que também são tokens, pois herdam as características do elemento mais significativo, o token. O intuito neste trabalho foi buscar uma forma com o menor número possível de atributos buscando diminuir a necessidade de se criar atributos específicos demais ou genéricos de menos. Na busca deste equilíbrio, foi verificada a necessidade de se criar um atributo específico para o chunk sintático, um atributo de nível que indica a distância de um nó da árvore para o nó raiz. Organizada a informação, o acesso a ela se torna mais simples e parte-se para definição da interface do usuário. A tecnologia web disponível permite que elementos sejam posicionados na tela reproduzindo a visualização que ocorre no livro e também permite que haja uma independência entre um e outro elemento. Esta independência é o que permite que a informação trafegue entre o computador do usuário e a central de processamento na nuvem sem que o usuário perceba. O processamento ocorre em background, utilizando tecnologias assíncronas. A semelhança entre as tecnologias html e xml introduziu uma necessidade de adaptação da informação para apresentação ao usuário. A solução apresentada neste trabalho é pensada de forma a atribuir aos tokens informações que indiquem que eles fazem parte de um chunk. Assim, não seriam as palavras que pertencem a uma sentença, mas cada palavra que possuiria um pedaço de informação que a faz pertencente à sentença. Esta forma de se pensar muda a maneira como a informação é exibida.
  • DOI: 10.11606/D.8.2015.tde-11062015-140246
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Faculdade de Filosofia, Letras e Ciências Humanas
  • Data de criação/publicação: 2015-02-04
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.