skip to main content

Word sets, keywords, and text contents: an investigation of text topic on the computer Iniciando a língüística do corpus do português: explorando um corpus para ensinar português como língua estrangeira

Antonio P. BERBER SARDINHA

Revista de documentação de estudos em lingüística teórica e aplicada, 1999-02, Vol.15 (1), p.00-00 [Periódico revisado por pares]

Pontifícia Universidade Católica de São Paulo

Texto completo disponível

Citações Citado por
  • Título:
    Word sets, keywords, and text contents: an investigation of text topic on the computer Iniciando a língüística do corpus do português: explorando um corpus para ensinar português como língua estrangeira
  • Autor: Antonio P. BERBER SARDINHA
  • Assuntos: Corpus Linguistics ; Corpus-based description of Portuguese ; Descrição do Português baseada no Corpus ; Ensino de Português como Língua Estrangeira ; Lingüística do Corpus ; Teaching Portuguese as Foreign Language
  • É parte de: Revista de documentação de estudos em lingüística teórica e aplicada, 1999-02, Vol.15 (1), p.00-00
  • Descrição: This study presents a methodology for the identification of coherent word sets. Eight sets were initially identified and further grouped into two main sets: a `company' set and a `non-company' set. These two sets shared very few collocates, and therefore they seemed to represent distinct topics. The positions of the words in the `company' and `non-company' sets across the text were computed. The results indicated that the `non-company' sets referred to `company' implicitly. Finally, the key words were compared to an automatic abridgment of the text which revealed that nearly all key words were present in the ahridgment. This was interpreted as suggesting that the key words may indeed represent the main contents of the text.Este estudo apresenta uma metodologia para a identificação de conjuntos de palavras coerentes. Oito conjuntos foram identificados inicialmente e posteriormente agrupados em dois conjuntos principais: um conjunto denominado `companhia' e outro denominado `não-companhia'. Estes dois conjuntos partilham alguns colocados, e portanto parecem representar tópicos distintos. A posição das palavras de ambos os conjuntos foi computada ao longo do texto analisado. Os resultados indicaram que os conjuntos `não-companhia' se referiam indiretamente à companhia. Por fim, as palavras-chave dos conjuntos foram comparadas a um resumo do texto automático gerado por computador o qual revelou que quase todas as palavras-chave estavam presentes no resumo. Este fato foi interpretado como indício de que as palavras-chave representam o conteúdo central do texto.
  • Editor: Pontifícia Universidade Católica de São Paulo
  • Idioma: Inglês

Buscando em bases de dados remotas. Favor aguardar.