skip to main content
Resource type Show Results with: Show Results with: Index

Um estudo comparativo de métodos de segmentação de documentos antigos

Yanque, Nury Yuleny Arosquipa

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Matemática e Estatística 2018-11-29

Online access. The library also has physical copies.

  • Title:
    Um estudo comparativo de métodos de segmentação de documentos antigos
  • Author: Yanque, Nury Yuleny Arosquipa
  • Supervisor: Hirata Junior, Roberto
  • Subjects: Binarização De Imagens; Segmentação De Documentos; Ocr; Limiarização; Documentos Históricos; Image Binarization; Historical Documents; Documents Segmentation; Thresholding
  • Notes: Dissertação (Mestrado)
  • Description: Há uma vasta quantidade de informação nos textos antigos manuscritos e tipografados, e grandes esforços para a digitalização e disponibilização desses documentos têm sido feitos nos últimos anos. No entanto, os sistemas de Reconhecimento Óptico de Caracteres (OCR) não têm grande sucesso nesses documentos por diversas razões, por exemplo, devido a defeitos por envelhecimento do papel, manchas, iluminação desigual, dobras, escrita do verso transparecendo na frente, pouco contraste entre texto e fundo, entre outros. Uma das etapas importantes para o sucesso de um OCR é a boa segmentação da parte escrita e do fundo da imagem (binarização) e essa etapa é particularmente sensível a esses efeitos que são próprios de documentos históricos. Tanto assim que nos últimos oito anos foram realizadas competições de métodos de binarização de documentos históricos que levaram ao avanço do estado da arte na área. Neste trabalho fizemos um estudo comparativo de diversos métodos de segmentação de documentos antigos e propusemos um método baseado em aprendizado de máquina que resgata as vantagens dos métodos heurísticos. Esse estudo abrangeu documentos históricos manuscritos e tipografados e foi comparado com os métodos do estado da arte via métricas usuais e via um sistema de OCR de código aberto. Os resultados obtidos pelo método proposto são comparáveis com os métodos do estado da arte respeito no resultado do OCR, mostrando algumas vantagens em imagens específicas.
  • DOI: 10.11606/D.45.2019.tde-25092019-140704
  • Publisher: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Matemática e Estatística
  • Creation Date: 2018-11-29
  • Format: Adobe PDF
  • Language: Portuguese

Searching Remote Databases, Please Wait