skip to main content

Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala

Casanova, Edresson

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação 2022-07-06

Acesso online

  • Título:
    Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
  • Autor: Casanova, Edresson
  • Orientador: Aluisio, Sandra Maria; Ponti, Moacir Antonelli
  • Assuntos: Síntese De Fala; Conversão De Voz Zero-Shot; Síntese De Fala Zero-Shot; Reconhecimento Automático De Fala; Síntese De Fala Multilíngue; Tts; Speech Synthesis; Asr; Multi-Lingual Speech Synthesis; Cross-Lingual Zero-Shot Voice Conversion; Automatic Speech Recognition; Zero-Shot Multi-Speaker Tts
  • Notas: Tese (Doutorado)
  • Descrição: O reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelos flow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.
  • DOI: 10.11606/T.55.2022.tde-02092022-142539
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação
  • Data de criação/publicação: 2022-07-06
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.