skip to main content
Visitante
Meu Espaço
Minha Conta
Sair
Identificação
This feature requires javascript
Tags
Revistas Eletrônicas (eJournals)
Livros Eletrônicos (eBooks)
Bases de Dados
Bibliotecas USP
Ajuda
Ajuda
Idioma:
Inglês
Espanhol
Português
This feature required javascript
This feature requires javascript
Primo Search
Busca Geral
Busca Geral
Acervo Físico
Acervo Físico
Produção Intelectual da USP
Produção USP
Search For:
Clear Search Box
Search in:
Busca Geral
Or hit Enter to replace search target
Or select another collection:
Search in:
Busca Geral
Busca Avançada
Busca por Índices
This feature requires javascript
This feature requires javascript
Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
Casanova, Edresson
Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação 2022-07-06
Acesso online
Exibir Online
Detalhes
Resenhas & Tags
Mais Opções
This feature requires javascript
Enviar para
Adicionar ao Meu Espaço
Remover do Meu Espaço
E-mail (máximo 30 registros por vez)
Imprimir
Link permanente
Referência
EasyBib
EndNote
RefWorks
del.icio.us
Exportar RIS
Exportar BibTeX
This feature requires javascript
Título:
Síntese de fala aplicada à geração de conjunto de dados para reconhecimento automático de fala
Autor:
Casanova, Edresson
Orientador:
Aluisio, Sandra Maria; Ponti, Moacir Antonelli
Assuntos:
Síntese De Fala
;
Conversão De Voz Zero-Shot
;
Síntese De Fala Zero-Shot
;
Reconhecimento Automático De Fala
;
Síntese De Fala Multilíngue
;
Tts
;
Speech Synthesis
;
Asr
;
Multi-Lingual Speech Synthesis
;
Cross-Lingual Zero-Shot Voice Conversion
;
Automatic Speech Recognition
;
Zero-Shot Multi-Speaker Tts
Notas:
Tese (Doutorado)
Descrição:
O reconhecimento automático de fala é um dos objetivos mais antigos da computação, pois reconhecer a fala oferece benefícios promissores para aplicações comerciais e pessoais. Ainda que os sistemas de reconhecimento automático de fala tenham evoluído com o advento de métodos deep learning, o reconhecimento automático de fala ainda não é um problema totalmente solucionado. Em muitos idiomas ainda há escassez de recursos livres, resultando em sistemas de reconhecimento automático de fala com baixo desempenho. Por outro lado, a área de síntese de fala também evoluiu na última década permitindo o surgimento de modelos de síntese de fala zero-shot multi-speaker que permitem gerar fala na voz de um locutor alvo utilizando apenas alguns segundos de fala desse locutor. Esses avanços motivaram o uso de síntese de fala zero-shot multi-speaker no treinamento de sistemas de reconhecimento automático de fala, com estudos mostrando que a síntese pode melhorar significativamente o desempenho de sistemas de reconhecimento automático de fala. Entretanto, os modelos de síntese zero-shot multi-speaker ainda necessitam de uma grande quantidade de locutores e horas de fala durante o treinamento, deste modo, inviabilizando a sua aplicação em idiomas com poucos recursos disponíveis. Nessa tese de doutorado, investigou-se o desenvolvimento e a avaliação de modelos de síntese de fala zero-shot multi-speaker em cenários com poucos locutores disponíveis. Para isso, propusemos o uso de modelos flow-based, devido ao seus resultados no estado da arte em síntese de fala. Além disso, investigou-se o uso de modelos multilíngues, deste modo, fazendo uso da quantidade de locutores disponíveis em idiomas com muitos recursos disponíveis. Os resultados alcançados com esse trabalho tornaram possível o desenvolvimento de sistemas de síntese de fala zero-shot multi-speaker e conversão de voz zero-shot em idiomas com poucos locutores disponíveis. Além disso, a abordagem proposta nesse trabalho foi aplicada na melhoria de sistemas de reconhecimento automático de fala em dois idiomas, simulando um cenário com apenas um locutor disponível para o treinamento do modelo síntese zero-shot multi-speaker. Apesar de utilizar apenas um locutor nos idiomas alvos, a abordagem de aumento de dados proposta nesse trabalho alcançou resultados comparáveis ao estado da arte no idioma Inglês. Por fim, foi explorado o treinamento de um modelo de reconhecimento automático de fala com um único locutor real nos idiomas alvos, utilizando a abordagem de aumento de dados proposta nesse trabalho, alcançando um Word Error Rate de 33.96% e 36.59%, respectivamente, para o conjunto de teste do dataset Common Voice no Português e no Russo.
DOI:
10.11606/T.55.2022.tde-02092022-142539
Editor:
Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação
Data de criação/publicação:
2022-07-06
Formato:
Adobe PDF
Idioma:
Português
Links
Este item no Dedalus
Teses e Dissertações USP
Acesso ao doi
E-mail do autor
E-mail do orientador
E-mail do orientador
This feature requires javascript
This feature requires javascript
Voltar para lista de resultados
Resultado
1
Avançar
This feature requires javascript
This feature requires javascript
Buscando em bases de dados remotas. Favor aguardar.
Buscando por
em
scope:(USP_VIDEOS),scope:("PRIMO"),scope:(USP_FISICO),scope:(USP_EREVISTAS),scope:(USP),scope:(USP_EBOOKS),scope:(USP_PRODUCAO),primo_central_multiple_fe
Mostrar o que foi encontrado até o momento
This feature requires javascript
This feature requires javascript