Idioma:

Identificação de locutor usando modelos de misturas de gaussianas.

Cardoso, Denis Pirttiaho

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola Politécnica 2009-04-03

Acesso online. A biblioteca também possui exemplares impressos.

Enviar para

Título:
Identificação de locutor usando modelos de misturas de gaussianas.
Autor: Cardoso, Denis Pirttiaho
Orientador: Arjona Ramírez, Miguel
Assuntos: Processamento De Sinais Acústicos; Processamento Digital De Voz; Reconhecimento De Voz; Acustic Signal Processing; Digital Speech Processing; Speech Recognition
Notas: Dissertação (Mestrado)
Notas Locais: Programa Engenharia Elétrica
Descrição: A identificação de locutor está relacionada com a seleção de um locutor dentro de um conjunto de membros pré-definidos e neste trabalho os experimentos foram realizados utilizando um sistema de identificação de locutor independente de texto baseado em modelos de mistura de gaussianas. Para realizar os testes, foi empregado o banco de voz TIMIT e sua correspondente versão corrompida por ruído de canal telefônico, isto é, NTIMIT. O aparelho fonador pode ser representado por coeficientes mel-cepstrais obtidos por meio de banco de filtros ou, alternativamente, por coeficientes de predição linear. Adicionalmente, a técnica de subtração da média cepstral é aplicada quando o banco de voz NITMIT é utilizado com o intuito de minimizar a distorção de canal intrínseca a ele. A componente da locução para a qual os coeficientes mel-cepstrais são calculados é obtida através de um detector de atividade de voz (DAV). No entanto, os DAVs são em geral sensíveis à relação de sinal-ruído da locução, sendo necessário adaptá-los para as condições de operação do sistema. É sugerida a integração no DAV de um estimador da relação de sinal-ruído baseado no método Minima Controlled Recursive Average (MCRA), que é necessário para permitir o tratamento de sinais tanto limpos quanto ruidosos. É observado que em locuções de elevada relação de sinal-ruído, como aquelas provenientes do banco de voz TIMIT, o método mais apropriado de extração dos coeficientes mel-cepstrais foi o padrão, isto é, baseado em banco de filtros, enquanto que para sinais de voz ruidosos a técnica de subtração da média cepstral aliada à extração dos coeficientes mel-cepstrais a partir de coeficientes de predição linear revelou os melhores resultados.
DOI: 10.11606/D.3.2009.tde-13072009-155208
Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola Politécnica
Data de criação/publicação: 2009-04-03
Formato: Adobe PDF
Idioma: Português

Links

Voltar para lista de resultados

Realização: Logos de Redes Sociais:

Identificação de locutor usando modelos de misturas de gaussianas.

Cardoso, Denis Pirttiaho

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola Politécnica 2009-04-03

Buscando em bases de dados remotas. Favor aguardar.