skip to main content

Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais usando diferentes medidas de similaridade

Joia Filho, Paulo

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação 2015-10-14

Acesso online. A biblioteca também possui exemplares impressos.

  • Título:
    Técnicas de projeção para identificação de grupos e comparação de dados multidimensionais usando diferentes medidas de similaridade
  • Autor: Joia Filho, Paulo
  • Orientador: Nonato, Luis Gustavo
  • Assuntos: Agrupamento De Dados; Projeção De Dados Multidimensionais; Visualização De Dados; Modelagem De Incerteza; Busca Por Similaridade; Data Visualization; Clustering; Similarity Search; Uncertainty Modeling; Multidimensional Data Projection
  • Notas: Tese (Doutorado)
  • Descrição: Técnicas de projeção desempenham papel importante na análise e exploração de dados multidimensionais, já que permitem visualizar informações muitas vezes ocultas na alta dimensão. Esta tese explora o potencial destas técnicas para resolver problemas relacionados à: 1) identificação de agrupamentos e 2) busca por similaridade em dados multidimensionais. Para identificação de agrupamentos foi desenvolvida uma técnica de projeção local e interativa que, além de projetar dados com ótima preservação de distâncias, permite que o usuário modifique o layout da projeção, agrupando um número reduzido de amostras representativas no espaço visual, de acordo com suas características. Os mapeamentos produzidos tendem a seguir o layout das amostras organizadas pelo usuário, facilitando a organização dos dados e identificação de agrupamentos. Contudo, nem sempre é possível selecionar ou agrupar amostras com base em suas características visuais de forma confiável, principalmente quando os dados não são rotulados. Para estas situações, um novo método para identificação de agrupamentos baseado em projeção foi proposto, o qual opera no espaço visual, garantindo que os grupos obtidos não fiquem fragmentados durante a visualização. Além disso, é orientado por um mecanismo de amostragem determinístico, apto a identificar instâncias que representam bem o conjunto de dados como um todo e capaz de operar mesmo em conjuntos de dados desbalanceados. Para o segundo problema: busca por similaridade em dados multidimensionais, uma família de métricas baseada em classes foi construída para projetar os dados, com o objetivo de minimizar a dissimilaridade entre pares de objetos pertencentes à mesma classe e, ao mesmo tempo, maximizá-la para objetos pertencentes a classes distintas. As métricas classes-específicas são avaliadas no contexto de recuperação de imagens com base em conteúdo. Com o intuito de aumentar a precisão da família de métricas classes-específicas, outra técnica foi desenvolvida, a qual emprega a teoria dos conjuntos fuzzy para estimar um valor de incerteza que é transferido para a métrica, aumentando sua precisão. Os resultados confirmam a efetividade das técnicas desenvolvidas, as quais representam significativa contribuição na tarefa de identificação de grupos e busca por similaridade em dados multidimensionais.
  • DOI: 10.11606/T.55.2016.tde-29032016-143247
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Instituto de Ciências Matemáticas e de Computação
  • Data de criação/publicação: 2015-10-14
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.