Idioma:

Pré-processamento de dados em aprendizado de máquina supervisionado

Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard 1941-

2003

Localização: ICMC - Inst. Ciên. Mat. Computação (T B333pp e.1 )(Acessar)

Enviar para

Título:
Pré-processamento de dados em aprendizado de máquina supervisionado
Autor: Gustavo Enrique de Almeida Prado Alves Batista
Maria Carolina Monard 1941-
Assuntos: INTELIGÊNCIA ARTIFICIAL; MINERAÇÃO DE DADOS; BANCO DE DADOS
Notas: Tese (Doutorado)
Descrição: A qualidade de dados é uma das principais preocupações em Aprendizado de Máquinas - AM - cujos algorítmos são freqüentemente utilizados para extrair conhecimento durante fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algorítmos de aprendizado induzem conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algorítmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande intreresse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste
trabalho é proposta a utilização do algorítmo K-VIZINHOS MAIS PRÓXIMOS como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algorítmo K-VIZINHOS MAIS PRÓXIMOS pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a IMPUTAÇÃO PELA MÉDIA OU MODA, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com com classes desbalanceadas é de crucial importância, um vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de
predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional DISCOVER LEARNING ENVIRONMENT - DLE - o qual é um framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto DISCOVER, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD
Data de criação/publicação: 2003
Formato: 206 p.
Idioma: Português

Links

Voltar para lista de resultados

Anterior Resultado 2 Avançar Ir para próxima página

Realização: Logos de Redes Sociais:

Pré-processamento de dados em aprendizado de máquina supervisionado

Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard 1941-

2003

Buscando em bases de dados remotas. Favor aguardar.