skip to main content
Visitante
Meu Espaço
Minha Conta
Sair
Identificação
This feature requires javascript
Tags
Revistas Eletrônicas (eJournals)
Livros Eletrônicos (eBooks)
Bases de Dados
Bibliotecas USP
Ajuda
Ajuda
Idioma:
Inglês
Espanhol
Português
This feature required javascript
This feature requires javascript
Primo Search
Busca Geral
Busca Geral
Acervo Físico
Acervo Físico
Produção Intelectual da USP
Produção USP
Search For:
Clear Search Box
Search in:
Produção Intelectual da USP
Or hit Enter to replace search target
Or select another collection:
Search in:
Produção Intelectual da USP
Busca Avançada
Busca por Índices
This feature requires javascript
Tipo de recurso
criteria input
qualquer lugar do registro
no título
como autor
no assunto
Data de publicação
lsr01
lsr02
lsr03
lsr04
Orientador
Show Results with:
no título
Show Results with:
qualquer lugar do registro
no título
como autor
no assunto
Data de publicação
lsr01
lsr02
lsr03
lsr04
Orientador
Mostra resultados com:
criteria input
que contêm minhas palavras de busca
com a frase exata
começa com
Mostra resultados com:
Índice
criteria input
E
OU
NÃO
This feature requires javascript
Pré-processamento de dados em aprendizado de máquina supervisionado
Gustavo Enrique de Almeida Prado Alves Batista Maria Carolina Monard 1941-
2003
Localização:
ICMC - Inst. Ciên. Mat. Computação
(T B333pp e.1 )
(Acessar)
This feature requires javascript
Localização & Reservas
Detalhes
Resenhas & Tags
Solicitações
Mais Opções
Prateleira Virtual
This feature requires javascript
Enviar para
Adicionar ao Meu Espaço
Remover do Meu Espaço
E-mail (máximo 30 registros por vez)
Imprimir
Link permanente
Referência
EasyBib
EndNote
RefWorks
del.icio.us
Exportar RIS
Exportar BibTeX
This feature requires javascript
Título:
Pré-processamento de dados em aprendizado de máquina supervisionado
Autor:
Gustavo Enrique de Almeida Prado Alves Batista
Maria Carolina Monard 1941-
Assuntos:
INTELIGÊNCIA ARTIFICIAL
;
MINERAÇÃO DE DADOS
;
BANCO DE DADOS
Notas:
Tese (Doutorado)
Descrição:
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquinas - AM - cujos algorítmos são freqüentemente utilizados para extrair conhecimento durante fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algorítmos de aprendizado induzem conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algorítmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande intreresse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado, caso contrário, distorções podem ser introduzidas no conhecimento induzido. Neste
trabalho é proposta a utilização do algorítmo K-VIZINHOS MAIS PRÓXIMOS como método de imputação. Imputação é um termo que denota um procedimento que substitui os valores desconhecidos de um conjunto de dados por valores plausíveis. As análises conduzidas neste trabalho indicam que a imputação de valores desconhecidos com base no algorítmo K-VIZINHOS MAIS PRÓXIMOS pode superar o desempenho das estratégias internas utilizadas para tratar valores desconhecidos pelos sistemas C4.5 e CN2, bem como a IMPUTAÇÃO PELA MÉDIA OU MODA, um método amplamente utilizado para tratar valores desconhecidos. O problema de aprender a partir de conjuntos de dados com com classes desbalanceadas é de crucial importância, um vez que esses conjuntos de dados podem ser encontrados em diversos domínios. Classes com distribuições desbalanceadas podem se constituir em um gargalo significante no desempenho obtido por sistemas de aprendizado que assumem uma distribuição balanceada das classes. Uma solução para o problema de aprendizado com distribuições desbalanceadas de classes é balancear artificialmente o conjunto de dados. Neste trabalho é avaliado o uso do método de seleção unilateral, o qual realiza uma remoção cuidadosa dos casos que pertencem à classe majoritária, mantendo os casos da classe minoritária. Essa remoção cuidadosa consiste em detectar e remover casos considerados menos confiáveis, por meio do uso de algumas heurísticas. Uma vez que não existe uma análise matemática capaz de
predizer se o desempenho de um método é superior aos demais, análises experimentais possuem um papel importante na avaliação de sistema de aprendizado. Neste trabalho é proposto e implementado o ambiente computacional DISCOVER LEARNING ENVIRONMENT - DLE - o qual é um framework para desenvolver e avaliar novos métodos de pré-processamento de dados. O ambiente DLE é integrado ao projeto DISCOVER, um projeto de pesquisa em desenvolvimento em nosso laboratório para planejamento e execução de experimentos relacionados com o uso de sistemas de aprendizado durante a fase de Mineração de dados do processo de KDD
Data de criação/publicação:
2003
Formato:
206 p.
Idioma:
Português
Links
Este item no Dedalus
E-mail do autor
This feature requires javascript
This feature requires javascript
Voltar para lista de resultados
Anterior
Resultado
2
Avançar
This feature requires javascript
This feature requires javascript
Buscando em bases de dados remotas. Favor aguardar.
Buscando por
em
scope:(USP_PRODUCAO)
Mostrar o que foi encontrado até o momento
This feature requires javascript
This feature requires javascript