Dados desequilibrados

Dados desequilibrados são uma forma de dados em aprendizado de máquina e inteligência artificial em que as categorias de classificação nas observações de dados têm diferentes números de instâncias. Esta forma de dados causa problemas para algoritmos de aprendizagem supervisionada, pois eles tendem a ter dificuldade em prever com precisão a(s) classe(s) minoritária(s). Dados desequilibrados são um fenómeno comum na recolha de dados sobre um assunto específico, especialmente quando o assunto de interesse é relativamente raro.

No campo do aprendizado de máquina, conjuntos de dados desequilibrados são particularmente problemáticos porque a maioria dos algoritmos de aprendizado de máquina são projetados para funcionar melhor quando as categorias para classificação são aproximadamente iguais em número. Por exemplo, quando um modelo preditivo é treinado em dados com 10% de suas observações pertencentes à classe minoritária e 90% pertencentes à classe majoritária, os casos minoritários podem ficar sub-representados no modelo final. Esta sub-representação leva a um fraco desempenho em termos de exatidão ou precisão.

A técnica mais popular para lidar com dados desequilibrados é a Técnica de Sobreamostragem Minoritária Sintética (SMOTE). O SMOTE funciona gerando novos pontos de dados na classe minoritária (geralmente perto dos pontos de dados existentes) e aumentando o tamanho da classe minoritária para corresponder ao tamanho da classe majoritária. Esta técnica é mais bem sucedida do que simplesmente sobre-amostrar aleatoriamente a classe minoritária.

Além do SMOTE, existem outras técnicas para resolver desequilíbrios. Estes incluem: pré-processamento de dados, aumento de dados, aprendizagem sensível ao custo, meta-aprendizagem e uso de redes neurais artificiais.

Em última análise, o objetivo é alcançar um conjunto de dados mais equilibrado para que o algoritmo de aprendizagem supervisionada tenha dados suficientes para trabalhar com a classe minoritária. Isso pode ser feito subamostrando a classe majoritária ou superamostrando a classe minoritária. Quando usadas corretamente, essas técnicas podem reduzir o viés nos dados e levar a um melhor desempenho preditivo.

Escolha e compre proxy

Personalize seu pacote de servidor proxy sem esforço com nosso formulário amigável. Escolha o local, a quantidade e o prazo de serviço para visualizar os preços dos pacotes instantâneos e os custos por IP. Desfrute de flexibilidade e conveniência para suas atividades online.

Escolha o seu pacote de proxy

Escolha e compre proxy