Несбалансированные данные

Несбалансированные данные — это форма данных в машинном обучении и искусственном интеллекте, в которой категории классификации в наблюдениях за данными имеют разное количество экземпляров. Эта форма данных вызывает проблемы для алгоритмов обучения с учителем, поскольку им, как правило, трудно точно предсказать класс(ы) меньшинства. Несбалансированные данные — обычное явление при сборе данных по конкретному предмету, особенно когда интересующий предмет относительно редок.

В области машинного обучения несбалансированные наборы данных создают особую проблему, поскольку большинство алгоритмов машинного обучения разработаны так, чтобы работать лучше всего, когда категории для классификации примерно равны по количеству. Например, когда прогнозирующая модель обучается на данных, в которых 10% ее наблюдений принадлежит классу меньшинства, а 90% принадлежит классу большинства, случаи меньшинства могут оказаться недостаточно представленными в окончательной модели. Такое недостаточное представление приводит к снижению производительности с точки зрения точности или прецизионности.

Самым популярным методом обработки несбалансированных данных является метод передискретизации синтетического меньшинства (SMOTE). SMOTE работает путем создания новых точек данных в классе меньшинства (обычно рядом с существующими точками данных) и увеличения размера класса меньшинства, чтобы он соответствовал размеру класса большинства. Этот метод более успешен, чем просто случайная избыточная выборка класса меньшинства.

Помимо SMOTE, существуют и другие методы устранения дисбаланса. К ним относятся: предварительная обработка данных, увеличение данных, экономичное обучение, метаобучение и использование искусственных нейронных сетей.

В конечном итоге цель состоит в том, чтобы добиться более сбалансированного набора данных, чтобы алгоритм контролируемого обучения имел достаточно данных для работы из класса меньшинства. Это можно сделать либо занижением выборки класса большинства, либо за счет увеличения выборки класса меньшинства. При правильном использовании эти методы могут уменьшить погрешность данных и привести к повышению эффективности прогнозирования.

Выбрать и купить прокси

Легко настройте свой пакет прокси-сервера с помощью нашей удобной формы. Выберите местоположение, количество и срок обслуживания, чтобы просмотреть цены на мгновенные пакеты и стоимость IP. Наслаждайтесь гибкостью и удобством вашей деятельности в Интернете.

Выберите свой пакет прокси

Выбрать и купить прокси