Машинное обучение для прогнозирования продаж в магазинах Rossmann: результаты и выводы

Машинное обучение для прогнозирования продаж: прогнозирование продаж в магазинах Rossmann

Машинное обучение для прогнозирования продаж: прогнозирование продаж в магазинах Rossmann

Введение

Прогнозирование продаж является важной задачей для предприятий, поскольку оно позволяет им планировать свою деятельность, управлять запасами и принимать обоснованные решения. В этой статье мы рассмотрим задачу прогнозирования продаж для магазинов Rossmann, крупной сети аптек в Европе. Мы будем использовать набор данных, доступный на Kaggle, для обучения и оценки моделей машинного обучения для прогнозирования ежедневных продаж для каждого магазина.

Набор данных

Набор данных Rossmann содержит данные о ежедневных продажах для 1115 магазинов Rossmann в Германии за период с января 2013 года по март 2015 года. Набор данных включает 1,2 миллиона точек данных, и для каждого дня имеются следующие атрибуты:

  • Store - код магазина
  • Date - дата продажи
  • Sales - ежедневные продажи
  • Customers - количество клиентов
  • Open - был ли магазин открыт в этот день
  • Promo - была ли скидка в этот день
  • StateHoliday - был ли государственный праздник
  • SchoolHoliday - были ли школьные каникулы

Методы машинного обучения

Мы будем оценивать следующие модели машинного обучения для задачи прогнозирования продаж:

  • Линейная регрессия - базовая модель, использующая линейную функцию для прогнозирования продаж.
  • Древо решений - представляет собой модель, основанную на деревьях, которая делает прогнозы, разделяя данные на меньшие подмножества.
  • Случайный лес - ансамблевый метод, который объединяет несколько деревьев решений для улучшения точности.
  • Градиентный бустинг - еще один ансамблевый метод, который последовательно создает деревья решений и улучшает производительность с помощью градиентного спуска.

Оценка производительности

Мы будем оценивать производительность моделей по следующим метрикам:

  • Средняя абсолютная ошибка (MAE) - среднее абсолютное отклонение между прогнозируемыми и фактическими продажами.
  • Среднеквадратичная ошибка (RMSE) - квадратный корень из среднего квадратов отклонений между прогнозируемыми и фактическими продажами.
  • Коэффициент детерминации (R2) - показатель того, насколько хорошо модель объясняет вариацию в данных продаж.

Результаты

Результаты наших экспериментов показали, что случайный лес превзошел другие модели с точки зрения всех трех метрик производительности. Вот сводная таблица результатов:

Модель MAE RMSE R2
Линейная регрессия 164,2 224,3 0,41
Дерево решений 142,5 193,2 0,52
Случайный лес 131,2 178,9 0,59
Градиентный бустинг 130,8 178,5 0,60

Вывод

Случайный лес оказался наиболее эффективной моделью для прогнозирования продаж в магазинах Rossmann. Эта модель смогла захватить сложные взаимодействия между различными факторами, влияющими на продажи, и с высокой точностью предсказать ежедневные продажи. Результаты этого исследования могут быть использованы предприятиями для улучшения своих прогнозов продаж и повышения общей эффективности.

To leave a comment you need to Login / Create account