В четвертой части знакомства с автоматизированное машинное обучение будем работать с библиотекой TROT по книге "Radečić Dario. Machine Learning Automation with TPOT: Build, validate, and deploy fully automated machine learning models with Python".
В четвертой части знакомства с автоматизированное машинное обучение будем работать с библиотекой TROT по книге "Radečić Dario. Machine Learning Automation with TPOT: Build, validate, and deploy fully automated machine learning models with Python".
Продолжаем знакомиться с автоматизированным машинным обучением на примере работы с библиотекой PyCaret и рассмотрим учебник по регрессии (REG102) — средний уровень с сайта библиотеки.
Продолжаем знакомиться с автоматизированным машинным обучением на примере работы с библиотекой PyCaret и рассмотрим с сайта библиотеки учебник по регрессии (REG101) — уровень для начинающих.
AutoML расшифровывается как автоматизированное машинное обучение, и его основная цель — сократить или полностью исключить роль специалистов по данным в построении моделей машинного обучения. Рассмотрим два варианта реализации решений AutoML : работа с библиотеками PyCaret и TROT.
Материал представляет некоторые методы работы с данными при использовании библиотеки Pandas. В качестве примеров используются наборы данных, связанные с розничной торговлей.
Методы numpy : where(),select(),random.choice()
Задачи этого модуля :
Продолжаем осваивать знания на курсах Kaggle, на этот раз курс по визуализации данных. Работать будем со своими наборами данных. Первый представляет данные по месячной длине чека 20 розничных магазинов одежды с января 2012 по декабрь 2019. Под длиной чека понимаем месячное количество покупок деленное на месячное количество чеков.
Гибридные модели можно разделить на два вида : первый - как комбинация прогнозов, полученных разными моделями, второй - на разложении временного ряда на составляющие, каждая из которых моделируется своей моделью. В курсе Kaggle рассматривается модель второго вида и именно ее мы будем рассматривать.
Тренд временного ряда представляет собой постоянное долгосрочное изменение среднего значения ряда. Чтобы увидеть, какой тренд может иметь временной ряд, мы можем использовать график скользящего среднего. Чтобы вычислить скользящее среднее временного ряда, мы вычисляем среднее значение значений в скользящем окне определенной ширины. Каждая точка на графике представляет собой среднее значение всех значений ряда, попадающих в окно с обеих сторон. Идея состоит в том, чтобы сгладить любые краткосрочные колебания ряда, чтобы остались только долгосрочные изменения.
Kaggle - социальная сеть специалистов по обработке данных и машинному обучению. Принадлежит корпорации Google. В частности она предлагает пройти ряд коротких курсов по программированию, анализу данных и машинному обучению. Меня заинтересовал курс по прогнозированию временных рядов. Попробую применить его для своих задач, связанных с прогнозированием продаж в розничной торговле одеждой. Первая часть курса называется "Линейная регрессия с временными рядами". Для примеров буду использовать свой набор данных.
Рассмотрим задачу кластеризации розничных магазинов одежды по ассортиментной матрице продаж. В качестве исходных данных возьмем ассортиментные матрицы продаж 72 магазинов одежды в осенне-зимний сезон (массив данных сгенерирован с помощью sklearn.datasets.samples_generator). Доли в продажах разделены на 11 комбинаций по полу-товарной группе-сезон. В реальности различия в ассортиментных матрицах могут быть связаны с разными климатическими условиями (магазины могут находятся в разных городах), а также с разницей в расположении магазинов в городе и в торговом центре. В результате анализа необходимо разделить магазины на кластеры, чтобы в дальнейшем более правильно организовать их снабжение товарами.
Все модели машинного обучения имеют набор гиперпараметров и при работе с выбранной моделью задача их оптимального выбора становится основной. В этой статье мы рассмотрим тему выбора модели, сначала вручную оценив один гиперпараметр для одного алгоритма машинного обучения в конкретном наборе данных. После этого мы рассмотрим поиск по сетке, чтобы найти наилучшие комбинации нескольких гиперпараметров. Наконец, мы рассмотрим дополнительные методы выбора модели, такие как случайный поиск гиперпараметров.
Рассмотрим основные метрики качества в задачах классификации : доля правильных ответов, точность, полнота, F-мера и матрица ошибок. А также четыре различных комбинации фактических и прогнозируемых значений: истинно отрицательные (TN), ложноотрицательные (FN), истинно положительные (TP) и ложноположительные (FP).
Рассмотрим часто используемые метрики качества модели : MAE,MPE,MAPE,MSE,RMSE,R2 в задачах регрессии
В качестве примера применение линейной регрессии рассмотрим задачу, часто возникающую в розничной торговле. Мы планируем месячные продажи нескольких товарных групп в нашей сети магазинов одежды и нам необходимо определить товарный запас по каждой товарной группе, который должен находится в каждом магазине исходя из планового количества продаж. Для того, чтобы определить товарный запас по плану продаж в штуках надо задать плановую оборачиваемость.
Рассмотрим три метода машинного обучения: классификация, регрессия и кластеризация, реализованные в библиотеке машинного обучения в Python в модуле scikit-learn. Для иллюстрации методов будем использовать простой набор данных, представляющий месячные продажи 45 розничных магазинов одежды. Они разделены на три группы : маленькие магазины (small), т.н. магазины у дома, средние (middle), как бы районные универмаги и крупные (big) - магазины в крупных торговых центрах.
Рассмотрим процедуру проверки гипотез о равенстве средних на основании двух выборок. Задача состоит в том, чтобы проверить равны ли средние значения этих выборок. Напомним, что среднее значение является очень важной величиной, характеризующей выборку и процесс, ее генерирующий. Поэтому задача сравнения средних очень часто возникает в самых разных областях.