Статистика и анализ данных : теория и практика: 2022

понедельник, 12 декабря 2022 г.

Машинное обучение с библиотеками PyCaret и TROT : регрессия, часть четвертая

В четвертой части знакомства с автоматизированное машинное обучение будем работать с библиотекой TROT по книге "Radečić Dario. Machine Learning Automation with TPOT: Build, validate, and deploy fully automated machine learning models with Python".

Дальше »

пятница, 9 декабря 2022 г.

Машинное обучение с библиотеками PyCaret и TROT : регрессия, часть третья

Продолжаем знакомиться с автоматизированным машинным обучением на примере работы с библиотекой PyCaret и рассмотрим учебник по регрессии (REG102) — средний уровень с сайта библиотеки.

Дальше »

суббота, 3 декабря 2022 г.

Машинное обучение с библиотеками PyCaret и TROT : регрессия, часть вторая

Продолжаем знакомиться с автоматизированным машинным обучением на примере работы с библиотекой PyCaret и рассмотрим с сайта библиотеки учебник по регрессии (REG101) — уровень для начинающих.

Дальше »

среда, 30 ноября 2022 г.

Машинное обучение с библиотеками PyCaret и TROT : регрессия, часть первая

AutoML расшифровывается как автоматизированное машинное обучение, и его основная цель — сократить или полностью исключить роль специалистов по данным в построении моделей машинного обучения. Рассмотрим два варианта реализации решений AutoML : работа с библиотеками PyCaret и TROT.

Дальше »

среда, 16 ноября 2022 г.

Pandas : индексация и случайная выборка

Материал представляет некоторые методы работы с данными при использовании библиотеки Pandas. В качестве примеров используются наборы данных, связанные с розничной торговлей.

Рассматриваемые методы :

Индексация [],loc,iloc
Срезы
Логическое индексирование
Методы isin(),query()
Случайная выборка методом sample() с весами и без
Метод value_counts() с нормализацией и без
Методы concat(),map()
Лямбда функции и метод apply()

Методы numpy : where(),select(),random.choice()

Дальше »

вторник, 18 октября 2022 г.

Статистика с Python в розничной торговле : регрессия

Регрессия один из самых важный и часто используемых статистических методов. Он чрезвычайно универсален и может использоваться для решения многих задач, встречающихся при анализе розничной торговли. Мы обсудим основные идеи метода и как он реализуется с помощью Python.

Дальше »

понедельник, 3 октября 2022 г.

Статистика с Python в розничной торговле : нормальное приближение и биномиальное распределение

Задачи этого модуля :

Эмпирическое правило нормального распределения
Знакомство с биномиальным распределением и его нормальной аппроксимацией
Стандартизация данных и нормальное приближение
Центральная предельная теорема

Дальше »

воскресенье, 25 сентября 2022 г.

Статистика c Python в розничной торговле : описательная статистика и визуализация

Начинаю серию статей по статистике в розничной торговле с использованием Python. В нашем первом модуле мы рассмотрим описательную статистику. То есть способы представления данных с помощью чисел и графиков. В частности, рассмотрим некоторые важные принципы визуализации информации.

Дальше »

воскресенье, 18 сентября 2022 г.

Машинное обучение с Pytnon : чтение и запись данных в формате Excel

Почти год назад прошел все шесть курсов "Профессиональная сертификация 'IBM Machine Learning', пора "освежить" в памяти полученные знания и для этого решил написать серию статей по материалам этого курса. Подход при этом будет такой : за основу последовательно беру пройденные темы и прорабатываю их на своих данных с некоторым расширением, которое мне кажется полезным. Начну, как и полагается, с общего похода работы с данными.

Дальше »

среда, 7 сентября 2022 г.

Data Visualization : курс Kaggle

Продолжаем осваивать знания на курсах Kaggle, на этот раз курс по визуализации данных. Работать будем со своими наборами данных. Первый представляет данные по месячной длине чека 20 розничных магазинов одежды с января 2012 по декабрь 2019. Под длиной чека понимаем месячное количество покупок деленное на месячное количество чеков.

Дальше »

понедельник, 6 июня 2022 г.

Гибридная модель прогнозирования временных рядов : курсы Kaggle

Гибридные модели можно разделить на два вида : первый - как комбинация прогнозов, полученных разными моделями, второй - на разложении временного ряда на составляющие, каждая из которых моделируется своей моделью. В курсе Kaggle рассматривается модель второго вида и именно ее мы будем рассматривать.

Дальше »

воскресенье, 29 мая 2022 г.

Тренд во временных рядах : курсы Kaggle

Тренд временного ряда представляет собой постоянное долгосрочное изменение среднего значения ряда. Чтобы увидеть, какой тренд может иметь временной ряд, мы можем использовать график скользящего среднего. Чтобы вычислить скользящее среднее временного ряда, мы вычисляем среднее значение значений в скользящем окне определенной ширины. Каждая точка на графике представляет собой среднее значение всех значений ряда, попадающих в окно с обеих сторон. Идея состоит в том, чтобы сгладить любые краткосрочные колебания ряда, чтобы остались только долгосрочные изменения.

Дальше »

воскресенье, 22 мая 2022 г.

Линейная регрессия с временными рядами : курсы Kaggle

Kaggle - социальная сеть специалистов по обработке данных и машинному обучению. Принадлежит корпорации Google. В частности она предлагает пройти ряд коротких курсов по программированию, анализу данных и машинному обучению. Меня заинтересовал курс по прогнозированию временных рядов. Попробую применить его для своих задач, связанных с прогнозированием продаж в розничной торговле одеждой. Первая часть курса называется "Линейная регрессия с временными рядами". Для примеров буду использовать свой набор данных.

Дальше »

четверг, 19 мая 2022 г.

Корреляционная матрица с Python

Корреляционная матрица (correlation matrix) : таблица, в которой строки и столбцы — это переменные, а значения ячеек —корреляции между этими переменными. Рассмотрим, как можно получить эту матрицу с помощью Python.

Дальше »

воскресенье, 17 апреля 2022 г.

Анализ данных с Python в розничной торговле : анализ продаж товарной категории

Задача для анализа : руководством торговой сети розничных магазинов одежды было принято решение добавить в ассортимент новую позицию - мужские трусы. По прошествии некоторого времени поставлена задача проанализировать продажи с точки
зрения покупательских предпочтений в разрезах пола, возраста, модели и цвета.

Дальше »

среда, 13 апреля 2022 г.

Машинное обучение с Python в розничной торговле : кластеризация магазинов по ассортиментной матрице продаж

Рассмотрим задачу кластеризации розничных магазинов одежды по ассортиментной матрице продаж. В качестве исходных данных возьмем ассортиментные матрицы продаж 72 магазинов одежды в осенне-зимний сезон (массив данных сгенерирован с помощью sklearn.datasets.samples_generator). Доли в продажах разделены на 11 комбинаций по полу-товарной группе-сезон. В реальности различия в ассортиментных матрицах могут быть связаны с разными климатическими условиями (магазины могут находятся в разных городах), а также с разницей в расположении магазинов в городе и в торговом центре. В результате анализа необходимо разделить магазины на кластеры, чтобы в дальнейшем более правильно организовать их снабжение товарами.

Дальше »

воскресенье, 27 марта 2022 г.

Машинное обучение с Python в розничной торговле : выбор гиперпараметров модели

Все модели машинного обучения имеют набор гиперпараметров и при работе с выбранной моделью задача их оптимального выбора становится основной. В этой статье мы рассмотрим тему выбора модели, сначала вручную оценив один гиперпараметр для одного алгоритма машинного обучения в конкретном наборе данных. После этого мы рассмотрим поиск по сетке, чтобы найти наилучшие комбинации нескольких гиперпараметров. Наконец, мы рассмотрим дополнительные методы выбора модели, такие как случайный поиск гиперпараметров.

Дальше »

Машинном обучение с Python в розничной торговле : отбор признаков

Применение машинного обучения начинается с общей постановки задачи. Определяем, на какой вопрос надо найти ответ и какая информация для этого нужна. Переходя к терминологии машинного обучения : определяем целевую функцию (как правило используется слово "target") и предикторы или признаки ("features"). Правильный выбор признаков является определяющим для успешного решения задачи. Их должно быть достаточно чтобы наша модель учитывала все особенности задачи, но их не должно быть слишком много, чтобы "за деревьями мы не увидели леса".

Дальше »

вторник, 22 марта 2022 г.

Машинное обучение с Python в розничной торговле : метрики качества в задачах классификации

Рассмотрим основные метрики качества в задачах классификации : доля правильных ответов, точность, полнота, F-мера и матрица ошибок. А также четыре различных комбинации фактических и прогнозируемых значений: истинно отрицательные (TN), ложноотрицательные (FN), истинно положительные (TP) и ложноположительные (FP).

Дальше »

воскресенье, 20 марта 2022 г.

Машинное обучение с Python в розничной торговле : метрики качества в задачах регрессии

Рассмотрим часто используемые метрики качества модели : MAE,MPE,MAPE,MSE,RMSE,R2 в задачах регрессии

Дальше »

среда, 2 марта 2022 г.

Машинное обучение с Python в розничной торговле : линейная регрессия

В качестве примера применение линейной регрессии рассмотрим задачу, часто возникающую в розничной торговле. Мы планируем месячные продажи нескольких товарных групп в нашей сети магазинов одежды и нам необходимо определить товарный запас по каждой товарной группе, который должен находится в каждом магазине исходя из планового количества продаж. Для того, чтобы определить товарный запас по плану продаж в штуках надо задать плановую оборачиваемость.

Дальше »

вторник, 15 февраля 2022 г.

Машинное обучение с Python в розничной торговле : введение в алгоритмы машинного обучения

Рассмотрим три метода машинного обучения: классификация, регрессия и кластеризация, реализованные в библиотеке машинного обучения в Python в модуле scikit-learn. Для иллюстрации методов будем использовать простой набор данных, представляющий месячные продажи 45 розничных магазинов одежды. Они разделены на три группы : маленькие магазины (small), т.н. магазины у дома, средние (middle), как бы районные универмаги и крупные (big) - магазины в крупных торговых центрах.

Дальше »

суббота, 12 февраля 2022 г.

Машинное обучение с Python в маркетинге : предобработка данных

К предобработке данных для машинного обучения относят : Кодирование категориальных переменных , разделение данных на обучающую и тестовую части, нормализацию или стандартизацию.

Для иллюстрации методов, выполняющих такую предобработку создадим учебный датафрейм с различными категориальными показателями : "Категория товара", в дальнейшем ее можно использовать как метку класса, "Размер", "Бренд", "Цвет" и "Пол". В дальнейшем добавим одну числовую характеристику - "Цена".

Дальше »

воскресенье, 6 февраля 2022 г.

Статистика с Python в маркетинге : двухвыборочные критерии Стьюдента о равенстве средних

Рассмотрим процедуру проверки гипотез о равенстве средних на основании двух выборок. Задача состоит в том, чтобы проверить равны ли средние значения этих выборок. Напомним, что среднее значение является очень важной величиной, характеризующей выборку и процесс, ее генерирующий. Поэтому задача сравнения средних очень часто возникает в самых разных областях.

Дальше »

Подписаться на: Комментарии (Atom)