Loading [MathJax]/extensions/tex2jax.js

вторник, 18 марта 2025 г.

понедельник, 24 февраля 2025 г.

ETNA : модель наивного прогноза

 Начинаю серию статей о сравнительно молодой библиотеки ETNA для прогнозирования временных рядов от команды Тинькофф Банк. В работе над статьями использую очень полезную книгу Груздев А. В. "Прогнозирование временных рядов с помощью Facebook Prophet, ETNA,sktime и LinkedIn Greykite".Начинаю с самой простой модели :  модель наивного прогноза

понедельник, 16 декабря 2024 г.

Соревнование на Kaggle : регрессия с машинным обучением c курсом DS на Stepik Глеба Михайлова

Новое соревновании на Kaggle, на этот раз регрессия : Regression with an Insurance Dataset (Регрессия с набором страховых данных) . Цель этого набора данных — облегчить разработку и тестирование регрессионных моделей для прогнозирования страховых премий на основе различных характеристик клиентов и деталей полиса. Страховые компании часто полагаются на основанные на данных подходы для оценки премий, принимая во внимание такие факторы, как возраст, доход, состояние здоровья и история претензий. Этот синтетический набор данных имитирует реальные сценарии, чтобы помочь практикующим специалистам практиковать проектирование признаков, очистку данных и обучение моделей. Решение будем сопровождать материалами, взятыми из курса на платформе Stepik DS Глеба Михайлова.

воскресенье, 20 октября 2024 г.

Соревнование на Kaggle : классификация с "Человеческим обучением" по Глебу Михайлову

     Решил совместить две задачи : прослушать курс на Stepik DS Глеба Михайлова и принять участие в соревновании по классификации на Kaggle. Задача соревнования : кредитный скоринг, по нескольким параметрам оценить платежеспособность клиента и выдать рекомендацию дать или не дать ему кредит. Соревнование называется Loan Approval Prediction (Прогноз одобрения кредита).

суббота, 2 декабря 2023 г.

Машинное обучение в розничной торговле : выбросы и заполнение пропущенных значений

Как правило, большинство дневных данных в розничной торговле не содержит пропусков за исключением такого показателя как количество зашедших посетителей. Чаще всего это связано с неисправностью счетчиков. Однако очень важно иметь достоверную информацию о посетителях. При этом важно работать не только с пропусками, но и с выбросами, которые также связаны с неисправностью счетчиков. Поэтому при подготовке данных по посетителям вначале надо отбросить выбросы, пусть они также будут считаться пропусками. Таким образом, под пропусками будем понимать как отсутствие значений, так и недостоверные данные. 

понедельник, 24 апреля 2023 г.

Статистика с Python в розничной торговле : оценки центрального положения

Основные показатели розничной торговли могут иметь множество различимых значений. Первый шаг в их анализе заключается в получении "типичного значения" для каждого из показателей или другими словами оценки того, вокруг какого значения расположено большинство данных, т.е. в нахождении их центральной тенденции. В этой статье будут рассмотрены следующие показатели и их расчет с помощью Python : среднее арифметическое, геометрическое и гармоническое, среднее взвешенное, среднее усеченное, медиана, медиана нижняя, медиана верхняя и медиана взвешенная.

вторник, 24 января 2023 г.

Машинное обучение с библиотеками PyCaret и TROT : классификация, часть третья

В этой статье продолжим  рассмотрение практических примеров автоматизированного машинного обучение в задачах классификации с помощью TPOT, взятых из книги "Radečić Dario. Machine Learning Automation with TPOT: Build, validate, and deploy fully automated machine learning models with Python". Рассмотрим основные темы, такие как загрузка набора данных, очистка и предварительный анализ данных, создадим базовую модель классификации с помощью логистической регрессии и пакета sklean.Затем углубимся в классификацию с помощью ТPОТ. Узнаем, как обучать и оценивать автоматизированные модели классификации.