Рассмотрим как наивный прогноз библиотеки ETNA справится с задачей соревнования Data Fusion Contest 2025 4cast
Рассмотрим как наивный прогноз библиотеки ETNA справится с задачей соревнования Data Fusion Contest 2025 4cast
Начинаю серию статей о сравнительно молодой библиотеки ETNA для прогнозирования временных рядов от команды Тинькофф Банк. В работе над статьями использую очень полезную книгу Груздев А. В. "Прогнозирование временных рядов с помощью Facebook Prophet, ETNA,sktime и LinkedIn Greykite".Начинаю с самой простой модели : модель наивного прогноза
Новое соревновании на Kaggle, на этот раз регрессия : Regression with an Insurance Dataset (Регрессия с набором страховых данных) . Цель этого набора данных — облегчить разработку и тестирование регрессионных моделей для прогнозирования страховых премий на основе различных характеристик клиентов и деталей полиса. Страховые компании часто полагаются на основанные на данных подходы для оценки премий, принимая во внимание такие факторы, как возраст, доход, состояние здоровья и история претензий. Этот синтетический набор данных имитирует реальные сценарии, чтобы помочь практикующим специалистам практиковать проектирование признаков, очистку данных и обучение моделей. Решение будем сопровождать материалами, взятыми из курса на платформе Stepik DS Глеба Михайлова.
Решил совместить две задачи : прослушать курс на Stepik DS Глеба Михайлова и принять участие в соревновании по классификации на Kaggle. Задача соревнования : кредитный скоринг, по нескольким параметрам оценить платежеспособность клиента и выдать рекомендацию дать или не дать ему кредит. Соревнование называется Loan Approval Prediction (Прогноз одобрения кредита).
Как правило, большинство дневных данных в розничной торговле не содержит пропусков за исключением такого показателя как количество зашедших посетителей. Чаще всего это связано с неисправностью счетчиков. Однако очень важно иметь достоверную информацию о посетителях. При этом важно работать не только с пропусками, но и с выбросами, которые также связаны с неисправностью счетчиков. Поэтому при подготовке данных по посетителям вначале надо отбросить выбросы, пусть они также будут считаться пропусками. Таким образом, под пропусками будем понимать как отсутствие значений, так и недостоверные данные.
Основные показатели розничной торговли могут иметь множество различимых значений. Первый шаг в их анализе заключается в получении "типичного значения" для каждого из показателей или другими словами оценки того, вокруг какого значения расположено большинство данных, т.е. в нахождении их центральной тенденции. В этой статье будут рассмотрены следующие показатели и их расчет с помощью Python : среднее арифметическое, геометрическое и гармоническое, среднее взвешенное, среднее усеченное, медиана, медиана нижняя, медиана верхняя и медиана взвешенная.
В этой статье продолжим рассмотрение практических примеров автоматизированного машинного обучение в задачах классификации с помощью TPOT, взятых из книги "Radečić Dario. Machine Learning Automation with TPOT: Build, validate, and deploy fully automated machine learning models with Python". Рассмотрим основные темы, такие как загрузка набора данных, очистка и предварительный анализ данных, создадим базовую модель классификации с помощью логистической регрессии и пакета sklean.Затем углубимся в классификацию с помощью ТPОТ. Узнаем, как обучать и оценивать автоматизированные модели классификации.