суббота, 5 декабря 2020 г.

Статистика с Python : дискретные распределения

 Распределение дискретной случайной величины - это полный список всех ее возможных значений с проставленными вероятностями этих значений.

Статистика в Python : непрерывные распределения

В непрерывном распределении вероятностей переменная может принимать любое действительное число. Она не ограничена конечным набором значений, как это имеет место в дискретном распределении вероятностей, например, вес здорового новорожденного ребенка может варьироваться примерно от 2,5 до 4,5 кг
Непрерывное распределение вероятностей характеризуется функцией плотности вероятности (PDF). Сумма всех вероятностей, которые может принять случайная величина, равна 1. Таким образом, площадь под графиком функции плотности вероятности равна 1.

четверг, 26 ноября 2020 г.

Машинное обучение с Python : кластерный анализ

 В этой статьей разберем несколько самых популярных методов кластеризации и методов оценки их эффективности. Для начала сгенерируем тестовый набор данных и рассмотрим способы его  визуализации.  Для создания тестового набора данных используем функцию make_blobs. Задаем количество элементов 100 и количество кластеров 4. Каждый элемент имеет два показателя для того, чтобы могли реализовать двумерный график. Кластеры имеют разные стандартное отклонение, то есть некоторые кластеры более рассеиваются, чем другие. Функция также возвращает метки кластеров, они понадобятся, чтобы проверить качество работы алгоритма. 

воскресенье, 18 октября 2020 г.

Статистика в R : диагностика линейной модели

Подобрав линейную модель мы еще не знаем, насколько мы можем доверять тому, что видим, насколько зависимость действительно существует. Для ответа на этот вопрос нужен статистический тест, и таких тестов возможно два. Есть два способа тестировать значимость связи, мы можем проверить, значима ли модель в целом, при помощи F-критерия, или мы можем проверить значимость конкретных коэффициентов, и тут мы можем использовать два способа:t-критерий и тот же F-критерий.

суббота, 10 октября 2020 г.

Статистика в R : простая линейная регрессия

Регрессионный анализ является развитием идеи корреляционного анализа. Корреляционный анализ позволяет выявить силу и направление связи, а также оценить статистическую значимость этой связи. Регрессионный анализ дает возможность построить модель, описывающую эту связь. То есть с его помощью можно вывести формулу модели и построить график, визуализирующий данную модель. 

Статистика в R : корреляционный анализ

 Изучение регрессии в R будем на примере работы с встроенными в R данными mtcars. Посмотрим help по этому датафрейму :

Эти данные были извлечены из журнала Motor Trend США в 1974 году, и включает в себя потребление топлива и 10 аспектов автомобильного дизайна и производительности для 32 автомобилей (1973-74 моделей).

суббота, 29 августа 2020 г.

Временные ряды в R : tsibble объекты

Для работы с временными рядами в соответствии с принципами организации и хранения “опрятных данных” (“tidy data”) и использовании  инструментов из группы tidyverse группа исследователей под руководством проф. Роба Хиндмана (Rob Hyndman) разработала новый формат объекта tsibble, реализованный в пакете tsibble.

суббота, 18 июля 2020 г.

Временные ряды в R : сезонная модель ARIMA

Модель сезонного авторегрессионного интегрированного скользящее среднего, SARIMA или Seasonal ARIMA, является расширением ARIMA, которая явно поддерживает одномерные данные временных рядов с сезонным компонентом.

суббота, 4 июля 2020 г.

Временные ряды : скользящее среднее

Простое скользящая среднее


Метод скользящих средних можно считать развитием метода прогнозирования по среднему. Только при скользящих средних используются для осреднения не все значения, а к-последних. Как только новое наблюдение становится доступным, оно включается в осреднение, а наиболее старое исключается. Уравнение для скользящего среднего имеет вид 

$$A_{t}=\frac{1}{k}\sum_{t-k+1}^{t}x_{t}$$

среда, 24 июня 2020 г.

Временные ряды в R : измерение ошибки прогноза

Необходимым элементом в прогнозировании временных рядов являются методы измерения и оценки ошибки прогноза. Задача состоит в том, чтобы найти оптимальный способ оценить различные методы прогнозирования, чтобы решить какие методы лучше всего подходят для прогнозирования данного временного ряда.

суббота, 20 июня 2020 г.

R : графика ggplot2

В среде R представлены 3 разные системы построения графиков. Изначально в эту систему была заложена так называемая базовая графика, base graphics, позже появилась система lattice, которая позволяет комбинировать несколько графиков в виде такого комбинированного рисунка, и позже появилась система ggplot2, которую будем рассматривать в этой статье.

суббота, 13 июня 2020 г.

R : работа с данными

Единицей данных в нашем случае будет таблица или в объектах R - dataframe. В этой статье рассмотрим основные методы работы с данными, представленными в виде таблицы. Для примера используем дневные продажи розничного магазина одежды. Загружаем данные и смотрим на его содержание и структуру.

суббота, 6 июня 2020 г.

R : работа с факторами


Преобразование символьного вектора в факторный

Допустим у нас есть символьный вектор, состоящий из двух значений "w" и "h", причем "w" повторяется 5 раз, а "h" два. И нам необходимо вывести количество повторений каждого символа в векторе. Попробуем воспользоваться для этого функцией summary и построить график с помощью функции plot.

воскресенье, 31 мая 2020 г.

Временные ряды : подготовка к прогнозированию

Рассмотрев основные методы анализа временных рядов переходим к подготовке к главному этапу работы - прогнозированию. Перед тем, как начать рассматривать различные модели прогнозирования остановимся на следующих вопросах :
               разбиение временного ряда на обучающую и тестирующую части
               оценка точности (адекватности) получаемых прогнозов

Временные ряды : сезонность временного ряда


Сезонность является одним из основных компонентов временного ряда. Она играет ключевую роль в прогнозирование таких временных рядов, как посещаемость и выручка розничных магазинов, так как это род вида деятельности носит ярко выраженный сезонный характер. В этой статье мы остановимся на методах и подходах к идентификации и классификации сезонных моделей подобных временных рядов. Рассмотрим использование описательных инструментов статистики, а также рассмотрим методы визуализации.

Временные ряды : декомпозиция временного ряда

При прогнозировании удобно представить временной ряд как комбинацию трех компонент : тренд, сезонность и случайная компонента. В результате получаем две модели временного ряда :

 аддитивная модель Yt = Tt + St +et. 

 мультипликативная Yt = Tt*St*et.

Функция decompose из пакета stats делает такое разложение. Применим ее для нашего месячного временного ряда, рассмотрим отдельно аддитивную и мультипликативную модель.

суббота, 30 мая 2020 г.

Временные ряды в R : объект класса ts



В R существует специальный класс объектов для работы с данными, представляющими собой временные ряды - ts (от time series - временной ряд).
Объект класса ts - это двумерный объект, в котором строки - это номер цикла (периода) например, год, месяц, неделя, а столбцы - единицы цикла (периода) например дни, месяцы, недели. Цикл (период) состоит из элементов цикла , количество элементов определяется частотой.


Временные ряды в R : модель временного ряда

Для проработки методов прогнозирования временных рядов в R необходимы примеры, на которых можно было наглядно представить, как эти методы работают. Конечно особых проблем для этого нет, в литературе по R много ссылок на различные датафреймы с данными по временным рядам. Но хотелось бы иметь временной ряд, близкий к задачам, которыми занимаешься и ,что очень важно для дальнейшей проработки, с понятной структурой. Поэтому для себя я решил сделать такой датафрейм, использую мультипликативную модель временного ряда.