Статистика и анализ данных : теория и практика: 2020

суббота, 5 декабря 2020 г.

Статистика с Python : дискретные распределения

Распределение дискретной случайной величины - это полный список всех ее возможных значений с проставленными вероятностями этих значений.

Дальше »

Статистика в Python : непрерывные распределения

В непрерывном распределении вероятностей переменная может принимать любое действительное число. Она не ограничена конечным набором значений, как это имеет место в дискретном распределении вероятностей, например, вес здорового новорожденного ребенка может варьироваться примерно от 2,5 до 4,5 кг

Непрерывное распределение вероятностей характеризуется функцией плотности вероятности (PDF). Сумма всех вероятностей, которые может принять случайная величина, равна 1. Таким образом, площадь под графиком функции плотности вероятности равна 1.

Дальше »

четверг, 26 ноября 2020 г.

Машинное обучение с Python : кластерный анализ

В этой статьей разберем несколько самых популярных методов кластеризации и методов оценки их эффективности. Для начала сгенерируем тестовый набор данных и рассмотрим способы его визуализации. Для создания тестового набора данных используем функцию make_blobs. Задаем количество элементов 100 и количество кластеров 4. Каждый элемент имеет два показателя для того, чтобы могли реализовать двумерный график. Кластеры имеют разные стандартное отклонение, то есть некоторые кластеры более рассеиваются, чем другие. Функция также возвращает метки кластеров, они понадобятся, чтобы проверить качество работы алгоритма.

Дальше »

пятница, 13 ноября 2020 г.

NumPy: матрицы и операции над ними

Создание матриц

Приведем несколько способов создания матриц в NumPy

Дальше »

воскресенье, 18 октября 2020 г.

Статистика в R : диагностика линейной модели

Подобрав линейную модель мы еще не знаем, насколько мы можем доверять тому, что видим, насколько зависимость действительно существует. Для ответа на этот вопрос нужен статистический тест, и таких тестов возможно два. Есть два способа тестировать значимость связи, мы можем проверить, значима ли модель в целом, при помощи F-критерия, или мы можем проверить значимость конкретных коэффициентов, и тут мы можем использовать два способа:t-критерий и тот же F-критерий.

Дальше »

суббота, 10 октября 2020 г.

Статистика в R : простая линейная регрессия

Регрессионный анализ является развитием идеи корреляционного анализа. Корреляционный анализ позволяет выявить силу и направление связи, а также оценить статистическую значимость этой связи. Регрессионный анализ дает возможность построить модель, описывающую эту связь. То есть с его помощью можно вывести формулу модели и построить график, визуализирующий данную модель.

Дальше »

Статистика в R : корреляционный анализ

Изучение регрессии в R будем на примере работы с встроенными в R данными mtcars. Посмотрим help по этому датафрейму :

Эти данные были извлечены из журнала Motor Trend США в 1974 году, и включает в себя потребление топлива и 10 аспектов автомобильного дизайна и производительности для 32 автомобилей (1973-74 моделей).

Дальше »

суббота, 29 августа 2020 г.

Временные ряды в R : tsibble объекты

Для работы с временными рядами в соответствии с принципами организации и хранения “опрятных данных” (“tidy data”) и использовании инструментов из группы tidyverse группа исследователей под руководством проф. Роба Хиндмана (Rob Hyndman) разработала новый формат объекта tsibble, реализованный в пакете tsibble.

Дальше »

суббота, 18 июля 2020 г.

Временные ряды в R : сезонная модель ARIMA

Модель сезонного авторегрессионного интегрированного скользящее среднего, SARIMA или Seasonal ARIMA, является расширением ARIMA, которая явно поддерживает одномерные данные временных рядов с сезонным компонентом.

Дальше »

суббота, 4 июля 2020 г.

Временные ряды : скользящее среднее

Простое скользящая среднее

Метод скользящих средних можно считать развитием метода прогнозирования по среднему. Только при скользящих средних используются для осреднения не все значения, а к-последних. Как только новое наблюдение становится доступным, оно включается в осреднение, а наиболее старое исключается. Уравнение для скользящего среднего имеет вид

$$A_{t}=\frac{1}{k}\sum_{t-k+1}^{t}x_{t}$$

Дальше »

среда, 24 июня 2020 г.

Временные ряды в R : измерение ошибки прогноза

Необходимым элементом в прогнозировании временных рядов являются методы измерения и оценки ошибки прогноза. Задача состоит в том, чтобы найти оптимальный способ оценить различные методы прогнозирования, чтобы решить какие методы лучше всего подходят для прогнозирования данного временного ряда.

Дальше »

суббота, 20 июня 2020 г.

R : графика ggplot2

В среде R представлены 3 разные системы построения графиков. Изначально в эту систему была заложена так называемая базовая графика, base graphics, позже появилась система lattice, которая позволяет комбинировать несколько графиков в виде такого комбинированного рисунка, и позже появилась система ggplot2, которую будем рассматривать в этой статье.

Дальше »

суббота, 13 июня 2020 г.

R : работа с данными

Единицей данных в нашем случае будет таблица или в объектах R - dataframe. В этой статье рассмотрим основные методы работы с данными, представленными в виде таблицы. Для примера используем дневные продажи розничного магазина одежды. Загружаем данные и смотрим на его содержание и структуру.

Дальше »

суббота, 6 июня 2020 г.

R : работа с факторами

Преобразование символьного вектора в факторный

Допустим у нас есть символьный вектор, состоящий из двух значений "w" и "h", причем "w" повторяется 5 раз, а "h" два. И нам необходимо вывести количество повторений каждого символа в векторе. Попробуем воспользоваться для этого функцией summary и построить график с помощью функции plot.

Дальше »

воскресенье, 31 мая 2020 г.

Временные ряды : подготовка к прогнозированию

Рассмотрев основные методы анализа временных рядов переходим к подготовке к главному этапу работы - прогнозированию. Перед тем, как начать рассматривать различные модели прогнозирования остановимся на следующих вопросах :
разбиение временного ряда на обучающую и тестирующую части
оценка точности (адекватности) получаемых прогнозов

Дальше »

Временные ряды : сезонность временного ряда

Сезонность является одним из основных компонентов временного ряда. Она играет ключевую роль в прогнозирование таких временных рядов, как посещаемость и выручка розничных магазинов, так как это род вида деятельности носит ярко выраженный сезонный характер. В этой статье мы остановимся на методах и подходах к идентификации и классификации сезонных моделей подобных временных рядов. Рассмотрим использование описательных инструментов статистики, а также рассмотрим методы визуализации.

Дальше »

Временные ряды : декомпозиция временного ряда

При прогнозировании удобно представить временной ряд как комбинацию трех компонент : тренд, сезонность и случайная компонента. В результате получаем две модели временного ряда :

аддитивная модель Yt = Tt + St +et.

мультипликативная Yt = Tt*St*et.

Функция decompose из пакета stats делает такое разложение. Применим ее для нашего месячного временного ряда, рассмотрим отдельно аддитивную и мультипликативную модель.

Дальше »

суббота, 30 мая 2020 г.

Временные ряды в R : объект класса ts

В R существует специальный класс объектов для работы с данными, представляющими собой временные ряды - ts (от time series - временной ряд).

Объект класса ts - это двумерный объект, в котором строки - это номер цикла (периода) например, год, месяц, неделя, а столбцы - единицы цикла (периода) например дни, месяцы, недели. Цикл (период) состоит из элементов цикла , количество элементов определяется частотой.

Дальше »

Временные ряды в R : модель временного ряда

Для проработки методов прогнозирования временных рядов в R необходимы примеры, на которых можно было наглядно представить, как эти методы работают. Конечно особых проблем для этого нет, в литературе по R много ссылок на различные датафреймы с данными по временным рядам. Но хотелось бы иметь временной ряд, близкий к задачам, которыми занимаешься и ,что очень важно для дальнейшей проработки, с понятной структурой. Поэтому для себя я решил сделать такой датафрейм, использую мультипликативную модель временного ряда.

Дальше »

Подписаться на: Комментарии (Atom)