Распределение дискретной случайной величины - это полный список всех ее возможных значений с проставленными вероятностями этих значений.
суббота, 5 декабря 2020 г.
Статистика в Python : непрерывные распределения
четверг, 26 ноября 2020 г.
Машинное обучение с Python : кластерный анализ
В этой статьей разберем несколько самых популярных методов кластеризации и методов оценки их эффективности. Для начала сгенерируем тестовый набор данных и рассмотрим способы его визуализации. Для создания тестового набора данных используем функцию make_blobs. Задаем количество элементов 100 и количество кластеров 4. Каждый элемент имеет два показателя для того, чтобы могли реализовать двумерный график. Кластеры имеют разные стандартное отклонение, то есть некоторые кластеры более рассеиваются, чем другие. Функция также возвращает метки кластеров, они понадобятся, чтобы проверить качество работы алгоритма.
пятница, 13 ноября 2020 г.
NumPy: матрицы и операции над ними
Создание матриц
Приведем несколько способов создания матриц в NumPy
воскресенье, 18 октября 2020 г.
Статистика в R : диагностика линейной модели
Подобрав линейную модель мы еще не знаем, насколько мы можем доверять тому, что видим, насколько зависимость действительно существует. Для ответа на этот вопрос нужен статистический тест, и таких тестов возможно два. Есть два способа тестировать значимость связи, мы можем проверить, значима ли модель в целом, при помощи F-критерия, или мы можем проверить значимость конкретных коэффициентов, и тут мы можем использовать два способа:t-критерий и тот же F-критерий.
суббота, 10 октября 2020 г.
Статистика в R : простая линейная регрессия
Регрессионный анализ является развитием идеи корреляционного анализа. Корреляционный анализ позволяет выявить силу и направление связи, а также оценить статистическую значимость этой связи. Регрессионный анализ дает возможность построить модель, описывающую эту связь. То есть с его помощью можно вывести формулу модели и построить график, визуализирующий данную модель.
Статистика в R : корреляционный анализ
Изучение регрессии в R будем на примере работы с встроенными в R данными mtcars. Посмотрим help по этому датафрейму :
Эти данные были извлечены из журнала Motor Trend США в 1974 году, и включает в себя потребление топлива и 10 аспектов автомобильного дизайна и производительности для 32 автомобилей (1973-74 моделей).
суббота, 29 августа 2020 г.
Временные ряды в R : tsibble объекты
Для работы с временными рядами в соответствии с принципами организации и хранения “опрятных данных” (“tidy data”) и использовании инструментов из группы tidyverse
группа исследователей под руководством проф. Роба Хиндмана (Rob Hyndman) разработала новый формат объекта tsibble, реализованный в пакете tsibble.
суббота, 18 июля 2020 г.
Временные ряды в R : сезонная модель ARIMA
суббота, 4 июля 2020 г.
Временные ряды : скользящее среднее
Простое скользящая среднее
среда, 24 июня 2020 г.
Временные ряды в R : измерение ошибки прогноза
суббота, 20 июня 2020 г.
R : графика ggplot2
суббота, 13 июня 2020 г.
R : работа с данными
суббота, 6 июня 2020 г.
R : работа с факторами
Преобразование символьного вектора в факторный
Допустим у нас есть символьный вектор, состоящий из двух значений "w" и "h", причем "w" повторяется 5 раз, а "h" два. И нам необходимо вывести количество повторений каждого символа в векторе. Попробуем воспользоваться для этого функцией summary и построить график с помощью функции plot.
воскресенье, 31 мая 2020 г.
Временные ряды : подготовка к прогнозированию
разбиение временного ряда на обучающую и тестирующую части
оценка точности (адекватности) получаемых прогнозов
Временные ряды : сезонность временного ряда
Временные ряды : декомпозиция временного ряда
аддитивная модель Yt = Tt + St +et.
мультипликативная Yt = Tt*St*et.
Функция decompose из пакета stats делает такое разложение. Применим ее для нашего месячного временного ряда, рассмотрим отдельно аддитивную и мультипликативную модель.