В этой статьей разберем несколько самых популярных методов кластеризации и методов оценки их эффективности. Для начала сгенерируем тестовый набор данных и рассмотрим способы его визуализации. Для создания тестового набора данных используем функцию make_blobs. Задаем количество элементов 100 и количество кластеров 4. Каждый элемент имеет два показателя для того, чтобы могли реализовать двумерный график. Кластеры имеют разные стандартное отклонение, то есть некоторые кластеры более рассеиваются, чем другие. Функция также возвращает метки кластеров, они понадобятся, чтобы проверить качество работы алгоритма.