Кластеризация при помощи пустых кластеров

Авторы

DOI:

https://doi.org/10.24866/2311-2271/2024-2/1132

Ключевые слова:

кластеризация, кластерный анализ, пустые кластеры, заполнение пропусков, машинное обучение

Аннотация

Кластерный анализ широко используется в различных научных и практических областях, связанных с анализом данных. Это важный инструмент для решения задач в таких областях, как машинное обучение, обработка изображений, распознавание текста и т.д. Отсутствие наблюдений не всегда означает отсутствие информации, поэтому предполагается, что наличие пробелов в данных, наличиепустыхкластеров, также несёт в себе информацию об объекте исследования, как и реальные наблюдения. В этом исследовании предполагается, что мы не наблюдаем не только переменную, но и целый набор объектов, образующих отдельный кластер. Таким образом, предполагается, что отсутствующее в данных — это не факт отсутствия кластера объектов как такового, а потенциально существующие объекты, которые отсутствуют в нашей выборке. Предлагается алгоритм для определения потенциальных “пустых” кластеров для одномерных и двумерных наборов данных, учитывая их размер и расположение в пространстве признаков в зависимости от исходного распределения выборок. Реализован метод заполнения этих пробелов и оценки смещения центроидов начальной кластеризации при учёте пустого кластера. Продемонстрировано применение этого подхода для удаления выбросов из данных.

Биографии авторов

  • Генрих Пеникас, Банк России

    доктор экономических наук, профессор, руководитель проекта, Департамент исследований и прогнозирования

  • Юрий Феста, Сбербанк

    менеджер Департамента противодействия мошенничеству

Опубликован

16-08-2024

Как цитировать

Кластеризация при помощи пустых кластеров. (2024). Известия Дальневосточного федерального университета. Экономика и управление, 2, 76-94. https://doi.org/10.24866/2311-2271/2024-2/1132