Результаты для запроса: иерархическая кластеризация

Обнаружение выбросов методом голосования при проведении иерархической кластеризации данных

А.А. Рыбаков Межведомственный суперкомпьютерный центр Российской академии наук – филиал Федерального государственного учреждения «Федеральный научный центр Научно-исследовательский институт системных исследований Российской академии наук», Москва, Россия, физико-математических наук;
С.С. Шумилин Межведомственный суперкомпьютерный центр РАН  филиал НИИСИ РАН, Москва, Россия;

Статья была опубликована в выпуске №3

В настоящее время часто приходится сталкиваться с задачей извлечения полезной информации из большого объема исходных сырых данных. Этот процесс, получивший название Data Mining, объединяет в себе различные подходы к анализу и обработке данных, однако всегда начинается с одного конкретного этапа - очистки данных. Сырые данные, поступающие на вход для анализа, часто оказываются неполными, слабоструктурированными, содержат дублирующую информацию и аномалии. Наличие аномалий в массиве входных данных может привести к неверной трактовке извлекаемой информации, к ошибкам в предсказании и сильно снижает ценность получаемых знаний. Поэтому так актуальна задача разработки новых подходов к устранению аномалий, или выбросов.

В данной статье рассматривается подход к обнаружению выбросов, основанный на иерархической кластеризации данных и применении метода голосования для выявления наиболее вероятных кандидатов на роль выбросов.

Результаты для запроса: иерархическая кластеризация

Обнаружение выбросов методом голосования при проведении иерархической кластеризации данных