Ключевые основы автоматического выбора алгоритмов кластеризации мультимодальных данных на основе мета-обучения

Wait 5 sec.

Задача кластеризации относится к классу «обучения без учителя» и является фундаментальным инструментом exploratory data analysis (разведочный анализ данных). В отличие от классификации, здесь отсутствует размеченный набор данных или какая-либо заведомо известная информация о нём. Алгоритм самостоятельно выявляет критерий группировки объектов, и именно в этой самостоятельности кроется ключевая проблема: отсутствие априорной разметки делает оценку результатов крайне субъективной, так как разные алгоритмы обладают уникальным индуктивным смещением (inductive bias), проецируя различные предположения о геометрии и плотности скрытых классов. Универсальный алгоритм, который подходит для всех задач, построить невозможно (теорема Клейнберга, являющаяся следствием более общей теоремы о «бесплатном обеде»), поэтому алгоритмы кластеризации нужно подбирать и настраивать почти для каждой задачи отдельно. Задача выбора и настройки алгоритма машинного обучения является экспертной, что достаточно затратно по времени, поскольку работа выполняется человеком фактически вручную.Особую сложность представляет кластеризация мультимодальных данных. В прикладных областях, таких как биоинформатика, анализ медиа-контента, медицинская диагностика и мониторинг сложных технических объектов, данные чаще всего представлены в мультимодальном виде. Это означает, что каждый анализируемый объект одновременно описывается гетерогенными источниками информации — структурированными числовыми векторами, неструктурированными текстами, изображениями или временными рядами. Ключевой сложностью при построении систем автоматической кластеризации для мультимодальных данных является разработка эффективного способа слияния (fusion) разнородных признаковых пространств с сохранением уникальной внутренней структуры каждой модальности. Читать далее