Новый алгоритм искусственного интеллекта, разработанный исследователями Финского центра искусственного интеллекта, направлен на максимально четкую визуализацию наборов данных. Проект продемонстрировал, что решение, независимо выбранное алгоритмом, часто было очень близко к тому, которое чаще всего предпочитают люди.
Человеческий мозг обладает поразительной способностью различать черты даже в чрезвычайно большом количестве визуальной информации. Эта способность используется, например, при изучении больших массивов данных, содержание которых необходимо сжать в форму, понятную человеческому разуму. Эта проблема уменьшения размерности является центральной для визуальной аналитики.
В Финском центре искусственного интеллекта (FCAI) исследователи из Университета Аалто и Хельсинкского университета проверили функциональность самых известных методов визуальной аналитики и обнаружили, что ни один из них не работает, когда объем данных значительно вырос. Например, методы t-SNE, LargeViz и UMAP больше не могли различать чрезвычайно сильные сигналы группировок наблюдений в данных, когда число наблюдений исчислялось сотнями тысяч. Исследование опубликовано в журнале Statistics and Computing.
Данные о бозоне Хиггса вдохновили на создание нового алгоритма
Например, набор данных для экспериментов, связанных с открытием бозона Хиггса, содержит более 11 миллионов векторов признаков.
«Визуализации, сделанные на их основе, напоминали клубок пряжи, не раскрывая ни одной из примечательных характеристик поведения частиц, включенных в данные», — говорит профессор статистики и вероятностей Юкка Корандер из Хельсинкского университета.
«Это открытие послужило стимулом для разработки нового метода, который использует графическое ускорение аналогично современным методам искусственного интеллекта для вычислений в нейронных сетях».
Алгоритм искусственного интеллекта, разработанный исследователями, направлен на визуализацию, чтобы кластеры данных и другие макроскопические признаки, легко наблюдаемые и понятные человеку, были максимально отчетливыми.
В рамках проекта несколько добровольцев протестировали технику. Оказалось, что решение, независимо выбранное алгоритмом, часто было очень близко к решению, которое чаще всего предпочитают люди; в этой ситуации человеческий разум четко различает, согласно личным представлениям, кластеры данных, составленные из сходных наблюдений. При применении метода к данным о бозонах Хиггса были четко выделены их наиболее важные физические характеристики.
«Это настоящий качественный скачок в области визуальной аналитики. Помимо того, что наша методика работает на несколько порядков быстрее, чем предыдущие методы, она также намного надежнее в сложных приложениях», — говорит Корандер.
Под руководством группы Корандера также был разработан отдельный интерфейс для максимально эффективного использования этого метода в геномных приложениях. Таким образом, пользователи могут даже интерактивно анализировать свои наборы данных, загружая файлы непосредственно в веб-браузер. Используя глобальные наборы данных о бактериях и SARS-CoV-2 , это дальнейшее исследование показало, как новый инструмент можно использовать для быстрого изучения миллионов геномов и выявления соответствующих характеристик.
Исследование было результатом сотрудничества профессора Сами Каски, директора FCAI, и группы Юкки Корандера. Профессор Чжиронг Ян из Норвежского университета науки и технологий руководил проектом. Профессор Ян имеет докторскую степень Университета Аалто, а впоследствии работал исследователем в Университете Аалто и Хельсинкском университете в группе профессора Корандера.
Теги: ИИ, суперкомпьютер