Connect with us

Hi, what are you looking for?

Наука и технологии

Найдена проблема, сбивающая с толку современный искусственный интеллект

Представьте, что вы просматриваете фотографии на своем телефоне и натыкаетесь на изображение, которое сначала не можете распознать. Похоже на что-то нечеткое на диване; может это быть подушка или пальто? Через пару секунд щелкает — конечно! Этот пух — кот твоего друга Мокко. Хотя некоторые из ваших фотографий можно было понять мгновенно, почему с фотографией кота было намного сложнее?

Исследователи Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) были удивлены, обнаружив, что, несмотря на решающую важность понимания визуальных данных в ключевых областях От здравоохранения до транспорта и бытовых устройств — понятие сложности распознавания изображений для людей почти полностью игнорируется.

Одной из основных движущих сил прогресса в области искусственного интеллекта на основе глубокого обучения стали наборы данных, однако мы мало знаем о том, как данные способствуют прогрессу в крупномасштабном глубоком обучении, за исключением того, что чем больше, тем лучше.

В реальных приложениях, требующих понимания визуальных данных, люди превосходят модели распознавания объектов, несмотря на то, что модели хорошо работают с текущими наборами данных, в том числе те, которые специально созданы для того, чтобы бросить вызов машинам с помощью искаженных изображений или изменений в дистрибуции.

Эта проблема сохраняется отчасти потому, что у нас нет указаний относительно абсолютной сложности изображения или набора данных. Без учета сложности изображений, используемых для оценки, трудно объективно оценить прогресс в достижении производительности человеческого уровня, охватить диапазон человеческих способностей и усложнить задачу, создаваемую набором данных.

Чтобы восполнить этот пробел в знаниях, Дэвид Мэйо, доктор философии Массачусетского технологического института. Студент факультета электротехники и информатики и член CSAIL погрузился в глубокий мир наборов данных изображений, исследуя, почему одни изображения труднее распознавать людям и машинам, чем другие.

«Распознавание некоторых изображений по своей природе требует больше времени, и важно понимать активность мозга во время этого процесса и ее связь с моделями машинного обучения. Возможно, в наших нынешних моделях отсутствуют сложные нейронные цепи или уникальные механизмы, видимые только при тестировании со сложными визуальными стимулами. Это исследование имеет решающее значение для понимания и улучшения моделей машинного зрения», — сказал он. говорит Мэйо, ведущий автор новой статьи об этой работе.

Это привело к разработке нового показателя — «минимального времени просмотра». (MVT), который количественно определяет сложность распознавания изображения на основе того, как долго человеку необходимо его рассматривать, прежде чем правильно идентифицировать.

Используя подмножество ImageNet, популярного набора данных в машинном обучении, и ObjectNet, набора данных, предназначенного для проверки надежности распознавания объектов, команда показывала участникам изображения различной продолжительности от 17 миллисекунд до 10 секунд и просила их выберите правильный объект из набора из 50 вариантов.

После более чем 200 000 испытаний представления изображений команда обнаружила, что существующие тестовые наборы, включая ObjectNet, склонны к более простым и коротким изображениям MVT, при этом подавляющее большинство тестов производительности было получено на изображениях, которые удобны для человека.

Проект выявил интересные тенденции в производительности моделей, особенно в отношении масштабирования. Более крупные модели показали значительное улучшение на простых изображениях, но добились меньшего прогресса на более сложных изображениях. Модели CLIP, включающие в себя как язык, так и видение, выделились по мере продвижения в направлении более человеческого распознавания.

«Традиционно наборы данных для распознавания объектов были смещены в сторону менее сложных изображений, и эта практика привела к завышению показателей производительности модели, что не отражает в полной мере надежность модели или ее способность решать сложные визуальные задачи». Наше исследование показывает, что более твердые изображения представляют собой более острую проблему, вызывая сдвиг в распределении, который часто не учитывается в стандартных оценках», — сказал он. — говорит Мэйо.

«Мы выпустили наборы изображений, помеченных по сложности, а также инструменты для автоматического расчета MVT, что позволяет добавлять MVT к существующим тестам и распространять его на различные приложения. К ним относятся измерение сложности набора тестов перед развертыванием реальных систем, обнаружение нейронных коррелятов сложности изображений и совершенствование методов распознавания объектов, позволяющих сократить разрыв между эталонными и реальными показателями».

«Один из моих самых важных выводов заключается в том, что теперь у нас есть еще одно измерение для оценки моделей. Нам нужны модели, которые способны распознавать любое изображение, даже если — возможно, особенно если — человеку трудно его распознать. Мы первые, кто количественно оценил, что это будет означать. Наши результаты показывают, что это не только не соответствует сегодняшнему состоянию техники, но также и то, что наши текущие методы оценки не могут сказать нам, когда это так, потому что стандартные наборы данных настолько склонен к простым изображениям», — говорит Джесси Каммингс, аспирант Массачусетского технологического института в области электротехники и информатики и соавтор статьи вместе с Мэйо.

От ObjectNet к MVT

Несколько лет назад команда, стоящая за этим проектом, выявила серьезную проблему в области машинного обучения: модели боролись с нераспределенными изображениями или изображениями, которые не были хорошо представлены в обучающих данных. Встречайте ObjectNet, набор данных, состоящий из изображений, собранных в реальных условиях.

Набор данных помог выявить разрыв в производительности между моделями машинного обучения и способностями человеческого распознавания, устранив ложные корреляции, присутствующие в других тестах, например, между объектом и его фоном. ObjectNet выявил разрыв между производительностью моделей машинного зрения в наборах данных и в реальных приложениях, поощрив их использование многими исследователями и разработчиками, что впоследствии улучшило производительность моделей.

Перенесемся в настоящее: команда продвинула свои исследования на шаг дальше с помощью MVT. В отличие от традиционных методов, ориентированных на абсолютную производительность, этот новый подход оценивает работу моделей, сравнивая их реакции с самыми простыми и самыми сложными изображениями.

В исследовании дополнительно изучалось, как можно объяснить трудности с изображением и проверить их сходство с обработкой зрительного восприятия человека. Используя такие показатели, как c-score, глубина прогнозирования и устойчивость к состязаниям, команда обнаружила, что более сложные изображения обрабатываются сетями по-разному. «Хотя существуют наблюдаемые тенденции, например, когда более простые изображения становятся более прототипичными, всеобъемлющее семантическое объяснение сложности изображений продолжает ускользать от научного сообщества», — сказал он. — говорит Мэйо.

Например, в сфере здравоохранения актуальность понимания сложности визуального восприятия становится еще более очевидной. Способность моделей ИИ интерпретировать медицинские изображения, такие как рентгеновские снимки, зависит от разнообразия и сложности распределения изображений. Исследователи выступают за тщательный анализ распределения трудностей, адаптированный для профессионалов, гарантируя, что системы ИИ оцениваются на основе экспертных стандартов, а не интерпретаций непрофессионала.

Мэйо и Каммингс в настоящее время также изучают неврологические основы зрительного распознавания, исследуя, проявляет ли мозг различную активность при обработке простых и сложных изображений. Исследование направлено на то, чтобы выяснить, задействуют ли сложные изображения дополнительные области мозга, обычно не связанные с обработкой визуальных данных, и, как мы надеемся, поможет прояснить, как наш мозг точно и эффективно декодирует визуальный мир.

К производительности человеческого уровня

Заглядывая в будущее, исследователи сосредоточены не только на изучении способов улучшения прогнозирующих возможностей ИИ в отношении сложности изображений. Команда работает над выявлением корреляций со сложностью просмотра, чтобы создавать более сложные или простые версии изображений.

Несмотря на значительные успехи исследования, исследователи признают наличие ограничений, особенно в плане отделения распознавания объектов от задач визуального поиска. Текущая методология концентрируется на распознавании объектов, игнорируя сложности, связанные с загроможденными изображениями.

«Этот комплексный подход решает давнюю проблему объективной оценки прогресса в области распознавания объектов на уровне человека и открывает новые возможности для понимания и развития этой области», — сказал он. — говорит Мэйо.

«Благодаря возможности адаптировать метрику сложности «Минимальное время просмотра» для различных визуальных задач эта работа прокладывает путь к более надежному, подобному человеческому, распознаванию объектов, гарантируя, что модели действительно подвергнуты испытанию и готовы к работе. сложности визуального понимания реального мира».

«Это увлекательное исследование того, как человеческое восприятие можно использовать для выявления слабых мест в способах сравнительного анализа моделей зрения ИИ, которые переоценивают производительность ИИ, концентрируясь на простых изображениях», — сказал он. — говорит Алан Л. Юлль, заслуженный профессор когнитивных наук и компьютерных наук Bloomberg в Университете Джонса Хопкинса, который не участвовал в написании статьи.

«Это поможет разработать более реалистичные критерии, ведущие не только к улучшению ИИ, но и к более справедливому сравнению между ИИ и человеческим восприятием».

«Широко распространено мнение, что системы компьютерного зрения сейчас превосходят людей, и на некоторых базовых наборах данных это правда», — сказал он. говорит технический сотрудник Anthropic Саймон Корнблит, доктор философии. №17, который также не принимал участия в этой работе.

«Однако большая часть трудностей в этих тестах связана с неясностью того, что изображено на изображениях; среднестатистический человек просто не знает достаточно, чтобы классифицировать разные породы собак. Вместо этого эта работа фокусируется на изображениях, которые люди смогут получить правильно, только если им будет уделено достаточно времени. Эти изображения, как правило, гораздо сложнее обрабатывать системами компьютерного зрения, но лучшие системы лишь немногим хуже, чем люди».

Найдена проблема, сбивающая с толку современный искусственный интеллект

Теги: ИИ, распознавание