Connect with us

Hi, what are you looking for?

Наука и технологии

Google’s Gemini: действительно ли новая модель искусственного интеллекта лучше, чем ChatGPT?

Google Deepmind недавно анонсировала Gemini, свою новую модель искусственного интеллекта, которая будет конкурировать с ChatGPT OpenAI. Хотя обе модели являются примерами «генеративного ИИ», которые учатся находить шаблоны входной обучающей информации для создания новых данных (изображений, слов или других медиафайлов), ChatGPT – это большая языковая модель (LLM), ориентированная на создание текста.

Подобно тому, как ChatGPT — это веб-приложение для разговоров, основанное на нейронной сети, известной как GPT (обученной на огромных объемах текста), у Google есть диалоговое веб-приложение под названием Бард, основанный на модели под названием LaMDA (обученной на диалоге). Но сейчас Google обновляет его на основе Gemini.

Что отличает Gemini от более ранних моделей генеративного ИИ, таких как LaMDA, так это то, что это «мультимодальная модель». Это означает, что он работает напрямую с несколькими режимами ввода и вывода: помимо поддержки ввода и вывода текста, он поддерживает изображения, аудио и видео. Соответственно, появляется новая аббревиатура: LMM (большая мультимодальная модель), не путать с LLM.

В сентябре OpenAI анонсировала модель под названием GPT-4Vision, которая также может работать с изображениями, звуком и текстом. Однако это не полностью мультимодальная модель, какой обещает быть Gemini.

Например, хотя ChatGPT-4, работающий на GPT-4V, может работать с аудиовходами и генерировать речевой вывод, OpenAI подтвердил что это делается путем преобразования речи в текст при вводе с использованием другой модели глубокого обучения под названием Whisper. ChatGPT-4 также преобразует текст в речь на выходе, используя другую модель, а это означает, что сам GPT-4V работает исключительно с текстом.

Аналогичным образом ChatGPT-4 может создавать изображения, но делает это путем создания текстовых подсказок, которые передаются в отдельную модель глубокого обучения, называемую Dall-E 2, преобразующий текстовые описания в изображения.

Напротив, Google разработал Gemini как «мультимодальный по своей сути». Это означает, что базовая модель напрямую обрабатывает ряд типов входных данных (аудио, изображения, видео и текст), а также может их напрямую выводить.

Вердикт

Различие между этими двумя подходами может показаться академическим, но оно важно. Общий вывод из технического отчета Google и других качественных тестов на сегодняшний день заключается в том, что текущая общедоступная версия Gemini, называемая Gemini 1.0 Pro, в целом не так хороша, как GPT-4, и по своим возможностям больше похожа на GPT 3.5.

Google также анонсировала более мощную версию Gemini под названием Gemini 1.0 Ultra и представила некоторые результаты, показывающие, что она более мощная, чем GPT-4. Однако оценить это сложно по двум причинам. Первая причина заключается в том, что Google еще не выпустил Ultra, поэтому в настоящее время результаты не могут быть проверены независимо.

Вторая причина, по которой сложно оценить заявления Google, заключается в том, что компания решила выпустить несколько вводящее в заблуждение демонстрационное видео, см. ниже. На видео видно, как модель Близнецов интерактивно и плавно комментирует прямую трансляцию видео.

Однако, как первоначально сообщил Bloomberg, демонстрация на видео не проводилась в реальном времени. Например, модель заранее выучила некоторые конкретные задачи, такие как трюк с тремя чашками и мячами, где Близнецы отслеживают, под какой чашкой находится мяч. Для этого ему была предоставлена ​​серия неподвижных изображений, на которых руки ведущего лежат на меняющихся чашках.

Многообещающее будущее

Несмотря на эти проблемы, я считаю, что Gemini и большие мультимодальные модели — это чрезвычайно захватывающий шаг вперед для генеративного ИИ. Это связано как с их будущими возможностями, так и с конкурентной средой инструментов искусственного интеллекта. Как я отмечал в предыдущей статье, GPT-4 был обучен примерно на 500 миллиардах слов — по сути, это все общедоступные тексты хорошего качества.

Производительность моделей глубокого обучения обычно зависит от увеличения сложности модели и объема обучающих данных. Это привело к вопросу о том, как можно добиться дальнейших улучшений, поскольку у нас почти закончились новые данные для обучения языковых моделей. Однако мультимодальные модели открывают огромные новые резервы обучающих данных — в форме изображений, аудио и видео.

ИИ, такие как Gemini, которые можно напрямую обучать на всех этих данных, вероятно, будут иметь гораздо большие возможности в будущем. Например, я ожидаю, что модели, обученные на видео, разовьют сложные внутренние представления того, что называется «наивной физикой». Это базовое представление людей и животных о причинности, движении, гравитации и других физических явлениях.

Меня также воодушевляет то, что это означает для конкурентной среды ИИ. За прошедший год, несмотря на появление множества генеративных моделей ИИ, модели OpenAI GPT доминировали, демонстрируя уровень производительности, к которому другие модели не смогли приблизиться.

Gemini от Google сигнализирует о появлении крупного конкурента, который поможет продвинуть эту отрасль вперед. Конечно, OpenAI почти наверняка работает над GPT-5, и мы можем ожидать, что он также будет мультимодальным и продемонстрирует новые замечательные возможности.

С учетом вышесказанного я очень рад появлению очень крупных мультимодальных моделей с открытым исходным кодом и некоммерческими, которые, я надеюсь, появятся в ближайшие годы.

Мне также нравятся некоторые особенности реализации Gemini. Например, Google анонсировала версию под названием Gemini Nano, которая намного легче и может работать непосредственно на мобильных телефонах.

Подобные легкие модели уменьшают воздействие вычислений ИИ на окружающую среду и имеют множество преимуществ с точки зрения конфиденциальности, и я уверен, что это развитие приведет к тому, что конкуренты последуют этому примеру.

Теги: Google, ИИ