Connect with us

Hi, what are you looking for?

Наука и технологии

Разрабатывается более быстрый и дешевый способ обучения больших языковых моделей

Команда из Стэнфорда разработала Sophia — новый способ оптимизации предварительной подготовки больших языковых моделей, который в два раза быстрее существующих подходов.

ChatGPT и другие приложения, основанные на больших языковых моделях (LLM), получают широкое распространение и привлекают большое внимание средств массовой информации. Но горстка крупных технологических компаний доминирует в пространстве LLM, потому что предварительное обучение этих моделей чрезвычайно дорого, с оценками затрат, начинающимися с 10 миллионов долларов и потенциально достигающими десятков или сотен раз больше.

«Большие языковые модели не очень доступны для небольших организаций или академических групп», — говорит Хун Лю, аспирант компьютерных наук Стэнфордского университета.

Чтобы изменить это, Лю и его коллеги решили улучшить существующие методы оптимизации LLM. Результат: подход под названием Sophia, который вдвое сокращает время предварительной подготовки. Детали этого подхода опубликованы на сервере препринтов arXiv .

Оптимизация оптимизации

Чтобы оптимизировать предварительную подготовку LLM, Лю и его коллеги, в том числе научный сотрудник Стэнфордского университета Чжиюань Ли, стэнфордский инженер-исследователь Дэвид Холл, доцент кафедры компьютерных наук Тэнью Ма и доцент Перси Лян, использовали два приема. Первый, известный как оценка кривизны , не нов, но команда из Стэнфорда нашла способ сделать его более эффективным.

Чтобы понять их подход, рассмотрим заводскую сборочную линию. Чтобы работать эффективно, директору фабрики необходимо оптимизировать количество шагов, необходимых для превращения сырья в конечный продукт, а также понимать и соответствующим образом распределять рабочую нагрузку на каждом этапе производственной линии.

То же самое верно и для предварительной подготовки LLM. Эти модели имеют миллионы или даже миллиарды параметров, которые Лю сравнивает с фабричными рабочими, стремящимися к одним и тем же целям. Одним из свойств этих параметров является их кривизна, которую Лю считает максимально достижимой скоростью, которую они достигают по мере продвижения к конечной цели предварительно обученного LLM. В фабричной метафоре кривизна сродни рабочей нагрузке фабричного рабочего.

Если программа оптимизации может оценить эту кривизну (рабочую нагрузку), она может сделать предварительное обучение LLM более эффективным. Проблема вот в чем: оценка кривизны существующими методами чрезвычайно сложна и дорога. «На самом деле, это дороже, чем выполнение реальной работы без прогнозирования кривизны», — говорит Лю. Отчасти поэтому современные современные подходы к оптимизации предобучения LLM (Adam и его варианты) отказываются от этапа оценки кривизны.

Тем не менее, Лю и его коллеги заметили возможную неэффективность предыдущих методов, в которых использовалась параметрическая оценка кривизны: предыдущие исследователи обновляли свои оценки кривизны на каждом этапе оптимизации. Стэнфордская команда задалась вопросом, смогут ли они сделать процесс более эффективным, уменьшив количество обновлений.

Чтобы проверить эту идею, команда из Стэнфорда разработала Sophia для оценки кривизны параметров только примерно через каждые 10 шагов. «Это оказалось огромной победой, — говорит Лю.

Второй прием команды оптимизации, называемый отсечением, решает родственную проблему: проблему неточной оценки кривизны. «Если оценка неверна, это все равно, что дать людям с тяжелой работой еще больше работы. Это усугубляет ситуацию, чем если бы оценки вообще не было».

Отсечение предотвращает это, устанавливая пороговое значение или оценку максимальной кривизны. «Если использовать метафору нашей фабрики, это все равно, что установить ограничение рабочей нагрузки для всех сотрудников, — говорит Лю. Другая метафора, часто применяемая к оптимизации, — это ландшафт холмов и долин, где цель — оказаться в самой низкой долине. Лю говорит, что без отсечения можно приземлиться на седловину между двумя горами. «В оптимизации это не то, чего вы хотите, — говорит он.

Тестирование Sophia и масштабирование

Лю и его коллеги использовали Sophia для предварительной подготовки относительно небольшого LLM, используя тот же размер модели и конфигурацию, которые использовались для создания OpenAI GPT-2.

Комбинация Sophia оценки кривизны и отсечения позволила предобучительной оптимизации LLM плавно перейти к самой низкой долине за половину количества шагов и вдвое меньше времени, чем требовал Адам.

«Адаптивность Софии отличает ее от Адама, — говорит Лю. «Адаму сложнее обрабатывать параметры с разнородной кривизной, потому что он не может предсказать их заранее».

По словам Лю , впервые за девять лет кто-то продемонстрировал существенное улучшение по сравнению с Адамом в предварительном обучении языковой модели . «Это может означать огромное снижение стоимости обучения реальных больших моделей». По его словам, по мере масштабирования моделей преимущества Sophia должны только увеличиваться.

Затем Лю и его коллеги надеются разработать более крупную LLM, используя Sophia. Он также надеется увидеть применение Софии в других областях машинного обучения, таких как модели компьютерного зрения или мультимодальные модели. «Потребуется некоторое время и ресурсы, чтобы перенести Sophia на новый домен, но, поскольку это открытый исходный код, сообщество, безусловно, может это сделать».

Разрабатывается более быстрый и дешевый способ обучения больших языковых моделей

Теги: ИИ