Что бы мы делали без сжатия?
Те музыкальные библиотеки и личные коллекции фотографий и видео, которые заставили бы нас покупать один жесткий диск за другим, вместо этого можно сжать в части одного диска.
Сжатие позволяет нам практически мгновенно извлекать объемы данных из Интернета.
Перебои и раздражающие задержки могут испортить разговоры по мобильному телефону без сжатия.
Это позволяет нам повысить цифровую безопасность , транслировать наши любимые фильмы, ускорить анализ данных и сэкономить значительные средства за счет более эффективной цифровой производительности.
Некоторые наблюдатели поэтично высказываются о сжатии. Научно-популярный автор Тор Норретрандерс однажды сказал: «Сжатие больших объемов информации в несколько богатых эксформацией макросостояний с небольшим количеством номинальной информации не только разумно: это очень красиво. Да, даже сексуально. Видеть нагромождение запутанных данных а кусочки механического заучивания, сжатые в краткое и ясное сообщение, могут по-настоящему возбудить».
Анонимный автор описал сжатие как «симфонию современности, превращающую какофонию данных в элегантную и эффективную мелодию».
А футурист Джейсон Луис Сильва Мишкин выразил это лаконично: «В эпоху цифровых технологий сжатие сродни волшебству; оно позволяет нам уместить необъятность мира в наши карманы».
С самого начала цифрового сжатия, когда такие аббревиатуры, как PKZIP, ARC и RAR, стали частью повседневного словаря пользователей компьютеров, исследователи продолжали изучать наиболее эффективные способы сжатия данных во все меньшие и меньшие пакеты. А когда это можно сделать без потери данных, это становится гораздо более ценным.
Исследователи из DeepMind недавно объявили, что обнаружили, что большие языковые модели могут вывести сжатие данных на новый уровень.
В статье «Моделирование языка — это сжатие», опубликованной на сервере препринтов arXiv , Грегуар Делетан рассказал, что большая языковая модель Chinchilla 70B от DeepMind достигла замечательной степени сжатия без потерь изображений и аудиоданных.
Изображения были сжаты до 43,4% от исходного размера, а аудиоданные — до 16,4% от исходного размера. Напротив, стандартный алгоритм сжатия изображений PNG сжимает изображения до 58,5% от исходного размера, а компрессоры FLAC уменьшают аудиофайлы до 30,3%.
Результаты были особенно впечатляющими, потому что в отличие от PNG и FLAC, которые были разработаны специально для изображений и аудио, Шиншилла была обучена работать с текстом, а не с другими медиа.
Их исследования также выявили другой взгляд на законы масштабирования, то есть на то, как меняется качество сжатия при изменении размера сжатых данных.
«Мы предлагаем новый взгляд на законы масштабирования, — сказал Делетанг, — показывая, что размер набора данных жестко ограничивает размер модели с точки зрения эффективности сжатия».
Другими словами, существуют верхние пределы преимуществ, достигаемых с помощью больших компрессоров языковых моделей, чем больше их набор данных.
«Масштабирование — это не панацея», — сказал Делетанг.
«Классические компрессоры, такие как gzip, не исчезнут в ближайшее время, поскольку их соотношение сжатия, скорости и размера в настоящее время намного лучше, чем что-либо еще», — сказал Аниан Руосс, инженер-исследователь DeepMind и соавтор статьи.
Теги: ИИ