TTT модели: новый рубеж в развитии генеративного ИИ

Исследователи представили новую архитектуру ИИ — test-time training (TTT), которая может обрабатывать гораздо больше данных, чем трансформеры, при меньшем потреблении вычислительных ресурсов. Это может стать прорывом в развитии более эффективных моделей ИИ.
TTT модели: новый рубеж в развитии генеративного ИИ

Последние годы в области генеративного ИИ, доминировали модели на основе архитектуры трансформеров. Они лежат в основе таких известных систем, как видеогенератор Sora от OpenAI и текстовые модели Claude от Anthropic, Gemini от Google и GPT-4 от OpenAI. Однако трансформеры начинают сталкиваться с техническими ограничениями, особенно в области вычислительных мощностей.

Проблемы трансформеров

Трансформеры не особенно эффективны при обработке и анализе огромных объемов данных на стандартном оборудовании. Это приводит к резкому и, возможно, неустойчивому росту потребления энергии по мере того, как компании наращивают инфраструктуру для удовлетворения требований трансформеров.

Появление TTT моделей

В этом контексте особый интерес представляет новая архитектура, предложенная исследователями из Стэнфорда, UC San Diego, UC Berkeley и Meta - test-time training (TTT). Разработчики утверждают, что TTT модели могут обрабатывать гораздо больше данных, чем трансформеры, при значительно меньшем потреблении вычислительных ресурсов.

Как работают TTT модели

Ключевое отличие TTT моделей от трансформеров заключается в замене "скрытого состояния" (hidden state) на внутреннюю модель машинного обучения. Это позволяет TTT моделям эффективно кодировать обрабатываемые данные в репрезентативные переменные (веса), не увеличивая размер внутренней модели при обработке дополнительных данных.

Потенциал TTT

По мнению исследователей, будущие TTT модели смогут эффективно обрабатывать миллиарды элементов данных - от слов до изображений, аудиозаписей и видео. Это значительно превосходит возможности современных моделей на основе трансформеров.

Скептицизм и альтернативы

Несмотря на многообещающие результаты, некоторые эксперты проявляют осторожность в оценках потенциала TTT моделей. Параллельно развиваются и другие альтернативы трансформерам, такие как модели пространства состояний (SSM), над которыми работают компании Mistral, AI21 Labs и Cartesia.

Перспективы

Успех этих исследований может сделать генеративный ИИ еще более доступным и распространенным, открывая новые возможности и вызовы для общества и технологического развития.

14:42
123
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.