Сбер на ICLR 2026: четыре научные работы по анализу текста, устойчивому обучению, моделированию и видео

30 апреля 2026 года на конференции ICLR 2026 в Рио-де-Жанейро исследователи Сбера совместно с российскими и зарубежными коллегами представили четыре научные работы. ICLR (International Conference on Learning Representations) — одна из главных мировых площадок по машинному обучению, и присутствие российской команды на основном треке конференции само по себе примечательно.
Тематика работ разнородна: тест для оценки языкового понимания, метод устойчивого обучения нейросетей, ускоренное моделирование сложных систем и обработка видео. Единый продукт за этим не стоит — скорее демонстрация широты направлений, которые Сбер ведёт в академическом контексте.
Тест HUME: кто лучше понимает текст
Совместно с зарубежными коллегами исследователи разработали бенчмарк HUME — инструмент для сравнения того, как люди и языковые модели справляются с анализом текста. Тест охватывает классификацию, кластеризацию, поиск похожих текстов и ранжирование.
Результаты неоднозначные. В среднем люди показали точность 77,6%, лучшие ИИ-модели — 80,1%. Формально машина выигрывает. Но на задачах со сложными языковыми конструкциями и тонкими смысловыми различиями человек по-прежнему точнее.
Здесь есть ещё один слой. Исследование зафиксировало, что люди сами нередко расходятся во мнениях о правильном ответе. Это создаёт проблему при обучении: модели запоминают противоречивые шаблоны и воспроизводят их. HUME предлагают использовать именно для выявления таких слабых мест в существующих тестах — то есть это не только замер производительности, но и инструмент аудита данных.
Clip-SGD: обучить один раз и получить предсказуемый результат
Вторая работа, принятая на основной трек ICLR 2026, посвящена устойчивости обучения нейросетей. Проблема известная: случайные факторы (инициализация весов, порядок данных) могут давать заметно разные результаты от запуска к запуску. На практике это означает необходимость усреднять итоги множества тренировочных прогонов.
Авторы провели строгий математический анализ метода Clip-SGD — алгоритма градиентного спуска с ограничением на размер шага — применительно к последней итерации обучения, а не к среднему по всем. Результат: модель можно обучить один раз и получить предсказуемый, воспроизводимый результат.
Для промышленного применения это важнее, чем кажется. В медицинских диагностических системах, автопилотах и финансовых сервисах нестабильный результат обучения — прямой риск. Если метод подтвердится на практике в этих областях, речь идёт о реальном снижении затрат на разработку и валидацию моделей.
Геометрия Грассмана для инженерных расчётов
Команда Сбера совместно с AIRI и Сколтехом предложила подход к ускорению моделирования сложных систем. Нейросеть обучается предсказывать структуру решения задачи по её параметрам, используя математический аппарат геометрии Грассмана — раздела, описывающего пространства подпространств.
Вместо полного расчёта с нуля для каждого нового сценария система подбирает подходящее решение на основе ранее изученных примеров. По данным авторов, это снижает количество ошибок на 10–30% в задачах моделирования дифференциальных уравнений, оптимизации и управления сложными системами.
Заявленные области применения — нефтегаз, авиация, финансовый сектор. Общее у них одно: нужно быстро считать и ошибаться дорого.
Плавное видео без артефактов
На воркшопе конференции те же три организации — Сбер, AIRI, Сколтех — представили модель для улучшения качества видео. Ключевое отличие от стандартных методов: вместо покадрового анализа модель учитывает связь между соседними кадрами и восстанавливает логику движения во времени.
Практический эффект — устранение дерганий, скачков и разрывов в изображении. Сценарии применения: видеозвонки, архивное видео, спортивные трансляции, камеры наблюдения.
Четыре работы, ни одного продукта
Сбер подал эти разработки под тезисом «полезный и надёжный ИИ» — формулировка широкая, намеренно охватывающая всё сразу. За конференцией компания также организовала нетворкинг-митап на 200 участников из США, ОАЭ, Индии и других стран, где показала GigaChat и Kandinsky.
Четыре академические работы — хорошая заявка на научную состоятельность. Реальный вопрос в другом: какая из этих разработок дойдёт до продуктов и в каком виде. Устойчивое обучение через Clip-SGD и геометрический метод моделирования выглядят практичнее остальных — там есть измеримые результаты и понятные отраслевые сценарии. HUME интересен как исследовательский инструмент, но его судьба зависит от того, примет ли его сообщество в качестве стандарта. Видеомодель пока показана только на воркшопе, а не на основном треке.


