GigaChat
Обучение модели
В основе GigaChat лежит нейросетевой ансамбль NeONKA (NEural Omnimodal Network with Knowledge-Awareness), включающий в себя модели ruGPT-3.5 с 13 млрд параметров, Kandinsky 2.1, ruCLIP и FRED-T5.
Корпус данных, использованных для обучения NeONKA включает в себя книги и новости на русском и английском языках, разговорную речь, научные статьи и другие домены. Объем данных, использованных для обучения, составил 300 Гб. Домены постоянно пополняются и расширяются.
Нейросетевая модель обучается по методу « supervised fine-tuning, reinforcement learning with human feedback» с помощью оценки ответов.
Модальности GigaChat
Кроме текстовой модальности в GigaChat уже работает создание изображений с использованием модели Kandinsky 2.1. В планах развития работа со звуком и интеграция с другими инструментами через динамические модули.
Работа с кодом
Для обучения GigaChat использовались части датасета The Stack (открытый сет с кодом) от коллаборации исследователей BigCode, а также различные задачи по написанию кода, определению уязвимостей и ошибок.
Как и с другими темами, ответы на вопросы по программированию нужно проверять самостоятельно.
Оценка модели
Сравнение и оценка нейросетевой модели проводилась автоматически, полуавтоматически и вручную.
Метрики, использованные при автоматической оценке:
- перплексия на отложенной выборке;
- сравнение ответов модели с эталонами при помощи метрик дистанции;
- оценка при помощи модели-оракула;
- описательные статистики, например, средняя длина ответа и лексическое разнообразие;
- контрастивная оценка;
- общепринятые наборы оценки, такие как RussianSuperGLUE и BigBench.
При полуавтоматической оценке использовались диалоговые метрики безопасности, достоверности, грамотности и интересности.
Возможности сервиса | |
---|---|
Нужен VPN | Нет |
Русский язык | Да |
Русский интерфейс | Да |
Платформа |