Основатель DeepSeek раскрыл приоритеты компании в области искусственного интеллекта

Новые исследования DeepSeek
В статье, "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention", компания делится новыми достижениями в области оптимизации вычислительных ресурсов и повышения производительности ИИ-моделей.
Особое внимание в исследовании уделено технологии native sparse attention (NSA), которая значительно улучшает процесс работы ИИ, позволяя моделям более эффективно обрабатывать большие объемы данных при меньших затратах вычислительных мощностей. Как отмечается в исследовании, NSA ускоряет инференс и снижает затраты на предварительное обучение, не ухудшая при этом производительность.
Особенности технологии NSA
Технология NSA позволяет моделям ИИ эффективнее распознавать шаблоны и делать предсказания, что напоминает способности человеческого мозга. При этом, как показали тесты, NSA может не только конкурировать с моделями, использующими полное внимание (full attention), но и превосходить их по ряду ключевых показателей, таких как выполнение задач с длинными контекстами и решения на основе инструкций.
Кроме того, технология позволяет значительно снижать стоимость разработки крупных языковых моделей (LLM), которые лежат в основе таких сервисов, как ChatGPT, Ernie Bot от Baidu и чат-бот DeepSeek.
Публичные выступления и интерес к DeepSeek
Несмотря на высокий интерес к деятельности компании, Лян Вэньфэн (Liang Wenfeng) продолжает держаться в тени. Так, он пропустил саммит Artificial Intelligence Action в Париже, однако в прошлом месяце принял участие в симпозиуме с участием Си Цзиньпина в Пекине. Это мероприятие привлекло внимание широкой публики, и после симпозиума интерес к личности Ляна и компании DeepSeek резко возрос.
За два дня после симпозиума статьи и видеоролики о Ляне Вэньфэне были просмотрены более 222 миллионов раз на китайских платформах, что на 69% больше, чем до мероприятия, согласно данным Weixin Index.
Weixin Index — это инструмент для анализа и отслеживания популярных тем и ключевых слов в китайском мессенджере Weixin (или WeChat).
Рекрутинг и поддержка крупных китайских корпораций
С увеличением интереса к DeepSeek, компания активно расширяет свою команду, открывая десятки вакансий в области искусственного интеллекта и разработки AGI. Местоположения новых вакансий включают штаб-квартиру в Ханчжоу и офисы в Пекине.
Компания уже заручилась поддержкой крупных китайских телекоммуникационных операторов, таких как China Unicom, China Mobile и China Telecom, а также крупных интернет-компаний, включая Alibaba Group, Huawei Technologies и Tencent Holdings. Эти компании активно используют модели DeepSeek на своих облачных платформах.
Компания DeepSeek продолжает прокладывать путь в области искусственного интеллекта, фокусируясь на оптимизации вычислительных процессов и создании более эффективных решений для работы с данными. Разработанная технология NSA представляет собой значительный шаг в сторону более быстрых и доступных ИИ-моделей, которые могут изменить правила игры в отрасли.