Основатель DeepSeek раскрыл приоритеты компании в области искусственного интеллекта

Компания DeepSeek на днях представила новое техническое исследование, в котором основатель и генеральный директор Лян Вэньфэн поделился планами развития стартапа в области искусственного интеллекта. Исследование фокусируется на технологии native sparse attention (NSA), которая обещает значительно улучшить эффективность AI-моделей при обработке больших объемов данных.
Основатель DeepSeek раскрыл приоритеты компании в области искусственного интеллекта

Новые исследования DeepSeek

В статье, "Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention", компания делится новыми достижениями в области оптимизации вычислительных ресурсов и повышения производительности ИИ-моделей.

Особое внимание в исследовании уделено технологии native sparse attention (NSA), которая значительно улучшает процесс работы ИИ, позволяя моделям более эффективно обрабатывать большие объемы данных при меньших затратах вычислительных мощностей. Как отмечается в исследовании, NSA ускоряет инференс и снижает затраты на предварительное обучение, не ухудшая при этом производительность.

Особенности технологии NSA

Технология NSA позволяет моделям ИИ эффективнее распознавать шаблоны и делать предсказания, что напоминает способности человеческого мозга. При этом, как показали тесты, NSA может не только конкурировать с моделями, использующими полное внимание (full attention), но и превосходить их по ряду ключевых показателей, таких как выполнение задач с длинными контекстами и решения на основе инструкций.

Кроме того, технология позволяет значительно снижать стоимость разработки крупных языковых моделей (LLM), которые лежат в основе таких сервисов, как ChatGPT, Ernie Bot от Baidu и чат-бот DeepSeek.

Публичные выступления и интерес к DeepSeek

Несмотря на высокий интерес к деятельности компании, Лян Вэньфэн (Liang Wenfeng) продолжает держаться в тени. Так, он пропустил  саммит Artificial Intelligence Action в Париже, однако в прошлом месяце принял участие в симпозиуме с участием Си Цзиньпина в Пекине. Это мероприятие привлекло внимание широкой публики, и после симпозиума интерес к личности Ляна и компании DeepSeek резко возрос.

За два дня после симпозиума статьи и видеоролики о Ляне Вэньфэне были просмотрены более 222 миллионов раз на китайских платформах, что на 69% больше, чем до мероприятия, согласно данным Weixin Index.

Weixin Index — это инструмент для анализа и отслеживания популярных тем и ключевых слов в китайском мессенджере Weixin (или WeChat).

Рекрутинг и поддержка крупных китайских корпораций

С увеличением интереса к DeepSeek, компания активно расширяет свою команду, открывая десятки вакансий в области искусственного интеллекта и разработки AGI. Местоположения новых вакансий включают штаб-квартиру в Ханчжоу и офисы в Пекине.

Компания уже заручилась поддержкой крупных китайских телекоммуникационных операторов, таких как China Unicom, China Mobile и China Telecom, а также крупных интернет-компаний, включая Alibaba Group, Huawei Technologies и Tencent Holdings. Эти компании активно используют модели DeepSeek на своих облачных платформах.

Компания DeepSeek продолжает прокладывать путь в области искусственного интеллекта, фокусируясь на оптимизации вычислительных процессов и создании более эффективных решений для работы с данными. Разработанная технология NSA представляет собой значительный шаг в сторону более быстрых и доступных ИИ-моделей, которые могут изменить правила игры в отрасли.

18:31
38
Нет комментариев. Ваш будет первым!
Посещая этот сайт, вы соглашаетесь с тем, что мы используем файлы cookie.
Яндекс.Метрика