Imagen 3 от Google: новый уровень ИИ-генерации изображений с улучшенной детализацией

Google представила последнюю версию Imagen 3, своего ИИ-генератора изображений на основе текста. Инструмент, доступный в Google's AI Test Kitchen, создает изображения с улучшенной детализацией, более богатым освещением и меньшим количеством отвлекающих артефактов по сравнению с их предыдущими моделями.
Компания впервые анонсировала обновленный инструмент Imagen 3 во время конференции I/O в мае, но, похоже, сделала его общедоступным через платформу Vertex AI лишь в последние несколько дней. Некоторые пользователи Reddit начали экспериментировать с Imagen 3 на прошлой неделе, а во вторник Google опубликовала исследовательскую статью об этом инструменте.
Подобно другим ИИ-генераторам изображений, Imagen 3 может создавать детализированные изображения на основе текстового запроса. Пользователи также могут редактировать изображение, выделяя определенную часть и описывая желаемые изменения.
В инструменте установлены некоторые ограничения. Он отказывается генерировать изображения публичных персон, а также не создает изображения оружия. Хотя Imagen 3 не генерирует названных защищенных авторским правом персонажей, это можно обойти, подробно описав желаемого персонажа.
Журналистам удалось создать изображения, очень похожие на Соника и Марио, а также персонажей, напоминающих Микки Мауса. Также было обнаружено, что инструмент генерирует логотипы компаний, таких как Apple, Macy's, Hershey's и даже Google.
Несмотря на эти гибкие ограничения, Imagen 3 заметно отличается от Grok, ИИ-генератора изображений на платформе X Илона Маска. Grok использовался для создания самого разнообразного контента, включая изображения с наркотиками, насилием и публичными фигурами в сомнительных ситуациях.
Однако инструменты ИИ Google также сталкивались с некоторыми проблемами. Ранее в этом году компания прекратила позволять людям генерировать изображения с помощью своего ИИ-чатбота Gemini после того, как пользователи обнаружили, что он создавал исторически неточные изображения.