Технологии

Стартап Black Forest Labs выпустил модели генерации изображений FLUX.1

Стартап Black Forest Labs выпустил модели генерации изображений FLUX.1
Август 2, 2024 - 18:37
Август 2, 2024 - 18:38
 0  3956
Примеры генерации FLUX.1 от Black Forest Labs
Примеры генерации FLUX.1 от Black Forest Labs

Стартап Black Forest Labs объявил о своём формировании и немедленно представил три модели для генерации изображений по текстовому промпту. FLUX.1, созданный выходцами из Stability AI, претендует на звание лучшей системы генерации изображений в индустрии.

Вчера, 1 августа 2024 года, стартап Black Forest Labs объявил о своём формировании. В посте в блоге стартапа список сотрудников напрямую не называется, перечислены лишь проекты, над которыми они работали в прошлом. Однако в объявлении фонда венчурных инвестиций Andreessen Horowitz указано, что управляют стартапом 3 специалиста с отличным послужным списком:

Black Forest Labs уже получил $31 млн посевных инвестиций. Вложился не только фонд Andreessen Horowitz, подтянулись разнообразные бизнес-ангелы калибра Брендана Ирибе, Майкла Овица, Гарри Тана.

Объявлением о собственном основании новый стартап не ограничился. Black Forest Labs выпустила первые продукты, которые сразу же претендуют на звание SOTA [state of the art], статус лучших в индустрии. Это семейство генеративных моделей вида «текст в изображение» FLUX.1.

Стартап предоставил такое сравнение производительности моделей Black Forest Labs с конкурентами на рынке
Стартап предоставил такое сравнение производительности моделей Black Forest Labs с конкурентами на рынке

В FLUX.1 задействована гибридная архитектура мультимодальных и параллельных диффузионных трансформерных блоков с 12 млрд параметров. Black Forest Labs заявляет, что достичь новых высот помогли техники flow matching, positional embeddings и parallel attention layers. На этом технические детали в посте стартапа кончаются, остальное обещают рассказать позднее.

На данный известных моделей FLUX.1 три.

Сравнение качества и требования к ресурсам трёх моделей FLUX.1. Black Forest Labs
Сравнение качества и требования к ресурсам трёх моделей FLUX.1. Black Forest Labs

Код для инференса опубликован в репозитории на GitHub. Модели с открытыми весами также имеют интеграцию с ComfyUI.

Все модели поддерживают большое разнообразие разрешений от 0,1 до 2,0 мегапикселей. Black Forest Labs
Все модели поддерживают большое разнообразие разрешений от 0,1 до 2,0 мегапикселей. Black Forest Labs

Black Forest Labs заявлет, что [pro] и [dev] превосходят популярные на рынке модели Midjourney 6.0, DALL·E 3 (HD) и Stable Diffusion 3 Ultra в критериях визуального качетва, следования промпту, варьированию размеров и аспектов, типографии и разнообразию вывода. Для [schnell] заявлено превосходство над Midjourney 6.0 и DALL·E 3 (HD).

Сравнение [pro] и [dev] и сравнение [schnell] с ближайшими конкурентами. Black Forest Labs
Сравнение [pro] и [dev] и сравнение [schnell] с ближайшими конкурентами. Black Forest Labs

Обычные пользователи уже попытались оценить выпущенные продукты. Часть из них немедленно подтвердила заявление Black Forest Labs, что это открытый генератор не хуже Midjourney.

«Бро, не думаю, что Midjourney лучше FLUX». Модель также генерирует надписи. @risphereeditor
«Бро, не думаю, что Midjourney лучше FLUX». Модель также генерирует надписи. @risphereeditor
Сравнение FLUX.1 [dev] в варианте точности FP8 c Stable Diffusion 3 Medium, Stable Diffusion XL 1.0 и Stable Diffusion 1.5. @toyxyz3
Сравнение FLUX.1 [dev] в варианте точности FP8 c Stable Diffusion 3 Medium, Stable Diffusion XL 1.0 и Stable Diffusion 1.5. @toyxyz3
Другой пример генерации типографики. CleomokaAIArt
Другой пример генерации типографики. CleomokaAIArt
Пример комикса с промптом meme image with two men in it. On the left side the man is taller and is wearing a shirt that says Black Forest Labs. On the right side the other smaller scrawny man is wearing a shirt that says Stability AI and is sad. The taller man is hitting the back of the head of the small man. A caption coming from the tall man reads
Пример комикса с промптом meme image with two men in it. On the left side the man is taller and is wearing a shirt that says Black Forest Labs. On the right side the other smaller scrawny man is wearing a shirt that says Stability AI and is sad. The taller man is hitting the back of the head of the small man. A caption coming from the tall man reads "That's how you do a next-gen model!". Видна ошибка: у облачка почему-то два говорящих. AngryVix
Пример генерации пальцев рук на [dev] с точностью FP8. Среди других примеров реддитора Herr_Drosselmeyer есть случай с ошибкой, когда нож проходит сквозь пальцы
Пример генерации пальцев рук на [dev] с точностью FP8. Среди других примеров реддитора Herr_Drosselmeyer есть случай с ошибкой, когда нож проходит сквозь пальцы
Хорошая демонстрация поведения тканей, но судьба правой руки неясна. dasomen
Хорошая демонстрация поведения тканей, но судьба правой руки неясна. dasomen

На сайте Black Forest Labs три ссылки в верхней плашке, и третья из них ведёт на заглушку Up Next (на сленге телеканалов это значит «далее в программе») с играющим анимации телевизором. Первый пост в блоге стартапа заканчивается угрозой создать систему генерации видео по текстовому промпту. На данный момент модели «текст в видео» уже существуют, но стартап обещает превзойти конкурентов и, если судить по словам «for all», выпустить веса́ для запуска на оборудовании пользователя.

Источник: habr.com