Стартап Black Forest Labs выпустил модели генерации изображений FLUX.1

Август 2, 2024 - 18:37

Август 2, 2024 - 18:38

0 3956

Примеры генерации FLUX.1 от Black Forest Labs

Стартап Black Forest Labs объявил о своём формировании и немедленно представил три модели для генерации изображений по текстовому промпту. FLUX.1, созданный выходцами из Stability AI, претендует на звание лучшей системы генерации изображений в индустрии.

Вчера, 1 августа 2024 года, стартап Black Forest Labs объявил о своём формировании. В посте в блоге стартапа список сотрудников напрямую не называется, перечислены лишь проекты, над которыми они работали в прошлом. Однако в объявлении фонда венчурных инвестиций Andreessen Horowitz указано, что управляют стартапом 3 специалиста с отличным послужным списком:

Робин Ромбах. Исследователь искусственного интеллекта, индекс Хирша 22. В 2022 году начал работать в лондонском стартапе Stablity AI, который известен моделью генерации изображений Stable Diffusion. Внутри организации руководил командой исследователей. В марте 2024 года покинул компанию. Слухи утверждают, что он грозился сделать ещё летом 2023 года из-за проблем с инвестициями.
Андреас Блаттманн. Соавтор (индекс Хирша 18) оригинальной работы Latent Diffusion в исследовательской группе CompVis. 4 из 5 соавторов этой работы затем перешли на работу в Stability AI, Блаттманн был в их числе. В марте 2024 года трое из них, опять включая Андреаса, покинули компанию.
Патрик Эссер. Автор множества работ по генерации изображений, индекс Хирша 18. Главный исследователь в Runway, одного из стартапов, которые вели разработку первой Stable Diffusion. Входит в число уволившихся из Stability AI в марте этого года.

Black Forest Labs уже получил $31 млн посевных инвестиций. Вложился не только фонд Andreessen Horowitz, подтянулись разнообразные бизнес-ангелы калибра Брендана Ирибе, Майкла Овица, Гарри Тана.

Объявлением о собственном основании новый стартап не ограничился. Black Forest Labs выпустила первые продукты, которые сразу же претендуют на звание SOTA [state of the art], статус лучших в индустрии. Это семейство генеративных моделей вида «текст в изображение» FLUX.1.

Стартап предоставил такое сравнение производительности моделей Black Forest Labs с конкурентами на рынке

В FLUX.1 задействована гибридная архитектура мультимодальных и параллельных диффузионных трансформерных блоков с 12 млрд параметров. Black Forest Labs заявляет, что достичь новых высот помогли техники flow matching, positional embeddings и parallel attention layers. На этом технические детали в посте стартапа кончаются, остальное обещают рассказать позднее.

На данный известных моделей FLUX.1 три.

FLUX.1 [pro]. Наиболее мощная модель для генерации картинок по текстовому промпту. Black Forest Labs заявляет, что этот продукт лучше всего следует промпту и генерирует изображения с высочайшими в области показателями качества, разнообразия и проработанности деталей.
Веса́ этой модели стартап не выпустил. FLUX.1 [pro] работает только через платный API. Обычным пользователям для оценки возможностей модели рекомендуется зайти на fal.ai и Replicate.
Стоимость генерации одного изображения на Replicate составляет $0,055, на fal.ai — $0,05 за мегапиксель, а в API самого стартапа Black Forest Labs — пять центов с настройками по умолчанию или по по формуле $0,05 × ширина / 1024 × высота / 1024 × итераций / 50.
FLUX.1 [dev]. Получена из [pro] с помощью дистилляции. Веса́ этой модели открыты, то есть её может скачать и запустить на собственном компьютере любой желающий.
Black Forest Labs заявляет для этой модели схожие параметры качества, но бо́льшую эффективность. Пользователи сообщают, что для запуска с точностью FP16 всё же желательно 24 ГиБ видеопамяти. Впрочем, есть сообщения, что в варианте на FP8 получается обходиться видеокартой на 12 ГиБ видеопамяти на компьютере со свободными 18 ГиБ ОЗУ.
Собственно файлы выложены на аккаунте компании на Hugging Face, а если хочется попробовать модель, то сделать это предлагается на fal.ai или на Replica. Стоимость за одну картинку от [dev] на Replica составляет $0,030, на fal.ai — $0,025 за мегапиксель.
Модель лицензируется под некоммерческой лицензией FLUX.1.
FLUX.1 [schnell]. Научные исследования, которые привели к появлению Stable Diffusion, начались в Германии, поэтому выбор названия для быстрого варианта модели не вызывает вопросов.
[schnell] выпущена на Hugging Face под обычной лицензией Apache 2.0.

Сравнение качества и требования к ресурсам трёх моделей FLUX.1. Black Forest Labs

Код для инференса опубликован в репозитории на GitHub. Модели с открытыми весами также имеют интеграцию с ComfyUI.

Все модели поддерживают большое разнообразие разрешений от 0,1 до 2,0 мегапикселей. Black Forest Labs

Black Forest Labs заявлет, что [pro] и [dev] превосходят популярные на рынке модели Midjourney 6.0, DALL·E 3 (HD) и Stable Diffusion 3 Ultra в критериях визуального качетва, следования промпту, варьированию размеров и аспектов, типографии и разнообразию вывода. Для [schnell] заявлено превосходство над Midjourney 6.0 и DALL·E 3 (HD).

Сравнение [pro] и [dev] и сравнение [schnell] с ближайшими конкурентами. Black Forest Labs

Обычные пользователи уже попытались оценить выпущенные продукты. Часть из них немедленно подтвердила заявление Black Forest Labs, что это открытый генератор не хуже Midjourney.

«Бро, не думаю, что Midjourney лучше FLUX». Модель также генерирует надписи. @risphereeditor

Сравнение FLUX.1 [dev] в варианте точности FP8 c Stable Diffusion 3 Medium, Stable Diffusion XL 1.0 и Stable Diffusion 1.5. @toyxyz3

Другой пример генерации типографики. CleomokaAIArt

Пример комикса с промптом meme image with two men in it. On the left side the man is taller and is wearing a shirt that says Black Forest Labs. On the right side the other smaller scrawny man is wearing a shirt that says Stability AI and is sad. The taller man is hitting the back of the head of the small man. A caption coming from the tall man reads — Пример комикса с промптом `meme image with two men in it. On the left side the man is taller and is wearing a shirt that says Black Forest Labs. On the right side the other smaller scrawny man is wearing a shirt that says Stability AI and is sad. The taller man is hitting the back of the head of the small man. A caption coming from the tall man reads "That's how you do a next-gen model!"`. Видна ошибка: у облачка почему-то два говорящих. AngryVix

Пример генерации пальцев рук на [dev] с точностью FP8. Среди других примеров реддитора Herr_Drosselmeyer есть случай с ошибкой, когда нож проходит сквозь пальцы

Хорошая демонстрация поведения тканей, но судьба правой руки неясна. dasomen

На сайте Black Forest Labs три ссылки в верхней плашке, и третья из них ведёт на заглушку Up Next (на сленге телеканалов это значит «далее в программе») с играющим анимации телевизором. Первый пост в блоге стартапа заканчивается угрозой создать систему генерации видео по текстовому промпту. На данный момент модели «текст в видео» уже существуют, но стартап обещает превзойти конкурентов и, если судить по словам «for all», выпустить веса́ для запуска на оборудовании пользователя.

Источник: habr.com