Стартап Black Forest Labs выпустил модели генерации изображений FLUX.1
Стартап Black Forest Labs выпустил модели генерации изображений FLUX.1
Стартап Black Forest Labs объявил о своём формировании и немедленно представил три модели для генерации изображений по текстовому промпту. FLUX.1, созданный выходцами из Stability AI, претендует на звание лучшей системы генерации изображений в индустрии.
Вчера, 1 августа 2024 года, стартап Black Forest Labs объявил о своём формировании. В посте в блоге стартапа список сотрудников напрямую не называется, перечислены лишь проекты, над которыми они работали в прошлом. Однако в объявлении фонда венчурных инвестиций Andreessen Horowitz указано, что управляют стартапом 3 специалиста с отличным послужным списком:
-
Робин Ромбах. Исследователь искусственного интеллекта, индекс Хирша 22. В 2022 году начал работать в лондонском стартапе Stablity AI, который известен моделью генерации изображений Stable Diffusion. Внутри организации руководил командой исследователей. В марте 2024 года покинул компанию. Слухи утверждают, что он грозился сделать ещё летом 2023 года из-за проблем с инвестициями.
-
Андреас Блаттманн. Соавтор (индекс Хирша 18) оригинальной работы Latent Diffusion в исследовательской группе CompVis. 4 из 5 соавторов этой работы затем перешли на работу в Stability AI, Блаттманн был в их числе. В марте 2024 года трое из них, опять включая Андреаса, покинули компанию.
-
Патрик Эссер. Автор множества работ по генерации изображений, индекс Хирша 18. Главный исследователь в Runway, одного из стартапов, которые вели разработку первой Stable Diffusion. Входит в число уволившихся из Stability AI в марте этого года.
Black Forest Labs уже получил $31 млн посевных инвестиций. Вложился не только фонд Andreessen Horowitz, подтянулись разнообразные бизнес-ангелы калибра Брендана Ирибе, Майкла Овица, Гарри Тана.
Объявлением о собственном основании новый стартап не ограничился. Black Forest Labs выпустила первые продукты, которые сразу же претендуют на звание SOTA [state of the art], статус лучших в индустрии. Это семейство генеративных моделей вида «текст в изображение» FLUX.1.
В FLUX.1 задействована гибридная архитектура мультимодальных и параллельных диффузионных трансформерных блоков с 12 млрд параметров. Black Forest Labs заявляет, что достичь новых высот помогли техники flow matching, positional embeddings и parallel attention layers. На этом технические детали в посте стартапа кончаются, остальное обещают рассказать позднее.
На данный известных моделей FLUX.1 три.
-
FLUX.1 [pro]. Наиболее мощная модель для генерации картинок по текстовому промпту. Black Forest Labs заявляет, что этот продукт лучше всего следует промпту и генерирует изображения с высочайшими в области показателями качества, разнообразия и проработанности деталей.
Веса́ этой модели стартап не выпустил. FLUX.1 [pro] работает только через платный API. Обычным пользователям для оценки возможностей модели рекомендуется зайти на fal.ai и Replicate.
Стоимость генерации одного изображения на Replicate составляет $0,055, на fal.ai — $0,05 за мегапиксель, а в API самого стартапа Black Forest Labs — пять центов с настройками по умолчанию или по по формуле $0,05 × ширина / 1024 × высота / 1024 × итераций / 50.
-
FLUX.1 [dev]. Получена из [pro] с помощью дистилляции. Веса́ этой модели открыты, то есть её может скачать и запустить на собственном компьютере любой желающий.
Black Forest Labs заявляет для этой модели схожие параметры качества, но бо́льшую эффективность. Пользователи сообщают, что для запуска с точностью FP16 всё же желательно 24 ГиБ видеопамяти. Впрочем, есть сообщения, что в варианте на FP8 получается обходиться видеокартой на 12 ГиБ видеопамяти на компьютере со свободными 18 ГиБ ОЗУ.
Собственно файлы выложены на аккаунте компании на Hugging Face, а если хочется попробовать модель, то сделать это предлагается на fal.ai или на Replica. Стоимость за одну картинку от [dev] на Replica составляет $0,030, на fal.ai — $0,025 за мегапиксель.
Модель лицензируется под некоммерческой лицензией FLUX.1.
-
FLUX.1 [schnell]. Научные исследования, которые привели к появлению Stable Diffusion, начались в Германии, поэтому выбор названия для быстрого варианта модели не вызывает вопросов.
[schnell] выпущена на Hugging Face под обычной лицензией Apache 2.0.
Код для инференса опубликован в репозитории на GitHub. Модели с открытыми весами также имеют интеграцию с ComfyUI.
Black Forest Labs заявлет, что [pro] и [dev] превосходят популярные на рынке модели Midjourney 6.0, DALL·E 3 (HD) и Stable Diffusion 3 Ultra в критериях визуального качетва, следования промпту, варьированию размеров и аспектов, типографии и разнообразию вывода. Для [schnell] заявлено превосходство над Midjourney 6.0 и DALL·E 3 (HD).
Обычные пользователи уже попытались оценить выпущенные продукты. Часть из них немедленно подтвердила заявление Black Forest Labs, что это открытый генератор не хуже Midjourney.
На сайте Black Forest Labs три ссылки в верхней плашке, и третья из них ведёт на заглушку Up Next (на сленге телеканалов это значит «далее в программе») с играющим анимации телевизором. Первый пост в блоге стартапа заканчивается угрозой создать систему генерации видео по текстовому промпту. На данный момент модели «текст в видео» уже существуют, но стартап обещает превзойти конкурентов и, если судить по словам «for all», выпустить веса́ для запуска на оборудовании пользователя.
Источник: habr.com