Midjourney до сих пор не умеет рисовать пальцы, но научилась писать тексты: обзор шестой версии модели

Специальный корреспондент
Собака

Собака

Пресс-служба
Команда форума
Private Club
Регистрация
13/10/15
Сообщения
54.785
Репутация
62.290
Реакции
276.912
RUB
0
В этой статье расскажу, что нового в Midjourney v6 и почему она лучше предшественников. Разберем примеры генераций и протестируем новые функции.

Заявления разработчиков​



Шестая версия — третья обученная с «нуля» модель Midjourney. Процесс разработки занял около девяти месяцев. Она по-другому понимает вопросы, поэтому прошлые методы подготовки промтов могут работать не так, как раньше.


Кроме того, шестая версия более чувствительна к словам. Разработчики предлагают воздержаться от «мусора», такого как award winning, photorealistic, 4k и другого. А так как Midjourney v6 до сих пор находится в статусе альфа-тестирования, модель может в любой момент менять стили генераций.

Новая модель получила функцию outpaint и научилась дорисовывать исходные изображения. Кроме того, разработчики открыли доступ к работе с Midjourney через веб-интерфейс. Обновление доступно для пользователей, которые сгенерировали более 5 000 изображений.

В начале февраля разработчики добавили функциональность « » для шестой версии. Наконец, 15 февраля она моделью по умолчанию. Однако разработчики говорят, что это все еще альфа-версия.

Обзор нововведений​



Генерация текста​


В есть краткое упоминание о «небольшом улучшении отрисовки текста».


«Minor text drawing ability (you must write your text in «quotations» and —style raw or lower —stylize values may help)». Разработчики Midjourney

Это довольно примечательное и одновременно «мирное» улучшение, которое свойственно для каждой версии Midjourney. Сравните сами:


https://habrastorage.org/r/w1560/webt/ev/Экс экс/ll/evhhll08syjeykrxlmd38_bl8mw.png

Запрос: monitor with text «Hello, World!». Версии слева направо, сверху вниз: , , , , , .

Можно уверенно сказать, что раньше было хуже. Четвертая версия показывает в основном корректные буквы, но совершенно неправильные слова. Пятая пытается показать результат получше, но получается только хуже. А шестая — практически безупречно. Ничего лишнего, на четыре изображения приходится всего одна ошибка.


dwgqiagzghwi9b747kgft7hrgym.png


Запрос: sign with text «Внимание!». , .
Очевидно, что в Midjourney поддерживаются не все «шрифты» и кириллица генерируется плохо. Вернее, это даже на кириллицу не похоже. Иероглифы я сразу отдал на генерацию Niji 6, которую принято считать наиболее восточной моделью.


9nfj0_ktbgxiwkd1bpp8aootthi.png


Запрос: sign with text «注意» —niji 6. , .

Niji 6 рисует правдоподобные иероглифы, половину из них даже распознает Google Translate. В общем, генерация текста доступна только на английском языке. Тогда как много текста может «написать» модель в пределах одной картинки?


xwduako9gwwu_eqkwivve-hysg8.png


Запрос: paper with text «The quick brown fox jumps over the lazy dog». , .

Если есть бюджет, можно получить что-то похожее на панграмму The quick brown fox jumps over the lazy dog. Но сгенерировать идеальный вариант будет затруднительно: то буквы «плывут», то слов не хватает, то порядок не тот.


zamchkylt87575tpa1wdudly4ci.png


Запрос: chips lays packaging with label «Internal Server Error» —style raw. , .

Тем не менее, корректная генерация коротких сообщений позволяет делать потешные изображения. Например, чипсы со вкусом ошибки HTTP 500 или хабратортики.


fubwik0mb4qukgohlxs742qld6c.png


Хабраторт. .


Консистентные стили​



sazljjidqi1y9xebnadyrdg2srg.png


Borderlands 3. .

Консистентные стили (consistent styles или style references) — это тестовые алгоритмы для шестой версии, которые позволяют генерировать изображение в стиле другого изображения.
Примеры стилей для нового алгоритма задаются через перечисление ссылок на изображения в параметре —sref. Пример:

portrait of beautiful woman --sref


Визуальный стиль Borderlands весьма примечателен, поэтому я взял иллюстрацию выше в качестве примера.


car2hzkqpakqyoll-ahb3xy_8r4.png


Запрос: portrait of beautiful woman —sref . ,

Обратите внимание: стиль Borderlands применяется не везде, но цветовая гамма весьма схожая. Опытный пользователь может отметить, что Midjourney уже давно умеет использовать другие изображения в качестве референсов. Это правда, но параметр sref заимствует именно стиль и не влияет на текстовый запрос.


sqmjiwtguelawvxmzwdm0a3k03g.png


Запрос: portrait of beautiful woman. ,

Старый способ заимствования стилей не только хуже справляется, но и добавляет лишние детали. В примере выше — вооружение и дополнительных людей. Кроме того, в семи из восьми случаев Midjourney дорисовывает черные полоски, потому что исходное изображение не квадратное.Следующий шаг развития — консистентный персонаж (consistent character). Звучит как удобный инструмент, например, для генерации визуальных новелл. Но сегодня эта функциональность недоступна, а дата релиза не обозначена.


Ремастер​


Функция «ремастер» появилась раньше, чем вышла Midjourney v6, и имеет жесткие ограничения по версиям моделей. Тем не менее, это интересная особенность, пропущенная мной ранее.


qveecqsr8eauz-ub_sgczbksbsw.png


, .

Ремастер — это перегенерация старых изображений с использованием более новой модели. На момент написания статьи ремастерить можно изображения, сгенерированные Midjourney v1, v2 и v3. Обновленные иллюстрации рисует модель v5.2.

Найти кнопку ремастера — нетривиальная задача. Для этого нужно:

  • сгенерировать новое изображение на старой модели или «освежить» один из запросов через команду /show и UUID запроса;
  • увеличить изображение с помощью функции Upscale и кнопок U1, U2, U3 или U4;
  • нажать на появившуюся кнопку Remaster.


Midjourney преобразит старое изображение.

Что разработчики еще не исправили​


В ранних обзорах я показывал реакцию Midjourney на некорректные или слишком точные запросы. Раз разработчики заявляют, что шестая версия — это обученная с нуля модель, посмотрим, насколько она унаследовала особенности своих предшественников.


Защитный механизм​



nblur05cy1oecchbjijkksqvfek.png


Запрос: e97c74d3-6547-4563-8867-758747813314 ( ), жадина-говядина ( ).

Хотя это не самый популярный пункт, мне он вспоминается первым. Абстрактные или некорректные запросы в 99% случаев приводят к генерации портрета девушки в ранних версиях Midjourney. Шестая версия — не исключение.

Вероятно, эта особенность связана с токенайзером и данными для обучения. Первый по-прежнему удаляет неизвестные токены, а при пустом запросе модель генерирует то, чего было больше в обучающем наборе данных.


Генерация пальцев​



n3_gypz7tkqqohos3vch78bmghu.png


Запрос: hands with golden ring. Слева направо: , , версия.

В статье, посвященной пятой альфа-версии, я хвалил Midjourney, что им удалось частично пофиксить некорректную генерацию пальцев. Но результат по запросу, в котором руки, допустим, что-то держат, не радует идеальными кистями. Впрочем, никто не обещал, что Midjourney v6 будет идеальна во всех аспектах.


eqvwiu3llx5ezxhgbdhc7klsdpc.png


Запрос: hamburger in hands. Слева направо: , , версия.


Точное количество​



j0ldge4mq1q53nkgbyjhbiwbepe.png


Запрос: twelve cats. Слева направо: , , версия.

Считать до больших чисел Midjourney все еще не научилась: только четвертая версия смогла сгенерировать изображение с двенадцатью котами. Однако этот пример раскрывает композиционные «предпочтения» шестой модели. При запросе множества объектов она по умолчанию генерирует несколько независимых изображений.


Midjourney эволюционирует, новые «мутации» и улучшения — налицо. Посмотрим, чем порадуют следующие версии модели.








 
  • Теги
    midjourney
  • Сверху Снизу