Галлюцинации Midjourney, Dall-E 3, Gemini и пр. ИИ: как рисовать без ошибок

Нынче считается, что ИИ нарисовать, то бишь «сгенерировать», может всё, что угодно. И так оно и есть. Примерно. Ведь, как мы все хорошо знаем, несмотря на непрекращающийся процесс совершенствования моделей, «лажают» все боты, регулярно и часто очень неприятно.

Так называемые «галлюцинации», т.е. очень характерные именно для ИИ ошибка, постоянно допускают даже Midjourney, Dall-E 3, Gemini и прочие, навороченные модели.

Происходит это (и будет происходить) не только из-за некорректных запросов (и неумения/нежелания пользователя грамотно поставить задачу боту), но и по причине всяких сбоев и неточностей в дата-сетах и в системах обучения моделей, проще говоря из-за ограничений самих ИИ.

Не пропустите: Запрещенные слова-запросы Midjourney: все 7 тем на сейчас (список)

Вместе с тем, практика показывает, что с самыми «популярными» глюками ИИ-генераторов бороться можно вполне себе успешно. Ну или в крайнем случае, о проблеме достаточно просто знать и по ходу дела не допускать или правильно её обходить.

Как это делается, расскажем на примерах из числа, опять же, самых популярных. Итак, по порядку.

#1 — Ошибки в изображении людей: лиц, мимики и анатомии

Это одна из самых частых и очевидных проблем. ИИ-генераторы часто ошибаются в передаче деталей человеческого лица: зубов больше или меньше, глаза странной формы, кривые брови или полная асимметрия черт лица.

Даже в мультяшном стиле или при генерации нереалистичных персонажей нейросети с трудом передают тонкие эмоции, делая их преувеличенными или неестественными.

Например, попытка создать изображение с улыбающейся девушкой может обернуться созданием персонажа с жутковатыми «вампирскими» зубами, а запрос на фото «разъярённого» человека — сценой, которая выглядит слишком драматично и комично.

Как это исправить:

уточняем запрос, а если не помогает, то уменьшаем количество людей в кадре, чтобы снизить вероятность ошибок. Вместо «группа людей» напишите «один человек».
указываем в запросе более мягкие прилагательные: к примеру, вместо «разъярённый» — «сердитый» или «огорчённый». Это поможет ИИ точнее передать эмоцию без излишнего драматизма.
редактируем картинку ИИ вручную — у большинства авторитетных сервисов есть встроенные инструменты для выборочной перерисовки или исправления конкретных участков изображения — часто они очень помогают исправить удачную в целом картинку.

Размахом ИИ-плагиата уже обеспокоены и европейские университеты

Veo 3 учится на роликах из YouTube, авторам за это — …ничего

ИИ на выборах в Индонезии: натурные испытания

#2 — Логотипы компаний, товарные знаки и знаменитые персонажи

Точное повторение логотипа или защищённых авторским правом персонажей — это практически невыполнимая задача для большинства ИИ-сервисов. Основных причин тому две:

юридические — корпорации просто не разрешают использование своей интеллектуальной собственности для обучения нейросетей, чтобы избежать правовых проблем.
дефицит данных — нужный логотип или бренд может просто отсутствовать в обучающем наборе данных, поэтому ИИ не может его распознать и корректно воспроизвести.

Впрочем, исключения, хоть и пока редкие, но есть. Например, нейросеть Gemini может правильно нарисовать Микки Мауса. Тем не менее, большинство ИИ намеренно искажают или игнорируют подобные запросы.

Как это исправить:

обходим проблему — в большинстве случаев исправить эту ошибку невозможно, но можно путем изменения и коррекции запросов достичь, скажем так, очень близкого к идеалу результата (притом без нарушения авторских прав);
меняем концепцию — пробуем передать идею без принуждения ИИ рисовать точный логотип. Например, вместо логотипа TikTok можно просто заказать смартфон с вертикальным видео на экране.

#3 — Неправильное отображение сложных и перекрывающихся элементов

Нейросеть может «запутаться», когда в кадре присутствует множество сложных или пересекающихся объектов. Такие ошибки проявляются в виде абсурдных деталей: лестница, которая обрывается в воздухе, или книга с двумя корешками.

На первый взгляд изображение может выглядеть неплохо, но при ближайшем рассмотрении становится очевидным, что оно никуда не годится.

Как это исправить:

упрощаем и/или конкретизируем запрос — скажем, вместо «большой библиотеки» пишем «просторная библиотека с высокими стеллажами».
меняем стиль — так как глюки наложения чаще встречаются при попытке создать фотореалистичные изображения, возможно, стоит попробовать другой стиль, например, цифровой рисунок или акварель;
пользуемся инструментами редактирования — если таковые предусмотрена, а еще лучше, если если сервис предлагает инструменты для работы с конкретными областями, то просто выделяем проблемный фрагмент и просим ИИ его переделать или вовсе удалить.

Экран для проектора: белый или серый?

Крупнейшие лейблы судятся с ИИ-платформами для создания музыки

Открыть глаза на фото: чем и как это сделать просто в смартфоне

#4 — галлюцинации от избыточного редактирования

Иногда ошибки появляются на поздних этапах, то бишь при попытках внести множество правок в уже сгенерированное изображение.

И потом чем больше редактируешь, тем выше вероятность того, что ИИ «затупит» окончательно и в итоге испортит всю работу, создавая абсолютно бессмысленные и абсурдные элементы.

Как это исправить:

не надо перебарщивать с правками — когда видим, что изменения пошли явно не в худшую сторону, не стоит больше его редактировать, пробуем просто начать заново.
уточняем запросы — в особенности, когда ошибки начинают повторяться — формулируем точнее или иначе.

Вот как-то так вкратце. Ну и не забываем, что ИИ, даже самые навороченный и дорогой — это тоже инструмент, а не волшебная палочка. Этот инструмент тоже надо грамотно освоить и учиться им пользоваться, тогда глюков будет меньше, а результаты будут получаться быстрее и качественнее.