Dall е как воспользоваться
Перейти к содержимому

Dall е как воспользоваться

  • автор:

Как пользоваться DALL-E 2 для создания картин из текста

Как пользоваться DALL-E 2 для создания картин из текста

Нейросети и искусственный интеллект набирают небывалой популярности. Мы уже рассказывали вам, как использовать Chat GPT, как добавить эту нейросеть на iPhone, а также как использовать MidJourney. А теперь, в этой статье, ознакомим вас с DALL-E 2, чтобы помочь делать собственные картины за несколько кликов. Кстати, такая картина может стать отменным подарком на День Влюбленных, например. Что же, начнем разбираться в нюансах.

Что такое DALL-E 2 и как она работает?

Что такое DALL-E 2 и как она работает?DALL-E 2 — это одна из самых популярных систем искусственного интеллекта, разработанная OpenAI. Эта нейросеть может генерировать оригинальные изображения из текстовых описаний, которые похожи на настоящие картины. Платформа позволяет пользователям загружать свои изображения и редактировать их с помощью текстовых подсказок. Таким образом создается бесконечные возможности того, как ваше изображение будет выглядеть в конечном итоге. В DALL-E 2 можно создавать невероятные картины, похожие на фотографии. Добавлять на них эффекты, вносить правки в готовые файлы изображений. Это нейросеть, которая работает похоже на MidJourney, но намного лучше. Что такое DALL-E 2 и как она работает?Долгое время минусом нейросети было то, что в нее нельзя было попасть напрямую. Приходилось ждать проверки от разработчиков, но теперь, если вы используете Chat GPT, можно запросто зайти и начать создавать шедевры.

Стоимость DALL-E 2

Стоимость DALL-E 2

DALL-E работает на кредитной системе. Пользователи могут получить до 50 бесплатных кредитов в течение первого месяца и получать 15 новых кредитов каждый месяц в тот же день, что и первоначальная регистрация. Дополнительные кредиты можно приобрести пакетами по 115 штук за 15 долларов США или менее 0,02 цента за кредит. Но для пользователя непрофессионала, который хочет попробовать что-то новое, хватит и 50 кредитов. Это отличный способ попробовать нейросеть.

Как использовать DALL-E 2 для создания картин

Как использовать DALL-E 2 для создания картин

Вы можете использовать DALL-E 2 через API OpenAI, который предоставляет доступ к системе искусственного интеллекта для разработчиков и предприятий. Чтобы использовать API, вам необходимо создать учетную запись, подписаться на получение ключа API и интегрировать API в свое приложение. После того, как вы настроили API, вы можете начать создавать изображения, отправляя HTTP-запросы на конечную точку API с желаемым текстовым описанием.

  1. Откройте нейросеть по ссылке;
  2. Впишите свой запрос (как можно более точно) в поле;
  3. Подождите, пока запрос сгенерируется;
  4. Редактируйте картины, которые вам понравятся.

Как использовать DALL-E 2 для создания картин

Чтобы использовать DALL-E 2, вы можете ввести текстовое описание изображения, которое хотите создать, и система ИИ сгенерирует изображение на основе этого описания. Входное описание может состоять из нескольких слов или подробного абзаца. Система искусственного интеллекта использует методы обработки естественного языка и компьютерного зрения, чтобы понять текстовое описание и создать соответствующее изображение.

Моя коллекция в DALL-E 2

Моя коллекция в DALL-E 2

«Моя коллекция» в DALL-E 2 — это место, где вы можете сохранять, управлять и просматривать изображения, созданные системой искусственного интеллекта. С помощью Коллекции можно отслеживать сгенерированные изображения и упорядочивать их в соответствии со своими предпочтениями.

В «Моей коллекции» вы можете сохранять изображения, созданные с помощью DALL-E 2, просматривать их, чтобы не генерировать новые. Вы также можете классифицировать, распределить изображения в нужном порядке и редактировать их, когда вам придут новые идеи.

Что такое Surprise me в DALL-E 2?

Что такое Surprise me в DALL-E 2?

«Удиви меня» — это фишка DALL-E 2, которая позволяет создавать случайные изображения на основе определенной подсказки или темы. Эта функция предназначена для экспериментов и может дать вам неожиданное вдохновение.

Используя функцию «Удиви меня», вы можете ввести подсказку или тему, и система ИИ сгенерирует случайное изображение на основе этой подсказки. Эта функция позволяет вам открывать для себя новые и интересные способы использования системы искусственного интеллекта и может вдохновить вас на создание новых историй или предметов искусства.

Как отредактировать фото с помощью DALL-E 2

Как отредактировать фото с помощью DALL-E 2

Вы можете загрузить изображение, чтобы добавить на него какие-то элементы. Это еще одна фишка DALL-E 2, которая отличает ИИ от других нейросетей. Например, давайте попробуем создать сказочный пейзаж из нашей фотографии.

  1. Загружаем фотографию;
  2. Обрезаем ее (квадрат);
  3. Выделяем область, которая будет редактироваться;
  4. Добавляем описание и генерируем его.

Как отредактировать фото с помощью DALL-E 2

С помощью этой фишки можно создать невероятные сказочные пейзажи и быстро добавлять на ваши фотографии различные нереалистичные объекты, чтобы улучшить их качество.

Редактировать и выбирать из вариантов можно сколько угодно. Только кредиты ограничивают вас в создании своих шедевров искусства. Так что наслаждайтесь визуализацией своих самых интересных грез в DALL-E 2.

Нейросеть DALL-E и ее возможности: от цифрового фото до полотна Босха

Фото: Open AI

Нейросеть DALL-E позволяет создавать фотореалистичные изображения благодаря тому, что распознает контекст запроса пользователя. РБК Тренды выяснили, где можно применять нейросеть и как не нужно составлять запросы

DALL-E — одна из многих нейросетей, способных генерировать картинки по текстовому описанию. Однако в отличие от Midjourney и других конкурентов она еще и учитывает контекст описания, что делает результаты работы ИИ иногда пугающе реалистичными.

Что такое Dall-E

DALL-E — это модель машинного обучения компании OpenAI, которая генерирует картинки по текстовым описаниям.

Работа нейросети строится на разработках OpenAI, связанных с генераторами текстов. В 2019 году компания создала модель под названием GPT-2, которая могла предсказывать следующее слово в тексте. Она распознавала 1,5 млрд параметров и была обучена на 8 млн веб-страниц. Спустя год вышла усовершенствованная модель GPT-3, которая и стала основой для создания DALL-E. По сути, новая нейросеть — это версия GPT-3 с 12 млрд параметров, обученная генерировать антропоморфных животных и людей, объекты, а также правдоподобно объединять несвязанные концепции и преобразовывать существующие изображения.

В марте 2023 года OpenAI представила еще более совершенную модель GPT-4, которая распознает не только текстовые описания, но и картинки. Однако ее пока не внедряли в качестве основы в генераторы изображений.

Название нейросети представляет собой комбинацию имени художника Сальвадора Дали и имени робота Валли из мультфильма Pixar. Разработчики объясняют, что оно отражает сплав искусства и цифровой анимации с использованием искусственного интеллекта.

Первую версию DALL-E представили в 2021 году. Спустя год OpenAI презентовала усовершенствованную версию DALL-E 2, которая предлагает более высокое качество изображений и новые возможности их преобразования. Кроме того, она поддерживает запросы на 107 языках, в том числе на русском. DALL-E использует 12 млрд параметров, в то время как DALL-E 2 работает с 3,5 млрд и дополнительными 1,5 млрд параметров для улучшения разрешения.

Первые результаты работы DALL-E по генерации картинок

Первые результаты работы DALL-E по генерации картинок (Фото: openai.com)

В июле 2022 года DALL-E 2 выпустили для бета-тестирования. В сентябре OpenAI открыла доступ к нейросети для всех желающих. В ноябре компания сделала программное обеспечение нейросети доступным для разработчиков приложений. Тогда она сообщила, что DALL-E используют уже более 3 млн человек, а нейросеть генерирует более 4 млн изображений в день.

Фото:Freepik

Как работает Dall-E

DALL-E использует для генерации картинок нейронную сеть на основе преобразователя. Это тип машинного обучения, который понимает контекст и обрабатывает последовательности, чтобы создавать новые изображения по текстовым подсказкам. Модель постоянно обучается на новых данных.

Всего DALL-E состоит из трех нейросетей: CLIP (Contrastive Language–Image Pre-training), GLIDE и нейросети для увеличения разрешения картинки. Первая распознает текст и создает набросок будущего изображения, вторая превращает его в конечное изображение небольшого разрешения, а третья масштабирует картинку и добавляет детали.

Как это выглядит пошагово:

  • CLIP переводит текстовый запрос в набор чисел, которые связаны векторами. Векторы демонстрируют, насколько описанные пользователем категории близки между собой;
  • CLIP превращает этот набор цифр в таблицу, которая выполняет роль черновика изображения;
  • таблица передается GLIDE, которая преобразует текст в изображение. Вторая нейросеть сравнивает первоначальный набор чисел и таблицу CLIP, совмещая данные с них. Затем она создает финальное изображение через диффузную модель. Сначала появляется серый квадрат, состоящий из пиксельного шума, а затем из него поэтапно убирается шум, пока не вырисовывается картинка с нужным содержимым;

Процесс генерации картинки в DALL-E

Процесс генерации картинки в DALL-E (Фото: arxiv.org)

  • картинка передается третьей нейросети, которая улучшает ее качество в 16 раз.

Нейросеть Dall-E 3: как пользоваться ИИ от OpenAI для генерации картинок

Аватар автора

В конце сентября компания OpenAI представила третье поколение нейросети Dall-E — конкурента Midjourney и Stable Diffusion.

Dall-E 3 может генерировать картинки в разных стилях. Она доступна бесплатно, не требует мощного компьютера, а еще с ней можно не учиться составлять промпты. Вы пишете запрос, а нейросеть сама «докручивает» идею и генерирует картинку. Рассказываем, где воспользоваться Dall-E 3 и в чем ее особенности.

Рассылка для фанатов нейросетей

Истории о применении ИИ в работе и жизни — в вашей почте дважды в месяц. Бесплатно
Подписаться
Ваша почта будет в безопасности. Детали — в политике конфиденциальности

Что такое Dall-E 3

OpenAI, разработчик революционного чат-бота ChatGPT, выпустил Dall⁠-⁠E в 2021 году. Это была одна из первых нейросетей, которые умеют качественно рисовать картинки по текстовому описанию. Однако у простых пользователей доступа к ней не было.

Весной того же года появилась упрощенная модель Dall⁠-⁠E mini, которая прямо в браузере генерировала девять не очень качественных, но узнаваемых картинок по текстовому промпту. Плохое качество понравилось интернету, нейросеть завирусилась, там стали делать странные генерации, ставшие мемными.

В начале 2022 года OpenAI представила Dall⁠-⁠E 2, которая генерировала картинки более высокого качества и поддерживала запросы на русском языке. Нейросеть появилась даже раньше, чем первые версии Stable Diffusion и Midjourney, которые набрали широкую популярность благодаря открытому и бесплатному доступу.

Доступ к Dall-E 2 можно было получить только через список ожидания. Это мало кому удавалось, так что в интернете эту версию практически не обсуждали. В сентябре 2022 года нейросеть открыли для всех: Dall-E 2 была доступна на сайте OpenAI и позже в поисковике Bing.

Генерации Dall⁠-⁠E 2

Dall⁠-⁠E 3 представили в конце сентября 2023 года, а публичный доступ к ней появился в начале октября.

Нейросеть доступна бесплатно через Bing Image Creator и по платной подписке в ChatGPT. Доступа к API пока нет, его обещали предоставить позже.

Обложка статьи

Какие у Dall-E 3 особенности

Больше не нужно учиться промптингу. Чтобы генерировать картинки в большинстве популярных нейросетей, например Midjourney или Stable Diffusion, нужно изучать их синтаксис. Это означает, что придется учиться составлять запросы по специальной формуле на английском языке и указывать неочевидные дополнительные параметры.

Dall-E 3 поддерживает русский язык и понимает естественную речь. С ней можно общаться так же , как вы разговариваете с людьми, и вносить правки, если вас не устраивает результат. К примеру, в нейросети сработает как запрос «нарисуй мне фиолетового анимешного кота», так и «фиолетовый кот, аниме» или даже «����».

Текстовая нейросеть прочитает ваш запрос и перепишет его так, чтобы алгоритм, который генерирует картинки, лучше понял, что вы хотите получить. Из-за этого генерации получаются разнообразнее, а один и тот же запрос может выдавать абсолютно разные результаты.

Как Dall⁠-⁠E 3 генерирует картинку

  1. Пользователь пишет запрос.
  2. Неизвестная версия GPT в Bing или GPT-4 в ChatGPT переписывает этот запрос согласно своей встроенной инструкции.
  3. Dall-E 3 генерирует изображение на основе модифицированного запроса.

Запрещен любой оскорбительный контент. В Dall-E 3 нельзя генерировать сцены, содержащие насилие, ненависть или NSFW-контент. Однако в первые дни после запуска Dall-E 3 в Bing Image Creator пользователи принялись делать картинки «на грани». В генерациях персонажи поп-культуры врезались в башни-близнецы или позировали для обложек эротических журналов. После этого для Dall-E 3 усилили цензуру: теперь там не получится сгенерировать даже удар молотком или гору человеческих костей. Теперь многие жалуются, что алгоритму сделали «лоботомию», и ищут способы обхода ограничений.

Знаменитостей и общественных деятелей сгенерировать тоже не получится — запрос вернется с ошибкой. OpenAI ввела этот запрет «ради безопасности». Судя по всему, компания учла опыт Midjourney: в 2022 году пользователи сгенерировали в этой нейросети Папу Римского в пуховике «Баленсиага» и арест Дональда Трампа. Позже СМИ пришлось объяснять, что это не настоящие снимки.

Обложка статьи

Нейросеть отказывается имитировать стиль художников, живших в последние сто лет. Dall-E 3 не станет генерировать кадр из фильма Уэса Андерсона или картину Сальвадора Дали из-за нарушения авторских прав. При этом нейросеть может имитировать чужой стиль, если описать его словами без упоминания имени художника.

Вероятно, такое решение принято, чтобы избежать судебных разбирательств из-за копирайта. Художники уже подавали в суд на разработчиков Stable Diffusion и Midjourney, потому что работы без их согласия использовали для обучения нейросетей. Кроме того, если художник заметит, что Dall-E 3 все-таки обучалась на его работах, то может обратиться к OpenAI и попросить заблокировать генерацию таких изображений.

Как пользоваться Dall-E 3

В Bing Image Creator

Шаг 1. Включите VPN и перейдите на страницу Bing Image Creator в любом браузере. Другой способ: нажмите на иконку Bing Image Creator в сайдбаре браузера Microsoft Edge.

Шаг 2. Войдите в свой профиль Microsoft или зарегистрируйтесь, если у вас его нет.

Шаг 3. Напишите запрос в поле и нажмите «Создать» или кликните на кнопку «Удиви меня» — в этом случае нейросеть сама напишет промпт.

В день дается 25 «ускорений». Когда они закончатся, картинки будут генерироваться медленнее. Это ограничение нужно, чтобы снизить нагрузку на серверы. Докупить ускорения нельзя.

Шаг 4. Сохраните картинку. По запросу сгенерируются три или четыре изображения — от чего это зависит, неясно. Каждая картинка создается в формате 1024 × 1024 пикселя. Поменять соотношение сторон или разрешение нельзя. Чтобы сохранить, нажмите на понравившийся результат и выберите «Загрузить».

Как пользоваться Dall-E 3

В ChatGPT Plus

Дисклеймер

Доступ к Dall-E 3 добавляют подписчикам ChatGPT Plus постепенно. К моменту написания текста у нас функция появилась, но некоторые пользователи ChatGPT в соцсетях пишут, что у них ее до сих пор нет.

Шаг 1. Перейдите на сайт ChatGPT и зарегистрируйтесь, если у вас еще нет аккаунта. Для этого потребуется VPN и зарубежный номер телефона. О том, как пройти регистрацию из России, мы подробно рассказывали в гайде.

Шаг 2. Оформите платную подписку ChatGPT Plus. В правом меню нажмите Upgrade to Pro, выберите Upgrade Plan и оплатите подписку международной картой. Российские карты сайт OpenAI не принимает. Подписка стоит 20 $⁣ ( 1950 ₽) в месяц.

Шаг 3. Создайте новый чат, вверху выберите GPT-4 , в выпадающем окне нажмите Dall-E 3 и напишите запрос. В чате вы одновременно обращаетесь к GPT-4 и Dall-E 3 , поэтому если вы зададите общий вопрос, то нейросеть ответит текстом. Чтобы началась генерация изображения, попросите нейросеть нарисовать, сгенерировать или придумать картинку.

GPT-4 дополнит ваш запрос и на его основе напишет четыре промпта, по которым Dall-E 3 сгенерирует картинки. Расширенные запросы можно посмотреть, кликнув на сгенерированную картинку. Они появляются справа в поле «Подсказка».

По умолчанию нейросеть генерирует четыре картинки размером 1024 × 1024 пикселя. В запросе можно указать, чтобы нужны горизонтальные (1792 × 1024 пикселя) или вертикальные ( 1024 × 1792 пикселя) картинки.

Шаг 4. Выберите лучший вариант, нажмите на него или просто наведите курсор. Нажмите на кнопку сохранения.

Какие результаты получаются в Dall-E 3

Мы протестировали Dall-E 3 в ChatGPT. И вот в чем она хороша.

Креативные идеи. Нейросеть отлично понимает промпты, не пропускает слова в запросе и прорабатывает мелкие детали. Благодаря этому в ней можно сгенерировать практически любую идею. Она постарается понять ваш запрос и переписать его так, чтобы ничего не упустить.

Dall-E 3 также отлично знает мемы и поп-культуру , хотя из-за фильтров там не получится сгенерировать популярных персонажей вроде Марио или Чужого. При этом фильтр иногда не срабатывает — нам удалось сгенерировать логотип «Читос», хотя он тоже защищен авторским правом.

Текст. У Dall-E 3 получаются красивые комиксы, графики, схемы, чего сложно добиться в других нейросетях. Правда, текст в них зачастую несвязный и с лишними буквами или символами. К тому же нейросеть генерирует только текст на английском.

При этом если вам нужно сгенерировать пару слов на логотипе, то получится хорошо.

Обложка статьи

Стили. Dall-E 3 генерирует картинки в разных медиумах и форматах. Хотя имена художников использовать нельзя, нейросеть не всегда отказывается генерировать по таким запросам: в промпте она заменяет имя артиста на описание его стиля.

Иногда фильтр, защищающий от нарушений авторского права, получается обойти. Например, если использовать искаженное имя художника или попросить не переписывать запрос, а точно ему следовать.

Фотореализм. Dall-E 3 пока не очень хорош в генерации реалистичных фотографий. Линии на снимках получаются слишком плавными — сразу видно, что они сгенерированы в нейросети.

Stable Diffusion и Midjourney генерируют фотореализм на порядок лучше. Пользователям даже удавалось выдавать сгенерированные снимки за настоящие.

Обложка статьи

Чем генерация в ChatGPT отличается от Bing Image Creator: советы

В чате с GPT-4 вы можете посмотреть, как нейросеть переписала ваш запрос, кликнув на картинке. Bing Image Creator эту информацию не показывает.

Пользователи Reddit нашли большую инструкцию, которой следует GPT-4 , когда переписывает ваш запрос. В ней указаны ограничения и рекомендации, которым должна следовать нейросеть. По сути, она действует как посредник между вами и Dall-E 3 .

Вот как можно оптимизировать «посредничество» GPT-4 при составлении запроса.

Попросите не слишком сильно расширять ваш запрос. Нейросеть превращает любой запрос даже из одного слова в очень детальный параграф текста, который состоит как минимум из трех предложений. Часто это полезно и удобно, но иногда GPT-4 слишком радикально модифицирует запрос, что приводит к неудовлетворительным результатам. В таком случае попросите GPT-4 создать короткий и лаконичный промпт.

Попросите вообще не модифицировать ваш запрос. Если вы уверены в своем промпте, то отправьте его Dall-E 3 таким, какой он есть, безо всяких изменений. Одновременно можно отправлять четыре промпта на английском языке.

Указывайте медиум. Если вы не укажете, что хотите получить — фото, картину, кадр из фильма, иллюстрацию, — то нейросеть сгенерирует абсолютно разные изображения. В результатах будет все подряд: и фото, и картинка, и иллюстрация. Если хотите получить фотографии, то прямо прописывайте это, нейросеть сгенерирует четыре снимка.

Какая инструкция используется в Bing Image Creator — неизвестно. Повлиять на «посредничество» версии GPT из Bing не получится.

Что в итоге

  1. Dall-E 3 — отличный аналог Midjourney и Stable Diffusion. В отличие от первой, она доступна бесплатно, а в отличие от второй — не требует мощного компьютера и навыков программирования.
  2. А еще нейросеть не требует навыков промптинга. Запросы можно писать на русском языке и естественным языком, не расписывая детали. Dall-E 3 додумает за вас.
  3. Dall-E 3 прекрасно понимает запрос и не упускает детали. Благодаря этому она хороша в генерации креативных идей. Умеет генерировать разные стили, мемы и текст, но в фотореализме уступает другим нейросетям.
  4. У Dall-E 3 есть ограничения: нельзя генерировать знаменитостей и картинки в стиле художников, живших в последние сто лет. Последнее ограничение можно обойти.

Мы постим кружочки, красивые карточки и новости о технологиях и поп-культуре в нашем телеграм-канале. Подписывайтесь, там классно: @t_technocult

Даша Лейзаренко

Даша Лейзаренко
Уже пробовали Dall-E 3? Расскажите о своем опыте:

Загрузка

>Dall-E 3 поддерживает русский язык
Bing Image Creator поддерживает только английский: https://www.bing.com/images/create/help
Можно написать запрос на русском, но он будет автоматически переведен на английский с возможной потерей точности.

>Неизвестная версия GPT в Bing
Можно выбрать между GPT-4(точно, это прямо написано в приложении) и GPT-3.5(вероятно, тут я только косвенные подтверждения нашел).

>Докупить ускорения нельзя.
Можно докупить за баллы Microsoft Rewards.

>По запросу сгенерируются три или четыре изображения — от чего это зависит, неясно.
От эджевости запроса. Генерируется всегда четыре, но фильтр пропускает только те, на которых запрещенку не найдет. В итоге может выдать и две, и одну. И это также значит, что если ничего не выдалось с первого раза, то вполне может выдаться со второго-пятого-десятого.

>Нейросеть отлично понимает промпты, не пропускает слова в запросе и прорабатывает мелкие детали.
Ну, это громко сказано. У меня часто в случае подробных промптов бывает, что сетка в одной картинке учтёт одну половину деталей и не учтёт вторую, а на другой — учтёт вторую, но не учтёт первую. И сидишь пытаешься заставить её учесть всё сразу (и везде).

>не получится сгенерировать популярных персонажей вроде Марио или Чужого.
Да нет, именно персонажей спокойно генерирует(пикрелейтед). Бывают проблемы с живыми людьми, но и то не со всеми. Например, я генерил картинки со мстителями, промпт с Крисом Хемсвортом сразу блокировался, еще до генерации, а с Эвансом — спокойно пропускался. Но если написать только фамилию, например «Hemsworth as Thor» — то тоже пропускает.

>В чате с GPT-4 вы можете посмотреть, как нейросеть переписала ваш запрос, кликнув на картинке. Bing Image Creator эту информацию не показывает.
Если задать промпт через чат Bing, а потом перейти по выданной им ссылке в Creator, то будет видно, как был отредактирован запрос.

Нейросеть DALL-E: обзор возможностей (+ инструкция)

нейросеть DALL-E

Нейросети 2023

Автор kristianakila На чтение 5 мин Просмотров 4.1к. Опубликовано 07.01.2023

Нейросеть Dall-E создана около года назад, поэтому до сих пор претерпевает изменения и доработки. Она известна своей способностью создавать изображения в разных стилях от сюрреализма до гиперреализма. Работы, сгенерированные с ее помощью, демонстрируют на выставках художники, а также используются в рекламе и даже на обложках журналов.

Особенности сети Dall-E

Dall-E – нейросеть, которая умеет создавать изображения по текстовому описанию на английском языке. Первая версия сети издана компанией OpenAI в 2021 году. В ноябре того же года команда разработчиков, включая специалистов Сбера, создали модификацию ruDALL-E, которая обрабатывает и русскоязычные запросы.

Бесплатно пользователям доступно 50 генераций. Далее плата за подписку (каждые 115 генераций) составит 15 долларов.

Dall-E-2 – усовершенствованная версия нейросети, представленная в апреле 2022 года. Она обладает более высокой точностью и четкостью изображений, может трансформировать одно изображение в другое по описанию.

Тренировка CLIP

Первый этап в работе нейросети – перевод человеческой речи в машинную, чтобы работа первой стала возможной. Эту функцию выполняет одна из частей Dall-E – нейросеть CLIP. Изначально она обучалась правильно распознавать то, что происходит на картинке, то есть выполнять обратную операцию. Тренировали ее таким образом: давали несколько пар (картинка в пикселях+текст), а задачей нейросети был перевод их в две сопоставимые метрики в виде чисел, которые соотносились потом по степени похожести. Таким образом, CLIP натренировалась выбирать подходящее к рисунку описание.

Обзор возможностей Dall-E

Примеры изображений Dall-E

29 декабря 2022 года в Сан-Франциско завершилась первая в мире выставка, где инструментом художников выступила нейросеть Dall-E. Считается, что искусственный интеллект не может заменить самого художника. Она лишь помогает ему создать уникальный шедевр, на изготовление которого обычно требуется много времени.

Нейросеть DALL-E: обзор возможностей (+ инструкция)

Нейросеть DALL-E: обзор возможностей (+ инструкция)

Среди знаменитых артов в интернете также можно встретить “Красивая женщина смотрит в старое окно”, “Поникший мужчина сидит в спальне”, “Снимок как Дарт Вейдер ждет в очереди в Макдональдсе в 90-х годах” и многие другие. Рисунки, которые находятся в свободном доступе, отбирают на обозрение как наиболее удачные.

Интерфейс нейросети

Нейросеть DALL-E: обзор возможностей (+ инструкция)

Инструкция по использованию нейросети

Регистрация в России

В обычной Dall-E зарегистрироваться можно только через VPN-сервисы. Этапы регистрации:

  1. Определить в VPN свое положение в другой стране (например, Италия). Лучше всего применять туннелированную на сервер выбранной страны программу, чтобы результат был гарантирован.
  2. Зарегистрировать новый аккаунт в Google.
  3. Купить номер телефона другой страны (например, Италии. VPN-адресация и страна для номера телефона должны совпадать). Для покупки номера, можно использовать сервсис https://onlinesim.ru/
  4. Ввести номер телефона и почту при регистрации на сайте OpenAI.

Чтобы воспользоваться ruDALL-E регистрация вообще не нужна. Генерация изображений происходит на официальном сайте при отправке запроса.

Как создать изображение-картинку под запрос

Для создания идеального запроса удобно использовать сервис Phraser. Для этого необходимо следовать алгоритму на сайте:

  1. Выбрать нейросеть и формат контента.
  2. Описать словами то, что собираетесь изобразить.
  3. Определить стиль арта (если требуется) из стилей художников, фотографов.
  4. Выбрать параметры рисования: цвет и текстуру, а также эмоции, которые будет вызывать готовый рисунок.

Также можно воспользоваться сервисом Prompter, который представляет собой таблицу стилей с краткими пояснениями к параметрам, которые будут составлять запрос. Минус программы – отсутствие наглядности.

Как правильно сформулировать описание запроса в нейросети

Американская версия Dall-E изображает запрос только на английском языке. Запрос должен быть максимально точным и понятным для машины. Несколько рекомендаций для создания запроса:

  1. Избегайте формулировок с частицей “не”, фразой “за исключением” и т.д. Запрос с ними может быть распознан неправильно.
  2. Указывайте простые параметры без художественной окраски.
  3. Уточняйте запрос. Например, сеть может неправильно понять фразу “Кот с тарелкой”. Лучше: “Кот сидит рядом с тарелкой”.
  4. Уточняйте другие параметры (цвет, освещение, год, век, стиль и т.д.). Указывайте через запятую или точку.

Что такое диффузная модель

По сути Dall-E представляет собой связку из трех нейросетей. Первая, CLIP, переводит человеческий язык на язык машинного кода, цифр. Далее она собирает эти цифры в таблицу с другими цифрами, создавая тем самым “набросок” будущего рисунка. Чтобы это стало возможным, CLIP целенаправленно тренировали на 600 миллионах различных артов и подписях к ним.

Следующим этапом набросок получает нейросеть GLIDE. Она применяет диффузную модель, то есть совмещает набросок и первоначальный текст, создавая серый зернистый квадрат. Зерно постепенно уменьшается и в конечном итоге получается изображение плохого качества.

Третья нейросеть получает изображение из предыдущего этапа и в 16 раз улучшает его качество.

Как создать изображение по фото

Редактировать готовые картинки Dall-E обучили совсем недавно. Для этого необходимо:

  1. После авторизации на странице генерации нажать кнопку “Загрузить изображение”. Выбрать источник загрузки из списка.
  2. Нажать кнопку редактирования “Editimage”.
  3. Воспользоваться инструментами (ластиком для удаления лишнего).
  4. Добавить в строку запроса текстовый запрос для изменения исходного изображения. Можно сгенерировать измененный файл несколько раз.
  5. Сохранить файл на компьютер.

Способы улучшить изображение

По умолчанию система генерирует четыре вариации изображения и предлагает выбрать одну из них. Чтобы сделать полученный результат лучше, рекомендуется добавлять уточняющие параметры. Важно помнить, что нейросеть не может опознавать текст как обычный человек и чем конкретнее и точнее будет параметр, тем качественнее выйдет картинка.

Если изменить предлагается уже готовое изображение, загруженное извне, необходимо воспользоваться инструкцией выше.

Похожие нейросети

  • Playgroundai. Появление этой нейросети было анонсировано американской компании Nvidia в 2019 году, но рабочий вариант появился лишь на излете 2022 года.
  • Runway. Работает со статическими изображениями и видео. Позволяет создавать новый контент или редактировать уже готовый: добавлять стиль, убирать или менять фон и т.д.
  • Canva Al Image Generator. Позволяет создавать арты в 2D и 3D по ключевым запросам. Удобно редактировать получаемые результаты.
  • Jasper. Используется для создания контентов для рекламы и социальных сетей. Есть настройки по ключевым фразам, настроению, стилю.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *