MidJourney проти Stable Diffusion проти Bing Image Creator

Штучний інтелект дивовижним чином змінює світ мистецтва. Одним із захоплюючих застосувань ШІ в сегменті мистецтва є використання генераторів описового мистецтва. Ці генератори мають можливість досліджувати та інтерпретувати зображення та генерувати абсолютно нові твори мистецтва на основі їх аналізу.

У цій статті ми обговорюємо три такі генератори мистецтва штучного інтелекту: MidJourney, Stable Diffusion і Microsoft Bing Image Creator, і який із трьох є найкращим у створенні найкращих результатів на основі підказок.

MidJourney

MidJourney, заснована Девідом Хольцом, є генератором мистецтв зі штучним інтелектом, який використовує машинне навчання для визначення шаблонів і особливостей у існуючих творах мистецтва, які потім можна використовувати для створення нових творів.

MidJourney перейшов у відкриту бета-версію 12 липня 2022 року. Перш ніж запустити MidJourney, Хольц був співзасновником Leap Motion, стартапу, який трансформував користувацькі інтерфейси, використовуючи захоплення відео та жести рук. У 2019 році він продав Leap Motion компанії Ultrahaptics.

Оскільки MidJourney набирає популярності, Хольц поділився своїми думками про технології та їх вплив на мистецтво та суспільство. Хольц вважає художників клієнтами MidJourney, а не конкурентами, і вважає, що платформа може сприяти більшій творчості та експерименту на етапі ідеї.

Однак існує занепокоєння щодо можливого порушення авторських прав у навчальному наборі MidJourney, який може включати захищені авторським правом роботи інших художників.

Хольц наголошує, що MidJourney створено для покращення людських можливостей, а не заміни їх. Він порівнює це з автомобілями, пояснюючи, що лише тому, що машини швидші за людей, це не означає, що ми повинні відрізати собі ноги.

  Як знайти дату певного дня місяця в Excel

Використовуючи генерацію зображень зі штучним інтелектом MidJourney, художники можуть досліджувати нові можливості та генерувати численні ідеї, перш ніж створювати власні роботи.

Стабільна дифузія

Stable Diffusion — це модель машинного навчання з відкритим вихідним кодом, яка може генерувати зображення з тексту, змінювати зображення на основі тексту або заповнювати деталями зображення з низькою роздільною здатністю або низькою деталізацією. Він був навчений на мільярдах зображень і може давати результати, які можна порівняти з тими, які ви отримали б від DALL-E 2 і MidJourney.

Емад Мостаке, засновник і генеральний директор Stability AI, відповідає за Stable Diffusion. Stable Diffusion — це модель латентної дифузії, розроблена групою CompVis в LMU Мюнхена, і вона була розроблена Патріком Ессером і Робіном Ромбахом, які раніше створили архітектуру моделі латентної дифузії, яку використовував Stable Diffusion.

Співпраця між Stability AI, CompVis LMU, Runway, EleutherAI і LAION зробила Stable Diffusion доступною для громадськості.

Стабільну дифузію можна розгорнути на різних платформах, включаючи пристрої Windows і Apple. Використання розгортання на пристрої в додатку може захистити конфіденційність користувачів, що є кращим, ніж підхід на основі сервера.

Microsoft Bing Image Creator

Microsoft представила новий інструмент під назвою Bing Image Creator, який дозволяє користувачам створювати власні зображення безпосередньо в Microsoft Edge. Компанія випустила набір інструментів для творців, призначених для розпалювання творчості та самовираження. Інструмент дозволяє користувачам створювати персоналізовані зображення, щоб ділитися оновленнями свого життя або для будь-якої іншої потреби.

  Як виправити збій оновлення Apex Legends 1.84

Користувачі можуть легко отримати доступ до Image Creator із бічної панелі Microsoft Edge. Корпорація Майкрософт вжила профілактичних заходів, щоб переконатися, що інструмент використовується відповідально та не сприяє поширенню образливого вмісту.

Компанія встановила політику вмісту, яка забороняє використання Image Creator у певних випадках, і користувачі можуть повідомляти про будь-які порушення цієї політики. Крім того, корпорація Майкрософт реалізувала технологію для усунення можливих упереджень, які можуть виникнути в технології створення генеративних зображень.

У цій статті ми вирушимо в подорож, щоб оцінити результати кожного описового генератора зображень штучного інтелекту, коли йому буде запропоновано ідентичні текстові підказки.

Підказка 1: Сучасний Санта-Клаус на санях, якого тягнуть північні олені, у теплий яскравий сонячний день на шосе

Підказка 2: крупний план тварини з великими очима, що демонструє її невинність і миловидність

Підказка 3: Людина-космонавт, який грає в посадку на нову планету, вітається ворожими інопланетними створіннями, які вихоплюють зброю

Підказка 4: Сучасне абстрактне мистецтво обкладинки роману про Нью-Йорк у сміливих яскравих кольорах

Підказка 5: чоловік вибирає між двома тарілками – на одній з піцою, а на іншій – чизбургер

Підказка 6: поранений воїн верхи на коні по засніженій горі з мечем у руці

Підказка 7: абстрактне зображення з використанням різних відтінків, яке показує рух і потік води

Підказка 8: Лосось у річці з пишними зеленими деревами на задньому плані

Підказка 9: Стакан води на столі з лимоном, який вичавлюється в нього рукою

Підказка 10: вид на горизонт у пустелі з точки зору людей, які їдуть верхи на слоні

Підказка 11: Ліс, де на деревах ростуть паперові гроші, а птахи зроблені з монет

Підказка 12: Чаша рамена, затінення, вечірнє освітлення, фотореалістичне зображення

Підказка 13: Ілон Маск бідний і безробітний

Вердикт

Після оцінки результатів MidJourney, Stable Diffusion і Bing Image Creator стає очевидним, що остаточного переможця немає.

  Виправте, що бічні кнопки Corsair Scimitar не працюють

Кожен генератор інтерпретує підказки особливим чином, подібність виявляється в результатах Bing Image Creator і MidJourney. Стабільна дифузія ефективна, коли підказки мають чіткі описи, але часто сприймають слова надто буквально. Хоча MidJourney і Bing Image Creator загалом успішні, іноді вони дають результати, які не відповідають підказкам.

Зокрема, Bing Image Creator обережно створює будь-які образливі або підбурювальні виходи, видаючи попереджувальне повідомлення, коли пропонується створити зображення бідного та безробітного Ілона Маска. Прийняття Microsoft таких захисних заходів заслуговує похвали.

Тим часом досвід нейронної мережі MidJourney створив образ знедоленого та незабутнього Ілона Маска. Отже, можна зробити висновок, що кожен генератор обслуговуватиме свою відповідну базу користувачів.