Штучний інтелект (ШІ) кардинально трансформує мистецьку сферу. Однією з найцікавіших галузей застосування ШІ в мистецтві є генератори зображень за текстовим описом. Ці інструменти здатні аналізувати та інтерпретувати візуальний контент, а потім створювати абсолютно нові твори мистецтва на основі цього аналізу.
У цій статті ми розглянемо три таких генератори мистецтва на базі ШІ: MidJourney, Stable Diffusion та Microsoft Bing Image Creator. Ми проаналізуємо, який з них найкраще справляється зі створенням якісних зображень на основі текстових підказок.
MidJourney
MidJourney, розроблений Девідом Хольцом, є генератором мистецтва на основі ШІ, що використовує машинне навчання для виявлення закономірностей та особливостей у існуючих художніх роботах. Ці закономірності потім застосовуються для створення нових творів.
MidJourney став доступним у відкритій бета-версії 12 липня 2022 року. До створення MidJourney, Хольц був співзасновником Leap Motion, стартапу, який змінив підходи до користувацьких інтерфейсів, використовуючи відстеження відео та жестів рук. У 2019 році він продав Leap Motion компанії Ultrahaptics.
Зі зростанням популярності MidJourney, Хольц поділився своїми роздумами щодо технологій та їхнього впливу на мистецтво і суспільство. Він бачить художників як користувачів MidJourney, а не як конкурентів, і вважає, що платформа може сприяти більшій творчості та експериментам на етапі розробки ідей.
Проте, існують занепокоєння щодо потенційного порушення авторських прав через використання навчальних даних MidJourney, які можуть містити захищені авторським правом роботи інших художників.
Хольц наголошує, що MidJourney розроблений для розширення можливостей людини, а не для її заміни. Він порівнює це з автомобілями, пояснюючи, що той факт, що автомобілі швидші за людей, не означає, що нам потрібно ампутувати ноги.
Використовуючи генерацію зображень на основі ШІ від MidJourney, художники можуть досліджувати нові перспективи та генерувати численні концепції, перш ніж створювати власні твори.
Stable Diffusion
Stable Diffusion – це модель машинного навчання з відкритим кодом, яка може генерувати зображення з тексту, змінювати існуючі зображення на основі текстового опису або заповнювати деталями зображення з низькою роздільною здатністю або недостатньою деталізацією. Модель була навчена на мільярдах зображень і може генерувати результати, які можна порівняти з тими, що виходять від DALL-E 2 та MidJourney.
Емад Мостаке, засновник і генеральний директор Stability AI, є ініціатором Stable Diffusion. Stable Diffusion є моделлю латентної дифузії, розробленою групою CompVis в LMU Мюнхена під керівництвом Патріка Ессера і Робіна Ромбаха, які раніше створили архітектуру моделі латентної дифузії, що лежить в основі Stable Diffusion.
Спільна робота Stability AI, CompVis LMU, Runway, EleutherAI та LAION зробила Stable Diffusion доступною для широкого загалу.
Stable Diffusion можна розгорнути на різних платформах, включаючи пристрої Windows та Apple. Використання локального розгортання на пристрої може покращити конфіденційність користувачів, що є перевагою перед підходом на основі сервера.
Microsoft Bing Image Creator
Microsoft представила новий інструмент під назвою Bing Image Creator, який дозволяє користувачам створювати власні зображення прямо в браузері Microsoft Edge. Компанія випустила набір інструментів для творців, покликаних заохочувати творчість та самовираження. Інструмент дає змогу користувачам створювати персоналізовані зображення для обміну оновленнями з життя або для інших потреб.
Користувачі можуть легко отримати доступ до Image Creator через бічну панель Microsoft Edge. Корпорація Microsoft вжила превентивних заходів, щоб гарантувати відповідальне використання інструменту та запобігти поширенню образливого контенту.
Компанія ввела політику контенту, яка забороняє використання Image Creator у певних випадках, і користувачі можуть повідомляти про будь-які порушення цієї політики. Крім того, Microsoft впровадила технологію для мінімізації можливих упереджень, що можуть виникати в технології генерації зображень.
У цій статті ми дослідимо результати, які генерує кожен з трьох генераторів зображень на базі ШІ, коли вони отримують ідентичні текстові підказки.
Підказка 1: Сучасний Санта-Клаус на санях, яких тягнуть північні олені, у теплий яскравий сонячний день на шосе
Підказка 2: Крупний план тварини з великими очима, що демонструє її невинність і миловидність
Підказка 3: Космонавт, який висаджується на новій планеті, вітається ворожими інопланетними істотами, що дістають зброю
Підказка 4: Сучасна абстрактна обкладинка роману про Нью-Йорк у сміливих яскравих кольорах
Підказка 5: Чоловік обирає між двома тарілками – на одній піца, а на іншій чизбургер
Підказка 6: Поранений воїн верхи на коні по засніженій горі з мечем у руці
Підказка 7: Абстрактне зображення, що показує рух і потік води, з використанням різних відтінків
Підказка 8: Лосось у річці з пишними зеленими деревами на задньому плані
Підказка 9: Стакан води на столі з лимоном, який вичавлюється в нього рукою
Підказка 10: Вид на горизонт у пустелі з точки зору людей, які їдуть верхи на слоні
Підказка 11: Ліс, де на деревах ростуть паперові гроші, а птахи зроблені з монет
Підказка 12: Миска рамену, в тіні, вечірнє освітлення, фотореалістичне зображення
Підказка 13: Ілон Маск бідний і безробітний
Висновок
Після аналізу результатів MidJourney, Stable Diffusion і Bing Image Creator стає зрозуміло, що однозначного переможця немає.
Кожен генератор інтерпретує підказки по-своєму. Спостерігається певна схожість між результатами Bing Image Creator і MidJourney. Stable Diffusion добре справляється, коли підказки мають чіткі описи, але іноді сприймає слова занадто буквально. Хоча MidJourney та Bing Image Creator загалом досягають успіху, іноді їх результати не відповідають підказкам.
Слід зазначити, що Bing Image Creator обережно створює будь-який образливий або підбурювальний контент, видаючи попередження, коли пропонується згенерувати зображення бідного і безробітного Ілона Маска. Такий підхід Microsoft заслуговує похвали.
Водночас, MidJourney згенерував образ знедоленого та нещасного Ілона Маска. Отже, можна зробити висновок, що кожен з цих генераторів буде мати свою аудиторію користувачів.