Дослідники розкривають приховані складові креативності ШІ

(Автор зображення: Адріан Асторгано для журналу Quanta)

Колись нам обіцяли безпілотні автомобілі та роботів-покоївок. Натомість ми стали свідками зростання систем штучного інтелекту, які можуть перемагати нас у шахи, аналізувати величезні стоси тексту та складати сонети. Це один із найбільших сюрпризів сучасної епохи: фізичні завдання, які легко виконувати людям, виявляються дуже складними для роботів, тоді як алгоритми все більше здатні імітувати наш інтелект.

Ще один сюрприз, який давно бентежить дослідників, – це схильність цих алгоритмів до власного, дивного виду креативності.

Моделі дифузії, основа інструментів генерації зображень, таких як DALL·E, Imagen та Stable Diffusion, призначені для створення копій зображень, на яких вони були навчені. Однак на практиці вони, здається, імпровізують, змішуючи елементи в зображеннях, щоб створити щось нове — не просто безглузді кольорові плями, а цілісне зображення із семантичним значенням. Це «парадокс» моделей дифузії, сказав Джуліо Біролі, дослідник штучного інтелекту та фізик з Вищої нормальної школи в Парижі: «Якби вони працювали ідеально, вони б просто запам'ятовували», — сказав він. «Але вони цього не роблять — вони насправді здатні створювати нові зразки».

Вам може сподобатися

  • Чи позбавить нас аутсорсингу всього ШІ здатності думати самостійно?

  • Чому рішення OpenAI для галюцинацій штучного інтелекту знищить ChatGPT завтра

  • Штучний інтелект не може розв'язати ці головоломки, які займають у людей лише секунди

Для створення зображень дифузійні моделі використовують процес, відомий як шумозаглушення. Вони перетворюють зображення на цифровий шум (некогерентний набір пікселів), а потім знову збирають його. Це як багаторазово пропускати картину через шредер, доки не залишиться лише купа дрібного пилу, а потім знову складати шматочки разом. Роками дослідники задавалися питанням: якщо моделі просто збираються знову, то як новизна з'являється на зображенні? Це як знову збирати подрібнену картину в абсолютно новий витвір мистецтва.

Тепер двоє фізиків зробили вражаючу заяву: саме технічні недосконалості в процесі шумозаглушення призводять до креативності моделей дифузії. У статті, яка буде представлена на Міжнародній конференції з машинного навчання 2025 року, дует розробив математичну модель навчених моделей дифузії, щоб показати, що їхня так звана креативність насправді є детермінованим процесом — прямим, неминучим наслідком їхньої архітектури.

Освітлюючи чорну скриньку моделей дифузії, нове дослідження може мати значні наслідки для майбутніх досліджень штучного інтелекту — і, можливо, навіть для нашого розуміння людської творчості. «Справжня сила цієї статті полягає в тому, що вона робить дуже точні прогнози чогось дуже нетривіального», — сказав Лука Амброджоні, фахівець з інформатики з Університету Радбауда в Нідерландах.

Мейсон Камб, аспірант, який вивчає прикладну фізику в Стенфордському університеті та провідний автор нової статті, давно захоплюється морфогенезом: процесами, за допомогою яких живі системи самоорганізуються.

Один зі способів зрозуміти розвиток ембріонів у людей та інших тварин – це використовувати так звану закономірність Тюрінга, названу на честь математика 20-го століття Алана Тюрінга. Закономірності Тюрінга пояснюють, як групи клітин можуть організовуватися в окремі органи та кінцівки. Найголовніше, що вся ця координація відбувається на локальному рівні. Немає генерального директора, який би контролював трильйони клітин, щоб переконатися, що всі вони відповідають остаточному плану тіла. Іншими словами, окремі клітини не мають якогось готового плану тіла, на якому вони могли б базувати свою роботу. Вони просто вживають заходів та вносять корективи у відповідь на сигнали від своїх сусідів. Ця висхідна система зазвичай працює гладко, але час від часу вона виходить з ладу — наприклад, утворюючи руки з додатковими пальцями.

Коли перші зображення, створені штучним інтелектом, почали з'являтися в Інтернеті, багато з них виглядали як сюрреалістичні картини, що зображують людей із додатковими пальцями. Це одразу змусило Камба задуматися про морфогенез: «Це тхнуло як провал, якого можна очікувати від [знизу вгору] системи», – сказав він.

Дослідники штучного інтелекту вже знали, що моделі дифузії використовують кілька технічних скорочень під час створення зображень. Перший відомий як локальність: вони звертають увагу лише на одну групу або «пляму» пікселів за раз. Другий полягає в тому, що вони дотримуються суворого правила під час створення зображень: якщо, наприклад, змістити вхідне зображення лише на кілька пікселів у будь-якому напрямку, система автоматично налаштується, щоб внести ту саму зміну в зображення, яке вона генерує. Ця функція, яка називається трансляційною еквівалентністю, є способом моделі зберегти когерентну структуру; без неї набагато складніше створювати реалістичні зображення.

Вам може сподобатися

  • Чи позбавить нас аутсорсингу всього ШІ здатності думати самостійно?

  • Чому рішення OpenAI для галюцинацій штучного інтелекту знищить ChatGPT завтра

  • Штучний інтелект не може розв'язати ці головоломки, які займають у людей лише секунди

Частково через ці особливості, моделі дифузії не звертають уваги на те, де певна ділянка впишеться в кінцеве зображення. Вони просто зосереджуються на генерації однієї ділянки за раз, а потім автоматично розміщують її на місці за допомогою математичної моделі, відомої як функція оцінювання, яку можна розглядати як цифровий шаблон Тюрінга.

Дослідники довго розглядали локальність та еквівалентність як лише обмеження процесу шумозаглушення, технічні особливості, які заважали моделям дифузії створювати ідеальні репліки зображень. Вони не пов'язували їх з креативністю, яка вважалася явищем вищого порядку.

На них чекав ще один сюрприз.

Виготовлено місцево

Камб розпочав свою аспірантуру у 2022 році в лабораторії Сурьї Гангулі, фізика зі Стенфорда, який також має посади в галузі нейробіології та електротехніки. OpenAI випустив ChatGPT того ж року, що викликало сплеск інтересу до галузі, яка зараз відома як генеративний штучний інтелект. Поки розробники технологій працювали над створенням дедалі потужніших моделей, багато науковців залишалися зосередженими на розумінні внутрішньої роботи цих систем.

Мейсон Камб (ліворуч) та Сурья Гангулі виявили, що креативність у моделях дифузії є наслідком їхньої архітектури.

З цією метою Камб врешті-решт розробив гіпотезу про те, що локальність та еквівалентність призводять до креативності. Це породило привабливу експериментальну можливість: якби він міг розробити систему, яка б не робила нічого, крім оптимізації локальності та еквівалентності, вона мала б поводитися як модель дифузії. Цей експеримент був основою його нової статті, яку він написав разом із Гангулі як співавтором.

Камб і Гангулі називають свою систему машиною еквівалентної локальної оцінки (ELS). Це не навчена модель дифузії, а радше набір рівнянь, які можуть аналітично передбачати склад зображень з усунутим шумом, виходячи виключно з механіки локальності та еквівалентності. Потім вони взяли серію зображень, які були перетворені на цифровий шум, і пропустили їх як через машину ELS, так і через низку потужних моделей дифузії, включаючи ResNets та UNets.

Результати були «шокуючими», сказав Гангулі: загалом машина ELS змогла ідентично зіставити вихідні дані навчених моделей дифузії із середньою точністю 90% — результат, який «нечуваний у машинному навчанні», сказав Гангулі.

Результати, схоже, підтверджують гіпотезу Камба. «Щойно ви запроваджуєте локальність, [креативність] стає автоматичною; вона абсолютно природно випадає з динаміки», – сказав він. Він виявив, що ті самі механізми, які обмежують вікно уваги моделей дифузії під час процесу шумозаглушення – змушуючи їх зосереджуватися на окремих ділянках, незалежно від того, де вони зрештою впишуться в кінцевий продукт – це ті самі механізми, які й забезпечують їхню креативність. Феномен додаткових пальців, що спостерігається в моделях дифузії, також був прямим побічним продуктом гіперфіксації моделі на генеруванні локальних ділянок пікселів без будь-якого ширшого контексту.

Експерти, опитані для цієї статті, загалом погоджуються, що хоча стаття Камба та Гангулі висвітлює механізми креативності в моделях дифузії, багато чого залишається загадковим. Наприклад, великі мовні моделі та інші системи штучного інтелекту також, здається, демонструють креативність, але вони не використовують локальність та еквівалентність.

«Я думаю, що це дуже важлива частина історії, — сказав Біролі, — [але] це не вся історія».

Створення творчості

Вперше дослідники показали, як креативність моделей дифузії можна розглядати як побічний продукт самого процесу шумозаглушення, який можна формалізувати математично та передбачити з безпрецедентно високим ступенем точності. Це майже так, ніби нейробіологи помістили групу людей-митців у апарат МРТ і знайшли спільний нейронний механізм, що лежить в основі їхньої креативності, який можна записати у вигляді набору рівнянь.

ПОВ'ЯЗАНІ ІСТОРІЇ

— Чому чат-боти зі штучним інтелектом споживають так багато енергії?

— Штучний інтелект набирає обертів — що це означає для того, як ми користуємося інтернетом?

— Вчені щойно розробили новий штучний інтелект, змодельований за зразком людського мозку, — він перевершує LLM, такі як ChatGPT, у завданнях міркування.

Порівняння з нейронаукою може виходити за рамки простої метафори: робота Камба та Гангулі також може дати уявлення про чорну скриньку людського розуму. «Людська креативність та креативність штучного інтелекту можуть не так сильно відрізнятися», — сказав Бенджамін Гувер, дослідник машинного навчання в Технологічному інституті Джорджії та IBM Research, який вивчає моделі дифузії. «Ми збираємо речі на основі того, що ми переживаємо, про що ми мріяли, що ми бачили, чули чи бажали. Штучний інтелект також просто збирає будівельні блоки з того, що він бачить, і що його просять зробити». Згідно з цією точкою зору, як людська, так і штучна креативність може бути фундаментально вкорінена в неповному розумінні світу: ми всі робимо все можливе, щоб заповнити прогалини в наших знаннях, і час від часу ми генеруємо щось нове та цінне. Можливо, це те, що ми називаємо креативністю.

Оригінальна історія передрукована з дозволу журналу Quanta, редакційно незалежного видання, що підтримується Фондом Саймонса.

Вебб Райт, журналіст

Вебб Райт — журналіст з Брукліна, штат Нью-Йорк, який пише про технології та розум. Він є випускником Вищої школи журналістики Колумбійського університету та колишнім стипендіатом програми психоделічної журналістики Ferriss — UC Berkeley.

Ви повинні підтвердити своє публічне ім'я, перш ніж коментувати

Будь ласка, вийдіть із системи, а потім увійдіть знову. Після цього вам буде запропоновано ввести своє ім'я для відображення.

Вийти Читати далі

Чи позбавить нас аутсорсингу всього ШІ здатності думати самостійно?

Чому рішення OpenAI для галюцинацій штучного інтелекту знищить ChatGPT завтра

Штучний інтелект не може розв'язати ці головоломки, які займають у людей лише секунди

Вчені попросили ChatGPT вирішити математичну задачу, яка виникла понад 2000 років тому, — відповідь, яка їх здивувала.

Нове тривожне дослідження показує, що штучний інтелект може використовувати онлайн-зображення як бекдор у ваш комп'ютер

Штучний інтелект перехитрив 30 найкращих математиків світу на секретній зустрічі в Каліфорнії
Найновіше у сфері штучного інтелекту

Чому рішення OpenAI для галюцинацій штучного інтелекту знищить ChatGPT завтра

Вчені попросили ChatGPT вирішити математичну задачу, яка виникла понад 2000 років тому, — відповідь, яка їх здивувала.

«Джинна назад у пляшку не засунеш»: Читачі вважають, що вже занадто пізно зупинити розвиток штучного інтелекту.

Нове тривожне дослідження показує, що штучний інтелект може використовувати онлайн-зображення як бекдор у ваш комп'ютер

Чому чат-боти зі штучним інтелектом споживають так багато енергії?

Штучний інтелект стрімко зростає — що це означає для того, як ми використовуємо інтернет?
Останні новини

Чи безпечний ацетамінофен під час вагітності? Ось що каже наука.

Загадковий космічний вибух неможливо пояснити, кажуть вчені

Наукові новини цього тижня: проривний засіб від хвороби Хантінгтона та швидкозростаюча чорна діра, яка порушує фізику

Дерева тропічних лісів Амазонки протистоять зміні клімату, стаючи товстішими від CO2 в атмосфері

Вчені представили перший у світі квантовий комп'ютер, побудований зі звичайних кремнієвих чіпів

«Якщо й існує космічна гонка, Китай її вже виграє»: NASA навряд чи доставить зразки з Марса на Землю раніше, ніж це зробить Китай, кажуть експерти
ОСТАННІ СТАТТІ

  • 1. Історія науки: Розеттський камінь розшифровано, відкриваючи вікно в давньоєгипетську цивілізацію — 27 вересня 1822 року

  • 2Вчені попросили ChatGPT вирішити математичну задачу, якій понад 2000 років, — відповідь, яка їх здивувала
  • 3Наукові новини цього тижня: Проривний засіб від хвороби Хантінгтона та швидкозростаюча чорна діра, яка порушує фізику
  • 4. Офіційно: людство знайшло 6000 планет за межами нашої Сонячної системи.
  • 5 Чому ліки мають неприємний смак?
  • Live Science є частиною Future US Inc, міжнародної медіагрупи та провідного цифрового видавництва. Відвідайте наш корпоративний сайт.

    • Про нас
    • Зв'яжіться з експертами Future
    • Умови та положення
    • Політика конфіденційності
    • Політика щодо файлів cookie
    • Заява про доступність
    • Рекламуйтеся у нас
    • Веб-сповіщення
    • Кар'єра
    • Редакційні стандарти
    • Як запропонувати нам історію

    © Future US, Inc. Повний 7-й поверх, 130 West 42nd Street, Нью-Йорк, штат Нью-Йорк, 10036.

    var dfp_config = { “site_platform”: “vanilla”, “keywords”: “type-news-daily,type-crosspost,exclude-from-syndication,serversidehawk,videoarticle,van-enable-adviser-“

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *