Штучний інтелект не може розв'язати ці головоломки, які займають у людей лише секунди

(Зображення: Флавіо Коельо через Getty Images)

Існує багато способів перевірити інтелект штучного інтелекту — плавність розмови, розуміння прочитаного або неймовірно складна фізика. Але деякі з тестів, які найімовірніше поставлять ШІ в глухий кут, — це ті, які люди вважають відносно легкими, навіть цікавими. Хоча ШІ все частіше досягають успіхів у завданнях, що вимагають високого рівня людської експертизи, це не означає, що вони близькі до досягнення загального штучного інтелекту, або ЗШІ. ЗШІ вимагає, щоб ШІ міг брати дуже невелику кількість інформації та використовувати її для узагальнення та адаптації до дуже нових ситуацій. Ця здатність, яка є основою навчання людини, залишається складною для ШІ.

Один з тестів, розроблений для оцінки здатності штучного інтелекту до узагальнення, – це Корпус абстракції та міркування, або ARC: набір крихітних головоломок із кольоровою сіткою, які просять розв'язувача вивести приховане правило, а потім застосувати його до нової сітки. Розроблений дослідником штучного інтелекту Франсуа Шолле у 2019 році, він став основою Фонду премії ARC, некомерційної програми, яка адмініструє цей тест — зараз це галузевий еталон, який використовується всіма основними моделями штучного інтелекту. Організація також розробляє нові тести та регулярно використовує два з них (ARC-AGI-1 та його складніший наступник ARC-AGI-2). Цього тижня фонд запускає ARC-AGI-3, спеціально розроблений для тестування агентів ШІ — і заснований на тому, щоб вони грали у відеоігри.

Видання Scientific American поспілкувалося з президентом фонду ARC Prize Foundation, дослідником штучного інтелекту та підприємцем Грегом Камрадтом, щоб зрозуміти, як ці тести оцінюють штучний інтелект, що вони говорять нам про потенціал штучного інтелекту (ЗШІ) та чому вони часто є складними для моделей глибокого навчання, хоча багато людей схильні вважати їх відносно легкими. Посилання для проходження тестів є в кінці статті.

Вам може сподобатися

  • Штучний інтелект перехитрив 30 найкращих математиків світу на секретній зустрічі в Каліфорнії

  • Дослідження показує, що передові моделі штучного інтелекту від OpenAI та DeepSeek зазнають «повного колапсу», коли проблеми стають надто складними.

  • Вчені щойно розробили новий штучний інтелект, змодельований за зразком людського мозку, — він перевершує LLM, такі як ChatGPT, у завданнях мислення.

[Далі наведено відредаговану стенограму інтерв'ю.]

Яке визначення інтелекту вимірюється за допомогою ARC-AGI-1?

Наше визначення інтелекту – це ваша здатність навчатися новому. Ми вже знаємо, що ШІ може вигравати в шахи. Ми знаємо, що вони можуть перемогти Го. Але ці моделі не можуть узагальнюватися на нові області; вони не можуть піти і вивчити англійську. Тож Франсуа Шолле створив бенчмарк під назвою ARC-AGI — він навчає вас міні-навичці в запитанні, а потім просить вас продемонструвати цю міні-навичку. Ми, по суті, чогось навчаємо і просимо вас повторити навичку, яку ви щойно вивчили. Отже, тест вимірює здатність моделі навчатися у вузькій області. Але ми стверджуємо, що він не вимірює AGI, оскільки він все ще знаходиться в обмеженій області [в якій навчання застосовується лише до обмеженої області]. Він вимірює, чи може ШІ узагальнювати, але ми не стверджуємо, що це AGI.

Як ви тут визначаєте ЗШІ?

Я дивлюся на це двома способами. Перший — більш технологічний, а саме: «Чи може штучна система зрівнятися з ефективністю навчання людини?» Під цим я маю на увазі, що після народження люди багато чого навчаються поза межами своїх навчальних даних. Насправді, у них насправді немає навчальних даних, окрім кількох еволюційних попередників. Тож ми вчимося розмовляти англійською, ми вчимося водити машину та ми вчимося їздити на велосипеді — все це поза межами наших навчальних даних. Це називається узагальненням. Коли ви можете робити речі поза тим, чому вас зараз навчили, ми визначаємо це як інтелект. Альтернативне визначення загального штучного інтелекту (ЗШІ), яке ми використовуємо, полягає в тому, що коли ми більше не можемо вирішувати проблеми, які можуть вирішувати люди, а ШІ не може — ось тоді у нас є ЗШІ. Це спостережливе визначення. Зворотний бік також вірний: доки премія ARC або людство загалом все ще можуть знаходити проблеми, які можуть вирішувати люди, але ШІ не може, тоді у нас немає ЗШІ. Один з ключових факторів щодо бенчмарку Франсуа Шолле… полягає в тому, що ми тестуємо людей, і пересічна людина може виконувати ці завдання та вирішувати ці проблеми, але штучному інтелекту все одно з цим дуже важко. Причина цього полягає в тому, що деякі просунуті штучні інтелекти, такі як Грок, можуть скласти будь-який іспит на рівні магістратури або робити всі ці божевільні речі, але це гострий інтелект. Він все ще не має здатності до узагальнення, як людина. І саме це показує цей бенчмарк.

Чим ваші орієнтири відрізняються від тих, що використовуються іншими організаціями?

Одна з речей, яка нас відрізняє, полягає в тому, що ми вимагаємо, щоб наш бенчмарк був розв'язуваним людьми. Це суперечить іншим бенчмаркам, де вони розв'язують задачі на «докторську дисертацію плюс-плюс». Мені не потрібно говорити, що ШІ розумніший за мене — я вже знаю, що OpenAI o3 може робити багато речей краще за мене, але він не має людської здатності узагальнювати. Саме на цьому ми вимірюємо, тому нам потрібно тестувати людей. Насправді ми протестували 400 людей за допомогою ARC-AGI-2. Ми зібрали їх у кімнаті, дали їм комп'ютери, провели демографічний скринінг, а потім дали їм пройти тест. Середня людина набрала 66 відсотків за допомогою ARC-AGI-2. Однак разом сукупні відповіді від п'яти до десяти людей міститимуть правильні відповіді на всі запитання в ARC2.

Що робить цей тест складним для ШІ та відносно легким для людей?

Є дві речі. Люди неймовірно ефективно працюють з вибіркою у своєму навчанні, тобто вони можуть розглянути проблему, і, можливо, на одному чи двох прикладах, вони можуть опанувати міні-навичку або перетворення та виконати це. Алгоритм, який працює в голові людини, на порядок кращий та ефективніший, ніж те, що ми бачимо зараз зі штучним інтелектом.

Яка різниця між ARC-AGI-1 та ARC-AGI-2?

Отже, ARC-AGI-1, Франсуа Шолле зробив сам. Це було близько 1000 завдань. Це було у 2019 році. Він фактично зробив мінімально життєздатну версію, щоб виміряти узагальнення, і вона протрималася п'ять років, тому що глибоке навчання взагалі не могло її охопити. Вона навіть не наближалася до цього. Потім моделі міркувань, які вийшли у 2024 році від OpenAI, почали прогресувати в ньому, що показало поетапну зміну в тому, що може робити ШІ. Потім, коли ми перейшли до ARC-AGI-2, ми зайшли трохи далі в кролячу нору щодо того, що можуть робити люди, а що не може ШІ. Це вимагає трохи більше планування для кожного завдання. Тож замість того, щоб розв'язувати завдання протягом п'яти секунд, люди можуть зробити це за хвилину-дві. Є складніші правила, а сітки більші, тому потрібно бути точнішим у своїй відповіді, але це та сама концепція, більш-менш… Зараз ми запускаємо попередній перегляд для розробників для ARC-AGI-3, і це повністю відхиляється від цього формату. Новий формат насправді буде інтерактивним. Тож уявіть собі його радше як орієнтир для агентів.

Чим відрізнятимуться агенти тестування ARC-AGI-3 порівняно з попередніми тестами?

Якщо подумати про повсякденне життя, то рідко трапляється так, що ми приймаємо рішення без урахування стану. Коли я кажу «без стану», я маю на увазі лише запитання та відповідь. Зараз усі бенчмарки є більш-менш безумовними. Якщо ви задаєте мовній моделі запитання, вона дає вам одну відповідь. Багато чого неможливо перевірити за допомогою бенчмарку без урахування стану. Не можна перевірити планування. Не можна перевірити дослідження. Не можна перевірити інтуїтивне розуміння середовища чи цілей, пов'язаних з цим. Тому ми створюємо 100 нових відеоігор, які будемо використовувати для тестування людей, щоб переконатися, що вони можуть їх виконувати, тому що це основа нашого бенчмарку. А потім ми збираємося впровадити штучний інтелект у ці відеоігри та подивитися, чи зможуть вони зрозуміти це середовище, якого вони ніколи раніше не бачили. На сьогоднішній день, за результатами нашого внутрішнього тестування, жоден штучний інтелект не зміг би подолати хоча б один рівень однієї з ігор.

Чи можете ви описати відеоігри тут?

Кожне «середовище» або відеогра — це двовимірна піксельна головоломка. Ці ігри структуровані як окремі рівні, кожен з яких розроблений для навчання гравця (людини чи штучного інтелекту) певній міні-навичці. Щоб успішно пройти рівень, гравець повинен продемонструвати володіння цією навичкою, виконуючи заплановану послідовність дій.

Чим використання відеоігор для тестування ЗШІ відрізняється від способів, якими відеоігри використовувалися для тестування систем штучного інтелекту раніше?

Відеоігри вже давно використовуються як бенчмарки в дослідженнях штучного інтелекту, популярним прикладом є ігри Atari. Але традиційні бенчмарки відеоігор стикаються з кількома обмеженнями. Популярні ігри мають широкі навчальні дані, доступні у відкритому доступі, не мають стандартизованих метрик оцінки продуктивності та дозволяють використовувати методи грубої сили, що включають мільярди симуляцій. Крім того, розробники, які створюють агенти штучного інтелекту, зазвичай мають попередні знання про ці ігри, ненавмисно вбудовуючи власні знання в рішення.

Спробуйте ARC-AGI-1, ARC-AGI-2 та ARC-AGI-3.

Цю статтю вперше опубліковано на Scientific American. © ScientificAmerican.com. Усі права захищено. Підписуйтесь на TikTok, Instagram, X та Facebook.

Науковий журналіст Дені Елліс Бешар

Дені Елліс Бешар — старший технічний репортер журналу «Scientific American». Він є автором 10 книг і отримав Премію письменників Співдружності, книжкову премію Середнього Заходу та книжкову премію «Nautilus» за журналістські розслідування. Він має два ступені магістра з літератури, а також ступінь магістра з біології Гарвардського університету. Його останній роман «Ми — мрії у вічній машині» досліджує способи, якими штучний інтелект може змінити людство.

Ви повинні підтвердити своє публічне ім'я, перш ніж коментувати

Будь ласка, вийдіть із системи, а потім увійдіть знову. Після цього вам буде запропоновано ввести своє ім'я для відображення.

Вийти Читати далі

Штучний інтелект перехитрив 30 найкращих математиків світу на секретній зустрічі в Каліфорнії

Дослідження показує, що передові моделі штучного інтелекту від OpenAI та DeepSeek зазнають «повного колапсу», коли проблеми стають надто складними.

Вчені щойно розробили новий штучний інтелект, змодельований за зразком людського мозку, — він перевершує LLM, такі як ChatGPT, у завданнях мислення.

«У кращому випадку безрозсудно, а в гіршому — оманливо та небезпечно»: Не вірте галасі — ось чому штучний інтелект не такий, як кажуть мільярдери

Штучний інтелект постійно «галюцинує», але є рішення

Чим досконаліші стають моделі штучного інтелекту, тим краще вони нас обманюють — вони навіть знають, коли їх тестують. Найновіше у сфері штучного інтелекту.

Ви довіряєте ШІ?

Вчені кажуть, що ШІ може вийти з ладу 32 різними способами — від галюцинаційних відповідей до повної невідповідності з людством

Вчені щойно розробили новий штучний інтелект, змодельований за зразком людського мозку, — він перевершує LLM, такі як ChatGPT, у завданнях мислення.

IBM та NASA створюють перший у своєму роді штучний інтелект, який може точно передбачати сильні спалахи на Сонці

Агент ChatGPT від OpenAI може керувати вашим ПК, щоб він виконував завдання від вашого імені, але як це працює і в чому сенс?

Як штучний інтелект-компаньйони змінюють поведінку підлітків дивовижним та зловісним чином. Найновіше в інтерв'ю.

Штучний інтелект не може розв'язати ці головоломки, які займають у людей лише секунди

Ми знаємо, що люди виникли в Африці, але археологія лише розкриває таємниці ранніх цивілізацій континенту.

«Ці рішення були абсолютно необдуманими»: Скорочення фінансування мРНК-вакцин зробить Америку більш вразливою до пандемій

«Ось як би я відреагував, якби побачив справжнього гігантського динозавра»: що думає про фільм науковий керівник фільму «Світ Юрського періоду: Відродження»

«Відторгнення вакцин таке ж давнє, як і самі вакцини»: історик науки Томас Левенсон про історію теорії мікробів та її заперечувачів

«Стосунки, які можуть жахнути Дарвіна»: Мінді Вайсбергер про реальність зомбування комах, що викликає повзання по шкірі ОСТАННІ СТАТТІ

  • Археологи кажуть, що в Перу знайдено «дивну» гробницю, в якій зберігаються скелети людей з мотузками на шиях та зв'язаними за спиною руками.

  • Повний «Кукурудзяний Місяць» сходить цього тижня — він принесе більшій частині світу місячне затемнення у вигляді «кривавого місяця».
  • Вчені кажуть, що існує 32 різні способи, якими ШІ може вийти з ладу — від галюцинаційних відповідей до повної невідповідності з людством.
  • 4. Перший у світі вид на Землю з Місяця, зроблений 59 років тому — Космічне фото тижня
  • 5. У якої тварини найкращий слух?
  • Live Science є частиною Future US Inc, міжнародної медіагрупи та провідного цифрового видавництва. Відвідайте наш корпоративний сайт.

    • Про нас
    • Зверніться до експертів Future
    • Умови та положення
    • Політика конфіденційності
    • Політика щодо файлів cookie
    • Заява про доступність
    • Рекламуйтеся у нас
    • Веб-сповіщення
    • Кар'єра
    • Редакційні стандарти
    • Як запропонувати нам історію

    © Future US, Inc. Повний 7-й поверх, 130 West 42nd Street, Нью-Йорк, штат Нью-Йорк, 10036.

    var dfp_config = { “site_platform”: “vanilla”, “keywords”: “type_interview, type-crosspost, exclude-from-syndication, serversidehawk, videoarticle, van-enable-adviser-

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *