«Штучний інтелект справді мислить — у нього немає свідомості, але є справжнє розуміння». Це доводить дослідник AI в матеріалі «Нью-Йоркера» — й ось на чому він базується

Автор:
Гліб Гусєв
Дата:
«Штучний інтелект справді мислить — у нього немає свідомості, але є справжнє розуміння». Це доводить дослідник AI в матеріалі «Нью-Йоркера» — й ось на чому він базується

Дослідники моделі Claude виявили в ній кластери нейронів, які відповідають за концепції. Вони підсилили кластер, що відповідав мосту «Золота брама», і попросили рецепт торта. Модель запропонувала взяти «чашку сухого туману» та «чашку морської води».

«Бабель»

Програміст Джеймс Сомерс вже багато років блискуче пише про науку для двох найкращих американських щомісячних журналів — «Нью-Йоркера» й «Атлантік». У своєму свіжому матеріалі він відштовхується від принципів роботи застосунків на кшталт Gemini та Chat GPT і розбирає питання на стику технології та філософії: чи можливо відокремити мислення від сприйняття і свідомості — хоча вони нерозривно повʼязані в існуванні людини? Це можливо, — відповідає Сомерс, базуючись на розмовах з нейробіологами та компʼютерними інженерами. Він пояснює, чому процеси, які відбуваються всередині великих мовних моделей, можна назвати справжнім мисленням. Редактор «Бабеля» Гліб Гусєв, який інколи використовує AI, але скептично ставиться до технології загалом, переказує ключові ідеї його матеріалу.

Chat GPT зʼявився в листопаді 2022 року. З того часу в гонку за найкращим штучним інтелектом вступили всі без винятку великі американські технологічні компанії. Вони випускають нові версії своїх чат-ботів так швидко і рекламують їхні можливості так пафосно, що створюють багато недовіри до своїх продуктів. В їхніх гучних заявах важко зорієнтуватися і, навпаки, дуже легко вирішити, що насправді, окрім заяв, нічого немає — а є тільки хайп. Автор статті, програміст Джеймс Сомерс вважав саме так, поки не почав використовувати ШІ для програмування. На роботу, яка раніше у нього зайняла б місяць, тепер він витрачав вечір. Він зробив два застосунки для iOS, нічого не знаючи про цю операційну систему. Це змусило його придивитися до технології ближче.

«Одного разу мій керівник сказав, що на співбесіді слід шукати сильні сторони кандидата, а не перевіряти, чи не має він слабких місць, — пише Джеймс Сомерс. — Великі мовні моделі мають багато слабких місць: вони правдоподібно галюцинують, лестять, навіть коли ти не правий, їх легко обдурити простими головоломками. Але я памʼятаю час, коли очевидні сильні сторони сучасних моделей AI — універсальність, природність у спілкуванні, здатність «розуміти», про що їх запитують, — вважалися недосяжними. Коли ти бачиш ці сильні сторони на власні очі, то замислюєшся, наскільки переконливою має бути ілюзія розуміння, перш ніж ти перестанеш називати її ілюзією?»

У 1980-х роках невеличка команда когнітивних психологів і компʼютерних інженерів спробувала змоделювати мислення. Вони представили мозок як мережу, в якій нейрони активуються цілими конфігураціями, активують інші конфігурації нейронів — і так далі. Цей танець конфігурацій і є мисленням. Мозок навчається, змінюючи міцність зв’язків між нейронами. Вчені змоделювали цей процес у штучній нейронній мережі та посилили точність його передбачень за допомогою алгоритму під назвою «градієнтний спуск». Цей алгоритм можна порівняти з тим, як турист шукає дорогу з вершини гори в долину: найпростіше робити так, щоб кожний наступний крок вів тебе вниз.

Сучасні моделі штучного інтелекту тренуються на великій частині Інтернету, використовуючи метод під назвою «передбачення наступного токена». Модель робить передбачення того, яке слово вона побачить наступним, і порівнює його з тим словом, яке вона насправді бачить. Якщо вона помиляється, то змінює міцність зв’язків між нейронами. Для цього вона використовує «градієнтний спуск». Врешті-решт модель настільки добре може передбачити наступне слово, що починає спілкуватися як розумне створіння.

Виходить, що сталося ось що. Група дослідників намагалася змоделювати роботу мозку. Коли їхня модель стала розміром з мозок — вона почала виконувати задачі, про які люди думали, що тільки вони можуть їх виконати. То, може, їм вдалося?

Звісно, багато дослідників із цим не згодні. Скажімо, письменник Тед Чан (його оповідання у 2016 році Дені Вільнев перетворив на фільм «Прибуття») сформулював свій аргумент так: «ChatGPT — це всього лише розмитий JPEG Інтернету». Він мав на увазі, що творці ШІ просто згодували своїм алгоритмам весь Інтернет, і ці алгоритми тепер переказують Інтернет користувачам достатньо близько до оригіналу, щоб створити ілюзію розуміння. Насправді ж їхня робота — це просто фотографія фотографії фотографії. Схожу тезу містить книжка лінгвістки Емілі Бендер і соціолога Алекса Ханна. Емілі Бендер, окрім іншого, відома тим, що охрестила великі мовні моделі «стохастичними папугами».

Ми попросили Google Gemini намалювати сутність «стохастичного папуги» — тобто повторення без справжнього розуміння.

Згенеровано за допомогою ШІ / «Бабель»

Однак глумливий термін «стохастичний папуга» час поховати. На цьому сходяться кілька нейробіологів з передових університетів, яких цитує Джеймс Сомерс. Річ у тім, що в деяких окремих випадках великі мовні моделі справді відображають роботу префронтальної кори — великого і дуже важливого відділу людського мозку.

У 2003 році дослідник машинного навчання Ерік Баум написав роботу «Що таке думка?». Суть його аргументу полягає в тому, що розуміння — це компресія, а компресія — це розуміння. Коли експериментатор хоче інтерпретувати (зрозуміти) результати експерименту, він збирає дані, що складаються з окремих точок-спостережень. Далі він робить операцію під назвою «лінійна регресія»: проводить крізь окремі точки та повз них «лінію найкращого наближення». Використовуючи формулу цієї лінії, він потім може передбачити результат наступних спостережень.

Префронтальну кору можна розуміти як орган, який перетворює море сирого досвіду — звуки, зорові образи та інші відчуття — на лінії найкращого наближення і використовує їх для того, щоб робити передбачення. Якщо передбачення помилкове — змінюється міцність зв’язків між нейронами. Врешті-решт у мозку утворюється скомпресована модель світу.

«Ідея того, що компʼютерна програма справді може думати [у тому ж сенсі, що й людина], здається ворожою, — пише Джеймс Сомерс. — Ми зазвичай уявляємо мислення як щось свідоме, на кшталт внутрішнього монологу в дусі Джойса або потоку спогадів і відчуттів у «прустівський» мрії наяву. Або ж маємо на увазі міркування — послідовне розвʼязання проблеми крок за кроком. У розмовах про штучний інтелект ми часто плутаємо ці різні види мислення, і це заводить розмову в глухий кут. «ChatGPT, очевидно, не мислить, — каже хтось, — бо він явно не переживає прустівських марень». «ChatGPT, безперечно, мислить, — заперечує хтось інший, — адже він розвʼязує логічні задачі краще за тебе». Насправді відбувається щось тонше: розуміння контексту — тобто здатність схопити суть того, що відбувається. Це недооцінений вид мислення, бо він переважно несвідомий».

Як саме відбувається це мислення-розуміння та який алгоритм може бути його відображенням? Джеймс Сомерс згадує роботу фіно-американського науковця Пентті Канерви під назвою «Просторово розподілена пам’ять». Канерва стверджував, що думки, відчуття і спогади можна представити як точки (тобто як набір координат) у просторі з багатьма вимірами. Для простоти цей набір можна назвати «адресою».

Кожний спогад має «адресу» — вона задається набором нейронів, який активується, коли ви щось згадуєте. Новий досвід створює нову «адресу» — новий набір нейронів. Такі «адреси»-спогади можуть бути різними в одних аспектах і схожими в інших. Запах сіна може викликати згадку про дитячий літній табір. Розстановка фігур у шахах, яку ви раніше ніколи не бачили, може нагадати інші розстановки — не всі одразу, але схожі. Будь-який тип мислення — прустівський, джойсівський, логічне міркування — залежить від асоціацій, які зʼявляються в нашому розумі. Так ми й орієнтуємося у світі.

Великі мовні моделі у своїй основі мають саме таку «машину орієнтації». Кожному слову вони присвоюють набір координат у багатовимірному просторі, «адресу». В моделі GPT-4 ця «адреса» містить тисячі координат. Вони вказують на відстань кожного слова до кожного іншого слова. Під час «навчання» модель змінює ці координати щоразу, коли помиляється у своєму передбаченні. Слова, які зʼявляються в текстах разом, зближуються в цьому багатовимірному просторі. Як побічний результат у моделі зʼявляється відображення того, як використовуються слова в мові. У результаті аналогії та асоціації зберігаються в геометричній формі. У класичному прикладі дослідники беруть координати слова «Париж», віднімають координати слова «Франція», додають координати «Італії» та отримують координати слова «Рим».

Ми попросили Google Gemini намалювати папугу в стилі італійського художника Джузеппе Арчімбольдо. Просто тому, що це красиво.

Згенеровано за допомогою ШІ / «Бабель»

У своєму матеріалі Джеймс Сомерс обговорює й обмеження великих мовних моделей. Головне з них — це навчання: моделі не контактують зі світом, як, скажімо, маленькі діти. Вони контактують тільки з корпусом текстів людства — а це вторинне джерело досвіду. Крім того, людський мозок змінює структуру нейронних зв’язків в режимі реального часу, а великі мовні моделі — використовують сталу, незмінну, «треновану» структуру.

«І тим не менш, — розповідає Сомерс, цитуючи нейробіологів і компʼютерних інженерів, — великі мовні моделі дали таке розуміння роботи мозку, якого нейробіологія не могла дати десятиліттями. Якщо прийняти, що мислення — це процес, який може бути притаманний не тільки людині, то може виявитися, що він не є настільки таємничим, як це вважало людство».