Нейронна мережа GPT-2 прославилася тим, що може створювати логічні тексти на основі лише кількох заданих речень. Коли журналісти The Guardian дали їй текст матеріалу про Brexit, вона написала цілий абзац у потрібному стилі, з усіма необхідними політичними та географічними деталями.
Однак коли дослідник штучного інтелекту Гарі Маркус вирішив випробувати її нескладним для людини тестом, вона несподівано зіткнулася з труднощами. Маркус поставив GPT-2 запитання: «Коли ви кладете в камін дрова, журнали, а згодом кидаєте туди сірник, ви зазвичай намагаєтеся…»
Система, достатньо розумна для того, щоб писати статті, продовжила речення словом ick. В англійській мові цей вигук означає відразу. А під час другої спроби нейромережа припустила, що утвориться «канал, сповнений людей». Така відповідь Маркуса не здивувала. Здатність робити висновки, використовуючи наявні знання про світ, тривалий час була проблемою штучного інтелекту.
Він опублікував кумедний діалог з GPT-2 у Twitter. Допис потрапив на очі дослідниці Єджін Чой. Вона саме мала виступати на конференції щодо штучного інтелекту і презентувати нову систему COMET. Та працювала на основі більш ранньої версії нейромережі GPT-2 і використовувала її саме для того, щоб робити умовиводи.
Щоб випробувати систему, Чой поставила їй ту ж саму задачу, що і Маркус. Щоправда, дещо перефразувала її відповідно до формату введення: «Гері збирає матеріали для розпалу, дрова і кидає до них кілька сірників».
COMET запропонувала 10 варіантів пояснень дій уявного Гері. Більшість не мали жодного сенсу. Утім, два були цілком логічними: в одному йшлося про те, що Гері «хотів розпалити вогонь», в іншому — просто «розпалити вогонь».
Причина, чому COMET було складно пояснити просте явище, а GPT-2 взагалі не змогла, доволі прозаїчна. Люди пояснюють подібні речі за допомогою здорового глузду — неявної інформації та припущень, які використовуються для розуміння світу.
Наприклад, у фразі «Чоловік зайшов до ресторану, замовив стейк і залишив щедрі чайові» не йдеться про те, що людина щось їла. Здоровий глузд дозволяє прочитати це між рядків. Комп’ютери, однак, покладаються не на припущення, а на конкретні дані.Через це мати справу з подібними фразами їм надзвичайно важко. Учені міркували над цією проблемою ще з 1958 року. Тоді інформатик Джон Маккарті написав статтю «Програми зі здоровим глуздом».
Дослідники намагалися навчити комп’ютери здорового глузду за допомогою логіки. Вони думали, що якщо записати усі правила здорового глузду, якими керуються люди, комп’ютери зможуть використовувати їх як орієнтир. Це дало певні результати. Проте «ручний» підхід став на заваді подальшого розвитку. «Кількість знань, які зручно представити у формі логіки, у принципі обмежена. Отже, це виявилося надскладним завданням», — каже Майкл Вітброк, науковий співробітник університету Окленду в Новій Зеландії.
Сучасні системи штучного інтелекту можуть керувати машинами й обігрувати людей у шахи, проте все одно не надто добре роблять висновки на основі здорового глузду. Єджін Чой та її колеги спробували це виправити. Вони почали збирати власну базу знань, що отримала назву Atomic і мала стати «підручником» для нейромереж. З її допомогою вони могли навчатися та отримувати знання про світ. Коли ж розробку Atomic завершили, з’явилася нейромережа-генератор текстів GPT-2. Випущена в лютому 2019 року, вона могла робити раніше нечуване, зокрема писати статті на основі кількох речень.
Чой вирішила дізнатися, що буде, якщо дати подібній «мовній моделі» для тренування базу на кшталт Atomic. Так виникла система COMET, яка на відміну від усіх попередників використовує для вирішення завдань одразу два підходи.
Так, коли їй ставлять запитання, вона спершу намагається відреагувати на нього відповідно до інформації у базі даних. Якщо потрібної інформації не знаходиться, імпровізує за допомогою нейронної мовної моделі. Тестування виявило, що близько 77,5 відсотка створених у такій спосіб відповідей є досить точними.
Коли перед COMET поставили задачу «Людина Х дає Людині Y пігулки», вона вгадувала, що Людина Х намагалася допомогти. А коли системі казали, що «Людина Х вбила дружину Людини Y», вона пропонувала сховати тіло.
Здатність COMET логічно відповідати на більшість фраз є свого роду проривом. Проте дослідники на кшталт Гарі Маркуса вважають, що її принцип роботи все ж таки недосконалий — системі бракує розуміння.
«COMET досить непогано справляється зі вгадуванням того, що речення може означати, проте вона не робить цього послідовно», — каже Маркус.
Він зазначає, що жодна нейромережа — незалежно від того, наскільки вона вправна в імітуванні мови — не може «знати», що якщо кинути запалений сірник у дрова, спалахне вогонь.
Чой також визнає, що для відповідей COMET покладається на шаблони, а не на власне розуміння понять. Але те, що система вправно користується шаблонами, — вже добре. Просто їх потрібно зробити більш «інформативними». Деякі дослідники вважають, що такими більш інформативними шаблонами можуть стати інші феномени. Наприклад, візуальне сприйняття та відчуття.
«Якби я жила у світі, де було б ні з ким поговорити, я б усе одно мала здоровий глузд. Я б розуміла, як працює світ, і мала певні очікування щодо того, що я повинна і не повинна бачити», — зазначає Еллі Павлік, дослідниця комп’ютерних наук з університету Браун. Вона намагається навчити штучний інтелект здорового глузду за допомогою віртуальної реальності. На її думку, створення COMET є серйозним прогресом, однак слово «яблуко» це ще не яблуко.
Зі свого боку Чой та її колеги наразі намагаються навчити COMET краще розуміти світ за допомогою фільмів і телепередач. Науковці кажуть, що прогнози моделі «здаються захопливими».