Штучний інтелект вчать відрізняти порно від реклами білизни на мільйонах прикладів. І він поки не працює без людини — переказуємо статтю TheVerge

Автор:
Сергій Пивоваров
Дата:
Штучний інтелект вчать відрізняти порно від реклами білизни на мільйонах прикладів. І він поки не працює без людини — переказуємо статтю TheVerge

Артем Марков / «Бабель»

Коли штучний інтелект використовують, щоб фільтрувати непристойний контент, наприклад порнографію, машинний алгоритм починає банити рекламу нижньої білизни, фото з пляжних вечірок та картини з оголеними тілами. Компʼютер потрібно навчати, але це важко зробити, бо люди не можуть домовитися про те, що таке порнографія. theБабель коротко переказує статтю TheVerge про те, як штучний інтелект тренують модерувати інтернет без участі людини.

Використовувати штучний інтелект для модерування непристойного контенту в інтернеті набагато складніше, ніж здається на перший погляд. Останнім яскравим прикладом є спроба соцмережі Tumblr застосувати автоматичний фільтр для заборони порно на своїй платформі. У підсумку система штучного інтелекту, яку використовувала компанія, помилково позначила майже 170 мільярдів постів із зображеннями ваз, відьом, риб тощо. Провалу спроби такої модерації сприяла й непослідовна політика компанії щодо демонстрації жіночих сосків або художньої наготи. Різні рішення приймалися залежно від контексту.

Так званий «контент ризику» важко блокувати, тому що людям самим досить складно вирішити, що потрапляє під це визначення. Класичний приклад — судовий процес у США про заборону показу фільму Луї Маля «Коханці» у 1964 році. Верховний суд не підтримав заборону. А суддя Поттер Стюарт виголосив свою знамениту фразу — визначення порнографії: «Впізнаю, коли бачу».

Алгоритми машинного навчання мають ту саму проблему. Її намагається вирішити Браян ДеЛордж, гендиректор Picnix — компанії, яка продає спеціалізовану технологію штучного інтелекту. Один із продуктів Picnix для модерації порноконтенту — додаток Iris. За словами ДеЛорджа, головна проблема у тому, що під визначення «порно» може потрапити безліч різних речей, адже зображення, що не містять порно, мають багато спільних рис із порнографічними. За таким алгоритмом можуть заблокувати, наприклад, фото з пляжної вечірки. «Тому дуже важко досягти того, щоб алгоритм розпізнавання зображень став ідеальним рішенням таких завдань. Навіть люди не можуть домовитися, що вважати порнографією, тож у машини виникають такі самі труднощі».

Перше, що потрібно зробити, щоб навчити штучний інтелект розпізнавати порно, — це показати йому дуже багато такого контенту. Співзасновник стартапу Lemay.ai, що створює автоматичні фільтри для модерації різного наповнення, Ден Шапіро «тренує» свої продукти на роликах з популярних порносайтів. Другий крок — навчити штучний інтелект визначати в таких відео кадри, що не містять порно. «Багато часу ти не просто фільтруєш порно, ти фільтруєш усе, що повʼязано з порно», — говорить Шапіро. Хороший автоматичний модератор навчається на мільйонах прикладів, що містять різні нюанси і фрагменти того контенту, який він повинен блокувати. Тому до його навчання доводиться докладати багато людських зусиль.

Метт Цейлер, генеральний директор і засновник стартапу Clarifai, що фільтрує зображення, проводить паралелі з обсягом знань про світ у дитини і дорослого. «По суті, навчити штучний інтелект фільтрувати контент для дорослих — все одно що згодувати дитині тонни порно». Кілька місяців тому їхній продукт можна було порівняти з дитиною. Але сьогодні він уже вміє розрізняти собак, котів, дерева та здебільшого визначає відверту порнографію. І тим не менш в алгоритму виникають труднощі: наприклад, з маркуванням реклами нижньої білизни або з порномультфільмами. За словами Цейлера, дуже багато часу пішло на навчання штучного інтелекту розпізнавати хентай (жанр японської анімації, основним елементом якого є еротичні чи порнографічні сцени).

Усе це ще раз доводить, що люди мають докладати величезних зусиль для навчання штучного інтелекту. А підбір непристойного контенту в усіх його варіаціях для навчання автоматичного алгоритму — заняття не з приємних і деколи навіть може призвести до посттравматичного стресового розладу.

Технології для фільтрування порно можуть бути придатні й в інших сферах. Наприклад, Perspective від Jigsaw (колишня Google Ideas) широко використовують як автоматичний модератор коментарів у різних виданнях, як-от The New York Times. Ця технологія працює за тим самим принципом, що й фільтр зображень або відео, тільки з текстовими коментарями.

Чи зможе компʼютерний модератор у найближчому майбутньому ефективно функціонувати без людської участі? Поки що стартапи на кшталт Clarifai, Picnix і Lemay.ai пропонують індивідуальні готові рішення з урахуванням специфіки тієї чи іншої компанії. Але вони прагнуть стати універсальним засобом для модерації контенту в інтернеті та вже працюють над навчанням штучного інтелекту для платформ iOS і Android, а також для підʼєднаних до мережі камер відеоспостереження.

Ден Шапіро з Lemay.ai вважає, що в найближчому майбутньому людський нагляд залишиться ключовим чинником для хорошої роботи автоматичного фільтру. Тому що людям доведеться постійно підбирати контент для навчання штучного інтелекту.

Зі свого боку Цейлер з Clarifai упевнений, що настане день, коли штучний інтелект буде модерувати все сам. А людські зусилля спрямують на те, що машина не здатна робити сьогодні — «наприклад, міркування на високому рівні, ну, ви знаєте, самосвідомість і всілякі такі речі, які є в людей».