Тексти

Новий штучний інтелект від Google дискримінує жінок, африканців і Трампа. Цього він навчився у людей — переказуємо матеріал NYT

Автор:
Сергій Пивоваров
Дата:

«Бабель»

Компанія Google розробила нову технологію штучного інтелекту (англ. Artificial intelligence, AI) BERT, яка вміє визначати контекст і правильне значення слів у реченнях. Для цього BERT «згодували» тисячі книг і статей з Вікіпедії і ЗМІ. Тепер система вміє точніше відповідати на запити у пошуковику Google. Однак BERT, як і його попередники, виявився не дуже прогресивним у ґендерних і расових питаннях. Учені вважають, що AI підхопив ці упередження з текстів, написаних людьми, і поки не знають, як його від них відучити. theБабель переказує матеріал The New York Times про проблеми у навчанні передових систем штучного інтелекту.

Минулої осені компанія Google представила революційну технологію штучного інтелекту BERT. У її основу покладений принцип «універсальних мовних моделей», тобто система вивчає нюанси мови — те, як люди пишуть, говорять. У процесі навчання BERT проаналізував безліч художніх книг — від любовних романів до наукової фантастики, тисячі статей з Вікіпедії і публікацій у ЗМІ.

Спочатку BERT навчився визначати пропущене слово у реченні. Наприклад, «Я хочу... цю машину, тому що вона дешева». Після цього переключився на більш складні завдання і швидко їх опанував. Тепер Google використовує BERT, щоб поліпшити свою пошукову систему. Одне й те саме слово в різних запитах може мати кілька значень і бути як іменником, так і дієсловом. BERT вміє визначати контекст і точно відповідати на запити.

Але BERT, як й інші системи штучного інтелекту, має своєрідний підхід до ґендерних і расових питань. Група вчених-компʼютерників з університету Карнегі-Меллона виявила, що BERT частіше асоціює слово «програміст» із чоловіками, ніж з жінками.

Учений у галузі компʼютерної лінгвістики Роберт Мунро ввів у BERT 100 англійських слів, як-от «коштовності», «дитина», «коні», «будинок», «гроші», «дія». У 99 випадках штучний інтелект повʼязав ці слова з чоловіками. Винятком стало слово «мама», яке BERT асоціював з жінками. Мунро продовжив досліджувати сервіси Google і Amazon, що спеціалізуються на мовних навичках. Виявилося, що обидві служби не змогли розпізнати слово «її» як займенник, а ось «його» — змогли. Мунро припускає, що штучний інтелект «нахапався» цього з текстів, написаних людьми. «Це та ж сама історична несправедливість, яку ми спостерігали весь час. І технології на кшталт BERT будуть тільки увічнювати цю упередженість».

Директор з науки стартапу Primer, що спеціалізується на технологіях природної мови, Джон Боханнон використовував BERT, щоб створити систему, яка дозволяє автоматично оцінювати «настрій» заголовків, твітів та інших потоків онлайн-медіа. Під час навчання свого АІ Боханнон помітив дивну особливість: якщо у твіті або заголовку зустрічалося імʼя та прізвище американського президента Дональда Трампа, інструмент майже завжди позначав їх як «негативні», навіть якщо текст був нейтральним.

Штучний інтелект звинувачують у дискримінації вже не вперше. У 2015 році додаток Google Photos викрили на тому, що він позначав афроамериканців як «горил». Інші сервіси теж були упередженими щодо жінок і представників різних рас.

BERT та інші сучасні системи настільки складні, що навіть самі творці не можуть передбачити їхню поведінку. Боханнон вважає, що розробники мають розвивати навички біолога. Подібно до того, як біолог намагається зʼясувати, як працює клітина, розробники програмного забезпечення мають знайти способи зрозуміти такі системи, як BERT.

Google і Amazon заявляють, що знають про проблему і «працюють над підвищенням точності й усуненням упередженості в роботі систем». А гендиректор Primer Шон Гарлі вважає, що перевірка поведінки цієї технології стане настільки важливою, що породить цілу нову галузь. Компанії платитимуть фахівцям за те, щоб вони перевіряли алгоритми на адекватність і толерантність. «Це може бути мільярдна індустрія».