Прошлой осенью Google представила революционную технологию искусственного интеллекта BERT. В ее основу заложен принцип «универсальных языковых моделей», то есть система изучает нюансы языка — то, как люди пишут, говорят. В процессе обучения BERT проанализировал множество художественных книг — от любовных романов до научной фантастики, тысячи статей из Википедии и публикаций в СМИ.
Сначала BERT научился определять пропущенное слово в предложении. Например, «Я хочу… эту машину, потому что она дешевая». После этого переключился на более сложные задачи и быстро их освоил. Теперь Google использует BERT, чтобы улучшить свою поисковую систему. Одно и то же слово в разных запросах может иметь несколько значений и быть как глаголом, так и существительным. BERT умеет определять контекст и точно отвечать на запросы.
Но у BERT, как и у других систем искусственного интеллекта, своеобразный подход к гендерным и расовым вопросам. Группа ученых-компьютерщиков из университета Карнеги-Меллона обнаружила, что BERT чаще ассоциирует слово «программист» с мужчинами, чем с женщинами.
Ученый в области компьютерной лингвистики Роберт Мунро ввел в BERT 100 английских слов, таких как «драгоценности», «ребенок», «лошади», «дом», «деньги», «действие». В 99 случаях искусственный интеллект связал эти слова с мужчинами. Исключением стало слово «мама», которое BERT ассоциировал с женщинами. Мунро продолжил исследовать сервисы Google и Amazon, специализирующиеся на языковых навыках. Оказалось, обе службы не смогли распознать слово «ее» как местоимение, а вот «его» — смогли. Мунро предполагает, что искусственный интеллект «нахватался» этого из текстов, написанных людьми. «Это та же историческая несправедливость, которую мы всегда наблюдали. И технологии вроде BERT будут только увековечивать эту предвзятость».
Директор по науке стартапа Primer, который специализируется на технологиях естественного языка, Джон Боханнон использовал BERT, чтобы создать систему, позволяющую автоматически оценивать «настроение» заголовков, твитов и других потоков онлайн-медиа. Во время обучения своего AI Боханнон заметил странную особенность: если в твите или заголовке встречались имя и фамилия американского президента Дональда Трампа, то инструмент почти всегда помечал их как «негативные», даже если текст был нейтральным.
Искусственный интеллект уличают в дискриминации не впервые. В 2015 году приложение Google Photos попалось на том, что помечало афроамериканцев как «горилл». Другие сервисы тоже были предвзятыми по отношению к женщинам и представителям разных рас.
BERT и другие современные системы настолько сложные, что даже сами создатели не могут предсказывать их поведение. Боханнон считает, что разработчики должны развивать навыки биолога. Подобно тому как биолог пытается выяснить, как работает клетка, разработчики программного обеспечения должны найти способы понять такие системы, как BERT.
Google и Amazon заявляют, что знают о проблеме и «работают над повышением точности и устранением предвзятости в работе систем». А гендиректор Primer Шон Гарли считает, что проверка поведения этой технологии станет настолько важной, что породит целую новую отрасль. Компании будут платить специалистам за то, чтобы они проверяли алгоритмы на адекватность и толерантность. «Это может быть миллиардная индустрия».