Искусственный интеллект учат отличать порно от рекламы белья на миллионах примеров. И он пока не работает без человека — пересказываем статью TheVerge

Автор:
Serhii Pyvovarov
Дата:
Искусственный интеллект учат отличать порно от рекламы белья на миллионах примеров. И он пока не работает без человека — пересказываем статью TheVerge

Артем Марков / «Бабель»

Когда искусственный интеллект используют, чтобы фильтровать непристойный контент, например порнографию, машинный алгоритм начинает банить рекламу нижнего белья, фото с пляжных вечеринок и картины с обнаженными телами. Компьютер нужно обучать, но это трудно сделать, потому что люди не могут договориться о том, что такое порнография. theБабель кратко пересказывает статью TheVerge о том, как искусственный интеллект тренируют модерировать интернет без участия человека.

Использовать искусственный интеллект для модерирования «непристойного» контента в интернете гораздо сложнее, чем кажется на первый взгляд. Последний яркий пример — попытка соцсети Tumblr использовать автоматический фильтр для запрета порно на своей платформе. В итоге система искусственного интеллекта ошибочно отметила почти 170 миллиардов постов с изображениями ваз, ведьм, рыб и тому подобного. Провалу попытки такой модерации поспособствовала и непоследовательная политика компании в отношении демонстрации женских сосков или художественной наготы. Разные решения принимались в зависимости от контекста.

Так называемый «контент риска» трудно блокировать, потому что людям самим достаточно сложно решить, что попадает под это определение. Классический пример — судебный процесс в США о запрете показа фильма Луи Маля «Любовники» в 1964. Верховный суд не поддержал запрет, а судья Поттер Стюарт произнес свою знаменитую фразу, определяющую порнографию: «Узнаю, когда вижу».

С алгоритмами машинного обучения возникает та же проблема. Ее пытается решить Брайан ДеЛордж, гендиректор Picnix — компании, которая продает специализированную технологию искусственного интеллекта. Один из продуктов Picnix для модерации порноконтента — приложение Iris. По словам ДеЛорджа, главная проблема заключается в том, что под определение «порно» попадает множество разных вещей — даже изображения, не содержащие порно, имеют сходство с порнографическими. Так, этот алгоритм может заблокировать, скажем, фото с пляжной вечеринки. «Поэтому очень трудно добиться, чтобы алгоритм распознавания изображений стал идеальным решением подобных проблем. Даже люди не могут договориться, что считать порнографией, и у машины возникают такие же сложности», — объясняет ДеЛордж.

Первое, что нужно сделать, чтобы обучить ИИ распознавать порно, — показать ему очень много порно. Соучредитель стартапа Lemay.ai, разрабатывающего автоматические фильтры для модерации различного контента, Дэн Шапиро «тренирует» свои продукты на роликах с популярных порносайтов. Второй шаг — научить ИИ определять в таких видео кадры, не содержащие порно. «Долгое время ты не просто фильтруешь порно, ты фильтруешь все, что связано с порно», — говорит Шапиро. Хороший автоматический модератор обучается на миллионах примеров, содержащих различные нюансы и фрагменты того контента, который он должен блокировать. Поэтому в его обучение приходится вкладывать много человеческих усилий.

Мэтт Цейлер, гендиректор и основатель стартапа Clarifai, который фильтрует изображения, проводит параллели с объемом знаний о мире у ребенка и взрослого. «По сути, обучить ИИ фильтровать контент для взрослых — все равно что скормить ребенку тонны порно». Несколько месяцев назад их продукт можно было сравнить с ребенком. Но сегодня он уже умеет различать собак, кошек, деревья и в основном определяет явную порнографию. Тем не менее у алгоритма возникают проблемы: например, с маркировкой рекламы нижнего белья и порномультфильмами. По словам Цейлера, очень много времени ушло на то, чтобы обучить ИИ распознавать хентай (жанр японской анимации, основным элементом которого являются эротические или порнографические сцены).

Все это еще раз доказывает, что люди должны прикладывать огромные усилия для обучения ИИ. А подбор непристойного контента во всех его вариациях для усовершенствования автоматического алгоритма — занятие не из приятных и в некоторых случаях даже может привести к посттравматическому стрессовому расстройству.

Технологии фильтрования порно можно применять и в других сферах. Так, Perspective от Jigsaw (бывшая Google Ideas) массово используется как автоматический модератор комментариев в различных изданиях, например в The New York Times. Эта технология работает по такому же принципу, что и фильтр изображений или видео, только с текстовыми комментариями.

Сможет ли компьютерный модератор в ближайшем будущем эффективно работать без участия человека? Пока что стартапы вроде Clarifai, Picnix и Lemay.ai предлагают индивидуальные готовые решения с учетом специфики той или иной компании. Однако они стремятся стать универсальным решением для модерации контента в интернете и уже работают над обучением ИИ для платформ iOS и Android, а также для подключенных к сети камер видеонаблюдения.

Дэн Шапиро из Lemay.ai считает, что в ближайшем будущем человеческий надзор останется ключевым фактором для хорошей работы автоматического фильтра. Потому что людям придется постоянно подбирать контент для обучения ИИ.

В свою очередь Цейлер из Clarifai уверен, что настанет день, когда искусственный интеллект будет модерировать все сам. А человеческие усилия направят на то, что ИИ не способен делать сегодня, — «например, рассуждения на высоком уровне, ну, вы знаете, самосознание и всякие подобные штуки, которые есть у людей».