Автоматизовані боти, які збирають інформацію для навчання моделей штучного інтелекту, дедалі більше навантажують ресурси Вікіпедії. Через це ростуть витрати на утримання всієї інфраструктури, що загрожує серйозними обмеженнями доступу до контенту.
Про це йдеться в повідомленні фонду Вікімедіа.
Із січня 2024 року обсяг трафіку, що використовується для завантаження мультимедійного контенту, зріс на 50%. Причому це зростання повʼязане не з користувачами-людьми, а з автоматизованими програмами, що сканують каталог зображень Wikimedia Commons з відкритими ліцензіями, аби постачати зображення до моделей ШІ.
«Наша інфраструктура побудована для того, щоб витримувати раптові сплески трафіку від людей під час подій з високим інтересом, але обсяг трафіку, що генерується ботами-скрейперами
Фахівці зʼясували, що наразі приблизно 65% найбільш ресурсомістких запитів до центрів обробки даних Вікіпедії надходить від ботів.
Попит на трафік для мультимедійного контенту неухильно зростає з початку 2024 року — і немає жодних ознак уповільнення цієї тенденції. Через це у Вікіпедії залишається менше можливостей для реагування на виняткові події, коли може статися сплеск запитів: значна частина часу і ресурсів іде на реагування на нелюдський трафік.
У фонді наводять приклад, коли після смерті 39-го президента США Джиммі Картера у грудні 2024 року раптовий сплеск трафіку, поєднаний з підвищеним базовим навантаженням від ботів, призвів до уповільнення завантаження сторінок для користувачів.
«У той час, як читачі-люди зазвичай зосереджуються на конкретних і часто схожих темах, пошукові боти схильні до «масового читання» більшої кількості сторінок, а також відвідують менш популярні сторінки. Це означає, що такі запити з більшою ймовірністю будуть перенаправлені до основного центру обробки даних, що робить їх набагато дорожчими з точки зору споживання наших ресурсів», — пояснили у фонді.