Reddit поймал Perplexity AI на краже данных с помощью «ловушки для ИИ»

История с Perplexity AI может стать поворотной точкой в борьбе за авторские права в эпоху искусственного интеллекта. Reddit подал иск против четырёх технологических компаний, включая стартап Perplexity, обвинив их в незаконном сборе пользовательских данных.
Reddit провёл собственное расследование. На платформе был размещён «тестовый пост», доступный только для поискового робота Google — обычные пользователи не могли его увидеть. Однако уже через несколько часов текст из этой публикации появился в результатах поиска Perplexity AI.
Так Reddit доказал, что Perplexity получает данные не напрямую из открытых источников, а извлекает их из поисковой выдачи Google, обходя защитные механизмы.
«Модель бизнеса Perplexity заключается в том, чтобы брать контент Reddit из результатов поиска Google, скармливать его ИИ-модели и выдавать как новый продукт»,
— утверждают юристы Reddit.
Вместе с Perplexity ответчиками по делу стали три компании, специализирующиеся на сборе данных: SerpApi из Техаса, Oxylabs из Литвы и AWMProxy из России. Последняя, по информации Reddit, связана с ботнетом Glupteba, известным в кибербезопасной среде.
Контекст: когда поисковики стали кормом для ИИ
Долгое время сбор данных из открытых источников был обоюдовыгодным. Поисковые системы вроде Google индексировали сайты, а те, в свою очередь, получали трафик и аудиторию. Но с приходом ИИ-сервисов баланс разрушился. Теперь контент используется без перехода на исходные сайты, а значит, без выгоды для их авторов.
Perplexity, по данным иска, закупала массивы данных у компаний, занимающихся SEO-оптимизацией и парсингом поисковых результатов. Это позволило обойти прямой запрет Reddit на автоматический сбор информации, установленный после отправки стартапу официального уведомления о прекращении таких действий.
Более того, частота упоминаний Reddit в результатах поиска Perplexity выросла в сорок раз после начала сотрудничества с этими фирмами.
Что стоит на кону
Reddit, готовящийся к расширению своих собственных ИИ-инструментов, стремится не только защитить интеллектуальную собственность, но и монетизировать доступ к данным. Компания уже оценивает потенциальную прибыль от лицензирования пользовательского контента в более чем 200 миллионов долларов в ближайшие годы.
Судебный иск Reddit — не просто попытка наказать нарушителей, а сигнал для всей индустрии. Эпоха бесплатного доступа к интернет-контенту для обучения нейросетей подходит к концу.
Интересный факт:
В индустрии этот приём получил название «mountweazel» — «контентная ловушка». Подобные методы когда-то использовались словарями, чтобы поймать плагиаторов. Они в тексты подбрасывали вымышленные слова вроде «esquivalience», означающего «умышленное уклонение от обязанностей». Сегодня этот трюк вернулся, но уже в цифровой войне против ИИ.


