- The traditional open/blocked model for managing bot traffic is broken. AI crawlers have become too sophisticated for organizations to block them at scale, and they extract value without returning it.
- Pay-per-crawl replaces the binary choice with a “yes, if” framework: programmatic, usage-based access to content gated by real-time payment requirements via the HTTP 402 status code.
- Stack Overflow and Cloudflare have co-launched a pay-per-crawl model, offering organizations a new path to public data monetization that complements, not replaces, traditional data licensing.
For most of the web’s history, content platforms operated on a simple binary: open or blocked. Bots that followed the rules, like search engine crawlers and legitimate aggregators, were welcomed. Bots that misbehaved were added to a blocklist. It was an imperfect system, but it was more or less functional.
Then generative AI changed everything. The explosion of LLMs created enormous commercial demand for high-quality training data, and the web became the most convenient source of that data. AI crawlers began hitting content sites at unprecedented scale to extract data for model training. The reciprocal traffic loop that once underpinned the internet’s content economy began to collapse.
“With the rise of AI products looking to take data for model training, we found ourselves in a position in the last year or so to revisit that approach,” said Janice Manningham, Strategic Product Leader at Stack Overflow, on the Leaders of Code podcast. Он объяснил, что старая открытая или блочная структура не была создана для этого момента: «Нам нужно было защитить наши данные от коммерческого использования для обучения моделей, но при этом разрешить доступ нашему сообществу».
В начале эры генеративного искусственного интеллекта StackOverflow, как и многие контентные платформы, начал вести черный список агрессивных сканеров искусственного интеллекта. Но, как объясняет Джош Чжан, инженер по надежности сайтов в StackOverflow, этот подход быстро достиг своих пределов.
«По сути, мы просто играем в «ударь крота», — сказал Чжан. «Есть и другие инструменты, такие как снятие отпечатков пальцев и оценка ботов, которые вы можете использовать, но, конечно, это состязательные отношения — поэтому люди, создающие ботов, знают, как их победить».
Сложность современных сканеров с искусственным интеллектом вышла далеко за рамки простых запросов на скручивание. Сегодняшние боты используют headless-браузеры для имитации человеческого трафика. Это означает, что они не только собирают контент, но и потребляют показы рекламы. Рекламодатели платят за трафик человек Пользователи, но сканеры ИИ обманывают системы проверки, чтобы убедиться. «Они по сути поглощают рекламные показы», — сказал Чжан, — «что для рекламодателей довольно ужасно даже вернуть назад».
В результате возникает гонка вооружений, которую большинство довольных команд не могут выиграть, играя в защите. Черный список на StackOverflow стал громоздким. Для масштабирования руководства процесс специальной идентификации потребует значительно более крупной команды. Команде нужна была другая стратегия: вместо того, чтобы просто реагировать на трафик ботов, они перенаправляли его.
Плата за сканирование — это модель доступа к контенту на основе использования, в которой автоматизированным сканерам и агентам искусственного интеллекта предоставляется программный доступ к веб-контенту только при выполнении требований оплаты и идентификации в реальном времени. Модель дает владельцам контента возможность монетизировать непосредственно трафик ботов, не блокируя публичный доступ и не требуя заключения контрактов, заключаемых людьми.
Эта модель отличается от двух основных вариантов, которые были до нее:
- robot.txt Это долгое время служило соглашением о рукопожатии между владельцами веб-сайтов и сканерами. Он указывает приоритеты, но является полностью добровольным: здесь нет механизмов обеспечения соблюдения и санкций за несоблюдение. Компании, занимающиеся искусственным интеллектом, в основном считают это необязательным.
- платный доступ Решите проблему доходов, но создайте проблему доступа. Они предназначены для читателей-людей и по определению требуют трения: создание учетной записи, кредитные карты, решения о подписке. Это делает их несовместимыми с программным межмашинным доступом к контенту.
При оплате за сканирование используется существующий код состояния HTTP 402 («требуется оплата»), редко реализуемый код, который десятилетиями был частью веб-инфраструктуры, для передачи условий доступа непосредственно боту в режиме реального времени. Сообщение не «нет». Как говорит вице-президент Cloudflare Уилл Аллен, «да, если».
«Вы можете взять это Если Здесь происходит некий тип оплаты, — объяснил Аллен. — И эта оплата может происходить напрямую, программно, от машины к машине».
По оценкам, искусственный интеллект будет приносить $4,4 триллиона ежегодно.[–>global economy, и высококачественные лицензированные данные способствуют этому росту. Спрос на структурированные, авторитетные наборы обучающих данных только возрастает, поскольку разработчики моделей стремятся дифференцироваться по качеству данных.
Для владельцев контента это создает значимую возможность, отсутствующую в старой модели «открывай или блокируй». Трафик от сканеров ИИ представляет собой реальную форму бизнес-интереса, который в традиционных рамках приводит к затратам (загрузка сервера, искажение показа рекламы) без какого-либо дохода.
Плата за сканирование позволяет владельцам контента удовлетворить бизнес-интересы там, где они уже существуют. Вместо того, чтобы ждать, пока компании, занимающиеся искусственным интеллектом, начнут официальные переговоры по лицензированию, организации могут напрямую реагировать на активность ботов, создавая механизм вытягивания, который выявляет потенциальных партнеров и генерирует доход от транзакций от сканеров, которые в противном случае извлекают данные бесплатно.
Давайте узнаем о преимуществах модели оплаты за сканирование как для владельцев контента, так и для организаций, которые хотят использовать этот контент.
Доход от невозвращенного трафика. Ботам-сканерам, которые раньше извлекали данные без оплаты, теперь, возможно, придется платить за доступ. Даже при низкой скорости сканирования большой объем обучающего трафика ИИ может представлять собой значительную монетизацию общедоступных данных.
Гибкий доступ к данным на ваших условиях. В отличие от общих соглашений о лицензировании данных, которые обычно предполагают длительные циклы покупки, широкий доступ к наборам данных и значительные затраты на переговоры, оплата за сканирование обеспечивает детальный доступ на основе использования. Краулеры платят за то, что они используют, когда они это используют. Это открывает двери потенциальным клиентам, которые не готовы или не заинтересованы в полноценном лицензионном соглашении.
Уменьшение неконтролируемого соскабливания. Сам ответ 402 служит сигналом. Когда Stack Overflow включил оплату за сканирование, некоторые боты, которые ранее получали жесткую блокировку 403, перестали отправлять трафик после получения 402. Полученное сообщение: «Это почти как будто они получили сообщение», — сказал Чжан. 402 сообщает о намерении — «Этот контент имеет ценность и требует одобрения для доступа» — без грубой силы полного блока.
Механизм продвижения переговоров по лицензированию. Не каждое взаимодействие приводит к межмашинному платежу. Некоторые из них приведут к чему-то более ценному: телефонному звонку. «На каком-то уровне это могут быть машинные транзакции, но, более того, это дает им инструменты, необходимые для закрытия этих сделок по всем направлениям», — сказал Аллен. Ответ 402 служит приглашением к разговору.
Согласование IP-адресов и работоспособность сайта. Плата за сканирование позволяет организациям согласовывать охват контента со своей политикой в области интеллектуальной собственности систематическим и масштабируемым образом, а не реактивным и разовым управлением черными списками.
Для StackOverflow оплата за сканирование является естественным продолжением нашей долгосрочной стратегии обработки данных. У нас более 15 лет работы с ценным контентом вопросов и ответов, ориентированным на разработчиков, и мы уже лицензируем эти данные посредством официальных лицензионных соглашений. Проблема в том, что эти соглашения не охватывают всех требований, на которые указывает наблюдаемый нами трафик ботов. «Почему бы не удовлетворить интерес и спрос там, где они есть?» — сказал Мэннингем.
Сотрудничество с Cloudflare сделало реализацию практичной. Существующая инфраструктура управления ботами Cloudflare, которая классифицирует сканеры, назначает оценки ботам и позволяет организациям определять правила для каждой категории, обеспечивает основу. После этого добавление платы за сканирование оказалось относительно легким шагом.
«Когда мы зарегистрировались в программе Cloudflare с оплатой за сканирование, это было на самом деле очень просто», — сказал Чжан. «Это был просто пользовательский интерфейс, который фактически обернул некоторые существующие правила в собственный WAF. [web application firewall]И они на самом деле создали кучу информационных панелей». Предварительно заполненные списки известных ботов, настраиваемые тарифы и информационная панель общего трафика означали, что Stack Overflow мог быстро тестировать модели без значительных инженерных инвестиций.
Масштаб Cloudflare — это основная часть ценностного предложения. Компания видит трафик в широком спектре отраслей и секторов, что позволяет ей поддерживать актуальное комплексное обнаружение ботов, которое другие организации не могут реально воспроизвести. Эта классификация – разделение сканеров поисковых систем (все еще ценных и разрешенных) от обучающих ботов ИИ (теперь с оплатой за сканирование) – делает систему управляемой.
Заглядывая в будущее, Cloudflare также разрабатывает поддержку новых платежных протоколов, таких как X402, которые позволят осуществлять потоки платежей без необходимости предварительной регистрации сканера. Это расширит модель, чтобы охватить анонимный трафик ботов, а не только идентифицированных сканеров, что облегчит любой организации ведение бизнеса с любым сканером при условии подтверждения оплаты.
Доступ к бета-версии с оплатой за сканирование доступен через платформу Cloudflare. Организации, уже использующие Cloudflare для управления ботами, могут рассчитывать на относительно плавный процесс адаптации на основе существующей инфраструктуры и конфигурации правил.
StackOverflow и Cloudflare пытаются изменить отношения между владельцами контента и системами искусственного интеллекта, потребляющими их работу.
Первоначальная контент-экономика Интернета была построена на неявной сделке: публиковать открыто и получать взамен трафик и атрибуцию. ИИ разорвал эту сделку, ничего не изменив. Плата за сканирование — это попытка установить новые условия, допускающие Оба стоимость материала И Законные потребности разработчиков ИИ в гибком доступе к данным.
«У нас есть богатая сокровищница — 15 лет ценного контента, призванного помочь разработчикам выбраться из неприятностей», — сказал Мэннингем. «Мы хотим сделать эти данные доступными, но для правильных случаев использования и с правильным контролем доступа».
Если вы являетесь одним из технологических и бизнес-лидеров, работающих в этом новом ландшафте, вам больше не придется сталкиваться с прямым выбором между открытым и закрытым. Схема оплаты за сканирование «да, если» — это оптимизация, которая поддерживает масштабное лицензирование данных, одновременно предоставляя организациям контроль над их наиболее ценными активами.
Что такое плата за сканирование и как она работает?
Плата за сканирование — это модель, которая позволяет владельцам веб-сайтов взимать плату с автоматических ботов и сканеров с искусственным интеллектом за программный доступ к их контенту. Когда сканер запрашивает страницу, сервер отвечает кодом состояния HTTP 402 («Требуется оплата») вместо содержимого. Прежде чем будет предоставлен доступ, сканеру или организации, которая им управляет, предлагается выполнить платежное требование. Платежи могут происходить программно, от машины к машине, или оплата за сканирование может инициировать прямые переговоры между участвующими организациями.
Чем плата за сканирование отличается от подписки на платный доступ или API?
Традиционный платный доступ предназначен для пользователей-людей: он требует создания учетной записи, ручных платежей и принятия решений о подписке, ни один из которых не совместим с автоматическим трафиком ботов. Подписка на API — это фиксированный контракт, обычно заключаемый заранее, для массового доступа. Напротив, оплата за сканирование основана на использовании и является программной: сканеры получают оплату за то, к чему они получают доступ, и человеку не нужно заранее договариваться о сделке. Оно также отличается от соглашений о лицензировании данных, которые обычно включают в себя широкие контракты, охватывающие большие наборы данных.
Блокирует ли плата за сканирование публичный доступ к моему сайту?
Нет, ваш сайт остается общедоступным. Плата за сканирование предназначена для поддержки непрерывного доступа, поэтому она применяется выборочно к трафику ботов и сканеров, а не к посетителям-людям. Ответ 402 адресован автоматизированным агентам, известным как сканеры или боты с искусственным интеллектом; Это не влияет на обычных пользователей, просматривающих сайт.
Как боты идентифицируют себя и получают оплату?
В текущей реализации через Cloudflare боты должны быть зарегистрированы, чтобы их можно было распознавать и взимать плату на правильном, конкретном уровне сканера. Инфраструктура управления ботами Cloudflare занимается классификацией и обнаружением, одновременно собирая данные о трафике в своей обширной сети. Платежи могут происходить программно, от машины к машине. Cloudflare также разрабатывает поддержку платежного протокола X402, который позволит осуществлять платежи без предварительной регистрации. Это расширит модель, чтобы охватить более широкий спектр бот-трафика и сделать гибкий доступ к данным еще более интуитивным как для владельцев контента, так и для операторов сканеров.