2025-07-01
5分钟阅读

不断变化的消费景观
许多出版商,内容创建者和网站所有者目前都觉得他们有二元选择 - 要么离开前门敞开,以便AI消耗他们创建的一切,要么创建自己的围墙花园。但是,如果有另一种方法怎么办?
在CloudFlare,我们从一个简单的原则开始:我们希望内容创建者能够控制谁访问他们的作品。如果创作者想阻止所有AI爬网的内容,则应该能够这样做。如果创作者想免费允许某些或全部的AI爬网人免费访问其内容,那么他们也应该能够做到这一点。创作者应该在司机座位上。
在与新闻机构,出版商和大规模社交媒体平台进行了数百次对话之后,我们听到了对第三条途径的持续渴望:他们希望允许AI爬行者访问其内容,但他们希望得到补偿。目前,这需要了解合适的个人并达成一次性交易,如果您没有规模和杠杆作用,这是一个无法克服的挑战。
如果我能为爬行者充电怎么办?
我们认为,您的选择不必是二进制的 - 应该有第三个更细微的选择:您可以收取访问费用。我们希望授权内容所有者在Internet规模上获取其内容的货币元素,而不是无偿的块或无偿开放的访问权限。
我们很兴奋地帮助除了网络中大部分被遗忘的部分:HTTP响应代码402。
引入每次爬网薪水
付费,在私人beta中,是我们在该领域的第一个实验。
付费与现有的Web基础架构集成在一起,利用HTTP状态代码和已建立的身份验证机制为付费内容访问创建框架。
每次AI爬行者请求内容时,他们要么通过请求标头呈现付款意图以成功访问(HTTP响应代码200),或收到402付款
定价的响应。Cloudflare充当每次爬网薪水的记录商人,还提供了基本的技术基础架构。
发布者控制和定价
按抓取奖励域所有者对其货币化策略的全面控制。他们可以在整个网站上定义平坦的每要求价格。然后,出版商将为爬行者提供三个不同的选择:
允许:授予搜寻器免费访问内容。
收费:需要以配置的,范围的价格付款。
堵塞:完全拒绝访问,无权支付。

这里的一个重要机制是,即使爬行者没有与Cloudflare有计费关系,因此无法收取访问费用,出版商仍然可以选择收取费用。这是网络级块的功能等效物(http403禁止
没有返回内容的响应)â€â€,但在告诉爬虫的额外好处是将来可能会有一种关系。
尽管出版商目前可以在整个网站上定义统一的价格,但他们保留了根据需要绕开特定爬网费的灵活性。如果您想免费允许某个爬行者通过,或者您想在付费薪酬功能之外进行谈判和执行内容伙伴关系,这将特别有用。
为了确保与每个发布者的现有安全姿势集成,CloudFlare执行允许或通过规则引擎进行决定,该规则引擎仅在现有的WAF策略和机器人管理或机器人阻止功能之后才能运行。

付款标题和访问
当我们构建系统时,我们知道我们必须解决一个非常重要的技术挑战:确保我们可以收取特定的爬行者,但要阻止任何人欺骗该爬行者。值得庆幸的是,有一种使用此操作的方法Web Bot Auth建议。
对于爬行者,这涉及:
一旦接受注册,爬网请求应始终包括签名代理
,,,,签名输入
, 和签名
标题以识别您的爬行者并发现付费资源。
get /example.html签名 - 代理:“ https://signature-agent.example.com”签名输入:sig2 =(“@pertistur”“签名 - 代理”);创建= 1735689600; keyId =“ poqklgiymh_w0up6pzfw-dvez3qjt5solqxbcw38r0u”; alg =“ ED25519”;到期= 1735693200; nonce =“ E8N7S2MFD/QRD6T2R3TDFAUUANGKI7LFTKYI/VOWZKK4LAZEDIX6WWWW25MWG7DCT9RUKAJ0QVKU0MEELELW1QG ==”; tag =“ Web-Bot-auth”签名:sig2 =:JDQ0SQOWHDYHR9+R5JW3IYZH6ANGKIJYP/ESTF4RQTQDI5N5YYKRD+MCT1HA1NZDSI6NJKUHXUI/5SYP3RLWBA ==:
一旦设置了爬行者,确定内容是否需要付款的确定可以通过两个流量进行:
反应性(发现优先)
如果爬网请求付费URL,Cloudflare将返回需要http 402付款
响应,伴随Crawler-Price
标题。这表明要求的资源需要付款。
需要http 402付款Crawler-Price:USD xx.xx
然后,爬行者可以决定重试该请求,这次包括爬行者 - 偏爱价格
标题表示同意支付配置的价格。
get /example.htmlcrawler-exact-price:USD xx.xx
主动(意图首先)
另外,爬行者可以先发出Crawler-Max-Price
标题在其初始请求中。
get /example.htmlCrawler-Max-Price:USD xx.xx
如果为资源配置的价格等于或低于此指定的限制,则请求进行,并将内容提供成功http 200好
回应,确认了指控:
http 200好爬行者费用:USD xx.xx服务器:Cloudflare
如果金额Crawler-Max-Price
请求大于内容所有者的配置价格,仅收取配置的价格。但是,如果资源配置的价格超过了轨道提供的最高价格,则http
402付款
返回响应,表明指定的成本。â仅一个价格声明标题,爬行者 - 偏爱价格
或者Crawler-Max-Price
,可以根据请求使用。
这爬行者 - 偏爱价格
或者Crawler-Max-Price
标题明确声明了爬网手的愿意。如果所有检查通过,则提供内容,并记录爬网事件。如果请求的任何方面无效,则边缘返回需要http 402付款
回复。
Crawler操作员和内容所有者必须在其CloudFlare帐户中配置每个爬网付款详细信息。每次爬行者都以付款意图提出经过身份验证的请求,并收到HTTP 200级响应,并以A的方式记录计费事件。爬行者充电
标题。然后,CloudFlare汇总了所有事件,向爬行者收取费用,并将收益分配给出版商。
今天的爬行者的内容,明天的特工
从本质上讲,每次爬网的薪水开始在网上控制内容的方式上发生技术转变。通过为创作者提供衡量和控制其数字资产的强大的编程机制,我们使他们能够继续创建丰富的,多样化的内容,使互联网无价之宝。
我们预计每次爬行的薪水会大大发展。它很早:我们相信许多不同类型的互动和市场可以同时发展。我们很高兴支持这些各种努力和公开标准。
例如,发布者或新组织可能希望为不同的路径或内容类型收取不同的费率。您如何不仅基于需求,而且您的AI应用程序有多少用户来介绍动态定价?无论是用于培训,推理,搜索还是全新的东西,您如何在互联网规模上引入粒状许可证?
每次爬网的真正潜力可能会在一个代理世界中出现。如果代理付费沃尔可以完全通过编程方式运行该怎么办?想象一下,要求您最喜欢的深入研究计划来帮助您综合最新的癌症研究或法律摘要,或者只是帮助您找到Soho的最佳餐厅,然后给该代理商提供预算,以花费花费以获取最佳和最相关的内容。通过将我们的第一个解决方案固定在HTTP响应代码402,我们实现了一个未来,智能代理可以通过编程方式协商对数字资源的访问。
薪酬目前为私人beta。如果您有兴趣付款以访问内容,或者有兴趣收取访问费用的内容创作者,我们很高兴听到您的来信。您可以在http://www.cloudflare.com/paypercrawl-signup/如果您是现有企业客户,请联系您的客户经理。
Cloudflare的连接云保护整个公司网络,帮助客户建造有效的互联网规模应用程序,加速任何网站或互联网应用程序,,,,DDOS攻击的病房,保持黑客在海湾,可以帮助您您零信任的旅程。
访问1.1.1.1从任何设备开始使用我们的免费应用程序,该应用程序使您的互联网更快,更安全。