研究发现,人工智能网络爬虫正在超越传统搜索引擎,重塑网站优化内容的方式。
- 人工智能机器人正在成为网络爬行的主要参与者。
- 网站应对AI爬虫采取新的优化策略。
- SEO 的未来需要同时考虑搜索引擎和人工智能机器人。
一份报告发布于韦尔塞尔强调了人工智能机器人在网络爬行中日益增长的影响。
OpenAI 的 GPTBot 和 Anthropic 的 Claude 每月在 Vercel 网络上产生近 10 亿个请求。
数据显示,GPTBot 在过去一个月发出了 5.69 亿次请求,而 Claude 则占了 3.7 亿次。
此外,PerplexityBot 贡献了 2440 万次提取,AppleBot 增加了 3.14 亿次请求。
这些人工智能爬虫加起来大约代表28%占 Googlebot 总访问量的 45 亿次。
这对 SEO 意味着什么。
人工智能爬虫的主要发现
该分析着眼于 Vercel 网络和各种 Web 架构上的流量模式。它发现了人工智能爬虫的一些关键特征:
- 主要的 AI 爬虫不会渲染 JavaScript,但它们会拉取 JavaScript 文件。
- AI爬虫往往效率低下,ChatGPT和Claude花费超过34%他们在 404 页面上的请求。
- 这些爬虫关注的内容类型各不相同。ChatGPT 优先考虑 HTML (57.7%),而克劳德更注重图像(35.17%)。
地理分布
与在多个地区运行的传统搜索引擎不同,人工智能爬虫目前主要集中在美国:
- ChatGPT 在得梅因(爱荷华州)和菲尼克斯(亚利桑那州)运营
- 克劳德从哥伦布(俄亥俄州)运营
网络年鉴相关性
这些发现与网络年鉴 SEO 中共享的数据一致章,这也注意到了人工智能爬虫的不断增长。
根据该报告,网站现在使用 robots.txt 文件为人工智能机器人设置规则,告诉它们可以或不能抓取什么。
GPTBot 是最常被提及的机器人,出现在2.7%研究的移动网站。Common Crawl 机器人通常用于收集语言模型的训练数据,也经常被提及。
这两份报告都强调网站所有者需要适应人工智能爬虫的行为方式。
优化 AI 爬虫的 3 种方法
根据 Vercel 和网络年鉴的最新数据,以下是优化 AI 爬虫的三种方法。
1. 服务端渲染
AI 爬虫不执行 JavaScript。这意味着任何依赖客户端渲染的内容都可能是不可见的。
建议采取的行动:
- 为关键内容实施服务器端渲染
- 确保主要内容、元信息和导航结构出现在初始 HTML 中
- 尽可能使用静态站点生成或增量静态重新生成
2. 内容结构和交付
Vercel 的数据显示了 AI 爬虫之间不同的内容类型偏好:
聊天GPT:
- 优先考虑 HTML 内容 (57.70%)
- 11.50% 的提取花费在 JavaScript 文件上
克劳德:
- 非常注重图像(35.17%)
- 将 23.84% 的提取专用于 JavaScript 文件
优化建议:
- 清晰、语义地构建 HTML 内容
- 优化图像传输和元数据
- 包括图像的描述性替代文本
- 实施适当的标头层次结构
3. 技术考虑
AI 爬虫的高 404 率意味着您需要首先考虑以下技术因素:
- 维护更新的站点地图
- 实施正确的重定向链
- 使用一致的 URL 模式
- 定期审核404错误
展望未来
对于搜索营销人员来说,信息很明确:人工智能聊天机器人是网络爬行的新生力量,网站需要相应地调整其搜索引擎优化。
尽管人工智能机器人现在可能依赖缓存或过时的信息,但它们解析网络上的新鲜内容的能力将会增长。
您可以通过服务器端呈现、干净的 URL 结构和更新的站点地图来帮助确保对您的内容进行爬网和索引。
特色图片:tete_escape/Shutterstock