棋牌平台- 棋牌官网网站- 游戏APP下载曾让全球大面积「断网」的网站揭秘:AI 爬虫正在疯狂「掏空」互联网

2026-01-04

  棋牌平台,棋牌官网网站,棋牌游戏APP下载如果你发现常看的网站某天突然崩溃,凶手可能不是黑客,也不是太火爆,是一群「看不见」的AI 爬虫正在秘密入侵。

  网站安全公司 Cloudflare 最近发布了 2025 年度回顾报告,从底层基础设施的视角,给我们呈现了一个另类的 AI 生存图鉴。

  先给不了解的朋友做个简单的科普:Cloudflare 这公司,说直白点就是互联网世界的物业+保镖,管安全、管加速、管流量,堪称六边形战士。

  比如你访问使用 Cloudflare 的网站时能秒开,大概率是它把你导向了最近的数据中心;网站能扛住 DDoS 攻击、不怕爬虫搞破坏,背后也多半有它的影子。

  不过嘛,一旦 Cloudflare 宕机,半个互联网就得遭殃,也因此诞生了不少梗图。

  但这个涨法有点门道,上半年基本没啥水花,流量一直在基准线 月中旬突然开挂模式,9 月、10 月、11 月一路狂飙突进,年底直接冲到全年峰值。

  流量的去向很能说明问题。Google 和 Facebook 依然霸榜前二,这个没啥悬念。

  作为守护全球众多网站的金牌保镖,Cloudflare 对爬虫攻击的监测最有发言权。今年 Cloudflare 在分析 AI 爬虫的活跃度后发现,2025 年,用户行为类的 AI 爬取量增长了超过 15 倍。

  就是你问 ChatGPT 一个问题,它去网上找答案的时候产生的流量。这个数字从年初到年底翻了 21 倍多,基本和 ChatGPT-User 机器人的增长曲线完全吻合。

  单看 AI 爬虫占 HTML 请求的比例,平均是 4.2%,但全年波动极大,4 月跌到 2.4% 的谷底,6 月底又冲到 6.4% 的峰值。不过这都不算啥,真正的「爬虫一哥」永远是 Googlebot。

  这家伙的爬取量有多猛?它产生的 IPv4 请求流量,是第二名的整整四倍!而且 Googlebot 还占了全年经验证机器人流量的四分之一以上,2 月到 7 月最疯狂,4 月中旬达到峰值,占比超过 28%。

  因为它不光要给 Google 搜索引擎建索引,还得顺带训练 AI 模型。10 月的行业数据很能说明问题:零售和计算机软件产业吸引的 AI 爬虫流量合计超 40%,稳居前二。

  这逻辑不难理解:零售行业的商品信息、用户评价,软件行业的代码、文档,都是训练 AI 的「优质食材」。排名前十的产业占了近 70% 的爬取量,剩下的则分散在各个领域。

  需要说明的是,早期互联网的流量分为「人类用户」和「机器流量」,但机器也分三六九等。

  Googlebot 这类搜索引擎爬虫,和网站是共生关系:网站给内容,搜索引擎给流量,能带来广告和转化;而生成式 AI 爬虫则是纯粹的「寄生关系」,薅走内容训练模型,用户直接在 AI 界面拿答案,根本不会访问原网站,纯属白嫖。

  robots.txt 是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎的爬虫哪些页面可以抓取、哪些不可以。可以把它理解成网站门口贴的「告示牌」,没有法律效力,但懂规矩的都会给点面子。

  Cloudflare 统计了排名前 10000 的网站,看了看大家的 robots.txt 文件都怎么设置的,哪些爬虫被「完全拉黑」,哪些被「部分限制」。

  结果发现,被封得最狠的就是 AI 爬虫——GPTBot、ClaudeBot、CCBot 这几位,基本上是重点打击对象。

  至于 Googlebot 和 Bingbot,待遇就好点了。大部分网站只是「部分禁止」它们,比如不让它们爬登录页面或者后台管理区域,但内容区该看还是让看。真正把这俩完全拉黑的网站,其实挺少的。

  通俗点讲就是,AI 平台爬了你网站多少次,实际给你带回来多少真实访客。这个比值越高,说明平台基本就是在白嫖你的内容,压根不给你引流。

  OpenAI 也好不到哪去,3 月比值高达 3700:1,后来多亏 ChatGPT 搜索功能用得多了,推荐流量才稍微涨了点。

  相比之下,Perplexity 算是 AI 圈里的「良心」,年初比值低于 100:1,3 月虽然涨到 700:1 以上,但很快回落,9 月后就稳定在 200:1 以下。

  搜索引擎这边,Microsoft 的比率有个奇怪的周期性模式,周四最低,周日最高。全年峰值基本在 50:1 到 70:1 之间。

  Google 年初是 3:1,4 月涨到 30:1,后来又降回 3:1,下半年又慢慢涨回来了。DuckDuckGo 前三季度都低于 1:1,但 10 月中旬突然跳到 1.5:1,之后就一直维持这个水平了。

  除了 AI 爬虫的管控,Workers AI 上的模型竞争与任务需求也颇具看点。

  开发者能就近跑模型,按用量付费,不用自己买卡、搭环境。在 Workers AI 上,Meta 的 llama-3-8b-instruct 模型最受欢迎,文字生成则是最常用的任务类型。

  Meta 和北京智源人工智能研究院 (BAAI) 在前十名中各有多款模型,前十名模型的帐户占比合计达 89%,其余占比分布在其他众多模型中。

  先说说移动设备格局,全球移动设备流量里,iOS 占了 35%,比去年涨了两个百分点。看似涨幅不大,但在多个高收入国家/地区,iOS 占比已超过一半:

  摩纳哥最夸张,达到 70%;丹麦 65%、日本 57%、波多黎各 52%,全球共有 30 个国家/地区的 iOS 占比超 50%。

  Android 则在更广泛的区域占据主导,有 27 个国家/地区的 Android 占比超过 90%,175 个国家/地区的 Android 占比达 50% 或更高,整体来看 Android 仍占全球移动设备流量大头。

  从全球整体来看,Chrome 依然称霸,贡献了三分之二的请求流量,和去年基本持平;Safari 以 15.4% 的占比排第二,考虑到它仅能在苹果设备上使用,这个成绩已十分亮眼。

  设备端差异更显著:iOS 上 Safari 统治力极强,占比高达 79%,是 Chrome(19%)的四倍;

  最后提一嘴网络稳定性:2025 年全球共发生 174 起重大网络中断事件,但和想象中有所不同的是,最常见的原因居然是海外国家「防范考试作弊」导致的人为关网,其次才是天灾人祸造成的光纤切断。

地址:广东省广州市天河区88号 客服热线:400-123-4567 传真:+86-123-4567 QQ:1234567890

Copyright © 2012-2025 棋牌平台- 棋牌官网网站- 棋牌游戏APP下载 版权所有 非商用版本