北美人工智能
北美人工智能 - 认证专家
这家伙很懒,什么也没写!

注册于 3周前

回答
6
文章
1
关注者
1

特朗普政府取消“小额豁免”后,所有中国商品需缴纳10%关税,且需正式报关,导致跨境电商成本上升,低价商品(如Temu、Shein销售的产品)受影响显著
640.jpg

万万没想到!一家小公司网站被“搞崩”,罪魁祸首竟是OpenAI的爬虫工具——GPTBot
这起事件不仅引发了技术圈的广泛讨论,也让人们重新审视了 AI 公司在抓取互联网数据时可能引发的风险和争议。
(GPTBot是OpenAI早年前推出的一款工具,用来自动抓取整个互联网的数据。)

“疯狂的爬虫”如何让小公司网站宕机?

事件的起因看似简单,但背后却暴露了大模型公司对高质量数据的“饥渴”。作为一个只有 7 人团队的小型初创公司,Triplegangers 的网站承载着他们十多年的心血,主要提供高质量的 人类数字孪生数据库。网站内容包括由真人扫描生成的 3D 图像,以及覆盖种族、年龄、体型、纹身、疤痕等细致标签的数据,为 3D 艺术家、游戏设计师等用户群体提供服务。

然而,几天前,团队突然发现,网站的访问速度急剧下降,页面无法正常加载。CEO 和团队连夜检查服务器日志,最终锁定了“罪魁祸首”——OpenAI 的 GPTBot。

疯狂的爬虫行为
根据团队分析,GPTBot 的爬取行为堪称“狂野”:

网站上有超过 65000 种产品,每种产品都有独立页面,每个页面包含至少 3 张图片。
OpenAI 的爬虫试图抓取包括数十万张图片在内的所有数据,同时还试图获取详细的描述内容。
一周之内,他们的日志显示,GPTBot 使用了 超过 600 个 IP 地址 发起了 数以万计的请求。
640.jpg
△Triplegangers服务器日志:OpenAI机器人未经许可疯狂爬虫
这一系列行为直接导致了服务器资源的过度消耗,使网站不堪重负而宕机。CEO 直言,这简直就是一次未经授权的 DDoS 攻击。

宕机背后,资源开销剧增

宕机带来的影响并不仅仅是用户无法访问网站那么简单,更严重的是对公司成本的冲击。由于爬虫行为引发了超负荷的 CPU 使用以及大量的数据传输,Triplegangers 在 AWS 上的云资源费用暴涨。这对于一家小型初创团队来说,无疑是巨大的经济负担。

CEO 表示:“我们不仅为 OpenAI 的爬虫行为付出了网站瘫痪的代价,更不得不承担巨额的服务器成本。更令人懊恼的是,我们甚至不知道 OpenAI 爬取了哪些数据,根本联系不上对方,也无法获取任何解释或补偿。”

bfc50b4f1f04bff2bc3f82d0458e326a.jpg
也有网友现身表示有类似的经历,自从阻止了大公司的批量AI爬虫,省了一大笔钱:
c2231f36bc9eb3aecba2a7d943dc77e0.jpg
为什么小公司会成为目标?

OpenAI 的爬虫为什么会盯上 Triplegangers?答案在于数据的价值。

Triplegangers 的数据库是他们 10 多年努力的成果,号称全球最大的人类数字孪生数据库。这些数据包括高分辨率的 3D 图像,以及详细的标签化信息。对 AI 公司而言,这些 高质量、精细化的数据 无疑是训练大模型的“香饽饽”。尤其是在目前高质量数据稀缺的情况下,像 Triplegangers 这样的小型网站,常常成为爬虫的目标。
05e7e685d75df1aeca595ffa20e6b3c9.jpg

尽管 Triplegangers 的服务条款中明确写道 禁止未经许可抓取网站数据,但事实证明,这样的声明对 GPTBot 并没有约束力。

未配置 robots.txt,成为“爬虫漏洞”

更深层次的原因在于,Triplegangers 没有正确配置一个关键文件——robots.txt。

robots.txt 是一个标准协议,用来告诉爬虫哪些内容允许或禁止抓取。如果网站未设置 robots.txt,爬虫工具往往会默认认为可以抓取网站上的所有数据。

对于 OpenAI 的爬虫工具,阻止抓取的方式如下:

在 robots.txt 文件中添加禁止标签,明确声明 GPTBot 不得访问。
除了 GPTBot,OpenAI 还有其他爬虫工具,如 ChatGPT-User 和 OAI-SearchBot,它们也需要分别在 robots.txt 文件中设置相应的限制。
30f4d38e74bb1bf048fcfc032ec6eee9.jpg
然而,即使立即添加了 robots.txt 文件,爬虫的抓取行为也不会立刻停止,因为 OpenAI 的系统可能需要 24 小时 才能识别和更新。

CEO老哥对此表示:

如果一个网站没有正确配置robots.txt文件,那么OpenAI和其它公司会认为他们可以随心所欲地抓取内容。

这不是一个可选的系统。

正因如此,也就有了Triplegangers在工作时间段网站被搞宕机,还搭上了高额的AWS费用。

截至美东时间的本周三,Triplegangers已经按照要求配置了正确的robots.txt文件。

以防万一,团队还设置了一个Cloudflare账户来阻止其它的AI爬虫,如Barkrowler和Bytespider。
4fa130547d0d1fe934dd0c3978989af4.jpg
虽然到了周四开工的时候,Triplegangers没有再出现宕机的情况,但CEO老哥还有个悬而未决的困惑——

不知道OpenAI都从网站中爬了些什么数据,也联系不上OpenAI……

而且令CEO老哥更加深表担忧的一点是:

如果不是GPTBot“贪婪”到让我们的网站宕机,我们可能不知道它一直在爬取我们的数据。

这个过程是有bug的,即便你们AI大公司说了可以配置robots.txt来防止爬虫,但你们把责任推到了我们身上。

最后,CEO老哥也呼吁众多在线企业,要想防止大公司未经允许爬虫,一定要主动、积极地去查找问题。

宕机并非个例,AI 爬虫屡惹争议

Triplegangers 的遭遇并非孤例。在此之前,Game UI Database 的团队也曾被 GPTBot 搞得焦头烂额。这家专门收录游戏用户界面截图的数据库网站,某天突然发现:

网站页面加载速度变慢三倍;
用户频繁遇到 502 错误;
服务器首页每秒被请求重载 200 次。
经检查发现,正是 OpenAI 的爬虫每秒发起两次请求,直接导致了网站的几乎瘫痪。

03827f9db8c8220f55353bc50e36ced1.jpg

不止 OpenAI,其他 AI 公司也“疯狂爬取”

事实上,类似问题并不只存在于 OpenAI。以下是其他公司被曝光的案例:

  1. Anthropic 爬虫引发的流量激增

数字产品工作室Planetary的创始人Joshua Gross曾表示过,他们给客户重新设计的网站上线后,流量激增,导致客户云成本翻倍。

经审计发现,大量流量来自抓取机器人,主要是Anthropic导致的无意义流量,大量请求都返回404错误。

fa0e991d47edeea0178eb79f91ead63e.jpg

  1. AI爬虫导致“无效流量”激增

针对这一现象,来自数字广告公司DoubleVerify的一份新研究显示,AI爬虫在2024 年导致“一般无效流量”(不是来自真实用户的流量)增加了86%。

AI公司疯狂爬虫背后的真相

为什么 AI 公司对网络数据如此“疯狂”?

核心原因是 高质量数据的匮乏。
一项研究指出,到 2032 年,全球用于 AI 模型训练的可用数据可能会枯竭。这一预期迫使 AI 公司加快数据收集速度,甚至开始直接购买未公开的内容。例如:

针对 YouTube、Instagram、TikTok 平台上的未发布视频,AI 公司开出了每分钟 1~4 美元 的高价。
根据视频质量和格式,价格还可能进一步提升。
对 AI 公司而言,只有掌握更多独家数据,才能在大模型竞争中占据先机。

小企业如何保护自己?
Triplegangers 的 CEO 最后呼吁在线企业采取主动措施,防止类似事件再次发生。以下是一些可行的防护策略:

正确配置 robots.txt 文件
确保明确声明哪些内容不允许爬虫访问。

部署防护工具
使用 Cloudflare 等流量监控工具,限制不正常的爬虫行为。

定期检查日志
分析服务器日志,识别异常流量和爬虫行为。

主动制定数据保护政策
在服务条款中清楚说明禁止未经许可抓取,并采取技术措施加以落实。

AI 爬虫的行为究竟是技术进步的必然,还是未经授权的数据“窃取”?在数据驱动的 AI 时代,这一问题不仅关乎技术发展,也涉及法律、伦理与商业规则的博弈。

你怎么看待这一现象?如何在技术与隐私之间找到平衡?欢迎在评论区留下你的观点。

一、纯原版ChatGPT、Claude
官网原生页面

真实Team会员账号

二、技术支持
✔️支持GPT-4o、o1、Canvas、Claude

✔️无需魔法

✔️个人独享

✔️24小时300次

✔️Open Ai官网ChatGPT Plus账号,20美元/月,算上其他成本,最低180元/月,我们直接99元/月,并且质保30天

三、支持所有GPTs
支持ChatGPT所有插件,可创建自己的ChatGPT插件,使用朋友分享的自定义插件。

当然也包含最强编程插件Code Copilot。

置之死地而后生,TikTok活过来了!
这是中国公司第一次,正面硬刚美国的制裁令,还赢得了胜利。可TikTok是怎么做到的呢?
这里面,至少有三条对抗线。
第一条对抗线是,司法对抗。针对TikTok的封禁,是拜登签字,美国国会投票通过,还取得了美国最高法的一致支持。这个封禁令,已经不是行政范畴了,而是变成了一条美国法律。在司法对抗上,TikTok几乎是完败。可美国不是一个司法至上的国家,也不是一个纯粹的法治国家。像拜登的儿子被法院判有罪,拜登一样可以利用特赦令,赦免自己的儿子。特朗普呢?同样被美国法院定为罪犯,却能凭借总统豁免权,不用接受任何处罚。也就是说,在美国,法律是可以被突破的。美国是三权分立的,司法权、立法权和执法权,不在一个体系里面。
当司法、立法都无法被推翻时,执法权的分离却让TikTok抓住了一线生机。这就是第二条对抗线:行政对抗。拜登有权封杀TikTok,特朗普也有权解封TikTok。任何一条法律,都需要有人去执行。但特朗普一上来就宣布,美国政府拒不执行这条封杀令。相反,特朗普还承诺,任何美国公司支持TikTok恢复服务,都不需要承担任何代价。

三是,支持美国中小企业。
美国和中国一样,大型互联网平台都垄断了流量,很多中小企业在Facebook、youtube、谷歌等大平台上,都已经赚不到钱了,获客成本太高了。但TikTok的出现,打破了美国本土互联网平台对流量的垄断,超过700万家美国小微企业,在TikTok上获得客户,维持自己的生计。这是一个庞大的商业生态。封杀TikTok,就等于让这个商业生态,遭遇“突发性脑死亡”。这也就是队长要讲的第三条战线:人民战线。TikTok充分赢得了美国人民的支持。当TikTok宣布关闭倒计时后,大量美国网友涌入中国小红书。为什么?因为他们不愿意再被美国传统媒体所欺骗了,也不愿意再活在犹太媒体的信息茧房里了。TikTok就是他们在美国,最大的一个发声筒了。要是没有了TikTok,美国的舆论就又被本地资本家所垄断了。

特朗普在1月19日早些时候通过社交媒体发文,呼吁各公司不要让TikTok停止运转,并表示他将于1月20日发布一项行政令,推迟“不卖就禁用”法律的生效时间。他还向TikTok的互联网服务提供商提供了必要的澄清和保证,确保这些公司在维持TikTok运转时不会面临法律处罚。
同时,TikTok在声明中提到,公司已与互联网服务提供商达成共识,恢复相关服务。这表明在特朗普的干预下,苹果、谷歌和甲骨文等公司同意继续为TikTok提供支持。
最关键的在于,TikTok一直积极寻求解决方案,以确保其在美国的运营。公司表示将与特朗普政府合作,寻找长期解决方案,让TikTok继续留在美国。此外,TikTok也强调其在美国的广泛影响力,包括超过1.7亿的用户和700万家依赖该平台的小企业。

发布
问题