流量分析推动爬虫规则发展的生态演化趋势

AI爬虫如狼似虎,维基百科已经选择认怂

维基百科选择与谷歌Kaggle合作发布数据集，并非真正意义上的“认怂”，而是面对AI爬虫带来的成本压力所采取的一种策略性调整，旨在节省带宽和服务器资源。以下是具体分析：AI爬虫带来的成本压力：自2024年1月以来，维基共享资源上的带宽增长了50%，这些流量主要来自AI厂商的爬虫，而非人类用户。维基媒体基金会采用分布式存储来管理超过4500万个媒体文件，这种设计原本是为人类用户服务的，人类用户通常会访问特定或相似主题的内容。然而，AI厂商的爬虫为了获取更多数据，会囫囵吞枣式地抓取每一个内容，导致冷门内容也被频繁访问，从而增加了带宽消耗和成本压力。分布式存储的局限性：维基媒体基金会的分布式存储系统在面对AI爬虫时显得力不从心。当某个内容被多次请求时，系统会将其缓存到离用户最近的数据中心；而冷门内容则存储在核心数据中心。AI爬虫的广泛抓取导致冷门内容也被频繁访问，使得请求必须遍历从靠近用户的数据中心到核心数据中心的所有路径，再将其存储在区域数据中心，这进一步加大了带宽消耗。非营利性机构的资金限制：作为一个非营利性机构，维基媒体基金会的收入主要来源于捐赠，无法用有限的资金去购买更多带宽来应对AI爬虫带来的流量增长。与Kaggle合作发布数据集的策略：为了降低30%的爬虫使用带宽，维基媒体基金会选择与谷歌旗下的数据科学社区平台Kaggle合作，发布专门优化用于人工智能模型训练的数据集。该数据集在设计时充分考虑了机器学习的工作流程，使得AI开发者能够更轻松地访问机器可读的数据。通过提供JSON格式的数据集，维基媒体基金会希望吸引AI厂商的爬虫去抓取Kaggle上的数据，从而节省平台的带宽和服务器资源。JSON格式的优势：JSON格式是一种轻量化的数据交换格式，易于机器解析。相比txt、jpg、mp4等为人类服务的格式，JSON格式主要是为机器服务。因此，Kaggle上结构良好的JSON格式的维基百科相关内容对AI厂商来说更具吸引力。内容平台反爬虫策略的挑战：维基媒体基金会被迫与谷歌Kaggle合作，凸显了内容平台的反爬虫策略在AI时代已经落伍。在AI厂商高速迭代的爬虫技术面前，内容平台的反爬虫策略还做不到完美区隔人类与机器。全球内容平台的共同难题：用户体验与反AI爬虫不可兼得，这是当下全球所有内容平台共同面对的难题。例如，知乎曾采取限制非登录用户查看全文的措施来反爬虫，但仅仅半年后就放开了限制，因为非登录用户不可查看全文会极大影响获客，进而让知乎的商业价值受损。

nginx