纽约时报和其他主流新闻网站屏蔽了SearchGPT网络爬虫
OpenAI在推出SearchGPT约一周后,遇到了来自顶级新闻出版商的强烈抵制。《纽约时报》和至少13家其他新闻网站已经屏蔽了OAI-SearchBot,这是一个用于索引信息的网络爬虫,以便OpenAI可以为SearchGPT用户显示相关结果。被屏蔽的出版商名单中包括《连线》、《纽约客》、《Vogue》、《名利场》和《GQ》。
根据Originality.ai的跟踪,排名前1,000位的网站出版商中已有14家屏蔽了OAI-SearchBot。Originality.ai的首席执行官乔恩·吉勒姆对此感到困惑,他表示:“我不确定为什么出版商会屏蔽它。这是出版商想要和需要的流量。”
OpenAI在发布SearchGPT时强调,OAI-SearchBot不会爬取网络来收集数据用于训练其GPT-5等AI模型,并建议网站所有者允许新机器人“确保您的网站出现在搜索结果中”。然而,如果无法爬取每个网站的权限,OpenAI的SearchGPT服务可能不如谷歌的搜索引擎完善。Gillham指出,他不知道有哪个新闻出版商屏蔽了谷歌的搜索机器人。
出版商可能不信任OpenAI,或者对搜索流量存有疑虑。OpenAI另一个用于AI模型训练的数据爬虫GPTbot已被数百个网站屏蔽。出版商可能担心OpenAI会使用其内容来训练AI模型,而这些AI模型可能会与他们竞争。此外,如今的搜索结果并不总是会将用户引导到原创内容网站。新AI搜索引擎的目标之一是通过向用户展示摘要来留住用户,如果出版商不再看到来自搜索引擎的大量流量,他们可能不愿允许这些爬虫抓取他们的内容。
《纽约时报》是反对OpenAI的主要出版商之一。它已起诉OpenAI和微软,指控两家公司非法使用其内容来制造竞争产品。《纽约时报》发言人查理·施塔特兰德表示:“未经明确书面协议,无论我们是否阻止或限制任何特定机器人抓取我们的内容,《纽约时报》均不会授权将我们的作品用于生成搜索或人工智能训练目的。”
《纽约时报》在诉状中提到,SearchGPT和类似工具未经许可提供其内容,可能会削弱和损害与读者的关系,剥夺其订阅、许可、广告和联属收入。OpenAI一直在与出版商达成协议,以使用他们的内容档案,但《纽约时报》仍然对其表示强烈反对。