英伟达新型AI芯片在服务器群中出现过热现象
据The Information报道,英伟达(Nvidia)未发布的AI芯片出现过热现象,客户担心他们已经延迟的发货可能会再次被推迟。
据报道,该公司超强大的Blackwell图形处理器(GPU)在连接到可容纳多达72个的服务器机架时会出现过热现象。
据一直致力于发布该芯片的Nvidia员工以及了解该问题的客户和供应商称,该公司已多次要求其供应商重新设计机架,以避免过热问题。
由于该问题十分严重,该公司本周通知微软,其芯片的发货时间将至少推迟三个月——这是自今年3月份Blackwell芯片首次亮相以来,该公司遭遇的一系列阻力中的最新进展。
考虑到人工智能公司为建设服务器场投入的大量资源,这并不是一个好兆头,但不断出现的成长烦恼可能会阻碍他们训练和推出下一个人工智能产品的努力。
英伟达声称其下一代GPU非常强大,在AI应用方面速度是前代产品的30倍。正如首席执行官黄仁勋上个月告诉CNBC的那样,Blackwell芯片的需求“疯狂”,因为人们争相预订这种每块售价数万美元的芯片。
然而,在所有这些炒作中,有关Blackwell芯片设计缺陷的谣言却困扰了该芯片数月之久。最终,黄仁勋承认部分传言属实。
据路透社报道,黄仁勋在10月23日的新闻发布会上表示:“Blackwell存在设计缺陷,虽然它能够正常使用,但设计缺陷导致产量低下。这100%是英伟达的错。”
虽然这一承认似乎与另一个生产问题有关,但它似乎又一次导致了装运过程不必要的延迟。
与此同时,英伟达发言人声称,最新的过热问题无需担心,“工程迭代是正常的,也是预料之中的”。
这个装有72个GPU的大型机架重达3,000磅,需要使用水冷,这与许多AI数据中心所依赖的空气冷却不同。据The Information报道,英伟达甚至连一个36个GPU的小型机架也出现了过热问题。
随着围绕新AI产品发布的热议不断升温,Nvidia面临的压力也越来越大。
客户已经因新款Blackwell芯片的延迟而遭受打击——最新进展可能也不会让他满意。