谷歌宣布推出生成式 AI 模型 Gemini

谷歌公司周三(12月6日)推出了新的 Gemini 生成人工智能模型。该平台是谷歌对微软支持的 OpenAI GPT-4 的回应,据DeepMind首席执行官Demis Hassabis 称,这是该公司迄今为止“最有能力、最通用的模型”。

Gemini 是原生多模态模型,这意味着它可以分析文本、音频、视频、图像和代码。虽然存在其他多模式产品,但谷歌表示 Gemini 与众不同,因为该模型的设计从一开始就考虑了所有这些媒介。

该公司表示,其他平台训练单独的模型来处理文本、视频和照片等内容,然后将它们组合成一个模型。

Hassabis 表示,这种差异意味着 Gemini 可以更好地理解多模式数据,并为从手写内容到图像和视频的所有内容产生更好的结果。

与此同时,谷歌发布了一系列视频来展示 Gemini 的功能。在一段视频中,演示者展示了一个运行 Gemini 的程序,其中绘制了一只蓝色鸭子和一只橡胶蓝色鸭子,人工智能能够识别这两种鸭子。

在另一次演示中,演示者向人工智能展示了一张手绘的没有环路的过山车图片和另一张有环路的过山车图片。当主持人问哪一个可能更有趣时,人工智能说有环的那个,这是正确的答案,除非你讨厌绕环或一般的过山车。

另一个例子展示了父母如何利用双子座来帮助孩子做作业。人工智能不仅能够阅读学生对数学问题的书面答案,还能够判断答案是否正确,并解释学生错在哪里以及原因。

在编码方面,谷歌表示 Gemini 是领先的编码模型之一,并声称人工智能可以理解 Python、Java、C++ 和 Go 等编程语言。

谷歌正在推出三个不同版本的 Gemini:Gemini Ultra、Gemini Pro 和 Gemini Nano。Gemini Ultra 是人工智能模型的顶级数据中心版本,适用于谷歌所说的高度复杂的任务。Gemini Pro 是该型号的中档版本,而 Nano 是专为运行而设计的版本谷歌 Pixel 8 Pro 等设备。


为 Google Gemini AI 平台提供支持的一系列服务器。谷歌

该公司表示,这款智能手机将使用 Gemini Nano 为其 Recorder 应用程序中的 Summarize 提供支持,这将使其能够理解录音中的内容并提供项目符号摘要。该模型还将从 WhatsApp 开始为 Gboard 中的智能回复提供支持,并最终在明年晚些时候应用于其他应用程序。

与此同时,Gemini Pro 作为英文版的一部分提供谷歌的 Bard 聊天机器人从今天开始。谷歌表示,该功能将使巴德更好地“理解、总结、推理、编码和规划”。

该公司表示,明年将推出由 Gemini Ultra 驱动的 Bard 版本,称为 Bard Advanced。

重要的是,谷歌表示,它已经通过其搜索引擎在搜索中试验 Gemini搜索生成体验,谷歌搜索的一个版本,增加了生成人工智能功能。据该公司称,Gemini 已将美国英语版应用程序的延迟减少了 40%。

Gemini 还将在未来几个月内进入搜索、Chrome、广告和 Duet AI 领域。

Gemini 对谷歌来说是一项艰巨的任务,是该公司对 OpenAI 及其支持者微软的最大挑战。

自从 OpenAI 于 2022 年 11 月推出 ChatGPT 以来,谷歌一直在追赶其竞争对手。微软已经将其基于 GPT 的 Copilots 添加到了其多项服务中,使其在新的人工智能战争中处于领先地位。但有了 Gemini,谷歌就有能力创造甚至超越 OpenAI 和微软。

但真正重要的是人工智能模型与谷歌产品的集成程度,以及这是否有助于推动消费者继续利用谷歌搜索、谷歌工作空间、YouTube和其他产品等平台。

虽然您一开始可能没有注意到这些变化,但 Gemini 是确保 Google 未来主导地位的一种手段。OpenAI 和微软很可能已经准备好了自己对 Gemini 的回应。