Google宣布推出原生多模态 AI 模型 Gemini。Gemini 是 Google 迄今为止最强大、最通用的 AI 模型,可同时理解、操作和组合文字、程式码、音讯、图像和影片等不同类型的讯息。

Google 推出的原生多模态 AI 模型 Gemini

Google 推出的原生多模态 AI 模型 Gemini,强调是从头开始建立的多模组 AI 模型,就像人类有五感,同时接收和感知这个世界一样,而这也意味着 Gemini 可以像人类一样概括和无缝地理解、操作和组合不同类型的讯息,包括文字、程式码、音讯、图像和影片等等。这将比其他单独建构的文本、语音模型,最后再相连接产生的效果还要好的多。

Google 严格测试 Gemini 模型并评估其在各种任务中的表现。从自然影像、音讯和视讯理解到数学推理,Gemini Ultra 的性能在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了当前最先进的结果。

其中最高阶的 Gemini Ultra 得分高达 90.0%,是第一个在MMLU (大规模多任务语言理解) 上超越人类专家的模型。

理解力到底有多强在影片中,Google 展示了两张非常简单的手绘汽车图,问 Gemini 哪台跑地比较快,Gemini 回答「右边比较快,因为它比较符合空气力学」。

Gemini 提供三种版本,连手机都可用

为了满足大到资料中心等级,小到到行动装置等不同使用环境需求,Gemini 一共推出三个版本:

Ultra:最大、能力最强的模型,适用于高度复杂的任务。Google 正在进行一系列的安全测试,将会释出少量试用版给企业客户与开发者,估计明年推出正式版 Pro:可扩展各种任务的最佳模型,已经在英文版的聊天机器人 Bard 中使用 Nano :最有效率的装置端任务模型,准备给 Pixel 8 Pro 手机使用

Gemini 将全面出现在 Google 的各项服务中

Google 的 AI 聊天机器人 Bard 已开始使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。它将在 170 多个国家和地区提供英语版本,并计划在不久的将来扩展到不同的模式并支援新的语言和地点。

Google 也将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款运行 Gemini Nano 的智慧型手机,它支援 Recorder 应用程式中的 Summarize 等新功能,不需要连上网路,也能在手机上用 Gemini 来整理会议录音档的开会摘要内容。并从 WhatsApp 开始推出 Gboard 中的 Smart Reply,明年还会推出更多应用程式。

在接下来的几个月中,Gemini 将出现在更多的产品和服务中,例如搜寻、广告、Chrome 和 Duet AI。

Google 及 Alphabet 执行长 Sundar Pichai 表示:

这是我们迄今为止最强大、最通用的模型,我对未来以及 Gemini 将为世界各地的人们带来的机会感到由衷的兴奋。