隆重推出 Gemini：我们最大、最强大的 AI 模型

2023年12月12日下午8:25 • 最新资讯

谷歌和 Alphabet 首席执行官桑达尔·皮查伊（Sundar Pichai）的笔记：

每一次技术变革都是推进科学发现、加速人类进步和改善生活的机会。我相信，我们现在看到的人工智能转型将是我们有生之年最深刻的，远远大于之前向移动或网络的转变。人工智能有可能为世界各地的人们创造机会——从日常到非凡。它将带来新的创新和经济进步浪潮，并以前所未有的规模推动知识、学习、创造力和生产力。

这就是让我兴奋的地方：有机会让人工智能对世界各地的每个人有所帮助。

作为一家以人工智能为先的公司，近八年来，我们的进步步伐只会加快：数百万人现在正在我们的产品中使用生成式人工智能来完成他们一年前甚至无法完成的事情，从寻找更复杂问题的答案到使用新工具进行协作和创造。与此同时，开发人员正在使用我们的模型和基础设施来构建新的生成式 AI 应用程序，世界各地的初创公司和企业都在使用我们的 AI 工具发展壮大。

这是不可思议的势头，然而，我们才刚刚开始触及可能性的表面。

我们正在大胆而负责任地开展这项工作。这意味着我们的研究要雄心勃勃，追求能够为人类和社会带来巨大利益的能力，同时建立保障措施，并与政府和专家合作，以应对人工智能变得更强大的风险。我们将继续投资于最好的工具、基础模型和基础设施，并在我们的 AI 原则的指导下将它们带到我们的产品和其他产品中。

现在，我们正在与Gemini一起迈出下一步，这是我们迄今为止最强大和最通用的模型，在许多领先的基准测试中具有最先进的性能。我们的第一个版本Gemini 1.0针对不同的尺寸进行了优化：Ultra、Pro 和 Nano。这些是双子座时代的第一批模型，也是我们今年早些时候成立 Google DeepMind 时愿景的首次实现。这个新的模型时代代表了我们作为一家公司所承担的最大科学和工程努力之一。我对未来的发展感到非常兴奋，也对Gemini将为世界各地的人们带来的机会感到兴奋。

– 桑达尔

双子座简介

作者：Google DeepMind首席执行官兼联合创始人Demis Hassabis，代表Gemini团队

人工智能一直是我一生工作的重点，就像我的许多研究同事一样。自从十几岁时为电脑游戏编写人工智能以来，在我作为神经科学研究人员试图了解大脑运作的这些年里，我一直相信，如果我们能够制造出更智能的机器，我们就可以利用它们以令人难以置信的方式造福人类。

这一由人工智能赋予世界负责任的承诺继续推动着我们在 Google DeepMind 的工作。很长一段时间以来，我们一直希望构建新一代的人工智能模型，其灵感来自人们理解世界和与世界互动的方式。人工智能感觉不像是一个智能软件，而更像是有用和直观的东西——一个专家助手或助手。

今天，我们离这个愿景又近了一步，因为我们推出了 Gemini，这是我们有史以来最强大、最通用的模型。

Gemini 是 Google 各团队（包括我们在 Google 研究院的同事）大规模协作的结果。它是从头开始构建的多模态，这意味着它可以概括和无缝地理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频。

06_Foundation_01.width-1000.format-webp.webp

隆重推出 Gemini：我们最大、最强大的 AI 模型

Gemini 也是我们迄今为止最灵活的型号——能够在从数据中心到移动设备的所有设备上高效运行。其最先进的功能将显著增强开发人员和企业客户使用 AI 构建和扩展的方式。

我们针对三种不同的尺寸优化了第一个版本 Gemini 1.0：

Gemini Ultra — 我们最大、最强大的型号，适用于高度复杂的任务。
Gemini Pro — 我们用于扩展各种任务的最佳型号。
Gemini Nano — 我们最高效的设备端任务模型。

最先进的性能

我们一直在严格测试我们的双子座模型，并评估它们在各种任务中的表现。从自然图像、音频和视频理解到数学推理，Gemini Ultra 在大型语言模型（LLM）研发中使用的 30 个广泛使用的学术基准中的 32 个方面，其性能超过了当前最先进的结果。

Gemini Ultra 的得分为 90.0%，是第一个在 MMLU（大规模多任务语言理解）方面优于人类专家的模型，MMLU 使用数学、物理、历史、法律、医学和伦理学等 57 个科目的组合来测试世界知识和解决问题的能力。

我们对 MMLU 的新基准方法使 Gemini 能够在回答困难问题之前使用其推理能力进行更仔细的思考，从而比仅使用其第一印象有显着改进。

gemini_final_text_table_bigger_font_amendment_lines

Gemini surpasses state-of-the-art performance on a range of benchmarks including text and coding.

Gemini Ultra also achieves a state-of-the-art score of 59.4% on the new MMMU benchmark, which consists of multimodal tasks spanning different domains requiring deliberate reasoning.

With the image benchmarks we tested, Gemini Ultra outperformed previous state-of-the-art models, without assistance from optical character recognition (OCR) systems that extract text from images for further processing. These benchmarks highlight Gemini’s native multimodality and indicate early signs of Gemini’s more complex reasoning abilities.

See more details in our Gemini technical report.

gemini_final_multimodal_table_bigger_font_amendment_lines

Gemini 在一系列多模式基准测试中超越了最先进的性能。

下一代功能

到目前为止，创建多模态模型的标准方法包括为不同的模态训练单独的组件，然后将它们拼接在一起以粗略地模仿其中的一些功能。这些模型有时可以很好地执行某些任务，例如描述图像，但在更概念化和复杂的推理方面会遇到困难。

我们将 Gemini 设计为原生多模态，从一开始就对不同的模态进行预训练。然后，我们用额外的多模态数据对其进行了微调，以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型——而且它的功能在几乎每个领域都是最先进的。

详细了解 Gemini 的功能并了解其工作原理。

复杂的推理

Gemini 1.0 复杂的多模态推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现在大量数据中难以辨别的知识方面具有独特的技能。

它通过阅读、过滤和理解信息从数十万份文件中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。

Ariel_ScienceDemo_TaylorSebastia.width-1000.format-webp.webp

双子座解锁新的科学见解

了解文本、图像、音频等

Gemini 1.0 经过训练，可以同时识别和理解文本、图像、音频等，因此它可以更好地理解细微的信息，并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。

Ariel_PhysicsHomework_Sam.width-1000.format-webp.webp

双子座解释数学和物理中的推理

高级编码

我们的第一个 Gemini 版本可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。它能够跨语言工作并推理复杂信息，使其成为世界上领先的编码基础模型之一。

Gemini Ultra 在多个编码基准测试中表现出色，包括 HumanEval（用于评估编码任务性能的重要行业标准）和 Natural2Code（我们的内部保留数据集），它使用作者生成的来源而不是基于 Web 的信息。

Gemini 也可以用作更高级编码系统的引擎。两年前，我们推出了 AlphaCode，这是第一个在编程竞赛中达到竞技性能水平的 AI 代码生成系统。

使用Gemini的专用版本，我们创建了一个更高级的代码生成系统AlphaCode 2，它擅长解决竞争性编程问题，这些问题超越了编码，涉及复杂的数学和理论计算机科学。

Ariel_ACDemo_RemiGabi_v001.width-1000.format-webp.webp

Gemini 擅长编码和竞争性编程

在与原始 AlphaCode 相同的平台上进行评估时，AlphaCode 2 显示出巨大的改进，解决了近两倍的问题，我们估计它的表现优于 85% 的比赛参与者——高于 AlphaCode 的近 50%。当程序员通过定义代码示例要遵循的某些属性来与 AlphaCode 2 协作时，它的性能会更好。

我们很高兴程序员能够越来越多地使用功能强大的 AI 模型作为协作工具，帮助他们推理问题、提出代码设计并协助实施，这样他们就可以更快地发布应用程序并设计更好的服务。

如需了解更多详情，请参阅我们的 AlphaCode 2 技术报告。

更可靠、更可扩展、更高效

我们使用 Google 内部设计的张量处理单元（TPU） v1 和 v0e 在 AI 优化的基础架构上大规模训练了 Gemini 4.5。我们将其设计为我们最可靠、最可扩展的训练模型，也是我们最高效的服务模型。

在 TPU 上，Gemini 的运行速度明显快于早期、更小、功能更差的型号。这些定制设计的 AI 加速器一直是 Google 人工智能产品的核心，这些产品为搜索、YouTube、Gmail、Google 地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。

今天，我们宣布推出迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统 Cloud TPU v5p，专为训练尖端 AI 模型而设计。下一代 TPU 将加速 Gemini 的发展，帮助开发人员和企业客户更快地训练大规模生成式 AI 模型，从而使新产品和功能更快地到达客户手中。

final_keyword_tpu.width-1000.format-webp.webp-2

Google 数据中心的一排 Cloud TPU v5p AI 加速器超级计算机。

以责任和安全为核心

在 Google，我们致力于在我们所做的每一件事中推进大胆而负责任的 AI。根据 Google 的 AI 原则和我们产品中强大的安全政策，我们将添加新的保护措施，以应对 Gemini 的多模式功能。在开发的每个阶段，我们都在考虑潜在风险，并努力测试和减轻这些风险。

Gemini 拥有迄今为止所有 Google AI 模型中最全面的安全性评估，包括偏见和毒性。我们对网络攻击、说服力和自主性等潜在风险领域进行了新颖的研究，并应用了 Google Research 一流的对抗性测试技术，帮助在部署 Gemini 之前识别关键安全问题。

为了识别内部评估方法中的盲点，我们正在与多元化的外部专家和合作伙伴合作，针对一系列问题对我们的模型进行压力测试。

为了在 Gemini 的训练阶段诊断内容安全问题并确保其输出符合我们的政策，我们使用了 Real Toxicity Prompts 等基准测试，这是一组 100,000 个不同程度的毒性提示，由艾伦人工智能研究所的专家开发。有关这项工作的更多细节即将公布。

例如，为了限制伤害，我们建立了专门的安全分类器来识别、标记和分类涉及暴力或负面刻板印象的内容。结合强大的过滤器，这种分层方法旨在使 Gemini 更安全、更包容每个人。此外，我们将继续解决模型的已知挑战，例如事实性、基础、归因和确证。

责任和安全始终是我们模型开发和部署的核心。这是一项需要协作构建的长期承诺，因此我们正在与行业和更广泛的生态系统合作，通过 MLCommons、前沿模型论坛及其 AI 安全基金以及我们的安全 AI 框架（SAIF）等组织定义最佳实践并设定安全和安保基准，旨在帮助减轻公共和私营部门人工智能系统特有的安全风险。在开发Gemini的过程中，我们将继续与世界各地的研究人员、政府和民间社会团体合作。

让 Gemini 向世界开放

Gemini 1.0 现已在一系列产品和平台上推出：

Google 产品中的 Gemini Pro

我们将通过 Google 产品将 Gemini 带给数十亿人。

从今天开始，Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。它将在 170 多个国家和地区提供英语版本，我们计划在不久的将来扩展到不同的模式并支持新的语言和地点。

我们还将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机，它支持“录音机”应用中的“总结”等新功能，并在 Gboard 的智能回复中推出，从 WhatsApp 开始，明年将推出更多消息应用。

在接下来的几个月里，Gemini 将出现在我们的更多产品和服务中，如搜索、广告、Chrome 和 Duet AI。

我们已经开始在搜索中试用 Gemini，它使我们的搜索生成体验（SGE）对用户来说更快，在美国，英语延迟减少了 40%，同时质量也得到了提高。

与双子座一起构建

从 13 月 <> 日开始，开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。

Google AI Studio 是一款基于 Web 的免费开发者工具，可通过 API 密钥快速制作应用原型和启动应用。当需要完全托管的 AI 平台时，Vertex AI 允许通过完全的数据控制来定制 Gemini，并受益于额外的 Google Cloud 功能，以实现企业安全性、安全性、隐私以及数据治理和合规性。

Android 开发者还可以通过 AI 进行构建，这是我们在设备上执行任务的最高效模型 AICore，这是 Android 14 中提供的一项新系统功能，从 Pixel 8 Pro 设备开始。注册获取 AICore 的早期预览版。

Gemini Ultra 即将推出

对于 Gemini Ultra，我们目前正在完成广泛的信任和安全检查，包括由受信任的外部方进行红队，并在广泛使用之前使用来自人类反馈的微调和强化学习（RLHF）进一步完善模型。

作为这一过程的一部分，我们将向选定的客户、开发人员、合作伙伴以及安全和责任专家提供 Gemini Ultra，以便在明年初将其推广给开发人员和企业客户之前进行早期实验和反馈。

明年年初，我们还将推出 Bard Advanced，这是一种全新的尖端 AI 体验，可让您访问我们最好的模型和功能，从 Gemini Ultra 开始。

双子座时代：赋能创新未来

这是人工智能发展的一个重要里程碑，也是我们谷歌新时代的开始，我们将继续快速创新并负责任地提升我们的模型功能。

到目前为止，我们在 Gemini 上取得了长足的进步，我们正在努力为未来的版本进一步扩展其功能，包括规划和内存方面的进步，以及增加处理更多信息的上下文窗口以提供更好的响应。

我们对一个由人工智能负责任地赋能的世界的惊人可能性感到兴奋——一个创新的未来，它将增强创造力、扩展知识、推动科学发展并改变全球数十亿人的生活和工作方式。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun270660.html

Gemini 人工智能模型

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

AMD Instinct Mi 300X 高性能加速器，用于生成式 AI

上一篇 2023年12月10日下午10:37

奥迪RS e-tron GT Ice Race Edition亮相

下一篇 2023年12月13日上午9:07

工具软件

Microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（AI）技术的潜在滥用，Microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 Thorn 和 …

2024年4月25日
如何在 Opera One Developer 上启用和使用本地 AI 模型

Opera 最近宣布将本地 AI 模型集成到其 Opera One 浏览器中。随着这一发展，Opera 成为第一个内置 AI 模型的主要浏览器，您现在可以从 150 个大型语言模型…

2024年4月6日 • 工具软件
谷歌Google

谷歌正在将 SGE AI 摘要扩展到美国的更多用户，即使他们没有注册

美国的一些用户开始在搜索页面顶部获得人工智能生成的查询摘要。新的搜索从顶部结果中提取信息，提供参考链接和图像，并以一口大小的句子总结信息，使用户能够快速获得查询的答案。这可能会让…

2024年4月6日
最新资讯

Threads 在美国推出了一项新的“Trending Now”功能

美国的 Threads 用户已开始在他们的 Feed 中看到一个新的“Trending Now”部分。在这里，用户可以找到热门话题，这些话题正在激发平台上越来越多的对话。Trend…

2024年4月2日
新的人工智能模型可以在有限的人工干预下相互交谈和学习

人工智能系统正在快速发展。发表在《自然》杂志上的一篇新论文强调了人工智能网络的发展，该网络不仅可以仅依靠书面指令来学习和执行任务，还可以教另一个没有此类指令或经验的“姐妹”人工智能…

工具软件 2024年4月2日
工具软件

Mistral AI 创始人 Arthur Mensch 讨论开源 AI

Mistral AI 创始人 Arthur Mensch 讨论开源 AI 在 AI Ascent 大会上，Mistral AI 的创始人 Arthur Mensch 提出了一个令人…

2024年3月29日
工具软件

如何免费使用 Gemini AI 1.5 提高您的写作水平

如何免费使用 Gemini AI 1.5 提高您的写作水平如果您正在寻找提高写作乐趣和商务写作的方法，您可能有兴趣知道您可以使用大量工具。Google DeepMind 的 AI…

2024年3月29日
工具软件

创建可信赖 AI 模型的 5 个基本原则

创建可信赖 AI 模型的 5 个基本原则随着人工智能（AI）越来越多地渗透到我们的生活中，对这些系统的信任变得至关重要。IBM 概述了五项基本原则，这些原则对于创建 AI 模…

2024年3月29日
微软Microsoft

微软为厂商定义 AI PC：必须配备 Copilot 键

英特尔、微软、高通以及 AMD 等科技巨头，近月来一直在推广所谓的「AI PC」概念。虽然我们仍在等待微软就其Windows中人工智能大计的更多细节进行分享，英特尔已开始公布微软…

2024年3月29日
工具软件

NVIDIA 和 AI 个人计算的未来

NVIDIA 和 AI 个人计算的未来 NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro 和 Imbue 首席执行官 Kanjun Qiu 在最近的一次采访中解…

2024年3月26日
工具软件

如何在 Android 手机上使用 Google Gemini

如何在 Android 手机上使用 Google Gemini 在数字助理越来越成为我们日常生活不可或缺的时代，谷歌推出了 Gemini，这是一种尖端的对话式 AI 模型，旨在增强…

2024年3月26日
工具软件

如何使用 Google Gemini 进行写作：电子邮件、报告等

如何使用 Google Gemini 进行写作：电子邮件、报告等在瞬息万变的数字聊天和电子邮件世界中，Google Gemini 作为一个超级方便的 AI 写作伙伴出现，只是为了…

2024年3月26日
工具软件

利用 Google Gemini 的强大功能：初学者指南

利用 Google Gemini 的强大功能：初学者指南 Google Gemini 是一款突破性的 AI 模型，可无缝融合语言、图像和代码处理功能。这是一个真正的多模态强国，正在…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
工具软件

OpenAI Q Star 理论 AI 模型解读

OpenAI Q Star 理论 AI 模型解读如果您有兴趣了解有关 OpenAI Q* Star AI 模型的更多信息，该模型显然正在开发中。本快速指南概述了我们目前所知道…

2024年3月26日
工具软件

如何使用 Google Gemini 提高您的工作效率

如何使用 Google Gemini 提高您的工作效率在本指南中，我们将向您展示如何使用 Google Gemini 等 AI 工具来提高您的工作效率。在数字时代，时间与任何货币…

2024年3月26日
我该使用哪款 AI？AI 模型的超能力与现状

一年多来，GPT-4 一直是占主导地位的 AI 模型，显然比任何其他可用的 LLM 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个GPT-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
DepthFM: 使用深度流匹配技术的快速单目深度预测

DepthFM: 使用深度流匹配技术的快速单目深度预测一个深度图分析模型，通过流匹配（Flow Matching）技术，可以有效地实现这一目标，因为它在解空间中形成的直线轨迹既高…

工具软件 2024年3月26日
VoiceCraft：超过XTTS的语音模型

VoiceCraft：超过XTTS的语音模型 VOICECRAFT模型介绍： VOICECRAFT是一个先进的神经编解码语言模型，专门用于语音编辑和零样本文本到语音（TTS）任务。…

工具软件 2024年3月26日
字节发布了AnimateDiff-Lightning 模型

字节发布了AnimateDiff-Lightning 模型字节发布了AnimateDiff-Lightning 模型，只需要 4-8 步的推理就可以生成质量非常不错的视频。跟 …

工具软件 2024年3月26日
工具软件

Suno 发布了自己的歌曲生成模型V3版本

Suno 发布了自己的歌曲生成模型V3版本 Suno 正式发布了他们的 V3 音乐生成模型，现在所有人都可以使用。 V3 改进的内容主要是： ◦ 音质更佳，带来更加清晰动听的音频体…

2024年3月26日
工具软件

如何征服谷歌双子座：成功的技巧和窍门

如何征服谷歌双子座：成功的技巧和窍门潜入 Google Gemini 的世界，您会发现不仅仅是一个聊天机器人，它还向您介绍了一个大型语言模型（LLM），它正在改变我们与数字环境…

2024年3月24日
工具软件

有关 OpenAI Q-STAR 的更多细节揭晓

有关 OpenAI Q-STAR 的更多细节揭晓关于 OpenAI 的 Q-STAR 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（EBM）来生成响应。据报…

2024年3月24日
工具软件

如何使用 Google Gemini 进行写作：电子邮件、报告等

如何使用 Google Gemini 进行写作：电子邮件、报告等在瞬息万变的数字聊天和电子邮件世界中，Google Gemini 作为一个超级方便的 AI 写作伙伴出现，只是为了…

2024年3月24日
谷歌Google

如何使用 Google Gemini 学习数据分析

如何使用 Google Gemini 学习数据分析在我们生活的这个数据饱和的世界中，从浩瀚的原始信息海洋中提炼出有价值的见解的技能从未像现在这样重要。在这种背景下，谷歌Gemin…

2024年3月21日