关于 Google Gemini 的八点启示

qzmjef · 发表于 2024-7-30 20:10:33

作者 | 高佳李维创意 | 李志飞1948年，英国大夫罗斯·阿什比受精神病病人的启发，发明了一种古怪的设备——“同态调节器”，并宣叫作，这台造价约50磅的安装，是“迄今为止人类所设计出的最接近人工大脑的事物。”“同态调节器”把 4 个英国皇家空军用于二战的炸弹掌控开关齿轮安装做为底座，上面套有4个立方铝盒，4个铝盒顶部的4个小磁针是这台设备独一可见的运动部件，像指南针同样在小水槽内摆动。当起步设备时，磁针会受到来自铝盒的电流影响而运动，4个磁针始终处在敏锐且脆弱的平衡状中。同态调节器的独一功效，便是让4个磁针保持在中间位置，即让设备感到“舒服”的状态。阿什比尝试各样让设备“不舒适”的办法，如颠倒电线连接的极性、颠倒磁针方向等，但设备总能找到适应新状态的办法，并重新将磁针摇摆到中心位置。按阿什比的说法：设备经过突触“主动地”抵御了任何扰乱其平衡的尝试，执行“协同活动”以重新得到平衡。阿什比相信终有一天，这般一个“简陋的安装”会发展成一颗“比任何人类都强大”的人工大脑，去处理世界上一切繁杂棘手的问题。尽管阿什比对今天的 AGI 进化毫无所知，尽管 4 个小磁针做为传感器对智能所需的要求堪叫作笑谈，但它从元规律上挑战了所有人对“智能”的理解——“智能”不便是从环境中吸收多种模态的信息，并按照反馈修正行径、处理任务的一种能力吗？从古怪的“同态调节器”到75年后的今天，号叫作多模态任务处理能力首次超越人类的 Gemini ，经过多模态原生态大数据的注入，向着数十亿年碳基智能的演化加速迭进。今天设备智能的进化速度已远超咱们想象。一年前，OpenAI掀翻Google布局数年的AI大旗，以「暴力美学」筑就人类语言的通天塔。一年后，Google 祭出 Gemini，「以暴制暴」建成人类跨模态大一统模型，作为另一个加速AGI演进的节点。尽管发布首日Gemini 就深陷“视频demo夸张”的质疑，但不可否认的是，大一统多模态已初闪了光芒。Gemini 这位寓意善于体察、敏锐好奇的“双子星”印证了那些能力，Google的命运齿轮将怎么样转动？时间是OpenAI还是Google的伴侣？多模态针对Agent和具身智能寓意什么？持有自主认识AGI的涌现基本已然具备了吗？怎样看待 Gemini 对将来的启示？

01.

大模型的跨模态知识迁移能力再次被证明

对人类来讲，比学习技能更重要的是知识迁移能力，能够跨越各个行业，纵深区别时空。倘若设备学会了跨模态的知识迁移，更易抵达“通用”。今年7月，Google发布了基于大模型的设备人系统RT-2，让人们看到了通用设备人的期盼。机械臂基于语言模型的“常识”能够从桌上“捡起已然灭绝的动物”，从常识推理到设备人执行，展示了跨模态的知识迁移。12月，Gemini 这一记巨头的手笔，再次印证了大模型的跨模态知识迁移能力：语言模型的“常识”能够迁移到后续加入的其他非语言模态的训练中。语言模型是认知智能的基本，最基本的认知智能是“常识”。倘若无常识赋能，多模态大模型的非常多落地执行是难以做到的。Gemini 把互联网上学到的这些“常识”，丝滑地迁移到下游的多模态任务中。如同 RT-2 ，经过互联网文本知识的迁移，实现跨模态的融会贯通——Gemini 能够把抽象的语言概念贯通到对听觉、视觉对象的理解，乃至与 Action 连起来，作为一个智能落地的系统。对模型训练方向而言，相比于语言模型由海量的互联网数据训练，其下游模型（如设备人模型）能够经过知识迁移用少量的数据来训练，这种循序渐进的训练处理了困惑学术界数年的下游数据稀缺问题。例如，为了达到视频中展示的效果（该展示诱发对 Gemini 视频理解的存疑，但不影响跨模态知识迁移的讨论），Gemini 首要要有有些本体知识——它晓得鸭子这一品种概念，晓得鸭子通常是什么颜色，晓得什么是蓝色。当它看到“蓝鸭”时，才会与人类有类似反应，表达“蓝鸭并不平常”这一“常识”。

Gemini 经过声音、视觉感知到蓝鸭的材质是橡胶，并晓得橡胶的密度少于水的密度，基于这些常识和推理，当听到嘎吱声时，能够预判“蓝鸭能漂在水上”。

从 RT-2 到 Gemini，从单一模态的能力，到多模态感知智能与认知智能的「融合」，从眼耳口鼻身分离的“五感”模块，到融汇贯通的完整的数字“人”。难道不寓意着在模拟人类智能行径的道路上，模型的“大一统”才是正道？

02.

大一统多模态模型，最终优于定向优化的单模态模型

人类经过多感官整合来感知、认知、并产生情感和认识。Gemini 亦在实践着多种模态输入，综合到大脑处理，再分由多种模态输出，这类模型对人类智能的全面“模拟”，正在加速进化。

以前的多模态模型训练，更像是拥有单独的眼睛、耳朵、手臂和大脑的组合系统，它们的统一协调性并不强。而Gemini所表率的方向，显著感觉大模型作为一个完整的数字人——一个手、眼、脑、口协调的硅基整体。Gemini是第1个真正的端到端多模态。以前，针对单一模态定向优化的模型，一般要比同期处理多个模态的模型的性能要好，大众惯用的方式是单模态模型训练。包含GPT-4，亦是将区别的模态“拼接”带入整体中，而不是一个大一统的多模态模型。Gemini 令人兴奋的尤其之处在于，它从一起始就设计为一个原生的多模态架构，训练过程从一起始就穿插（所说interleave）着各样模态的数据。倘若说以前的大模型是在大脑外接入了感官或机械臂，而此刻则是在身身体直接长出自己的眼、耳和手臂，能够挥洒自如。无论是模型架构、训练过程，还是最后的呈现， Gemini 让多模态真正做到丝滑融合。Gemini 第1次让咱们看到一个大一统模型能够搞定所有模态，况且比专注某一个模态的模型的性能还好！例如，相较于专门为语音识别而优化的Whisper模型，Gemini 在准确率上显著提高。这寓意着多模态大一统时代的曙光到来。

其实，Gemini 不是第1个验证了各模态之间能够互相帮忙提高性能的模型。这一点在 PaLM-E 亦有表现，“在区别行业训练的PaLM-E，包含互联网规模的通常视觉-语言任务，与执行单一任务设备人模型相比，性能显著加强”。另一个模态之间能够互相加强的例子，是大语言模型的多语言处理能力。倘若把国际上的区别语言视为区别的细分“模态”，语言大模型的实践证明了所有语言的原生态数据的统一处理（tokenization及其embedding），一起成就了人类语言通天塔的建成。压倒性的英文海量数据在语言大模型中的训练，一样惠及模型对其他样本较少语言的理解和生成，语言知识的迁移一再得到证实。就像一个人精于网球技艺，亦能触类旁通地加强壁球或高尔夫的能力。自今年2月份大模型火热败兴，非常多人逐步产生了“大一统多模态模型将会超越单一模态模型”的信仰，但这一信仰始终无得到大规模实践的证实，而这次 Google 的 Gemini 展示了信仰实现的前景，亦让更加多人重塑并坚定了这个信仰。将来，单独做语音识别、设备翻译等专有识别模型可能已无太大的道理，非常多生成类任务如TTS、照片生成等，亦将被大模型一统化。有人可能会抱怨大模型太贵太慢，不必定适合所有应用，但成本和速度更大都是工程问题，实践中咱们能够经过蒸馏大一统的多模态模型到详细的模态或场景。咱们坚信，大一统的跨模态大模型将作为实现AGI的主流通道。进一步拓展，“模态”亦不仅是声音、照片、视频等，嗅觉、味觉、触觉、温度、湿度等感知器亦是一种获取环境信息的区别模态手段，都是大一统模型会囊入其中的对象。终其要义，各样模态不外是“信息”的载体，是一种渲染、一种呈现形式、一种智能体与这个理学世界交互的手段，而在大一统模型的眼中，所有的模态究其内部都能够由统一的多维向量暗示，从而实现跨模态的知识迁移及其信息交叉、对齐、融合和推理。当各模态的壁垒被击穿，剖开各样渲染的核心，咱们看到认知的起点——语言。

03. 语言是大一统模型里的核心和主线

在咱们想象的AGI系统里，其核心和主线是视觉还是语言呢？有人认为是视觉，但咱们更相信语言才是核心。斯大林在他的语言学著作里曾经说过：“任何低级的生物，都有自己的语言”。但无论它们有多少层次的变化，都不是真正的语言。真正的语言是人类所独有的，包含发明的文字、符号以及主观赋予的道理，而后经过组合形成无数种表述，载了人类千万年来的认知演化和知识积淀。语言是认知的起点和源泉，人类的语言信息中包含了人类高度抽象的认知能力，而音频、照片和视频则更加感性，暗示的是人类的心情和具象能力，更偏向于捉捕人类的感知能力。当人类学会了认知，加之音频、照片和视频等更加感性的表达感知的能力，从感知到认知，从心情到规律，这才是咱们人类的大脑状态。大一统多模态亦同样，在信息的处理和推理过程中，当鸿沟被填平，融会贯通是自然结果。在 RT-2 和 Gemini 中，语言都占据了主线。例如在 RT-2 中，表率语言模态的参数规模和数据量都远远大于下游的照片和动作模态。咱们预测，在将来任何AI系统里，不管是不是语言任务，都会把语言模型做为一个基本模型和训练的起点，而后加入其他模态或任务的数据继续训练，都会在某种程度上继承语言模型强大的认知能力。倘若这一点真正做到了，亦许这是语言模型对AI最大的贡献，由于它真正实现了科研人员对它的初心和定位——Foundation Model.

04.

大模型「暴力美学」办法论已成共识

回看OpenAI的最初胜利，重点并非算法上的创新，而是「暴力美学」的胜利。如今，「暴力美学」已作为工业界做 AI 的一种办法论。详细来讲，重点表现在两方面：技术和组织。技术上，以GPT为表率的大模型基本办法论是：把模型架构做得简简单单，而后把精力放在猛搞数据和算力上。看起来简单，然则在OpenAI成功做出GPT-3之前，非常多人很难相信一个简单的Decoder-only的架构、加上一个优化Next-token prediction的目的函数、在海量的无监督互联网数据进行自学习，就能处理各样各样的AI任务，从而迈向通用人工智能。仅有 OpenAI 保持这种信仰，并成功在工程上实现了这一信仰。组织上，OpenAI的思路是：所有人围绕一个通用模型去做，而不是百花齐放。在大模型显现之前，AI科研很大都是小作坊式的，几个科研员带着几个实习生为处理一个详细任务做一个系统。科研的topic亦极为具象，例如说TTS、ASR、设备翻译、视觉等，而不是大模型这类通用模型。以前，这种小作坊式组织方式在 Google 和微软的科研院里很典型，数百人的科研团队有几十个区别topic的科研项目同期进行。而OpenAI一方面真正信仰「暴力美学」，另一一方面亦是由于资源受限，反而反常识地选取几百人all in一个GPT模型。「暴力美学」的精髓是极简和聚焦，而后经过规模去重复和放大。规模包含模型参数、数据、算力、人员等方面，当模型的参数量和训练数据的规模持续增多，性能就会显现今天大众熟知的「涌现」。Google 虽然发明了今天大模型依赖的大都数底层关键技术，例如Transformer架构、Instruction Tuning、CoT、Mixture of Experts等，但 OpenAI 却利用这些关键技术践行了大模型时代的「暴力美学」办法论，将Google打得毫无招架之力。参考阅读： OpenAI 何以掀翻 Google 布局数年的AI大棋？而这次 Gemini 的发布，让大众认识到，亦许 Google 内部亦对「暴力美学」办法论达成为了共识。当持有更大资源的 Google 睡狮觉醒，认同并把握了「暴力美学」的办法论，凝心聚力于一处，更大力的资源亦许将会诞生更大的奇迹？

05.

Google睡狮已醒，暴力设备齿轮起始转动

Gemini的显现，能够确切地看到，在这场尖峰对决中 Google 跟上来了。有了知道的「暴力美学」共识，Google这个浓眉大眼的工程师设备要“暴力”起来时，绝对是不可轻视的竞争者。首要，Google最终学会了组织上“大力出奇迹”。Gemini 技术报告整整九页的作者名单，每页90多位，八百余人，已然超过OpenAI的机构总人数。

针对持有 10 倍于 OpenAI 科研人员的 Google，从一贯的bottom up走向top down，其执行难度可想而知，组织内部必须触发高度统一的使命感，再快速调节战略和架构，包含合并Google Brain和DeepMind两大AI实验室，构成新分部Google DeepMind，起始上演复仇者联盟。「暴力美学」的组织工程有如曼哈顿计划，需要灵魂领军名人。面对组织的焦点问题——多个团队之间的协调，重点放在何处，是两个团队分别攻坚，还是一块融合协作？即便是像谷歌这般的大型企业，面对庞大的资源需要，亦必须精心选取其投入方向。怎样有效地分配资源、集中精力实现一个个既定目的，并在大规模上实施，是每一个领导者的挑战。Hassabis做为一位强劲的领导者，不仅展现了他的领导才可，亦表现了谷歌这般大机构的深厚组织实力。除了强组织和高智商人才密度之外，Google在数据规模和用户规模上亦有独有的领先优良，它更加是分布式计算的绝对王者。这次 Google 还同期发布了迄今为止效率最高且可扩展性最强的 TPU 系统 Cloud TPU v5p，为训练前沿 AI 模型供给支持。新一代 TPU 将加速 Gemini 的研发，帮忙研发者和企业客户更快地训练大规模生成式 AI 模型，从而更快推出新制品和新功能。谷歌数年经营的全链路生态和有亿万用户的各样制品线亦为大一统模型的落地应用供给了沃壤。这就使得谷歌最有底气应对微软与Open AI的互补联盟。这一次，Gemini就做了三个版本：（1）适用于高度繁杂任务的Gemini Ultra；（2）适用于多种任务的最佳模型Gemini Pro；（3）适用于端侧设备（如手机）的Gemini Nano。

因此，以 Google 在人才、数据、计算、用户等「暴力美学」必须元素上的实力，只要跟上步伐，当暴力设备的命运齿轮起始转动，特别有可能会将AI竞技场的剧本带向一个崭新的境地。

OpenAI 一骑绝尘，孤独求败的局面，起始改变。

参考阅读：四面楚歌的 Google 怎样应战大模型？

06.

时间终将是AGI的伴侣

接下来的竞争，时间到底更加是谁的伴侣，OpenAI还是Google？日前为止，OpenAI 享受了先发带来的巨大势能。但不可否认的是，OpenAI追求AGI的同期，还要面对增长的瓶颈、商场化的压力和投资方的诘问（传闻微软需求OpenAI永远保持对Google六个月的领先优良），在巨大的压力面前，难免动作变形。前几天 OpenAI 的宫斗戏，让 OpenAI 元气大伤。虽然 Sam 说这仅让 OpenAI 的AGI梦想delay了 5 天，但 AI 战局不进则退，在与Goolge的竞赛中最少耽误了几个月时间。如今 Google 雄狮已醒，OpenAI 接下来将会承受更大的竞争压力。更重要的是，OpenAI 的非营利宗旨与其海量融资压力的矛盾依然没法基本处理，有如一颗按时炸弹，且与微软的竞合关系亦微妙反常。压力变形之下，更有可能激化的是 OpenAI 内部路线之争（有效加速主义 vs 超级对齐主义）。亦许还会显现其他黑天鹅事件，这在资本密集的技术创业行业并不罕见，例如非常多自动驾驶机构的故事。反观 Google 做为一位成熟稳定的巨人，无 OpenAI 脆弱的董事会架构及其背面非营利与资本的矛盾，亦无与投资人微妙关系的牵扯。凭借浑厚的家底，在开发人员、数据、算力、用户规模等方面都有相对OpenAI的碾压级优良，一旦认同并把握了「暴力美学」办法论，它就像一个巨大的设备，其后发优良可能随着时间越来越彰显。所以，从竞争方向来看，时间亦许更加是 Google 的伴侣？当然 Google 的危害，在于大机构的组织病，以及全面转向「暴力美学」后可能引起的过分 top-down 、资源过度集中在研发一个模型上，而冲垮 Google 以前赖以成功的 bottom-up 和百花齐放的创新文化。OpenAI 亦必定会全力应战，鼎力维持其 AGI 的领袖地位。Gemini 将逼仄出更惊赞的GPT-5，而命运齿轮之下的 Google 亦将继续祭出Gemini 2.0……在这场军备竞赛之下，AGI的推进步伐将愈加迅猛，无论是Google还是OpenAI，都在用自己的方式，在激烈竞争中螺旋式推动着AGI前行。AGI的历史车轮已滚滚向前，时间终将是AGI的伴侣。

07.

多模态是Agent和具身智能的基本

掌控论之父维纳，在《掌控论》中展望将来，“人的能力此刻被设备大大延伸了，雷达延伸了人的眼睛，喷气发动机或轮胎延伸了人的四肢，而自动驾驶仪便是连接它们的神经系统。”

今天的大语言模型能够编码世界丰富的语义知识，它的明显弱点是，缺乏Grounding/接地，因此“幻觉”不可避免。

多模态本身供给了Grounding的基本，有了这种基本后，Agent才可跟一个多模态的环境进行交互并得到必要的 Feedback，从而让自主规划更加靠谱。

设备人等具身智能体亦是一种Agent，只不外它不是虚拟的，而是拥有理学躯体、有“手和眼睛”的实体，能够实现理学世界里具象的任务。因此，多模态是Agent和具身智能的基本，亦是降低幻觉的必要要求。

Hassabis 透露，谷歌 DeepMind 已然在科研怎样将 Gemini 与设备人技术结合起来，与世界进行理学交互。毕竟，要作为真正的多模态还需要触摸和触觉的反馈。这条从未被前人踏过的路，将来可能带来设备人方向的重大突破。像Gemini这种大一统的多模态模型能够作为AGI快速创新的基本，促进智能体及其规划和推理，以及理学设备人与环境的交互。Agent = 大脑认知 + 感知 + 行动。Agent和具身智能既需要感知，亦需要认知；既需要大脑，亦需要外边支撑。今天咱们清晰地看到，大语言模型解决高层次的认知问题，多模态供给Grounding的基本，Agent处理自主规划问题，具身智能完成最后的理学世界的动作和交互——这一套组合拳，让通用Agent/设备人所有的元素看似都具备了。

而大一统的跨模态模型看起来是必经之路，Gemini的一小步，可能是通用Agent/设备人的一大步。

08.

拥有自主认识的AGI的涌现基本具备了吗？

大模型火热前后，AGI从大部分专业科研人员不屑或无胆与之相关的抽象概念，到忽然凝聚成主流共识。关于AGI怎样到来的讨论不停于耳。今年2月大模型火热全世界时，非常多人认为沿着“暴力”的路径，只要把语言模型的规模一味做大，AGI就会显现，但此刻看来是行不通的。语言模型确实是认知的基本和智能的核心，但它只是AGI的基石。倘若要实现AGI，还需要非常多周边模块的协同才有可能。4月份败兴，非常多人起始在语言模型周边打补丁，显现了一波Agent的热潮，但此刻看起来亦还是空中楼阁。无多模态加持的 grounding，Agent的推理和规划都极不靠谱，在非常多场景只是噱头罢了。Gemini 的显现，让咱们看到了AGI涌现所必需的下一起基石：多模态。倘若无多模态，语言模型便是“缸中之脑”。况且，AGI的涌现必然需要原生的多模态，而不是多个独立的模型拼接，由于以拼接的方式，恐怕不足以在统一的多模态空间进行深层繁杂推理以及无缝的知识迁移。而 Gemini 这一次在多模态任务上的优异表现亦为大一统的多模态做了有力背书。有了以语言模型为核心的多模态之后，虚拟和理学的 Agent 的落地再也不是空中楼阁。Agent里增多的各样模块，例如memory、tool use、environment feedback等亦是AGI涌现的必要要求。Hassabis在接受 Lex Fridman 的采访时表达过，“认识便是信息得到处理时带来的感觉。”当大模型的多模态更像人的感知通常丝滑融合，当Agent各模块一块自如适应各样环境，咱们是不是能够推演，设备自主认识已具备「涌现」的基本？倘若咱们拉长周期来看，亦许趋势已然很显然——AGI路上的三部曲：大语言模型打好认知基本、多模态/Agent/具身智能处理Grounding、有某种自主认识的AGI终将“涌现”。

结语

英国作家萨缪尔·巴特勒写过一部小说叫《地无国》，其中有一段“设备之书”，以一位虚构的思想家之口表达了对设备自主认识的进化担忧：“在设备认识的终极发展面前，咱们毫无安全感。谁能说蒸汽机是无认识的物种？”显然，设备与设备之间已有知道的继承、发展和进化关系，就像八音盒滚轮到打孔纸带的演变，就像GPT-1到GPT-4V的进化。那样设备是不是可被看作是一个“物种”呢？只不外它们进化的过程必须有人类的参与，但谁又能说人类的创造和参与，不是设备这一“物种”独特的演化策略？在达尔文的进化论中，咱们默认“进化”的本质是蛋白质编码层面的基因进化，它的功能在于令生命体实现存活优化。但倘若设备能够被人类创造，延伸或改变各类多模态的自然器官，那是不是能够说，设备是人类进化的新形式，它取代传统的基因进化，作为一种更有效的改变人类“性状”的方式？而当设备自主认识进化到摆脱对人类依赖的那一天，当人类完成进化出AGI这一新物种的使命，人类是不是就能够像古猿同样退出历史舞台了呢？做为纯正碳基的最后一代，倘若咱们余生能走在这条使命之路的前沿，何其悲哉、幸哉！当人类建起的高楼成断壁残垣，当古迹石碑上的文字被风干侵蚀，无人能识别其中的含义，它们只是某个物种遗留下的痕迹。数百万年历史不外是这一物种的持续繁衍、存活和延续，本质上与今天GPT、RT-2、Gemini的进化无异，直到持续创造出新的物种。

jm2020 · 发表于 2024-9-10 12:59:13

论坛的成果是显著的，但我们不能因为成绩而沾沾自喜。

j8typz · 发表于 2024-9-29 00:15:51

百度seo优化论坛 http://www.fok120.com/

nqkk58 · 发表于 2024-10-4 00:31:01

seo常来的论坛，希望我的网站快点收录。

		自动登录	找回密码
密码			立即注册