文 | 山核桃
鸽了太久的谷歌大模型 Gemini 最终来了。
北京时间12月6日,谷歌在深夜发布了此前备受科技圈关注的Gemini 1.0,不仅一口气推出了Ultra、 Pro 和 Nano 三个版本,同期亦在应用层,Gemini 亦与谷歌的生态相融合,例如类 ChatGPT 应用 Bard亦已升级到了 Gemini Pro 版本,针对移动端的 Gemini Nano 版本亦已接入谷歌旗下的智能手机Pixel 8。
在Gemini对外展现的各项能力测试中,亦暗戳戳地剑指 OpenAI。谷歌供给的技术报告表示,在MMLU 90%(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达 90.0%,超过GPT-4的86.4%。同期,Gemini Ultra 在推理、数学、代码等方面的表现亦都高过GPT-4。
而做为首个「原生多模态」模型,在一系列多模态基准测试中,对标GPT-4V,Gemini Ultra 亦展现出了先进的性能。
图源:谷歌资讯稿
在chatGPT发布1星期年之际,谷歌通过 Gemini 赶了个晚集,想要再度证明自己在AI时代「霸主候选人」的实力。而OpenAI 和谷歌,一个是经历了「宫斗」后的屠龙少年,另一个则是领先的搜索霸主,在关于谁到底能作为大模型时代的最后赢家这一问题上,亦存在两极分化的观点。
有人认为,在经历了风波之后的 OpenAI,处理了过往管理层的危害,凭借着与微软间的联盟,会连续扩大身位优良。而有的人则认为,AI时代将来仍将属于谷歌,尽管被质疑「行动缓慢」,但在应对巨大的外力挑战面前,谷歌总是能够出招给对手致命一击。
01、为了 Gemini ,谷歌有多拼?
正如英伟达资深专家 Jim Fan 在社交媒介上所期待的:“我想要看到一群运用GPT-4的人和Gemini Ultra的人玩一局《太空狼人杀》,这将会是一场史诗级的对抗。”
图源:X 截图
为何姗姗来迟的 Gemini 会被视为是 GPT-4 的有力劲敌,谷歌又为何有底气在官方资讯稿直接写:“Gemini :咱们规模最大、能力最强的 AI 模型”。原由其实有三点:
一是,Gemini 是原生多模态的,这亦是与 GPT-4 形成差异的关键。 GPT-4 尽管一种多模态模型,但 GPT-3.5 是一种自然语言处理模型。而 Gemini 从一起始就运用多模态数据(包含文字、音频、照片、视频、PDF文件等)进行了预训练和微调。
二是,多平台安排的灵活性,Ultra、 Pro 和 Nano,实现从数据中心到移动设备的有效运用。 例如,谷歌已在升级Pixel 8 Pro运用了Gemini Nano,可供给总结与归纳手机语音等功能。
三是,基本设备的创新。Gemini是由于谷歌 TPU V5e 和 TPU V4 训练,其中 TPU v5e 专为供给大中型训练与推理所需的成本效益和性能而设计。按照此前 Google Cloud Next 2023大会上的信息,TPU v5e 的成本不到 TPU v4 的一半,但能够让更加多企业训练和安排更大、更繁杂的AI模型。
Google 数据中心内一排 Cloud TPU v5p AI 加速器超级计算机。
除此以外,在训练过程中亦展现出工程化创新。按照民生证券的分析,如将4096个 TPU V4 每一个芯片连接到一个专用的光学交换机,能够在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对 Gemini Ultra 还有热守护等功能的针对性安排。
而 Gemini 所呈现出的能力跃升,得益于过去一段时间内谷歌的行动。咱们来瞧瞧谷歌到底做了什么:
一是,搭建超级团队。在今年4月,Google的CEO Sundar Pichai 就宣布合并DeepMind和Google Brain,成立Google DeepMind,集合Google在AI行业的人才、算力等资源,开启对标GPT-4的科研。当时,Google DeepMind CEO Demis Hassabis 在接受采访时就暗示,当时她们所面临的问题是两个团队之中怎样协调,形成一个「超级团队」。
Hassabis 曾在播客中暗示:“咱们做为一个领导小组讨论了海量需要思虑的原因,而后从中得出结论,并采取行动:包含合并、将来几年的计划是什么以及合并后的重点是什么?”。在这之中,灵魂名人的回归亦起到了关键功效,例如谷歌联合创始人 Sergey Brin 就重返谷歌工作。按照外媒的报告,他一般每周到谷歌山景城的办公室工作三到四天,和科研人员密切合作,还科研AI程序「损失曲线」之类的问题。
二是,知道差异化路线。从谷歌官宣 Gemini 起始,无论从官方口径还是媒介的报告,始终都是专注多模态路线以及安全性,这亦是谷歌的天然优良。今年7月,当被问到正在采取那些办法来防止乱用 Gemini 时,谷歌发言人就指出,谷歌做出了一系列承诺,以保证其所有制品中负责任的人工智能研发。
三是,发挥垂直生态的优良。此前5月的研发者大会上,谷歌已然带来了许多的软硬件更新。8月,谷歌云又发布了生成式 AI 关键的基本设备发展,以及与英伟达的合作。能够说,在 Gemini 发布之前,谷歌已然做好了从基本算力到应用层的所有准备。
正如《晚点LatePost》的评估,谷歌的 AI 大计划某种程度上与苹果类似,都是让「大模型变小、嵌入每一个制品」。
02、谷歌与OpenAI迈入同一条河流
事实上,谷歌已然不止一次被问到与 OpenAI 之间的竞争。此前, Pichai 就被问到:“没抢在 ChatGPT 前发布 Bard,你错失了什么?”当时的他回答说,谷歌不是第1个做出搜索引擎,亦不是第1个做出浏览器。
“有时候作为第1很重要,但有时候无关紧要。”
最少从此刻与 OpenAI 的竞争来看,搜索霸主与屠龙少年,正在迈入同一条河流。
首要,是对模型推理能力的强调。 在 Gemini 的演示中,谷歌展示了其手写数学问题,识别错误,并供给解释的能力,而这亦是 OpenAI 关注的焦点。此前,被曝出的 OpenAI 奥秘的名为Q*的模型,该模型亦能够处理以前从未见过的数学问题。
其次,是大模型与消费硬件的结合。咱们看到,谷歌在Pixel 8 Pro 中运用了Gemini Nano,而消费硬件亦是Sam Altman非常感兴趣的行业。Altman此前投资了前苹果高管创立的企业Humane,这家企业在11月初发布了首款接入chatGPT能力的AI硬件制品——AI Pin。除此以外,Altman还投了一家 AI 初创机构 Rewind AI,该机构计划制作一种项链,能够记录人们所说和听到的内容。
除了寻求更精细的推理能力和探索消费硬件外,算力亦是双方关注的焦点。不久前,按照美国《连线》杂志的报告,OpenAI 正从 Altman 投资创企 Rain 采购AI芯片。今年8月,行业分析公司SemiAnalysis在一篇报告中说到,谷歌持有的算力资源比OpenAI、Meta、亚马逊、甲骨文和CoreWeave加起来还要多。不外,算力一向是谷歌的优良,毕竟从2014年起始,谷歌就已然起始招兵买马研发TPU了。
03、工程师文化VS硅谷暴徒,群众路线与个人英雄主义
新的AI时代,站上浪潮之巅的到底是谷歌等技术巨头,还是如OpenAI 这般的新贵?没人能给出答案。
如文案开头所说到的,有人认为,在经历了风波之后的OpenAI,处理了过往管理层的危害,凭借着与微软的联盟,会连续扩大身位优良。而有的人则认为,AI时代将来仍将属于谷歌这般的企业,尽管被质疑「行动缓慢」,但在面对巨大的外力挑战面前,它们的行动与反击是常常是更有力的。
外界一向认为谷歌因工程师文化而在竞争的战术中始终保守,但倘若认识谷歌的历史,就会晓得其始终都是进攻姿态。在《浪潮之巅》中,作者这般写到:“谷歌在规模很小时,遭受非常多比自己大的机构的围攻,它把自己放在一个挑战者的位置,持续挑战对手,亦挑战自己。”
因此呢,你亦不难理解 Pichai 所说的:“有时候作为第1很重要,但有时候无关紧要。” 像谷歌这般强调工程师文化的企业,热衷于做出技术好的制品,有些时候忽略制品体验亦不碍事,这这里前谷歌与亚马逊的云计算之争中落败就能看出。
工程师文化走的是群众路线,团队经过形成共识,集中资源解决技术,待制品成熟后再推广,这是谷歌的路径。但OpenAI 就区别了,无论从这家企业的诞生历史,还是不久前的宫斗大戏,这家企业身上都充满着极强的个人英雄主义色彩,与初期的谷歌很像。
不外,ChatGPT 诞生之初,Altman在一次采访中否认了其对谷歌搜索的取代:“我更感兴趣的是思考搜索以外的新应用。” Pichai 亦在接受《麻省理工学院技术评论》时说到,与GPT-4的竞争,「并不是一个零和游戏」。
“想想看,向人工智能的转变是多么深刻,咱们还处在初期周期,前方充满了无限的机会。”Pichai 这般说。
能够看出,尽管商场化程度不一,技术与合作模式亦区别,但最少在通往AGI的道路上,谷歌与OpenAI殊途同归。
|