谷歌王者归来？最新推出的大模型到底有多强，能否挑战GPT-4

4lqedz · 发表于 2024-7-30 20:28:55

05:49

科技巨头谷歌推出了造势已久的新大模型，能够在移动手机上运行，并大幅降低计算成本。

当地时间12月6日，谷歌机构宣布推出“最大、最强、最通用”的新大型语言模型Gemini。Gemini将是首个直接在手机上运行的大模型，被应用于谷歌Pixel 8 Pro智能手机和聊天设备人Bard。谷歌计划经过谷歌云将Gemini授权给客户，并将在将来几个月与谷歌服务中的其他制品集成。

谷歌曾经发明了许多使生成式AI应用作为可能的计算机科学概念，却因OpenAI在去年发布的聊天设备人ChatGPT而一度处在被动地位。面对OpenAI和谷歌最大竞争对手之一微软携手带来的威胁，谷歌在今年9月推出了自己的聊天设备人Bard。不久后，OpenAI又发布了一款更强大的AI软件GPT-4，作为了AI行业的一大衡量基准。此刻，做为对GPT-4的回复，谷歌推出了Gemini。

“谷歌找到了AI竞赛中应有的地位”

谷歌DeepMind首席执行官、Gemini团队表率德米斯·哈萨比斯（Demis Hassabis）在发布会上暗示，谷歌运行了32个完善的多模态基准测试来比较Gemini和OpenAI的GPT-4，Gemini“在32项基准测试的30项中大幅领先”。

据谷歌介绍，在训练后期，Gemini在各类任务上都表现优异。例如，MMLU（大规模多任务语言理解）是测试AI模型知识和问题处理能力的最流行办法之一，而Gemini首次在MMLU的得分率达到90.0%，是第1个在MMLU测试中超过人类专家的模型。

Gemini在MMLU的得分率首次超过人类专家。源自：官方视频

Gemini包含一套三种区别规模的模型：Gemini Ultra是最大、功能最强大的类别，被定位为GPT-4的竞争对手；Gemini Pro是一款中端型号，性能优于GPT-3.5，可扩展多种任务；Gemini Nano用于特定任务和移动设备。

其中，Gemini Nano将被搭载在谷歌Pixel系列最新的Pixel 8 Pro智能手机上，能够支持录音应用中的“总结”等新功能，并在谷歌键盘输入法Gboard中推出“智能回复”功能。据外媒报告，谷歌暗示，Gemini Nano将在设备上“本地运行”，并且该模型为移动设备尤其优化，因此呢安卓研发人员能够容易构建支持离线工作或运用保存在设备上的个人信息的AI应用程序和功能。

有分析指出，这一发展有助于处理技术行业的一大经济问题。利用移动手机的算力来运行生成式AI，而不是经过由大型科技机构运营的云端服务器，这将大大降低运营这类系统的成本。针对哪些期盼将私人数据限制在设备上的人来讲，这亦供给了一层保证。此前，三星电子曾在11月公开展示旗下首款生成式AI模型“高斯”（Gauss），但其仅限在内部员工中运用，有望在明年上半年搭载于Galaxy S24系列手机。

谷歌母机构Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在一篇博客文案中写道：“我相信，咱们正在见证的AI转变将是咱们一辈子中最深刻的，比之前移动技术或互联网的转变要大得多。这一新时代的模型表率着咱们机构所进行的最大规模的科学和工程奋斗之一。”

在Gemini发布前夕，皮查伊曾在采访中暗示，Gemini令人瞩目的一大原由是它从基本上是一个多模态模型，并叫作向AI的转变非常深刻，此刻还处在初期周期，前方充满了无限的机会：“当咱们开发Gemini时，运用了非常多此前的经验。咱们花费了更加多时间开发 Gemini Ultra，部分原由是为了对其进行严格的安全测试。同期，咱们亦在对其进行微调，以充分发挥其潜能。”

在X（原推特）平台上，埃隆·马斯克（Elon Musk）亦在皮查伊发布的Gemini介绍文案下评论道：“令人印象深刻。”马斯克还回复了哈萨比斯的一条帖子、向他暗示祝贺，并赞同了SpaceX创始员工汤姆·穆勒（Tom Mueller）针对Gemini的评论，这条评论写道：“我晓得很难定义AGI（通用人工智能）是什么，但无论它是什么，它都比你想象的更近。”

据谷歌介绍，做为包含Google Research在内的Google各团队一起的合作成果，Gemini能够经过阅读、过滤以及理解信息来从数十万份文件中提取见解，还能很好地理解数字。例如，给Gemini导入一张数据图和新的数据，Gemini能够给出这张数据图背面的代码，并生成导入了新数据的数据图。

Gemini经过左图和新数据生成右图。源自：官方视频

除了文字之外，Gemini还能够理解多种形式的输入和输出，包含文字、代码、音频、照片和视频。Gemini能很好地理解拥有细微差别的信息，回答与繁杂主题关联的问题，这就使其尤其善于解释数学和理学等繁杂科目中的推理。

Gemini能够按照照片按过程讲题。源自：官方视频

谷歌还发布了一个时长六分钟的视频，展现了测试员和Gemini的有些有趣互动，其中包含让Gemini识别照片并用多种语言描述、让Gemini利用一张地图设计智力问答、和Gemini玩杯子游戏和推理小游戏等等。

在全部过程中，Gemini的反应速度都非常快，还会生成音频和照片来辅助回答，并用上有些白话化乃至幽默化的表达，可谓是让人大开眼界。在评论区，网友们纷纷叫作该视频“令人震惊”，庆祝谷歌最终在AI竞赛中回到自己应有的地位。

Gemini按照两团毛线给出能够制作的动物造型。源自：官方视频

被问到鸭子应该往哪边走，Gemini暗示应该去有同伴的左边。源自：官方视频

而在编码方面，Gemini亦能够理解、解释和生成运用世界上最流行的编程语言写出的高质量代码，包含Python、Java、C++和Go，能够跨语言工作并对繁杂信息进行推理，还可用作更高级编码系统的引擎。

从12月13日起始，研发者和企业客户将能够经过谷歌AI Studio或谷歌Cloud Vertex AI中的Gemini API（应用程序编程接口）来拜访Gemini Pro，安卓研发人员将能够运用Gemini Nano进行构建。

Gemini将为谷歌聊天设备人Bard带来其自发布败兴最大的更新。谷歌宣布，从发布会当天起始，Bard将运用Gemini Pro来实现高级推理、规划、理解和其他功能，在170多个国家和地区供给英语服务，并且谷歌计划在将来几个月内扩展区别的模态、支持新的语言和地区。在明年年初，谷歌将推出Bard Advanced，其将运用Gemini Ultra。

不外，因为监管方面的原由，搭载Gemini技术的Bard将不会在欧盟国家和英国供给。谷歌的副总裁、Bard项目负责人萧茜茜（Sissie Hsiao）暗示：“咱们绝对会奋斗处理这个问题，并且正在与当地监管公司展开合作……以保证咱们在任何特定地区推出该服务之前与关联方进行充分沟通。”

宣传视频夸大？

不外，在Gemini推出后不久，就有网友指出了宣传资料中的有些不当之处。

在谷歌发布的60页技术报告中表示，在MMLU测试中，Gemini的结果下面有写着“CoT@32”的小字注释，暗示其运用了思维链提示技巧，尝试了32次并从中选取最好结果。而做为对比的GPT-4却是无提示词技巧给5个示例，在这个标准下，Gemini Ultra的测试结果其实是83.7%，小于GPT-4的86.4%。

以及，在表示MMLU测试成绩比较的图中，Gemini 90.0%的测试结果与人类专家89.8%的成绩其实只差了一点，却被拉开了很远。

HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图，下面两个数据分别是在无提示词技巧给5个示例时，GPT-4（左）和Gemini（右）的成绩。源自：X

随后，谷歌DeepMind首席专家杰夫·迪恩（Jeff Dean）在X平台上的一处讨论中对这个质疑作出了回复，写道：“咱们报告了这两种办法。咱们认为让社区看到咱们新研发的CoT办法、并认识它与其他办法的区别是特别有趣的。”

而针对那段精彩的互动演示视频，亦有人从开篇的文字免责声明中发掘了问题。设备学习讲师圣地亚哥·瓦尔达拉玛（Santiago Valdarrama）认为，声明可能暗示了视频中展示的是精心挑选的好结果，不是实时录制，而经过剪辑的。在声明中，谷歌写道：“咱们始终在拍摄视频素材，在各样挑战上进行测试，向它（Gemini）展示一系列图像，并需求它推理出所看到的内容。”

演示视频开头的免责声明。源自：官方视频

随后，谷歌在一篇博客文案中解释了多模态交互过程，基本上亦间接承认了仅有运用静态照片和多段提示词拼凑，才可达成演示视频中的效果。例如，在视频中，向Gemini轮流展示拳头、剪刀手和张开的手掌，Gemini能立刻得出这是在玩猜拳游戏的结论。而在文案中，谷歌承认，仅有在向Gemini同期展示这三个手势并提示其这是游戏时，Gemini才会得出猜拳游戏的结论。

当然，就算存在宣传方面的有些夸大，Gemini的性能依然不可小觑。

科技巨头竞赛，谁能胜出？

今年败兴，各大科技巨头都在AI行业动作连连，各出奇招。

其中，谷歌的最大竞争对手之一微软尤为明显。今年2月，微软为旗下搜索引擎必应（Bing）移植了聊天设备人Bing AI。一月后，微软又推出了Microsoft 365 Copilot，将大语言模型GPT-4的能力引入Office办公软件中。另一，为了帮忙微软保持在办公工具中引入AI的先行优良，Microsoft 365 Copilot企业版于11月1日正式上市，每月订阅花费为30美元。一个多月前，微软宣布，AI助手Copilot将被正式接入Windows 11。

而在11月的首届研发者大会上，OpenAI亦推出了可支持高达1.28万tokens的新模型GPT-4 Turbo，以及聊天设备人ChatGPT的一系列升级内容，包含自定义GPT。其中，Turbo支持1.28万tokens的上下文对话长度，拥有视觉输入能力，和文生图模型DALL·E 3以及新的声音合成模型（TTS）一同进入多模态API。

数年败兴，Facebook母机构Meta亦始终是AI行业的积极参与者。今年7月，Meta宣布旗下做为GPT4竞争对手的大模型Llama 2正式开源，任何人都将其可以避免费下载、修改并添加到自己的制品中。这一方法赢得了有些科技初创机构的赞誉，她们担心谷歌、微软和OpenAI会试图垄断AI市场，排挤掉任何竞争对手。但Meta的措施亦由于让人们更易运用AI技术作恶而受到批评，例如设计计算机病毒、生成声音或图像来实施诈骗等。

向来被认为在AI竞赛中落后的电商巨头亚马逊亦起始加速。在上1星期的2023 re:Invent全世界大会上，亚马逊云科技（AWS）推出了名为“Amazon Q ”的生成式AI助手，能够“容易聊天、生成内容和采取行动”。Amazon Q将专注于工作场所，而不是面向消费者。将来，亚马逊将向企业用户收取每月订阅花费20美元，而为研发和IT人员供给的版本每月订阅花费为25美元。

星☆雨 · 发表于 2024-9-6 23:00:35

期待你更多的精彩评论，一起交流学习。

j8typz · 发表于 2024-10-19 20:41:03

感谢你的精彩评论，带给我新的思考角度。

		自动登录	找回密码
密码			立即注册